Il meta tag robots e il file robots.txt

Il meta tag robots va messo in tutte le pagine e ha lo scopo di dare informazioni allo spider per indicargli quali pagine indicizzare e quali invece dovranno essere saltate.

Ecco la sua sintassi:

<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>

  • comunica allo spider di archiviare la pagina nel db INDEX
  • NOINDEX comunica allo spider di non archiviare la pagina nel db
  • FOLLOW comunica allo spider di seguire i link nella pagina
  • NOFOLLOW comunica allo spider di non seguire i link nella pagina


I meta Tags

Il tag robots va inserito nel contenuto del head, tra i tag <head> e </head> della pagina come in questo esempio:

<html>
<head>
<title>Il titolo della pagina</title>
<meta name="keywords" content="parola1,parola2,parola3,parola4">
<meta name="description" content="Breve descrizione della pagina.">
<meta name="robots" content="index,follow">
</head>
<body>
Il contenuto della tua pagina web

</body>

Google aggiunge il contenuto delle pagine indicizzate al suo database durante la sua navigazione tra le pagine. Il contenuto salvato è chiamata la versione Cache, e può essere visualizzato cliccando sul link Contenuto Cache. Se non vuoi che il contenuto sia salvato nel database di google usa questo tag:

<meta name=”robots” content=”noarchive”>

Questo non impedirà a Google di indicizzare la tua pagina, evita solo di salvare un contenuto che forse ritieni non opportuno presentare in versioni non aggiornate. Se non vuoi indicizzare la pagina allora dovrai comunque usare il tag “noindex”.

Un altra altrenativa alla procedura di sopra è quella di comunicare in modo mirato con lo spider di google o altro agente. Questo consentirà agli atri motori di archiviare i dati ma non a google.

<meta name=”googlebot” content=”noarchive”>

Robots.txt

Il file robots.txt Va inserito nella root del sito ed è composto da:

User-agent:
Disallow:

Nel campo User-agent dovete mettere il nome dello spider. Con il simbolo * vi state riferendo a tutti gli spider.

Nel campo Disallow: direte cosa non volete che lo spider prelevi. Es. Dite a google di non prendere il file informarea.htm

  • User-agent: googlebot
  • Disallow: /informarea.htm

Esempio di un record:

User-agent: googlebot
Disallow: /testi.html
Disallow: /poesie/

Il suddetto record dice a Google (“googlebot” è il nome dello spider di Google) che non gli è permesso prelevare il file testi.html nè accedere alla directory “poesie” e ai suoi contenuti, sottodirectory comprese. Notate come il nome del file è preceduto da un carattere “/” (che indica la directory principale del sito) e come il nome della directory fa uso di un carattere “/” anche in coda.

Il campo User-agent può contenere un asterisco “*”, sinonimo di “qualunque spider”. Per cui l’esempio seguente dice a tutti gli spider di non prelevare il file temporaneo.html:

User-agent: *
Disallow: /temporaneo.html

Il campo Disallow può contenere un carattere “/” ad indicare “qualunque file e directory”. L’esempio che segue impedisce a scooter (lo spider di Altavista) di prelevare qualunque cosa:

User-agent: scooter
Disallow: /

Infine, il campo Disallow può essere lasciato vuoto, ad indicare che non ci sono file o directory di cui si vuole impedire il prelievo. L’esempio seguente mostra come dire a tutti i motori di ricerca di prelevare tutti i file del sito:

User-agent: *
Disallow:


Esempio di un file robots.txt

Il file robots.txt si compone di uno o più record, ognuno dei quali prende in esame spider differenti. Ecco dunque un esempio completo di file robots.txt, che blocca del tutto Altavista, impedisce a Google l’accesso ad alcuni file e directory e lascia libero accesso a tutti gli altri motori di ricerca.

User-agent: scooter
Disallow: /

User-agent: googlebot
Disallow: /intestazione.html
Disallow: /links.html
Disallow: /temporanei/
Disallow: /cgi-bin/

User-agent: *
Disallow:

 

Ecco la lista di alcuni Spider

Spider            Motore di ricerca
========================
googlebot       Google
fast            Fast – Alltheweb
slurp           Inktomi – Yahoo!
scooter         Altavista
mercator        Altavista
Ask Jeeves      Ask Jeeves
teoma_agent     Teoma
ia_archiver     Alexa – Internet Archive

Se volete seguire i post di www.informarea.it potete iscrivervi al suo feed RSS.


Fabrizio Cannatelli

Fabrizio Cannatelli

Fondatore di Informarea.it, è un appassionato di informatica. Ha lavorato per molti anni come Analista Programmatore presso varie aziende utilizzando diversi linguaggi di sviluppo, oggi svolge un lavoro completamente diverso ma la voglia di comunicare e di condividere con il web i suoi studi e le sue curiosità lo hanno spinto a far nascere questo blog non solo per esprimere e mostrare la passione per questo mondo, ma anche per confrontarsi con nuove esperienze di sviluppo.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *