Il meta tag robots e il file robots.txt
Il meta tag robots va messo in tutte le pagine e ha lo scopo di dare informazioni allo spider per indicargli quali pagine indicizzare e quali invece dovranno essere saltate.
Ecco la sua sintassi:
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>
- comunica allo spider di archiviare la pagina nel db INDEX
- NOINDEX comunica allo spider di non archiviare la pagina nel db
- FOLLOW comunica allo spider di seguire i link nella pagina
- NOFOLLOW comunica allo spider di non seguire i link nella pagina
Il tag robots va inserito nel contenuto del head, tra i tag <head> e </head> della pagina come in questo esempio:
<html> <head> <title>Il titolo della pagina</title> <meta name="keywords" content="parola1,parola2,parola3,parola4"> <meta name="description" content="Breve descrizione della pagina."> <meta name="robots" content="index,follow"> </head> <body> Il contenuto della tua pagina web </body>
Google aggiunge il contenuto delle pagine indicizzate al suo database durante la sua navigazione tra le pagine. Il contenuto salvato è chiamata la versione Cache, e può essere visualizzato cliccando sul link Contenuto Cache. Se non vuoi che il contenuto sia salvato nel database di google usa questo tag:
<meta name=”robots” content=”noarchive”>
Questo non impedirà a Google di indicizzare la tua pagina, evita solo di salvare un contenuto che forse ritieni non opportuno presentare in versioni non aggiornate. Se non vuoi indicizzare la pagina allora dovrai comunque usare il tag “noindex”.
Un altra altrenativa alla procedura di sopra è quella di comunicare in modo mirato con lo spider di google o altro agente. Questo consentirà agli atri motori di archiviare i dati ma non a google.
<meta name=”googlebot” content=”noarchive”>
Il file robots.txt Va inserito nella root del sito ed è composto da:
User-agent:
Disallow:
Nel campo User-agent dovete mettere il nome dello spider. Con il simbolo * vi state riferendo a tutti gli spider.
Nel campo Disallow: direte cosa non volete che lo spider prelevi. Es. Dite a google di non prendere il file informarea.htm
- User-agent: googlebot
- Disallow: /informarea.htm
Esempio di un record:
User-agent: googlebot
Disallow: /testi.html
Disallow: /poesie/
Il suddetto record dice a Google (“googlebot” è il nome dello spider di Google) che non gli è permesso prelevare il file testi.html nè accedere alla directory “poesie” e ai suoi contenuti, sottodirectory comprese. Notate come il nome del file è preceduto da un carattere “/” (che indica la directory principale del sito) e come il nome della directory fa uso di un carattere “/” anche in coda.
Il campo User-agent può contenere un asterisco “*”, sinonimo di “qualunque spider”. Per cui l’esempio seguente dice a tutti gli spider di non prelevare il file temporaneo.html:
User-agent: *
Disallow: /temporaneo.html
Il campo Disallow può contenere un carattere “/” ad indicare “qualunque file e directory”. L’esempio che segue impedisce a scooter (lo spider di Altavista) di prelevare qualunque cosa:
User-agent: scooter
Disallow: /
Infine, il campo Disallow può essere lasciato vuoto, ad indicare che non ci sono file o directory di cui si vuole impedire il prelievo. L’esempio seguente mostra come dire a tutti i motori di ricerca di prelevare tutti i file del sito:
User-agent: *
Disallow:
Esempio di un file robots.txt
Il file robots.txt si compone di uno o più record, ognuno dei quali prende in esame spider differenti. Ecco dunque un esempio completo di file robots.txt, che blocca del tutto Altavista, impedisce a Google l’accesso ad alcuni file e directory e lascia libero accesso a tutti gli altri motori di ricerca.
User-agent: scooter
Disallow: /
User-agent: googlebot
Disallow: /intestazione.html
Disallow: /links.html
Disallow: /temporanei/
Disallow: /cgi-bin/
User-agent: *
Disallow:
Ecco la lista di alcuni Spider
Spider Motore di ricerca
========================
googlebot Google
fast Fast – Alltheweb
slurp Inktomi – Yahoo!
scooter Altavista
mercator Altavista
Ask Jeeves Ask Jeeves
teoma_agent Teoma
ia_archiver Alexa – Internet Archive