Questo file va
messo nella root del sito.
Ad esempio per il mio sarà www.giorgiotave.it/robots.txt
Io l'ho inserito lo stesso questo file, però come
giusta regola non dovevo farlo in quanto con questo file si
possono escludere cartelle o file dall'indicizzazione. Nel
mio robots non escludo niente, il comportamento dello spider
sarà lo stesso. Molte voci di corridoio dicono che
allo spider di google piace trovare questo file, ma queste
voci non sono verificate.
Il file è composto da questi campi:
User-agent:
Disallow:
Nel campo User-agent devi mettere il nome dello spider. Con
il simbolo * ti stai riferendo a tutti gli spider.
Nel campo Disallow dirai cosa non vuoi che lo spider prelevi.
Stai dicendo a tutti gli spider che non ci sono file
che vuoi che non prelevino
User-agent: *
Disallow:
Dici a Google di non prendere il file ciao.htm
User-agent: googlebot
Disallow: /ciao.htm
Dici a Google di non prendere niente nella cartella
ciao
User-agent: googlebot
Disallow: /ciao/
Ecco una lista di spider
http://www.robotstxt.org/wc/active/html/index.html
Nonostante tutto ci sono alcuni motori di ricerca che non
seguono questo tipo di indicazioni.
Copyright: questa guida e' realizzata
da Giorgio Taverniti
e promossa da 3
Web Marketing e Madri Internet
Marketing
|