Programmazione Web » Motori di Ricerca » Spider - No, grazie. Evitare l'indicizzazione dei motori di ricerca
Spider - No, grazie. Evitare l'indicizzazione dei motori di ricerca
Difficoltà:
Scritto da Michele Sassi
Sito Web: http://www.comefaccio.net ![]()
Questo tutorial è stato letto 1058 volte
Con questo tutorial impareremo a "comunicare" con i motori di ricerca, stabilendo quali sono le pagine che gli spider NON devono visitare e, pertanto, non includere nell'indice del relativo motore di ricerca.
Innanzitutto cominciamo col dire che adopereremo un file di testo che dovrà necessariamente essere chiamato robots.txt e collocato nella root del sito.
Questo file lavora essenzialmente con due campi: User-agent e Disallow. Il primo serve ad indicare il nome dello spider che non deve arrivare sul nostro sito, il secondo serve ad indicare quali sono i file e/o le cartelle da escludere.
Apriamo il file di testo robots.txt e incolliamoci dentro:
User-agent:
Disallow:
stabilendone opportunamente i parametri. Vediamo alcuni esempi:
User-agent: *
Disallow:
Questo esempio dice a tutti gli spider di non escludere niente, pertanto la struttura del sito sarà interamente percorribile dai ragni!
User-agent: *
Disallow: /prova.htm
In questo caso tutti gli spider non visualizzeranno il file "prova.htm".
User-agent: *
Disallow: /admin/
Questo è il caso più importante, che consiste nell'escludere intere cartelle dall'indicizzazione. Nel nostro caso verrà esclusa a tutti gli spider la cartella "admin" che generalmente contiene file importanti che non devono essere noti ai motori di ricerca.
E' inutile dire che se non abbiamo niente da escludere il file robots.txt può essere omesso!
Fate attenzione perchè questo metodo non funziona con tutti i motori di ricerca!

