Programmazione Web » Motori di Ricerca » Segui i link e indicizza: il Meta Tag Robots
Segui i link e indicizza: il Meta Tag Robots
Difficoltà:
Scritto da Michele Sassi
Sito Web: http://www.comefaccio.net ![]()
Questo tutorial è stato letto 1066 volte
Come tutti ben sappiamo gli spider (ragni) dei motori di ricerca vanno a caccia di materiale da indicizzare seguendo tutti i link presenti nella grande ragnatela del WWW.
Questa tecnica, chiamata deep crawling (ricerca profonda), permette ad alcuni siti di essere indicizzati e ad altri no!
Forse quello che sto per dire potrebbe sembrare un'assurdità (specie per i webmaster che darebbero tutto pur di vedere il loro sito indicizzato) ma, alle volte, si ha il bisogno di evitare l'indicizzazione di una parte del sito (nella maggior parte dei casi l'area di amministrazione).
Abbiamo già visto il metodo dell'esclusione grazie al file robots.txt. Oggi vedremo un altro metodo grazie al quale possiamo dichiarare in ogni singola pagina se questa deve essere indicizzata e se lo spider deve seguire i link presenti in essa. Tutto questo è possibile grazie al Meta Tag Robots.
Eccone la sintassi:
<META NAME="robots" CONTENT="FOLLOW,INDEX">
Il parametro FOLLOW (segui) permette allo spider di seguire tutti i link presenti nella pagina stessa; INDEX invece stabilisce che la pagina deve essere indicizzata. Ovviamente questi due parametri possono essere modificati in base alle necessità (sarebbe stupido lasciare indicizzare l'area di amministrazione del sito, specie se questa non è protetta da accessi indiscreti)! Basterà quindi modificarne i parametri in NOFOLLOW,NOINDEX.
<META NAME="robots" CONTENT="NOFOLLOW,NOINDEX">
Questa stringa fa in modo che lo spider arrivato in quella pagina non visiti i link presenti e non la indicizzi.
Supponiamo adesso di disporre di un sito con frame in cui uno dei frame contenga un menu: una cosa intelligente da fare sarebbe quella di permettere allo spider di seguire i link contenuti nella pagina, evitandone l'indicizzazione (a cosa serve indicizzare una pagina che contiene solo links?).
<META NAME="robots" CONTENT="FOLLOW,NOINDEX">
Per default i parametri sono impostati su FOLLOW,INDEX pertanto, omettendo una di questa dichiarazioni lasceremo che lo spider segua ed eventualmente indicizzi tutto il nostro sito.

