Ogni motore di ricerca utilizza proprie regole per creare degli indici e propri algoritmi per il calcolo del posizionamento e del PageRank delle pagine nei risultati delle ricerche effettuati dai visitatori. Di solito si cerca di indicizzare tutte le pagine di un sito web, ma non sempre è così, anzi a volte può succedere che si vuole proprio l’effetto opposto, non indicizzare alcune pagine o l’intero sito.

Se avete da poco comprato un dominio in quanto volete creare un nuovo sito, per un po’ di tempo al dominio corrisponderà una pagina pubblicitaria inserita automaticamente dal vostro provider.

E ovvio che non volete che questa pagina sia indicizzata e compaia così nei risultati di ricerca dei vostri visitatori. In questo scenario la soluzione tipica consiste nel realizzare una pagina temporanea con un messaggio per esempio “sito in costruzione”. Anche in quest’ultimo caso non volete che la pagina venga indicizzata .

Per evitare tutto ciò, basterà inserire nella pagina che è la vostra home page il seguente tag html:

<meta name=”robots” content=”noindex”>

In questo modo eviterete che I motori di ricerca indicizzino il contenuto della pagina.
Se per qualche ragione volete bloccare l’indicizzazione di tutto il sito, basterà creare un file robots.txt, ponendolo nella root del sito e scrivete le seguenti due righe:

User-agent: *
Disallow: /

L’asterisco (*) è un carattere jolly ed indica che la regola della seconda riga vale per tutti gli spider, qualunque sia l’user-agent. Il carattere (/) disabilita lo spidering in tutte le pagine del sito web.
Il file robots.txt torna utile in fatto di SEO, soprattutto per uno dei problemi più frequenti: evitare la duplicazione dei contenuti. Se un sito associa più URL ad una stessa pagina, il PageRank, che i motori di ricerca associano alla pagina verrà suddiviso tra tutti gli URL che vi puntano e quindi risulterà più basso di quanto ci si potrebbe aspettare.

Con il file robots.txt possiamo bloccare che gli spider dei motori di ricerca visitano determinati url.
Inoltre impedire che alcune pagine non compaiano nei risultati dei motori di ricerca ci torna utile, soprattutto quando vogliamo che siano mantenute nascoste le pagine che richiedono credenziali di accesso: per esempio username e password per il login ad aree riservate.
Per creare un file robts.txt basta un qualsiasi e comunissimo editor di testo anche il notepad di windows. Creato il file e salvato con il nome robots.txt vanno assegnati i permessi di sola lettura da parte di chiunque, in modo che si possa accedere ma non modificarlo.

Il file robots.txt deve risiedere nella root del sito.