google-spybotTra le varie fasi per la realizzazione di un buon blog c’è anche quella di realizzara un buon file robots.txt. Il fine ultimo di questo file, che molti sottovalutano, è quello di indicare ai motori di ricerca, quali pagine del sito dovranno subire il crawling e conseguentemente essere indicizzate.
Molti siti e blog, specialmente i cms come wordpress – joomla – drupal e altri, integrano diverse pagine che non interessano ai motori di ricerca, come le pagine di amministrazione per esempio, per questo creare un file robots.txt è importante per migliorare l’indicizzazione del sito.
Per la realizzazione di questo blog abbiamo deciso di usare il seguente robots.txt

Creare un file robots.txt è molto semplice: è sufficiente avere un editor di testo qualsiasi e capire quali sono i comandi ai quali obbediscono i bot:

  • Allow = Segue la direcotry specificata per esempio Allow: / , indicizza tutte le cartelle contenute nel sito
  • Disallow = Ignora la directory specificata per esempio Disallow: /wp-content , ignorerà tutto il contenuto della cartella

Una volta capito quali sono i comandi da dare agli spider bisogna informarsi sul nome di tutti i robots spioni dei motori di ricerca sparsi nel web; qui adesso ne citerò alcuni gli altri potete reperirli qui:

Nome spider Motore di ricerca
googlebot Google
fast Fast – Alltheweb
slurp Inktomi – Yahoo!
scooter Altavista
mercator Altavista
Ask Jeeves Ask Jeeves
teoma_agent Teoma
ia_archiver Alexa – Internet Archive
Fonte Wikipedia

Una volta individuato anche il nome dei Crawlers non ci resta che creare il file, non dimenticandoci di specificare al robot dove andare a trovare la nostra sitemap col seguente comando

Sitemap: http://www.miodominio.it/sitemap.xml

Inseriamo il seguente codice nel file header.php che troviamo nella cartella del template che stiamo usando

<?php if(is_single() || is_page() || is_home()) { ?>
<meta name="robots" content="all" />
<?php } else { ?>
<meta name="googlebot" content="noindex,noarchive,follow,noodp" />
<meta name="robots" content="noindex,noarchive,follow" />
<meta name="msnbot" content="noindex,noarchive,follow" />
<?php }?>

Ecco il Robots.txt usato per questo blog lasciate commenti e diteci cosa ne pensate avanzando critiche e/o domande:

User-agent: * <--in questo caso non specificando il bot queste regole valgono per tutti gli spider
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
Disallow: /tag
Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
#Escludo alcune estensioni di files
Disallow: /*.css$
Disallow: /*.js$
Disallow: /*.ico$
Disallow: /*.opml$
Disallow: /*.php$
Disallow: /*.xml$

User-agent: Mediapartners-Google
Allow: /

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Image
Allow: /

User-agent: Googlebot-Mobile
Allow: /

User-agent: ia_archiver-web.archive.org
Disallow: /

Sitemap: http://www.pigg.it/sitemap.xml

Segnala su Facebook:

Ti puo interessare anche..