Tra le varie fasi per la realizzazione di un buon blog c’è anche quella di realizzara un buon file robots.txt. Il fine ultimo di questo file, che molti sottovalutano, è quello di indicare ai motori di ricerca, quali pagine del sito dovranno subire il crawling e conseguentemente essere indicizzate.
Molti siti e blog, specialmente i cms come wordpress – joomla – drupal e altri, integrano diverse pagine che non interessano ai motori di ricerca, come le pagine di amministrazione per esempio, per questo creare un file robots.txt è importante per migliorare l’indicizzazione del sito.
Per la realizzazione di questo blog abbiamo deciso di usare il seguente robots.txt
Creare un file robots.txt è molto semplice: è sufficiente avere un editor di testo qualsiasi e capire quali sono i comandi ai quali obbediscono i bot:
Una volta capito quali sono i comandi da dare agli spider bisogna informarsi sul nome di tutti i robots spioni dei motori di ricerca sparsi nel web; qui adesso ne citerò alcuni gli altri potete reperirli qui:
| Nome spider | Motore di ricerca |
|---|---|
| googlebot | |
| fast | Fast – Alltheweb |
| slurp | Inktomi – Yahoo! |
| scooter | Altavista |
| mercator | Altavista |
| Ask Jeeves | Ask Jeeves |
| teoma_agent | Teoma |
| ia_archiver | Alexa – Internet Archive |
Una volta individuato anche il nome dei Crawlers non ci resta che creare il file, non dimenticandoci di specificare al robot dove andare a trovare la nostra sitemap col seguente comando
Sitemap: http://www.miodominio.it/sitemap.xml
Inseriamo il seguente codice nel file header.php che troviamo nella cartella del template che stiamo usando
<?php if(is_single() || is_page() || is_home()) { ?>
<meta name="robots" content="all" />
<?php } else { ?>
<meta name="googlebot" content="noindex,noarchive,follow,noodp" />
<meta name="robots" content="noindex,noarchive,follow" />
<meta name="msnbot" content="noindex,noarchive,follow" />
<?php }?>
Ecco il Robots.txt usato per questo blog lasciate commenti e diteci cosa ne pensate avanzando critiche e/o domande:
User-agent: * <--in questo caso non specificando il bot queste regole valgono per tutti gli spider Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content Disallow: /search/*/feed Disallow: /search/*/* Disallow: /tag Allow: /feed/$ Disallow: /feed Disallow: /comments/feed Disallow: /*/feed/$ Disallow: /*/feed/rss/$ Disallow: /*/trackback/$ Disallow: /*/*/feed/$ Disallow: /*/*/feed/rss/$ Disallow: /*/*/trackback/$ Disallow: /*/*/*/feed/$ Disallow: /*/*/*/feed/rss/$ Disallow: /*/*/*/trackback/$ #Escludo alcune estensioni di files Disallow: /*.css$ Disallow: /*.js$ Disallow: /*.ico$ Disallow: /*.opml$ Disallow: /*.php$ Disallow: /*.xml$ User-agent: Mediapartners-Google Allow: / User-agent: Adsbot-Google Allow: / User-agent: Googlebot-Image Allow: / User-agent: Googlebot-Mobile Allow: / User-agent: ia_archiver-web.archive.org Disallow: / Sitemap: http://www.pigg.it/sitemap.xml
Segnala su Facebook:
Pigg è un porcellino simpatico e divertente che sguazza nel fango mediatico del terzo millennio.
Si nutre di cultura digitale e resti di media tradizionali. Ingrassa abbuffandosi con pezzi di internet, parti di blog e stralci di informazione. Il suo sport preferito è come per tutti i maiali quello di rotolarsi in pozze di fango di bit, colorate di ottimismo giovanile e belle speranze per un futuro roseo.
Filmissimo.it
luglio 7th, 2009 at 04:36
Come mai hai disallowato tutte quelle directory ?
Comunque è consigliabile aggiungere la sitemap anche nel Google webmaster tools ^^
P.s. Volevo segnalarti questa iniziativa per vincere un iPod Shuffle:
http://www.filmissimo.it/ipod-shuffle-in-regalo.html
ciao
Francesco Loddo
luglio 7th, 2009 at 15:04
Il motivo è semplice il robot googlebot che si occupa di indicizzare i contenuti, non ha motivo di andare a indicizzare le immagini per evitare conflitti con
User-agent: Googlebot-Image
che invece ha accesso a tutte le directory e andrà a indicizzare solo le immagini prendendo come riferimento i title.
Un’altro motivo è stato quello di evitare che vengano indicizzati contenuti doppi generati dai tag, archivio feed rss ecc. Fammi sapere come ti sembra la mia teoria.
Per quanto riguarda la segnalazione a google webmaster della sitemap è altrettanto importante che segnarla nel robot.txt come ho fatto io.
Interessante il concorso scriverò un articolo a riguardo pomeriggio linkando alla pagina del regolamento con una breve descrizione.
Attendo sua risposta
malvin
ottobre 9th, 2009 at 14:34
Ciao, un caso in particolare…
Per un dominio http://www.sito.it ho una versione standard di articoli e questa la faccio indicizzare da googlebot. C’è un’altra versione di questi articoli ottimizzata per il mobile.
Per non creare conflitti tag ecc. è giusto fare cosi???
2 sitemap una normale senza http://www.sito.it/mobile/
l’altra solo per il mobile scritta nel formato che vuole google.
Le pagine mobile hanno il rel canonical che linka alle pagine normali.
Un file robots.txt dove ho:
User-agent: Googlebot
Disallow: /mobile/
User-agent: Googlebot-Mobile
Allow: /mobile/
User-agent: YahooSeeker/M1A1-R2D2
Allow: /mobile/
Non sono sicuro… mi dai un consiglio.. grazie
Francesco Loddo
ottobre 14th, 2009 at 16:31
Ciao,
ho cercato qualcosa sulla rete per studiare il tuo caso, e ho letto che potresti anche usare i meta tag e per evitare la duplicazione dei contenuti del sito “normale” e del sito mobile potresti inserire rispettivamente:
SITO NORMALE:
SITO MOBILE:
http://www.google.it/support/news_pub/bin/answer.py?hl=it&answer=93977
Francesco Loddo
ottobre 14th, 2009 at 16:34
scusa riscrivo i tag che ho saltato per sbaglio
Sito normale:
“< META NAME="GOOGLEBOT-MOBILE" CONTENT="NOINDEX, NOFOLLOW" > ”
SITO mobile
“< META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW" >”
senza spazi e senza le “”
Technotizie.it
novembre 3rd, 2009 at 12:52
Come editare il file robots.txt per wordpress…
Il fine ultimo di questo file, che molti sottovalutano, è quello di indicare ai motori di ricerca, quali pagine del sito dovranno subire il crawling…..