¿Como hacer un robot.txt?, ¿como facilitamos la vida a los buscadores?




Antes de leer esta entrada os recomiendo si no teneis idea del tema de robots, leer "Robots.txt ¿para que?, ¿Que son los Crawler?, ¿Dirigimos a los Crawler?"

Un robot.txt
como su extensión indica "txt", es un archivo de texto, el cual posee dos partes muy sencillas.

User-Agent:
Disallow:


Es así de simple, con esto ya hemos realizado un robot para comunicarnos con los buscadores.

1.- "User-Agent:" --> Aquí debemos introducir el nombre del robot que queramos interactuar con él.

2.- "Disallow:" --> Aquí introducimos si queremos acceder o no, en el robot señalado anteriormente.

2.1- Disallow:/ --> si ponemos esto, no permitimos que el robot nombrado previamente acceda a nuestro sitio.
2.2- Disallow:/here/ --> si ponemos esto, no permitimos que el robot acceda al directorio here, del mismo modo puede ser foro, o cualquier tipo de directorio (parte de la web).
2.3- Disallow: --> si ponemos esto, permitimos la entrada del robot nombrado anteriormente.

Decir por consiguiente que podemos exponer diferentes Disallow: a un mismo User-Agent, como por ejemplo:

User-agent: noxtumbot
Disallow: /links.html
Disallow: /foro/
Disallow: /photos/

De esta manera estamos diciendo que no queremos que el crawler (robot del buscador), noxtrum acceda a las páginas siquientes, /links.html, /foro/y /photos/.

Si ponemos, "#" al principio de una linea, quiere decir que podemos escribir comentarios que no interpretará el crawler, son anotaciones propias como por ejemplo:

# Crawler del buscador noxtum
User-agent: noxtumbot
Disallow: /links.html
Disallow: /foro/
Disallow: /photos/

Bueno, ahora viene una especificación que solo se realiza a dos crawler, estos son los siguientes:
Googlebot y Slurp.

Googlebot --> de Google , Slurp --> de Yahoo

hay que saber para estos especificos crawlers las especificaciones de uso, como son los caracteres: $ y *

Por ejemplo:

User-agent: Googlebot
Disallow: /*.js$
Disallow: /2009/*
Disallow: /2010/*
Disallow: /foro/*/photos/*

Estamos diciendo que no indexe los archivos que sean de índole js, (javascript), por otro lado que no indexe los ficheros con fechas determinadas, ni archivos que contengan las palabras foro ni photos, mucho cuidado con este último ya que podemos cancelar el acceso a páginas con entradas con dichos nombres.

¿Para que nos sirve esto?, como hemos comentado en la entrada anterior cada entrada que escribimos se deriva a infinidad de páginas por lo que generamos contenido repetido constantemente, voy a exponer un ejemplo sobre mi entrada anterior ya que tiene íntima relación con la entrada que estoy desarrollando, la llamé --> "Robots.txt ¿para que?, ¿Que son los Crawler?, ¿Dirigimos a los Crawler?"

Para leer la información de la entrada la podemos leer en:

La propia entrada: http://homewebmaster.blogspot.com/2010/03/robotstxt-para-que-que-son-los-crawler.html
Lo hemos insertado en diferentes etiquetas por lo que lo podemos encontrar en las etiquetas de:
Creación de Blogs: http://homewebmaster.blogspot.com/search/label/Creacci%C3%B3n%20de%20Blogs
Crear Web: http://homewebmaster.blogspot.com/search/label/Crear%20Web
etc...
además, el contenido también está en nuestro propio feed de google: http://www.google.com/reader/atom/user%2F01555335316417531947%2Flabel%2FMis%20webs_blogs
nuestro propio feed de twitter: http://twitter.com/statuses/user_timeline/49893056.rss
buscamos todos los feed en los que estamos inscritos... inclusive si tenemos nuestro blog asociado a redes sociales...

Como hemos dicho antes, existen cawer que poseen un flujo bastante alto de peticiones de información por lo que nos pueden llegar a saturar al servidor, para controlar el flujo de los mismos deberíamos hacer lo siguiente.

User-agent: noxtrum
Crawl-delay: 30

aquí decimos que el buscador noxtrum aceda a nuestra web cada 30 segundos, no menos!, decir que esta acción no funciona para google (googlebot), msn (msnbot) y yahoo (slurp).

Ahora bien, en el caso de blogger ¿como accedemos a la página txt?, simplemente no podemos acceder por lo que esto se realiza mediante etiquetas meta situadas justo debajo de la etiqueta <head>, como expreso en los ejemplo a continuación:

  • <meta name="robots" content="index,follow" />
    indica que indexe la página y todos sus enlaces (valor por defecto).

  • <meta name="robots" content="index,nofollow" />
    indica que indexe la página pero no los enlaces.

  • <meta name="robots" content="noindex,follow" />
    indica que no indexe la página pero si los enlaces.

  • <meta name="robots" content="noindex,nofollow" />
    indica que no indexe la página ni los enlaces.

En la proxima entrada explicaré de que manera podemos introducir un robot sitemap en nuestra web para facilitar el acceso de los buscadores, pondré el ejemplo con blogger que es nuestro caso pero sirve para todo tipo de blogs o webs.

Saludos!

1 comentario: