Robots.txt ¿para que?, ¿Que son los Crawler?, ¿Dirigimos a los Crawler?




Crawler son robots externos los cuales se sitúan en los buscadores y acceden a las páginas webs o blogs para sacar información de las mismas para su posterior posicionamiento, dependiendo de diversos factores.

Por otro lado están los robots internos (robot.txt) que son archivos de texto que inyectamos en nuestra web o blog, para ponernos en contacto con los crawlers, los buscadores y recomendarles, ojo!, recomendarles, no obligarles.
El típico ejemplo de un crawler es el llamado "Googlebot", nombre que se le da al robot de google.

Si tenemos conocimiento por consiguiente de nuestros robots.txt podemos acceder a una serie de beneficios clave para nuestro posicionamiento en la web, estos beneficios pueden ser los siguientes.


1.- Personalmente el mas importante es el robot que permite quitar a nuestra web contenido duplicado, entonces aseguramos por consiguiente a los buscadores nuestro contenido único y no duplicado, esto hace aumentar nuestras visitas considerablemente.

Importante aclaración, nosotros podemos estar seguros de que no copiamos contenido de otras webs, pero no nos damos cuenta que el contenido que metemos en la web se duplica solo, por ejemplo estamos escribiendo una entrada y al publicarla, esta información se nos desvía a diferentes direcciones, una la del propio blog, otra la dirección del feed (los seguidores), si la información la ponemos en una temática determinada por ejemplo "informática" no nos damos cuenta de que la información de la entrada o post a su vez se ha desviado y por lo tanto duplicado a la temática que hayamos asignado, por otro lado la información la desviamos a la fecha, por ejemplo entradas del día "14 de marzo", si la hemos realizado ese día saldrá repetida... Conclusión: tenemos mínimo 5-6 páginas con información duplicada.

2.- Algunas veces queremos que una parte de nuestra web o blog no aparezca en los buscadores por lo que podemos prohibir a esos buscadores el acceso a determinadas partes de nuestro sitio.

3.-Posemos por otro lado establecer un sitemap para indicar el camino adecuado a los robots entrantes y facilitarles la vida, esto nos ayudará a nuestro posicionamiento también.

4.- Impedir que un robot determinado acceda a nuestra página, no todos los robots son buenos, y además sacan provecho de nuestro sitio, hay veces que poseen un flujo bastante alto de peticiones de información a nuestro sitio y puede hasta saturar al servidor, por lo que podremos controlar el flujo de los mismos.

¿Como creamos un robot? en la siguiente entrada os lo explico aunque existe en internet muchísima información sobre esta temática.

Saludos, espero ser de ayuda.

3 comentarios:

  1. No es "crawer", sino "crawler". Y qué web más incómoda de leer, con ese fondo. No sé si fiarme de sus consejos.

    ResponderEliminar
  2. Decirte perdona por la confusión, de una "l", por último comentarte que el argumento de que la web "no es fiable por el fondo" no es muy viable.
    Cada uno es libre de fiarse o no de mi blog, para cualquier ayuda o gestión estoy encantado de atenderle saludos.

    http://vistalateral.wordpress.com/

    ResponderEliminar