91 852 39 60 info@brandevs.com

Una vez hemos terminado el diseño de página web o el diseño de tienda online, llega el momento de decirle a los buscadores que el sitio web esta listo para ser indexado, este proceso de indexado lo realiza un “robot” o crawler. Para que la indexación se realice de forma correcta, es necesario incluir un archivo denominado robots.txt del que vamos a hablaros hoy.

Un robot de un buscador o crawler es un pequeño programa que se dedica a indexar toda la información de las diferentes páginas web que recorre. Estos robots tienen la fea costumbre de querer indexar, es su finalidad, toda la información que contiene tu página web.

Sin embargo, es cierto que los crawlers actuales saben interpretar, bastante bien, lo que están indexando y suelen acertar con el contenido a indexar pero no es menos cierto que son programas automáticos susceptibles de cometer errores.

El problema real surge cuando no quieres que determinados contenidos de tu página web sean indexados y que aparezcan listados en los resultados del buscador, por ello, existen dos herramientas que ayudan a evitarlo: las etiquetas meta robots, de las que hablaremos en otro artículo, y el archivo robots.txt.

La diferencia radica en que las etiquetas meta debemos añadirlas en cada página que no queramos que se indexe y el archivo Robots.txt, nos permite realizar una configuración general para nuestro sitio web estableciendo una serie de directrices a seguir por los robots.

En Brandevs, llevamos mucho tiempo realizando diseño de páginas web, y utilizamos siempre el archivo robots.txt pero somos partidarios de dejar a los crawlers la mayor libertad a la hora de explorar nuestra web.

¿Qué es un archivo Robots.txt?

Un archivo robots.txt es un fichero de texto plano ubicado en la raíz de nuestro sitio web que controla el acceso y la indexación que hacen los diferentes crawlers de la información contenida en nuestro sitio.

El contenido del archivo robots.txt se basa en una serie de estándares web basados en el protocolo REP (Robots Exclusión Protocol) que surgió allá por el año 1996.

¿Cómo funciona el archivo Robots.txt?

El funcionamiento es sencillo, cuando un crawler llega a tu web revisa el archivo robots en el que se le indica que partes de tu web puede recorrer y a que partes tiene denegado el acceso.

El archivo robots.txt es público y cualquiera puede verlo, por lo que hay que ser lo más cuidadoso y proteger las secciones que pueden aparecer en él.

Hay que tener en cuenta que algunos crawlers pueden saltarse el bloqueo que impone el archivo, especialmente si son robots maliciosos.

Un archivo Robots.txt puede contener diferentes reglas. Las más utilizadas son las siguientes:

  • User-agent: Indica que tipo de robot debe cumplir las directivas del fichero.
  • Disallow: Deniega el acceso a un recurso, puede ser un directorio, una URL, un fichero con una extensión, etc.
  • Allow: realiza la función contraria a Disallow.
  • Sitemap: indica la ruta donde se encuentra el archivo sitemap.xml
  • Craw-delay: Indica al robot cuanto tiempo debe esperar para escanear las diferentes páginas.

Por otro lado, indicar que podemos usar dos comodines para aumentar la precisión de la concordancia:

  • (*) Sirve para establecer cualquier secuencia de caracteres. Si en nuestro archivo indicamos una regla de tipo Disallow: /recurso*/ , impediríamos el acceso a todos los directorios que empiezan por recurso como podría ser /recursosweb/ o /recursosimagenes/
  • ($). Indica el final de una URL, si queremos que todos los archivos .txt no se indexen añadiríamos una instrucción “/*.txt$”.

¿Cuáles son las instrucciones más comunes de un archivo Robots.txt?

Las instrucciones más comunes que podemos encontrar en un archivo robots.txt son las siguientes:

  • Incluir a todo los robots para que se acojan a las reglas del archivo. ( User-agent : *)
  • Especificar un robot, ejemplo Google-bot. (User-agent: googlebot)
  • Bloquear el acceso a todo el sitio web. (Disallow: /)
  • Bloquear el acceso a un directorio. (Disallow: /recursos/ )
  • Bloquear el acceso a un directorio que comienza por “recurso” (Disallow: /recurso*/)
  • Denegar una página web. (Disallow: /aviso-legal.html)
  • Denegar directorios y páginas que comienzan por “prueba” (Disallow: /prueba)
  • Denegar la extensión xml. (Disallow: /*.xml$)
  • Permitir un subdirectorio. (Allow: /recursos/imágenes/)
  • Indicar ruta del sitemap.xml de la web. (Sitemap: http://brandevs.com/sitemap.xml)

Este es un ejemplo de archivo Robots.txt, sencillo, que nos va a servir para ver su funcionamiento.

User-agent: *
Disallow:  /recursos/
Disallow:  /contactar.html
Disallow:  /*.pdf$
Sitemap:  https://www.ejemplo.es/sitemap.xml

Así es como se interpretaría el archivo:

  • La línea 1 (User-agente) indica que todos los “robots” que acceden a revisar nuestra página deben seguir las siguientes reglas que aparecen en el fichero.
  • La línea 2 indica a los robots que no accedan al directorio recursos.
  • La línea 3 indica que no se indexe contactar.html
  • La línea 4 Impide que se indexe cualquier archivo con extensión .pdf
  • La línea 5 indica al robot donde está ubicado el archivo sitemap.xml.

 

También podríamos incluir líneas de este tipo que impiden al robot “Googlebot-image” acceder al directorio de fotos.

User-agent: Googlebot-Image
Disallow: /fotos/

Como podemos ver, la creación y el uso de un archivo Robots.txt es bastante sencilla. Además, no debemos olvidarnos que es un archivo obligatorio y fundamental para el seo on-page de cualquier sitio web.