Diccionario del
Marketing Digital

Robots.txt en SEO: Qué es, Definición y Cómo Crear este archivo

El archivo Robots.txt es un documento que sirve para dar ordenes a los robots o crawlers de los buscadores qué partes del sitio web pueden rastrear y cuáles no.

Los buscadores, como Google y otros, rastrean constantemente los sitios web de internet para conocer su contenido y posteriormente descargarlo en su base de datos, y de este modo tenerlos disponibles para mostrarlos cuando los usuarios realicen búsquedas. Para este rastreo o crawling, los buscadores emplean robots, bots o crawlers. 

Estos robots, a priori, rastrearán completamente el sitio web, a menos que se le indique lo contrario. Para ello, disponemos del archivo Robots.txt, el cual puede impedir el rastreo de zonas determinadas del sitio, así como URLs, archivos o directorios concretos.

 

Cómo funciona el archivo Robots.txt

Para ello, dentro del archivo Robots.txt se usa la directiva Disallow, la cual indicará una ruta o URL relativa que los crawlers no van a poder rastrear. Por ejemplo, si tenemos un área privada dentro de nuestro sitio web ubicada en la URL dominio.com/area-privada y no queremos que los bots entren a rastrear, colocamos la siguiente directiva:

Disallow: /area-privada

Si por ejemplo queremos bloquear el rastreo de archivos PDF, colocamos la siguiente directiva:

Disallow: *.pdf$

O si queremos bloquear el acceso de los robots a una URL concreta, colocamos:

Disallow: /url-que-queremos-bloquear

Además de la directiva Disallow, en el archivo Robots.txt colocamos la ubicación exacta del archivo sitemap.xml, de modo que cuando Google lea el Robots a continuación pase a rastrear el sitemap con todas las URLs indexables del sitio.

Otra información que colocamos en el Robots.txt es el User-agent, el cual sirve para definir a qué buscadores vamos a dar las órdenes. Habitualmente colocamos el asterisco a modo de comodín, de modo que las directivas afecten a todos los buscadores:

User-agent: *

Otro truco que podemos usar, si queremos bloquear una cantidad determinada de URLs o directorios que comienzan o terminan por una raíz idéntica, es el asterisco. Si tenemos multitud de URLs que comienzan todas por el mismo parámetro como por ejemplo:

dominio.com/intranet/usuario-1
dominio.com/intranet/usuario-2
dominio.com/intranet/usuario-3 

Podemos colocar la siguiente directiva:

Disallow: /intranet/*

 

Cómo crear el archivo Robots.txt

Existen herramientas para generar el archivo Robots.txt para posteriormente subirlo a tu servidor (Small SEO Tools, Ryte Robots Generator, Seoptimer Robots Generator, etc), así como plugins (Yoast SEO, Rankmath) que podemos instalar en WordPress para crear y editar el Robots.txt directamente desde dentro del panel de administración.

También existen aplicaciones para probar y testear el Robots.txt (Sitechecker Robots Tester, Ryte Robots.txt Tester, Robots.txt Validator and Testing Tool de Technical SEO, etc).

 

 

 

Ernesto G BustamanteRobots.txt en SEO: Qué es, Definición y Cómo Crear este archivo