El archivo Robots.txt es un documento que sirve para dar ordenes a los robots o crawlers de los buscadores qué partes del sitio web pueden rastrear y cuáles no.
Los buscadores, como Google y otros, rastrean constantemente los sitios web de internet para conocer su contenido y posteriormente descargarlo en su base de datos, y de este modo tenerlos disponibles para mostrarlos cuando los usuarios realicen búsquedas. Para este rastreo o crawling, los buscadores emplean robots, bots o crawlers.
Estos robots, a priori, rastrearán completamente el sitio web, a menos que se le indique lo contrario. Para ello, disponemos del archivo Robots.txt, el cual puede impedir el rastreo de zonas determinadas del sitio, así como URLs, archivos o directorios concretos.
Cómo funciona el archivo Robots.txt
Para ello, dentro del archivo Robots.txt se usa la directiva Disallow, la cual indicará una ruta o URL relativa que los crawlers no van a poder rastrear. Por ejemplo, si tenemos un área privada dentro de nuestro sitio web ubicada en la URL dominio.com/area-privada y no queremos que los bots entren a rastrear, colocamos la siguiente directiva:
Disallow: /area-privada
Si por ejemplo queremos bloquear el rastreo de archivos PDF, colocamos la siguiente directiva:
Disallow: *.pdf$
O si queremos bloquear el acceso de los robots a una URL concreta, colocamos:
Disallow: /url-que-queremos-bloquear
Además de la directiva Disallow, en el archivo Robots.txt colocamos la ubicación exacta del archivo sitemap.xml, de modo que cuando Google lea el Robots a continuación pase a rastrear el sitemap con todas las URLs indexables del sitio.
Otra información que colocamos en el Robots.txt es el User-agent, el cual sirve para definir a qué buscadores vamos a dar las órdenes. Habitualmente colocamos el asterisco a modo de comodín, de modo que las directivas afecten a todos los buscadores:
User-agent: *
Otro truco que podemos usar, si queremos bloquear una cantidad determinada de URLs o directorios que comienzan o terminan por una raíz idéntica, es el asterisco. Si tenemos multitud de URLs que comienzan todas por el mismo parámetro como por ejemplo:
dominio.com/intranet/usuario-1
dominio.com/intranet/usuario-2
dominio.com/intranet/usuario-3
Podemos colocar la siguiente directiva:
Disallow: /intranet/*
Cómo crear el archivo Robots.txt
Existen herramientas para generar el archivo Robots.txt para posteriormente subirlo a tu servidor (Small SEO Tools, Ryte Robots Generator, Seoptimer Robots Generator, etc), así como plugins (Yoast SEO, Rankmath) que podemos instalar en WordPress para crear y editar el Robots.txt directamente desde dentro del panel de administración.
También existen aplicaciones para probar y testear el Robots.txt (Sitechecker Robots Tester, Ryte Robots.txt Tester, Robots.txt Validator and Testing Tool de Technical SEO, etc).