¿Te gustaría controlar lo que Google o cualquier buscador puede rastrear de tu web?
Si la respuesta es si (que es lo que debería ser, especialemente si quieres mejorar tu SEO), estás en el lugar adecuado.
En la guía de hoy te mostraré qué es el robots.txt y cómo usarlo para poder mejorar el rastreo de tu web, y por ende, que consigas un impacto positivo en el posicionamiento de tu web.
Vamos allá:
Qué es el robots.txt
El robots.txt es un fichero que se encuentra públicamente en todas las web el cual permite decir a los motores de búsqueda cómo rastrear ese sitio web.
Más concretamente el robots.txt permite decir qué URLs de tu web pueden rastrear los bots, cuáles no, a qué velocidad, ... En definitiva, casi todo lo referente al rastreo puede controlarse directamente desde ahí.
¿Dónde puedo encontrar el archivo robots.txt de una web?
Como he comentado antes, el robots.txt es un archivo público para todas las webs.
Para poder acceder a el solo tendrás que añadir /robots.txt al dominio que quieras, por ejemplo:
- jesuspaez.com/robots.txt
- www.google.com/robots.txt
- www.tripadvisor.es/robots.txt

Esa es la dirección oficial en la que debería encontrarse siempre el archivo robots.txt. En caso de que no esté ahí, los bots de los motores de búsqueda lo ignorarán.
Ahora que ya sabemos qué es y dónde está, veamos con más detalle por qué es tan importante.
Por qué es importante para SEO
Como ya hemos dicho, el robots.txt indica a los motores de búsqueda cómo y qué pueden rastrear en tu web. Por tanto, ese poder hace que sea uno de los archivos más críticos para el SEO de cualquier página, puesto que una línea o incluso carácter mal escrito podría casi dejar tu web fuera de internet.
Sobre todo teniendo en cuenta que el primer paso para captar tráfico orgánico es que los motores de búsqueda puedan rastrear tu web, como vimos ya en la guía sobre cómo funciona Google.
Algunas de las cosas que puede realizar con el archivo robots.txt:
- Maximizar tu crawl budget
- Bloquear páginas privadas para que Google no pierda el tiempo en ellas
- Bloquear tus páginas de búsqueda internas
- Bloquear recursos que no necesiten ser indexados (como PDFs)
- Ralentizar algunos bots para evitar que sobrecarguen tu servidor
- Bloquear páginas con contenido de baja calidad
- ...
Son muchas las acciones SEO que se pueden realizar desde el archivo robots.txt y dependiendo de cada web, podrán ser aplicadas o deberás encontrar alguna otra solución.
Cómo funciona el robots.txt
Para que empiece a funcionar tu archivo robots.txt tan solo tendrás que escribir en él utilizando un "idioma" específico que se ha diseñado. Aunque existen multitud de comandos, los más útiles y populares son los siguientes:
User-agent
Es la base de todo puesto que se trata de la forma de especificar el bot que deberá cumplir la regla que vas a escribir a continuación de este comando. La forma de añadirlo a nuestro archivo sería así:
User-agent: Googlebot
Por ejemplo, en este caso, nos estaríamos refiriendo a Googlebot. Si queremos referirnos a todos los robots, y no a uno solo en particular deberemos usar el asterisco:
User-agent: *
De esta forma, todo lo que escribamos a continuación será cumplido por todos los bots.
Cabe destacar que cada bot tiene un nombre en específico, tendrás que buscar el nombre del bot al que quieres controlar por internet (es súper facil así que no te preocupes). Por ejemplo, todos los nombres de los bots de Google están publicados aquí.
Disallow
Este comando indica al user-agent previamente mencionado que no rastree la página o carpeta indicada.
Veámos un ejemplo:
User-agent: Googlebot
Disallow: /pagina
En este caso le estaría bloqueando a Googlebot que rastree la URL jesuspaez.com/pagina.
Si quisiera bloquear una carpeta entera, tan solo tendría que incluir el nombre:
User-agent: *
Disallow: /blog/
Ahora estaría bloqueando a todos los bots (ya que he usado el *) que rastreen cualquier URL del blog, es decir ahora ya no podría rastrear cualquier cosa que esté dentro de la carpeta del blog (jesuspaez.com/blog/post-1, jesuspaez.com/blog/post-2, ...).
Por último si lo que queremos es bloquear el rastreo de toda la web, tan solo tendremos que indicar lo siguiente:
User-agent: *
Disallow: /
Este caso, por ejemplo, es muy útil para webs de pruebas o que están en construcción.
Allow
Al contrario del anterior, este comando indica al bot que si puede rastrear la página o carpeta indicada. Como por defecto, es decir, si no se indica lo contrario, todo es rastreable, este comando es solo útil para anular una parte de la directiva disallow para permitir que el bot rastree parte de algo que ha sido bloqueado previamente. Por ejemplo:
User-agent: *
Disallow: /blog/
Allow: /blog/post-1
En este caso hemos indicado que no rastree nada del blog, salvo la página jesuspaez.com/blog/post-1 que si puede rastrearla.
Sitemap
Este comando sirve para indicar la URL del sitemap de la web y puede usarse varias veces:
Sitemap: https://jesuspaez.com/post-sitemap.xml
Es importante que usemos la URL absoluta, es decir, la URL completa (con protocolo, www o no, ...) porque Google no comprobará ninguna alternativa y solo la URL indicada que debe devolver código de respuesta 200.
Comentarios
Aunque esto no es un comando en sí, si es cierto que es algo util y que verás muy frecuentemente cuando vayas analizando los robots.txt de ciertas webs.
En este caso, debes saber que todas las líneas que empiecen por "#" serán ignoradas por los bots.
Por ejemplo:

En este comentario especifico que las siguientes reglas son sobre WordPress.
Otra cosa, poco relevante pero curiosa, es que puedes usar el sistema de comentarios para crear dibujos:

En este caso lo he usado para añadir un dibujo de un panda a mi robots jeje.
Cómo crear un archivo robots.txt
Crear un archivo robots.txt es bastante sencillo.
Lo único que tendremos que hacer es usar una editor de texto para escribir los comandos y luego guardar el archivo con la extensión .txt.
Una vez lo tengamos tan solo tendremos que subirlo a la raíz de nuestra web para que la URL final del archivo siga el siguiente patrón:
dominio.com/robots.txt
Cómo validar nuestro robots
Eso seguramente sea una de las partes más importantes.
Como hemos comentado antes el robots.txt es un archivo crítico y si nos equivocamos escribiendo alguno de los comandos podríamos hacer que ningún bot rastree nuestra web o que el comando simplemente no funciones.
Para ello lo mejor es usar alguna herramienta que valide que todo funciona como es debido.
Una de esta herramientas es la de technicalSEO.
Con esta herramienta tan solo tendrás que añadir la URL que quieres comprobar si está bloqueada y luego elegir el user-agent. Una vez seleccionado tan solo tendremos que hacer click en el botón de test:

Como podemos ver en la esquina inferior derecha, obtenemos el resultado "Allowed" lo que significa que esa URL puede ser rastreada por el bot seleccionado.
En caso de que hagamos la prueba sobre una URL que no se puede rastrear obtendremos algo similar a esto:

En este caso observamos como el resultado es "Disallowed", es decir, bloqueado. Además también nos indicará cuál es la regla que está bloqueado el rastreo de esa URL en específico.
Esta web también nos permite poder editar nuestro propio robots.txt para hacer modificaciones y seguir haciendo los tests oportunos de manera que si tenemos que cambiar algo, no tengamos que volver a cambiar el robots.txt en nuestra web para hacer otra prueba.
Preguntas frecuentes
A continuación, iré añadiendo todas las preguntas más frecuentes o situaciones extrañas que pueden darse para que no te pillen de imprevisto y sepas como reaccionar.
¿Qué pasa si el robots.txt no devuelve un código 200?
Esto es un aspecto importante a tener en cuenta puesto que los distintos códigos de estado del robots.txt pueden influir en cómo Google y otros buscadores rastreen tu web.
Las distintos casos son:
- Las redirecciones 3XX (siempre que no se realicen via JS) serán seguidas hasta un máximo de 5 saltos. En caso de que haya más se interpretará como un código de respuesta 404.
- Los errores 4XX serán tratados como si no existiese el archivo, por lo que Google rastreará todo sin ningún tipo de limitación.
- Los errores 5XX en el robots.txt harán que Google no rastree la web. En caso de que este error perduré por más de 30 días se usará la versión más actual que se tenga y, en caso de no tener, se permitirá todo el rastreo.
Cada subdominio deberá tener su propio archivo robots.txt
Google tendrá en cuenta solo el robots.txt del dominio + protocolo que esté rastreando. Es decir, Google ignorará todas las reglas que yo ponga en jesuspaez.com/robots.txt sobre el subdominio test.jesuspaez.com.
Si quiero aplicar algún tipo de regla de rastreo en dicho subdominio deberé hacerlo en test.jesuspaez.com/robots.txt
Google puede indexar páginas aunque estén bloqueadas por el archivo robots.txt
Como John Mueller nos confirma, Google sigue estrictamente todas las reglas que se indican en el robots.txt de una web. Pero, en determinados casos, si Google detecta que hay muchos links apuntando a esa página que ha sido bloqueada, podrán llegar a indexarla.
Si una página recibe muchos enlaces es porque esa página es relevante y tiene un contenido de calidad, por tanto, Google querrá rastrearla para indexarla. Al ver que no se puede rastrear puesto que está bloqueado por robots, lo que hará Google será indexarla y usar los anchor text que recibe esa página como título SEO para que esa página pueda aparecer en los resultados de búsqueda.
Es decir, Google indexará la página pero sin leer su contenido.
No es recomendable usar Noindex y bloqueo en el robots.txt de forma simultánea
Si añadimos un noindex en una página y la bloqueamos, Google no podrá ver el noindex porque su bot no es capaz de rastrear dicha página, por tanto, el noindex no tendrá ningún efecto. Dependiendo del caso será recomendable usar una u otra, pero no las dos a la vez.
Conclusión
Como hemos visto, el robots.txt es un archivo que nos permitirá controlar lo que rastrean los bots en nuestra web con todas las ventajas que eso supone sobre el SEO de la misma.
Aún así es importante destacar que no todos los bots siguen estas reglas (aunque si los más importantes y oficiales) y que bloquear algo en el robots.txt no impedirá que no se indexe.
Espero que este post haya sido de utilidad y recuerda que para cualquier duda, como siempre, te espero en los comentarios o en la página de contacto.