El archivo robots.txt ha bloqueado la URL enviada - Qué es y cómo lo soluciono?
Este es uno de los estados que podemos encontrar dentro del informe de cobertura de Google Search Console en el apartado de URLs con errores....
¿Quieres sacarle el máximo partido a Google Search Console?
Entonces estás en el lugar adecuado.
En la guía de hoy veremos qué es Google Search Console, para qué sirve y cómo sacarle el máximo provecho para poder obtener las mejores insights SEO.
Vamos allá:
Google Search Console (antes llamada Google Webmaster Tool) es una herramienta gratuita oficial de Google para que todos los webmaster o propietarios de una web puedan monitorizar su web en Google y medir sus resultados orgánicos.
En definitiva, es la conexión directa que existe entre los propietarios de la webs y la Google, donde este último reporta todo lo relacionado con la web.
Google Search Console nos da muchísima información oficial sobre nuestro rendimiento SEO en Google:
Todas esas preguntas y muchas más pueden ser respondidas con Search Console.
Por ello, esta se convierte en una de las herramientas más importantes para cualquier consultor SEO.
Lo primero es lo primero, ¿Cómo doy de alta mi web?
El proceso es realmente sencillo.
Para empezar, tendremos que ir a la página oficial y pulsar sobre el botón "Empezar ahora". Una vez que entres e inicies sesión con tu cuenta de Google, te saldrá algo parecido a esto:
Aquí tenemos dos opciones para reclamar la propiedad de un dominio:
Como la primera opción es la más rápida y recomendada, nos centraremos en esa:
Una vez añadamos el dominio y demos a continuar obtendremos algo como esto:
Aquí simplemente deberemos seguir las instrucciones que se nos indican y luego darle al botón de verificar.
Si esto os suena un poco a chino, lo mejor es ponerse en contacto con vuestro hosting o desarrollador para que os puedan guiar en el proceso.
Dentro de la interfaz de GSC, más concretamente en el apartado de rendimiento, veremos diferentes métricas que nos ayudarán a ver "cómo de bien" nos está yendo en la hojas de búsqueda de Google. Esas métricas son:
Un click hace referencia a cualquier click que un usuario realice en la hoja de resultados cuyo objetivo sea una parte de nuestra web.
OJO es importante recalcar que si haces click en un resultado, vuelves a la hoja de resultados y vuelves a hacer click en el mismo resultado. Esto se contará como un solo click.
Una impresión hace referencia a cuando la URL se imprime en el HTML de los resultados de búsqueda, independientemente de que el usuario vea o no vea la URL.
Puede darse el caso que diferentes páginas reciban impresiones para una misma palabra clave.
Por ejemplo en este caso:
Como vemos en total tendríamos 7 impresiones para esta palabra clave, una para cada URL.
El CTR (Click Through Rate) es el porcentaje de clicks que consiguen una URL o palabra clave en relación al número de impresiones. Es decir, CTR = (Clicks / Impresiones)*100
La posición media hace referencia a la media de la posición que una determinada palabra clave o URL (que depende a su vez de las palabras clave) posee en los resultados de búsqueda.
Ojo es importante recalcar que este se calcula en función de las impresiones. Si una palabra clave o URL no tiene impresiones, no podrá saberse su posición media.
Ahora bien, la posición media se calcula únicamente teniendo la posición de tu URL más alta para cada palabra clave. Es decir, para la media, solo se tendrá en cuenta la posición de tu URL más alta en el ranking, independientemente de que haya varias.
A continuación iremos viendo de manera rápida todos y cada uno de los diferentes apartados de la interfaz de Search Console para ver qué tipo de información podemos encontrar en cada uno de ellos:
En este apartado encontrarás el rendimiento de tu web en las distintas fuentes orgánicas que tiene Google:
Cabe destacar que aquí solo aparecerán todas aquellas fuentes en las que nosotros tengamos presencia. Por ejemplo, si en tu caso no recibes tráfico orgánico de Google Noticias o Discover, estas secciones no te aparecerán.
Este informe te permitirá ver clicks, impresiones, CTR y posición media de tu dominio en los resultados de búsqueda:
En este apartado encontrar todas las pestañas relacionadas con el rastreo e indexación de tu sitio web:
El más importante será el informe de cobertura que será el que nos permita saber qué páginas de nuestra web han sido indexadas, cuáles no y, además, el por qué no.
Luego encontraremos la sección de sitemaps, donde podremos enviar nuestros sitemaps, y la sección de retirada de URLs, que nos permitirá borrar URLs del índice de Google de manera temporal.
En este apartado Google refleja a través de varios informes, como miden la experiencia de tus usuarios al interactuar con tu web más allá de la información que ofrezcas. En este caso los informes que tenemos son:
En esta sección Google nos irá informando sobre el estado de cada uno de los datos estructurados que tienes incorporados en tus páginas actualmente. Es importante destacar que aquí solo aparecerán aquellos datos estructurados que puedan permitir a tu web obtener resultados enriquecidos:
En esta sección irán apareciendo todos los marcados de datos que empieces a aplicar a tu web y que Google haya detectado. Hasta que Google no los detecte, no aparecerán.
Dentro de cada uno podremos ver un informe que mostrara los errores o advertencias que tenemos dentro del marcado de datos. Además, también nos mostrará en qué URLs está perfectamente implementado.
En este apartado Google nos aglutinará las advertencias que nos manden en cuanto a seguridad, por si detectan que hemos sido hackeados, y acciones manuales, en el caso de que nuestro dominio sea penalizado por uno de los quality raters de Google.
En este apartado iremos viendo todos y cada uno de los estados que puede mostrarnos Google Search Console en el informe de cobertura. (Eso incluye también los errores así como sus soluciones)
Aquí encontraremos todas las páginas que han sido indexadas. Aquí existen dos subestados:
Aquí nos mostrará Google todas las URLs que hemos mandado a través de uno de los sitemaps, y se han indexado correctamente.
Aquí se mostrarán todas las URLs que Google ha encontrado a través de internet y han sido indexadas, aunque no se hayan enviado a través de un sitemap.
Es importante verificar que esas URLs verdaderamente deberían estar indexadas.
Si no tienen valor, deberemos añadir una etiqueta noindex para evitar que Google preste importancia a este tipo de páginas.
En caso de que si lo tengan, deberíamos plantearnos añadirlas a un sitemap y/o por qué no lo estaban ya.
Como en el caso anterior, aquí encontramos nuevamente solo dos subestados:
Muestra todas aquellas páginas en las que Google no ha sido capaz de encontrar ningún tipo de contenido.
Esto se debe generalmente a problemas de renderizado o a que la página exige una contraseña.
Solución: Se deberá realizar una revisión manual de todas esas URLs para comprobar que funcionan correctamente. Opcionalmente se puede usar también la herramienta de mobile-friendly de Google para revisar cómo está renderizando él la página. En caso de que esté todo correcto, tan solo tendremos que mandar a Google que indexe de nuevo la página.
Google nos muestra las URLs que ha indexado a pesar de que el robots.txt estaba bloqueando su rastreo. Esto se debe generalmente a que esa página ha sido enlaza de manera externa por lo que Google ha interpretado que debía estar indexada.
Solución: Deberíamos revisar todas las URLs para determinar si deberían estar bloqueadas o no. En caso de que no, es cuestión de editar el robots.txt y permitir el rastreo. Por otro lado, si esa página no debería estar enlazada, deberemos permitir su rastreo y añadir un noindex para que Google pueda ver que no debe indexar esa página.
En este caso si que encontraremos muchos más subestados. Estos subestados reflejan aquellas URLs que no han podido ser indexadas por Google:
Google no es capaz de rastrear dichas URLs ya que están devolviendo un error 5xx.
Solución: Comprobar si las URLs dan realmente un código de estado 5XX o si solo se debía a una caída momentánea del servidor (que es bastante común). En caso de que persistan, lo mejor es ponerse en contacto con el desarrollador o el soporte del hosting.
Google mostrará aquí todas las URLs que ha sido imposible rastrear debido a un error en la redirección que ésta posee. Esto puede deberse por ejemplo a una cadena de redirecciones, un bucle de redirecciones, se redirige a una URL demasiado larga o incorrecta.
Solución: Deberemos manualmente revisar esas URLs para comprobar qué tipo de error es para repararlo.
Aquí se listarán todas las URLs que han sido enviadas a través de un sitemap, pero, a pesar de que devuelven un 200, Google las está considerando como un 404. Esto se debe principalmente a que el contenido mostrado parece una página 404 para Google.
Solución: Revisar manualmente esas URLs para, en caso que sea necesario, devolver un código 404 en esas página y eliminarlas del sitemap, o bien, cambiar la disposición del contenido para que no parezca una página de 404.
Se mostrarán todas las URLs que hayan sido enviadas a través de un sitemap, pero están devolviendo un código de estado 404.
Solución: Si la URL era importante deberás buscar porqué está dando ahora un error 404. En caso de que el 404 sea intencionado, se deberá eliminar del sitemap.
En este caso se listarán todas las URLs cuyo código de estado es 4xx (exceptuando 401, 403 y 404) y han sido enviadas a través del sitemap.
Solución: Deberás manualmente comprobar el código de estado que están devolviendo (incluso podrás usar el inspector de URLs de GSC) y corregirlo para que la URL devuelva un código 200. Otra opción, si la URL no es importante, es borrarla del sitemap.
Se han enviado URLs a Google a través de un sitemap que tienen un directiva noindex.
Solución: En los sitemaps solo deberían aparecer URLs que se quieran indexar, por lo que si ese es el caso, deberás quitar el noindex. En caso de que verdaderamente no quieras indexar esa página, deberás eliminarla del sitemap.
Google mostrará aquí todas las URLs que han sido enviadas a través del sitemap, pero que no es capaz de rastrear puesto que están siendo bloqueadas por el robots.txt.
Solución: En caso de que las URLs sean importantes deberás desbloquearlas del robots.txt para permitir su rastreo. Por el contrario, si son URLs no importantes, deberán ser eliminadas del sitemap.
Google listará aquí todas las URLs que han sido enviadas a través de un sitemap y están devolviendo un código de estado 401, es decir, que no tienen acceso a esas URLs.
Solución: Si las URLs están bloqueadas por alguna razón, deberás eliminarlas del sitemap. En caso contrario, deberás dejar a Google rastrear esas URLs.
Aquí se mostrarán todas las URLs que han sido enviadas a través de un sitemap y están devolviendo un código de estado 403 (prohibido).
Solución: Si las URL debería estar abierta para todos los usuarios, deberás cambiar su código de estado. En caso que no deba ser pública, deberás eliminarla del sitemap.
Estos subestados reflejan el porqué Google ha considerado que estas URLs no deberían estar indexadas:
Todas las URLs aquí listadas no habrán sido indexadas porque se la especificado a Google con una etiqueta noindex.
Solución: Validar que no se encuentra ninguna URL importante entre las aquí listadas.
Aquí se listarán todas las URLs que ahora mismo no están apareciendo en los resultados de búsqueda debido a que han sido eliminados usando la herrmienta de eliminación de URLs de GSC.
Solución: Todas esas URLs deberían tener una directiva noindex para evitar que Google las vuelva a indexar pasados los 90 días.
Google mostrará aquí todas las URLs que no han sido indexadas puesto que su rastreo ha sido bloqueado por el archivo robots.txt.
Solución: Unicamente tendremos que asegurarnos que no haya ninguna URL importante de nuestra web en este listado.
Aquí se listarán todas las URLs cuyo acceso requiere un login que Google no posee.
Solución: Revisar que no haya ninguna URL importante y, usando el inspector, detectar el origen de porqué Google está tratando de rastrear esas páginas.
Google mostrará aquí todas las URLs que ya han sido rastreadas pero que todavía no han sido indexadas. Esto puede deberse, principalmente, a que la URL haya sido rastreada recientemente y no haya dado tiempo a que se indexe, o que simplemente, Google considere que no tiene la calidad suficiente como para que sea indexada.
Solución: Si encuentras URLs importantes aquí, y, llevan ya un tiempo en este estado, deberás mandar más señales a Google para demostrar que ese contenido debe estar indexado. Algunas de estas señales podrían ser: aumentar la calidad del contenido, añadir más enlaces internos hacia esa URL, conseguir algún backlink, ...
Cabe destacar que las páginas con contenido duplicado o con contenido pobre suelen quedarse en este estado.
Aquí podrás encontrar todas las URLs que han sido descubiertas por Google, pero, todavía no han sido rastreadas. Por tanto, no han podido ser indexadas.
Es decir, como vimos en el post de cómo funciona Google, estas URLs se encuentran en la cola de rastreo.
Solución: En muchos casos no es preocupante tener URLs en este estado. Si encuentras URLs importantes para ti y que permanecen ahí mucho tiempo, lo mejor sería hacer un análisis de logs para descartar que pudieras estar teniendo problemas de crawl budget. Este análisis nos permitiría saber si Google esté rastreando páginas que no son importantes para ti, quitado recursos de las que si lo son.
Aquí se encontrarán listadas todas las páginas que han sido correctamente canonicalizadas debido a la canonical tag impuesta por el webmaster de la web.
Solución: Es bueno echar un ojo de vez en cuando a esta sección para verificar que verdaderamente todas las páginas que se encuentran en aquí deberían estarlo. Además, como muchos CMS abusan de esta etiqueta, es bueno tener controlado que el número de páginas que aquí se encuentran no crezca de forma desproporcionada.
Google mostrará un listado con todas las URLs que, según su algoritmo, son duplicadas. Como estas URLs no tienen ninguna etiqueta canonical, Google ha decidido no indexarlas.
Solución: En caso de que exista, añade una etiqueta canonical apuntando hacia la versión original de tu URL. Si no fuera el caso, plantéate el uso de una etiqueta noindex en dichas páginas.
Aquí se listarán todas las URLs que Google ha considerado duplicadas y, a pesar de tú las has canonicalizado, Google ha considerado que la canonical debería apuntar hacia otra página (ignorando tu decisión).
Solución: Usa el inspector de URLs de Google Search Console para ver cuál es ha sido la URL seleccionada por Google y poder sacar alguna conclusión de porqué ha ignorado tu decisión y ha seleccionado esa.
Google mostrará aquí todas las URLs que ha encontrado y devuelven un código de estado 404, a pesar de que no hayan sido enviadas a través del sitemap.
Estas páginas suele encontrarlas a partir de un enlace externo o interno, o incluso a través de su histórico de URLs de la web.
Solución: Revisa que aquí no encuentres ninguna página importante de tu web. En caso de que la encuentres, deberás redirigirla o restaurarlas.
OJO! Echa un vistazo también a los backlinks de estas páginas. Puede que encuentres más de una gema.
Aquí se listarán todas las URLs que están siendo redirigidas y, por tanto, no pueden ser indexadas.
Solución: Validar que no estemos aplicando una redirección a una página importante.
Google listará aquí todas las URLs que no estén devolviendo un código de estado 404, pero que visualmente (teniendo en cuenta el contenido de la página), Google ha considerado que lo son.
Solución: Revisar manualmente esas URLs para, en caso que sea necesario, devolver un código 404 en esas página, o bien, cambiar la disposición o añadir nuevo contenido para que no parezca una página de 404
Google mostrará aquí todas las URLs que hayan sido enviadas a través de un sitemap y que no tengan una etiqueta canonical especificada, para advertirte que las ha considera duplicadas y ha seleccionado una canonical usando su algoritmo.
Solución: En caso de que la URL sea importante, analizar la URL que ha seleccionado Google como canonical y mandarle señales de que la página es de calidad. En caso contrario, deberá valorarse añadir una etiqueta noindex y eliminarla del sitemap.
Aquí se listarán todas las URLs cuyo acceso no ha sido permitido a Google.
Solución: Deberemos verificar que estas URLs no deben estar accesibles a los motores de búsqueda. Se podría valorar añadir a estas URLs una directiva noindex.
Google mostrará aquí todas las URLs a las que no ha podido acceder debido a un error 4xx (distinto del 401, 403 y 404).
Solución: La mejor opción es usar el inspector de URLs de GSC y averiguar qué está pasando con esa URL. Una vez solucionado deberemos decidir que hacer con esa URL: noindex, 404, redirigir, ...
Google Search Console es una herramienta que, a mi juicio, está muy infravalorada dentro de mundo SEO.
Son muchos los SEOs que se gastan mucho dinero en otras herramientas y dejan de usar esta por el simple hecho de ser gratuita.
Lamentablemente mucha de la información que nos brinda Google con esta herramienta, no puede ser encontrada en el resto de herramientas del mercado así que aprovéchala.
Espero que este post haya sido de utilidad y recuerda que para cualquier duda, como siempre, te espero en los comentarios o en la página de contacto.