El análisis SEO de logs es una de las prácticas SEO que te permitirá conocer exactamente como los motores de búsqueda están rastreando o navegando por tu web.
¿Está Google teniendo problemas rastreando tu web?
¿No lo sabes?
En este post veremos cómo responder a esta pregunta y muchas cosas más pero antes trataremos los conceptos básicos (como qué es un log, por qué son importantes para los SEOs, ...) para poder tener más contexto.
Vamos allá:
¿Qué es un log?
Un log es un archivo en el que se guardan todas las peticiones (también llamadas hits) que se realizan al servidor donde se encuentra alojada nuestra web.
Por qué son importantes para SEO
En este caso la importancia radica en que, como hemos indicado antes, todas las peticiones que se hacen a nuestro servidor quedan almacenadas en los logs. Eso quiere decir que también quedan guardadas todas las peticiones realizadas por los crawlers de los motores de búsqueda (como GoogleBot).
Por tanto, el análisis SEO de los logs nos permitirá poder ver qué URLs está visitando Google (o cualquier motor de búsqueda) en nuestra web, así como los impedimentos que se está encontrando crawleando o rastreando la misma.
Está información nos permitirá saber a ciencia cierta qué está visitando Google y puede no coincidir con la información que obtengamos de simuladores de rastreo como Screaming Frog.
Cabe recalcar la importancia del rastreo, puesto que las páginas que Google no sea capaz de rastrear, no podrán ser indexadas y, si una página no está indexada, no podrá captar tráfico orgánico.
Partes de un log
Aunque a simple vista puede asustar un poco está es la apariencia de un log:
66.249.70.112 - - [02/May/2021:18:38:45 +0200] "GET /seo/estudio-palabras-clave/ HTTP/1.0" 200 15850 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
Si ya te has asustado, no te recomiendo que veas el archivo donde se almacenan...

Si todavía no te has ido, te diré que a pesar de lo "técnico" que puede parecer, son archivos bastante bien "ordenados" y eso hace que sean más fáciles de analizar.
Si cogemos la línea que hemos extraído anteriormente, podremos distinguir varias partes:
- 66.249.70.112 - IP de la visita
- 02/May/2021:18:38:45 +0200 - Fecha y hora de la visita
- GET - El método de la petición (también podría ser POST)
- /seo/estudio-palabras-clave/ - La URL solicitada
- 200 - El código de respuesta
- 15850 - Tamaño del documento solicitado en bytes
- Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) - El user agent que nos ha visitado
Cabe destacar que en el caso de que analicemos líneas de logs que no sean de GoogleBot, encontraremos también la propiedad de referrer en la que se indicará la URL de referencia o desde la que nos visitaron.
OJO: En la práctica utilizaremos herramientas para poder analizar este tipo de archivos. Estas herramientas realizaran todo el procesamiento para darnos una información detallada de la que poder sacar las conclusiones o insights.
¿Dónde podemos encontrar los logs de nuestra web?
Esto dependerá del servidor en el que esté alojado cada web. En este caso veremos cómo descargarlo en los paneles más comunes:
Plesk
Para poder descargar los logs, deberéis acudir a vuestro panel Plesk y buscar la opción de "Registros":

Dentro de este apartado deberemos clickar en la opción de "Administración de archivos de registro":

Una vez aquí tan solo tendremos que descargar el archivo que se llame "Acceso a Apache" con una ruta "logs/access_logs".
Este procedimiento puede variar dependiendo del servidor o hosting por lo que si tenéis algún problema siempre podéis echar un vistazo a la documentación oficial o contactar con vuestro hosting.
cPanel
En el caso de que estéis usando un cPanel, deberéis ir al apartado de "Acceso sin procesar":

Directamente en esa página podréis ya descargar los archivos ordenados por meses:

Otras opciones
En caso de que no podáis acceder al panel de administración o no tengáis estos paneles de control, siempre podéis pedírselo a la persona al cargo de la gestión de sistemas o abriendo un ticket directamente al soporte de vuestro hosting.
Utilidades de un análisis de logs
A continuación veremos algunos de los análisis que se pueden realizar para poder obtener insights de valor que poder usar para corregir ciertos aspectos relacionados con el rastreo de nuestra web:
URLs más rastreadas
¿Son las URLs que está visitando GoogleBot las más importantes para el negocio? A través de los logs podemos detectar si GoogleBot está perdiendo el tiempo en rastrear páginas secundarias que no están alineadas con los objetivos del negocio, y está dejando de lado otras URLs más importantes y que podrían ayudar a la consecución de objetivos de nuestro cliente o empresa.
Con este análisis podremos hacernos una idea de cuál es la prioridad de rastreo para Google y, en caso de no estar alineada con la que nosotros creemos que debería ser, tendremos que tomar distintas acciones para poder cambiarlo:
- Enlazado interno
- Bloqueo por robots.txt
- Linkbuilding
- ...
Reparto del crawl budget
Este análisis está muy relacionado con el anterior.
Las webs, especialmente las grandes y medianas, pueden tener distintas tipologías de páginas (blog, categorías ecommerce, páginas de producto, ...). Con los logs podemos analizar si GoogleBot está destinando demasiados recursos a tipologías que no interesan o están relacionado con nuestros objetivos.
En este caso te puedo contar un ejemplo real.
Haciendo un análisis de logs para un cliente, nos dimos cuenta que casi un 35% de todos los hits de Google iban a las páginas de tags del blog.
Esas páginas tenían muy poco valor puesto que se habían generado sin ningún criterio y no recibían una cantidad de tráfico orgánico considerable.
¿Qué hicimos?
Bloqueamos a través del robots.txt esos tags y observamos como empezamos a ver que todos los posts nuevos empezaban a rastrearse mucho más rápido (esta información se puede obtener desde el informe de cobertura en Search Console).
¿Quiere decir eso que siempre que tengamos un problema de rastreo debemos bloquear partes de la web usando el robots.txt?
No, pero es una opción que puedes escoger siempre que valores todas las posibilidades y lo que puedes perder. En este caso, no nos importaba que GoogleBot no rastreará las URLs de tags.
Pérdidas de Crawl Budget
Como ya vimos en otro post, el Crawl Budget es la cantidad de tiempo y recursos que Google (o cualquier motor de búsqueda) destina a rastrear tu página web.
Si tu web publica contenido pero tu crawl budget o presupuesto de rastreo no te permite que sea rastreado, Google nunca podrá indexar ese contenido.
Es por eso que tendremos que intentar detectar y eliminar toda clase de hits a páginas que no sean relevantes como:
- Páginas con código de estado distinto al 200
- Páginas canonicalizadas
- Páginas de baja calidad o contenido duplicado
- Páginas duplicadas
- Páginas sin demanda orgánica
- ...
Todos los recursos de GoogleBot que gastemos en páginas como estas serán recursos o hits que no estaremos consumiendo en páginas que si merezcan la pena.
Normalmente los casos más comunes son encontrarnos errores 404, redirecciones 301y errores 500
Errores 404, 301 o 500
¿Qué hacemos si encontramos errores 404?
Aquí el problema viene por la cantidad de 404 que pedemos obtener, y esto se debe principalmente a que en webs grandes puede darse el caso de que siempre tengamos algunos errores 404. Como nuestro tiempo es finito, deberemos establecer un sistema para priorizar qué errores 404 arreglamos y cuáles no.
De forma general, lo que suele funcionar primero es priorizar por tráfico y, luego por hits de GoogleBot.
De esta forma, primero intentaremos redirigir o solucionar aquellas páginas que están devolviendo un error 404 y a las cuáles está llegando tráfico. De tal manera que podremos aprovechar ese tráfico.
El siguiente paso será priorizar por hits de motores de búsqueda para de esta forma evitar que Google (u otros bots) pierdan recursos rastreando páginas que no traccionarán tráfico orgánico.
¿Qué hacemos si encontramos redirecciones 301?
En este caso priorizaremos por hits de Google y tendremos que validar caso por caso si se trata de un comportamiento normal (puesto que muchas veces los buscadores también tienen que rastrear redirecciones durante un tiempo para poder asimilar que el contenido ha cambiado de URL)
Nuestro trabajo aquí será limpiar todos los enlaces que apuntan a esas URLs antiguas. Para ello lo que haremos será usar cualquier crawler (como el de Screaming Frog), localizar la URL que nos está devolviendo un 301 y comprobar si tiene o no inlinks (es decir páginas dónde se esté enlazando esa URL). En caso de que los haya, deberemos tratar de corregirlos todos para cambiarlos por la URL definitiva.
¿Qué hacemos si encontramos errores 500?
En determinas ocasiones podemos detectar a través de los logs del servidor que muchos URLs están devolviendo errores 500. Este puede ser uno de los errores más peligrosos puesto que si de forma reiterada Google recibe un error 500 para una URL está podría ser sacada del índice.
Este tipo de errores pueden tener muchas causas:
- Sobrecarga del servidor
- Bloqueo de IPs
- Pausas de mantenimiento (en este caso es mejor devolver un 503 para que GoogleBot remote su rastreo más tarde)
- ...
Lo mejor es ponerse en contacto directamente con el equipo de IT o con el soporte de nuestro servidor para poder acotar un poco más e intentar descubrir el origen del problema.
URLs duplicadas
Este suele ser otro caso bastante común, especialmente si usamos UTMs o si nuestra web genera URLs con muchos parámetros.
Tenemos que recordar que esto:
- ejemplo.com
- ejemplo.com?utm_source=banner
Son dos URLs distintas para Google, al igual que pasa con los filtros:
- ejemplo.com/producto/zapato
- ejemplo.com/producto/zapato?color=rojo&talla=42&cordones=amartillos&suela=blanca
En caso de que no queramos que GoogleBot pierda el tiempo rastreando este tipo de URLs parametrizadas, la mejor opción será siempre usar el robots.txt para bloquearlas.
OJO. Esto no quiere decir que todas las URLs con parámetros deban ser bloqueadas, puesto que puede que haya URLs parametrizadas que tengan demanda orgánica y puedan servir para la consecución de los objetivos de nuestra estrategia SEO.
Detectar URLs inconsistentes
Las URLs inconsistentes son aquellas que durante un periodo de tiempo devuelven distintos códigos de respuesta.
Si nos fijamos únicamente en el último código de respuesta devuelto por las URLs puede que no encontremos este tipo de URLs, pero, si analizamos los códigos de respuesta de esas misma URLs durante las distintas veces que el Bot ha intentado acceder, puede que nos encontremos más de una situación:
- Códigos 200 mezclados con 30X. Esto puede deberse a que la URL ha sido redireccionada hace poco.
- Códigos 200 mezclados con 40X. Esto puede deberse a que durante algún tiempo la web ha podido tener enlaces rotos que apuntaban a una página que había desaparecido por alguna razón.
- Códigos 200 mezclados con 50X. Estos son los más importantes ya que nos pueden dar pistas de que el servidor podría no estar funcionando como debería ya sea por problemas técnicos, sobrecargas, ...
Páginas pesadas o lentas
No hace falta que te diga que la velocidad de carga de nuestra web puede afectar directamente a nuestro presupuesto de rastreo.
Si nuestra web responde más rápido, usando los mismos recursos Google será capaz de rastrear más páginas.
Por esta razón, siempre es bueno tener controladas:
- Páginas más pesadas. Lo más común es que aquí encontremos archivos PDF, pero aún así siempre es bueno echarle un vistazo y ver si hay alguna manera de comprimirlas para que no consuman tantos recursos.
- Páginas más lentas. Aquí podrás analizar las páginas que tienen, de media, el tiempo de respuesta más alto.
Peticiones a URLs http
Hace ya tiempo que la mayoría de webs instalaron y migraron sus webs a su versión https, pero...
¿Eso quiere decir que todas las webs lo hayan hecho bien?
Yo no me fiaría.
Con el análisis de logs podremos ver si estamos teniendo hits en URLs sin el https y de esta forma podremos solucionarlo antes de que pueda convertirse en un problema.
En caso de que todos los hits sean en versiones con https te aconsejo que de vez en cuando le eches un vistazo a esto puesto que en ocasiones las redirecciones pueden borrarse o empezar a fallar en determinadas URLs... (Ya he visto varios casos de estos)
Bots malignos
No hace falta que te diga que internet no solo tiene cosas buenas...
Cuanto mayor sea la autoridad o la importancia de tu web, mayor serán las posibilidades de que sea atacada.
Uno de los "ataques" más comunes es el intentar duplicar tu web o el realizar muchas peticiones simultáneas para dañar su rendimiento (o incluso tirarla). Muchos de estos asaltantes usan bots para rastrear toda tu web rápidamente, y, para pasar desapercibidos, normalmente se hacen pasar por GoogleBot.
Por esta razón, ya son muchas las herramientas que usan las peticiones de DNS inversas para verificar que realmente se trata de GoogleBot. De esta forma, pueden eliminar todos los datos de estos bots y reportarte todos estos intentos de "encubrimiento".
El análisis de logs te permitirá por tanto detectar este tipo de bots malignos y poder valorar el bloquear su IP para que no puedan "dañar" de ninguna manera tu web.
Cantidad de hits por bot
Es importante tener siempre controlado la cantidad de hits que nos hacen los bots (especialmente de los que más nos interesen, como Google Bot) durante el tiempo. De esta forma podremos anticiparnos a posibles problemas...
¿Ha disminuido la cantidad de hits de GoogleBot en la última semana? ¿Por qué?
¿Puede que mi web tenga algún problema técnico de rastreo?
Este tipo de análisis te permitirá anticiparte y poder solucionar estos problemas antes de que afecte a tu posición en los rankings o a tu tráfico orgánico.
Además, el análisis de logs nos permitirá poder ver que bots visitan nuestra web.
No todo es Google amigo 😉
Dependiendo de dónde esté nuestro público objetivo pues tendremos que controlar distintos bots. Utilizando esta herramienta podremos ver cuales son los buscadores más usado en cada país. Por ejemplo, si nuestro público objetivo estuviera en Rusia pues tendríamos que tener también muy vigilado a Yandex.
URLs huérfanas
Las URLs huérfanas son aquellas que no se encuentran enlazadas desde la web pero que si están siendo rastreadas por los bots de los motores de búsqueda.
Para poder detectarlas tan solo tendremos que realizar un match entre las URLs encontradas en los logs y las URLs encontradas a través de un crawleo de la web.
En caso de tenerlas, tendremos que valorar si son importantes y deberían estar enlazas o si, en cambio, deberíamos "quitarlas del medio" para que los bots no pierdan el tiempo con ella. Para esto último siempre podemos usar redirecciones, 410, bloqueo por robots.txt, ...
URLs sin rastrear
También podría darse el caso contrario al que hemos visto antes, URLs que si hemos detectado a través del crawleo de la web, pero que hemos comprobado que no han sido rastreadas por los bots.
En este caso, tendremos que hacernos la misma pregunta, ¿Son importantes estas URLs a nivel orgánico?
En caso de que la respuesta sea si, deberemos proceder a enlazarlas desde otras páginas que si están siendo rastreadas, incluirlas en el sitemap e incluso podríamos mandarlas a que sean rastreadas desde Google Search Console.
Conclusión
El análisis de logs siempre ha causado miedo entre los SEOs menos técnicos, pero, como has podido comprobar, no necesitas muchos conocimientos técnicos para empezar con ello y que puedes detectar infinidad de problemas que pueden estar haciendo que tu web no acabe de despegar.
Recuerda que el análisis de logs SEO es más importante cuanto mayor es el tamaño de la web y que puedes sacarle mucho más partido si lo vitaminas con datos de otras fuentes como Google Analytics.
Espero que este post haya sido de utilidad y recuerda que para cualquier duda, como siempre, te espero en los comentarios o en la página de contacto.