¿Tienes la sensación de que Google no está rastreando y/o indexando los contenidos de tu web como debería? Hmmm pues puede ser que tengas un problema de Crawl Budget.
¿Qué no sabes lo qué es el Crawl budget?
No te preocupes, en este post hablaremos sobre qué es, cómo saber si deberías preocuparte por él y cómo optimizarlo.
¡Vamos allá!
Qué es el Crawl Budget
El crawl budget es la cantidad de tiempo y recursos que Google (o cualquier motor de búsqueda) destina a rastrear tu página web.
Así de simple.
Una de las prioridades para Google es rastrear todo el contenido que encuentra el internet, el problema es que la cantidad de contenido público en internet es casi infinito. Por esta razón, Google limita la cantidad de recursos destinados a rastrear cada una de las webs que encuentra.
¿Existe realmente el Crawl Budget?
Aunque el Crawl Budget en gran medida ha sido un término "inventado" por la comunidad SEO, Google ha creado un post tratando y confirmando en cierta medida su existencia.
¿Pero todas las webs se ven afectadas por este problema?
No. El Crawl Budget debería empezar a preocuparte si tu web cumple estas condiciones indicadas por Google:
- Sitios con más de un millón de páginas únicas con contenido que cambia con frecuencia (una vez por semana)
- Sitios webs medianos (con más de 10.000 páginas únicas) con contenido que cambia muy rápido (diariamente)
Cabe destacar que aunque el Crawl Budget no es una tema que afecte a todas las webs, pero siempre es bueno priorizar que deseamos que GoogleBot rastree.
¿Por qué es importante para SEO?
Si Google no rastrea las páginas de tu web, no las indexará y, por tanto, no podrán captar tráfico orgánico.
OJO que no todo lo que se rastrea, se indexa. Recuerda que cada página rastreada debe analizarse y evaluarse por el algoritmo para que éste decida si tiene la calidad necesaria para que sea introducida en el índice de Google.
Factores que afectan al Crawl Budget
Según Google, el crawl budget o presupuesto de rastreo viene determinado por dos factores:
La capacidad de rastreo
La capacidad de rastreo de GoogleBot podría "tirar" muchísimas webs. Por esa razón, ha creado diversos mecanismos para poder limitar la cantidad de páginas que pueden rastrear sus bots con el objetivo de no "estropear" la experiencia de los usuarios de una web sobrecargando los servidores donde está alojada.
La capacidad de rastreo depende de:
- La salud del rastreo. Si una web responde bien y rápido a las peticiones de GoogleBot, éste empezará a aumentar el ritmo de rastreo. En caso de que la web empiece a ralentizarse o empiece a devolver errores 50X, el ritmo de rastreo disminuirá.
- Límite de rastreo fijado por el administrador. Desde hace mucho tiempo, los webmasters pueden limitar las peticiones realizadas por GoogleBot directamente desde Google Search Console.
- Límites técnicos de Google. Aunque Google sea todopoderoso, también tiene sus limitaciones y puede que, en algún momento, no tenga los recursos técnicos necesarios para crawlear tu web. (Esto me sorprendería mucho jeje)
Demanda de rastreo
Google tiene en cuenta diversos factores (como el tamaño de la web, la calidad de sus páginas, su actualización y relevancia) para determinar el tiempo que debe destinar a cada web. Este cálculo, normalmente, suele satisfacer la demanda de rastreo que exige cada web.
La demanda de rastreo depende de:
- Tamaño de la web. Google por defecto tratará siempre de rastrear todas las páginas de tu web. Dependerá del buen trabajo que hagas priorizando esas URLs para evitar que pierda el tiempo rastreando páginas sin valor y deje sin rastrear las páginas que realmente puede aportar un gran valor SEO.
- Popularidad de las páginas. Las URLs que más visitas orgánicas reciban serán rastreadas en mayor medida para que Google pueda tener siempre la versión más actualizada del contenido.
- Actualizaciones del contenido. De manera periódica, Google irá rastreando tu contenido con el fin de tener siempre en su índice la versión más actualizada. Cuanto más actualices tu contenido, más frecuentes serán los rastreos de GoogleBot.
- Cambios importantes en la web. Algunos cambios como una migración o una subida masiva de contenido, podrían aumentar de manera temporal la frecuencia de rastreo.
Como optimizar tu Crawl Budget
Vale ahora que ya entiendes un poco más sobre cómo se "calcula" el crawl budget y si podría estar afectando a tu web, echemos un vistazo a algunas de las opciones que tienes para poder optimizarlo:
Eliminando el contenido duplicado
Este es un caso bastante común.
Si dentro de nuestra web, encontramos que muchas de nuestras páginas están duplicadas, Google estaría rastreando el mismo contenido varias veces. De esta forma estaríamos malgastando nuestro Crawl Budget en páginas que Google ya ha rastreado y que no nos aportan ningún tipo de valor.
Corrigiendo los errores 404
Debemos evitar que GoogleBot pierda muchos recursos en rastrear páginas que estén devolviendo un código de respuesta 404, puesto que realmente este tipo de páginas no tienen ningún valor SEO.
Redirecciones internas
Es normal que existan redirecciones internas dentro de todas las webs (especialmente cuando tienen un tamaño considerable), deberemos intentar disminuir su impacto en el camino de GoogleBot.
Es decir, si tenemos muchas redirecciones internas (ya sean 301 o 302) intentemos solventar primero todas aquellas que se encuentren relacionadas con los contenidos o páginas de mayor valor SEO de nuestra web.
Otro tema a priorizar en el caso de las redirecciones internas es el caso de los bucles de redirecciones. Deberemos tratar de arreglar todos los bucles de redirecciones puesto que esto si puede causar un problema de rastreo bastante grave.
Contenidos de baja calidad
Una vez más, debemos evitar que GoogleBot pierda el tiempo en rastrear contenidos o páginas sin ningún tipo de valor SEO.
Rastrear este tipo de contenido solo podrá ocasionarte que, en determinadas ocasiones, no tenga tiempo para rastrear el contenido verdaderamente importante.
Cuidado con los filtros
En muchas ocasiones, especialmente en los ecommerces, los filtros pueden llegar a generar cientos de miles de URLs parametrizas, y, teniendo en cuenta que si la URL es distinta, Google las considera páginas distintas... Eso puede convertirse en un problema.
¿Significa eso que todas las URLs con parámetros no deberían ser rastreadas?
NO. Solo quiere decir que debemos asegurarnos de que únicamente dejemos rastrear aquellas URLs parametrizadas que puedan o tengan demanda orgánica.
De lo contrario, podríamos generar un problema de crawl budget y puede que incluso otro de contenido duplicado.
Bloquea páginas donde GoogleBot no pueda interactuar
Como comenta el mismo Google, no tiene sentido que Googlebot rastree páginas en las éste no puede interactuar. Algunos ejemplos podrían ser la página de contacto, la página del carrito, ...
Aunque bloquear dos o tres páginas no va a resolver tu problema de crawl budget, si que algunas webs pueden generar muchas páginas diseñadas para que el usuario interaccione y que pueden no tener valor para los motores de búsqueda.
Optimiza tu sitemap
El sitemap es una herramienta que podemos usar para priorizar las URLs que queramos que Google rastree con mayor frecuencia.
Además, crear diversos sitemaps te permitirá poder controlar directamente el rastreo y la indexación de las URLs contenidas en cada uno directamente desde Search Console.
Conclusión
Aunque cada vez Google hace más avances para poder ser más eficiente rastreando las webs, debemos tener en cuenta que esos esfuerzos se ven diluidos por la cantidad de contenidos y webs que se publican diariamente en internet.
Por lo tanto, si crees que tu web podría verse afectada por problemas de crawl budget o presupuesto de rastreo, nunca viene mal realizar algunas de las acciones propuestas en este post.
Espero que este post haya sido de utilidad y recuerda que para cualquier duda, como siempre, te espero en los comentarios o en la página de contacto.