MENU
Menu
CONTACTO

¿Cómo funciona Google?

consultor seo
Jesús Páez
Actualizado el 16 August, 2021
Tiempo de lectura: 6 minutos

Cómo todos sabemos los motores de búsqueda son softwares cuyo objetivo es responder a nuestras preguntas y solucionar nuestros problemas, pero ¿Sabemos cómo funcionan? ¿Cómo encuentran la información? ¿Cómo la priorizan?

Tranquilo, que en este post responderemos a todas esas preguntas puesto que nos centraremos en cómo funciona Google, que a día de hoy, es uno de los motores de búsqueda más avanzado.

Vamos allá:

¿Qué es Google?

Aunque puede parecer algo obvio nunca está de mal recordarlo.

Google es un motor de búsqueda cuya finalidad es descubrir, entender, y organizar todos los contenidos que encuentra por internet.

De esta forma podrá, después, ofrecer estos contenidos organizados a los usuarios para que puedan encontrar una respuesta a su consulta de manera eficiente.

A continuación veremos cómo funciona Google, pero como se trata de un tema que se pude complicar un poco lo he divido en dos partes: una muy simplicada y otra más avanzada en la que veremos todos y cada uno de los puntos.

Dependiendo de tu necesidad, interés o curiosidad, podrás quedarte en la explicación simplificada o pasar a la avanzada.

Cómo funciona Google explicado de forma simple

El proceso que usa Google para encontrar, comprender y categorizar todo internet se divide en tres fases principalmente:

Rastreo

Rastrear es el proceso que usan los motores de búsqueda para encontrar contenido en internet ya sea nuevo o un contenido que ya ha sido rastreado previamente pero ha sido actualizado.

Para ello, usan unos pequeños robots, que pueden recibir varios nombres: bots, arañas, crawlers, ... Realmente todos los nombres se refieren a lo mismo. En el caso de Google, su bot recibe el nombre de Googlebot.

Pero, ¿De dónde saca Google las URLs de las páginas que tiene que rastrear?

Como el objetivo de estos robots es rastrear todo el contenido que encuentren, lo que hacen es "saltar" entre los enlaces que encuentran en esos contenidos o páginas para, a su vez, encontrar nuevos contenidos (ya sean contenidos de la misma página que están rastreado o contenidos de páginas externas).

Adicionalmente, también usan los sitemaps que envían los webmasters de cada web para añadir todas esas URLs a la cola de rastreo.

¿Qué páginas no rastreará Google?

Existen varios tipos de páginas que Google no es capaz de rastrear:

  • Páginas que se consideren duplicadas de otras páginas. Google no las considerará importantes y, por tanto, las rastreará mucho menos o casi nada.
  • Páginas bloqueadas por el robots.txt. Todas las páginas bloqueadas podrán ser indexadas (si Google encuentra algún enlace externo apuntando hacia ellas), pero, al estar bloquedas, Google no podrá rastrear su contenido.
  • Páginas que se encuentran protegidas por un login. Google nunca se registrará en una web, por lo que si una página necesita que el usuario se encuentre registrado para poder ver su contenido, Google no la rastreará.

Si quieres profundizar en este tema y saber qué páginas si está rastreando Google y cuáles no, te recomiendo que le eches un vistazo al post sobre análisis de logs.

Indexación

La indexación es el proceso por el cual Google procesa cada una de las páginas con el objetivo de entender su contenido.

Con su contenido se hace referencia a todo: texto, imágenes, atributos, encabezados (headings), vídeos, ... En definitiva todo lo que compone la página.

Una vez que Google procesa el contenido de una página la guarda en un "archivador" que recibe el nombre de index.

Una vez la página se encuentra en ese archivador, es cuando podemos decir que la página se encuentra indexada.

¿Cómo podemos saber si una página está indexada o no?

Aunque podemos usar Google Search Console para ello, la manera más rápido es simplemente usando un comando.

Lo unico que tendremos que hacer es añadir en la barra de buscador "site:" más la URL que queramos saber si está indexada.

Por ejemplo si quiero saber si mi post sobre palabras clave está indexado, tendría que coger la URL del post (https://jesuspaez.com/seo/palabras-clave/) y añadirle el "site:" delante. Al buscar en Google esto nos saldrá algo así:

Prueba de indexación de un post

Como podemos ver, la página aparece, por tanto eso quiere decir que Google si que la ha indexado.

Es importante destacar que Google no indexa todas las páginas que rastrea. Si Google considera que tú página es duplicada o que su contenido no aporta valor al usuario, puede no indexarla.

Debemos recordar que si una página no se indexa, nunca recibirá visitas orgánicas puesto que nunca aparecerá en los resultados de búsqueda.

Priorización

Por último, Google ordena los resultados que tiene dentro del index para las diferentes consultas de los usuarios, en función de un algoritmo, que determina qué contenido o página es más relevante para las diferentes palabras clave.

Para calcular esa relevancia Google usa su propio algoritmo que se basa en diferentes factores de ranking SEO.

Aquí tenemos que destacar que Google siempre está actualizando su algoritmo con el objetivo de mejorar su sistema de priorización y ofrecer cada vez mejores resultados a los usuarios.

Si quieres conocer la base de todos esos cambios, es recomendable que le eches un vistazo a la Guía de Calidad de los evaluadores de Google.

Hasta aquí sería la explicación simplificada de cómo funciona Google, ahora, pasemos a la avanzada para todos aquellos que sigáis teniendo interés en conocer más:

Cómo funciona Google - Explicación Avanzada

A continuación veremos, apoyándonos en lo ya aprendido en el apartado anterior, el sistema que realmente usa Google para rastrear e indexar el contenido con muchos más detalles.

En este gráfico podremos observar el camino que siguen los bots de Google para rastrear e indexar todo el contenido de internet.

Gráfico sobre cómo funciona Google/ rastreo, renderización y indexación
Gráfico sobre cómo funciona Google: rastreo, renderización y indexación

La primera parada es la cola de rastreo. En este gran listado es dónde se encuentra el lista de todas las URLs que deberán rastrear los bots de Google. A esta lista se irán añadiendo todas las URLs que manden los usuarios a través de los sitemaps, que manden los usuarios a través de Google Search Console o que descubran los bots en las distintas páginas.

Es importante destacar que esta cola de rastreo se encuentra priorizada, es decir, Googlebot no rastreará siempre todas nuestras URLs, si no que irá yendo a rastrear nuestras páginas cada vez que estas aparezcan en su lista priorizada.

Una URL será priorizada en función de varios factores como pueden ser enlazado externo, popularidad, enlazado interno, si se encuentra en los sitemaps, si se actualiza periódicamente, ...

Una vez se encuentran todas las URLs priorizadas, los bots de Google empiezan a hacer su trabajo.

Googlebot coge la primera URL de la cola de rastreo priorizada y revisa si ésta se encuentra bloqueada por robots.txt.

En caso de no estarlo, realiza la petición y si está devuelve un código 200, extrae el código fuente de la página.

En la fase de procesamiento, se podría decir, que los bots se dividen el trabajo con Caffeine que es el sistema de indexación que actualmente usa Google:

  • Por un lado, los bots (Googlebot) analizan el HTML en busca de nuevos enlaces que añadir a la cola de rastreo y analiza la metaetiqueta "robots".
  • Por otro lado, y en caso de que la URL no se mande a la cola de renderizado, Caffeine se encargará de analizar el contenido de la página para comprobar su valor para el índice.

Actualmente, y lo que pasará cada vez con mayor frecuencia, es que la gran mayoría de URLs se manden directamente a la cola de renderización (a no ser que la página tenga una metaetiqueta "robots" noindex, en cuyo caso se suelen ahorrar la renderización de la URL).

Nota: Aunque antes si que podía haber una diferenciación más clara y que no todas las webs, pasarán por una segunda ola para poder renderizar el JS, pero actualmente están moviéndose a un modelo en el que se renderice directamente todo el contenido.

Ya que en muchas ocasiones era más costoso para Google saber si tenían que renderizar el contenido o no, que directamente renderizarlo.

Una vez la página se encuentra totalmente renderizada, es cuando se analiza todo el contenido para saber si merece la pena que ésta página se indexe y, además, en caso de que se detecten nuevos enlaces, se mandan a la cola de rastreo.

Finalmente, la página se indexa.

Conclusión

Espero que este post haya podido resolver todas tus dudas en cuánto a cómo funciona Google y, sobre todo, te haya servido para alinear esta información con tu estrategia SEO.

Especialmente porque sin rastreo, no hay indexación, y sin indexación no hay tráfico orgánico.

Recuerda que para cualquier duda, como siempre, te espero en los comentarios o en la página de contacto.

5 3 votes
Article Rating
Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments
Jesús Páez
Hola estoy probando
This is a block of text. Double-click this text to edit it. This is a block of text. Double-click this text to edit it. This is a block of text. Double-click this text to edit it.
crosstext-align-left
0
Would love your thoughts, please comment.x
()
x