¿Qué significa "crawl budget" (presupuesto de rastreo) para el robot de Google?

Últimamente se han oído muchas definiciones del término «crawl budget» o «presupuesto de rastreo». Sin embargo, no hay una única palabra que describa íntegramente este concepto para los usuarios. Esta entrada de blog pretende aclarar qué es y qué significa para el robot de Google.

En primer lugar, quiero resaltar que, como se describe a continuación, no es algo que debería preocupar a la mayoría de los editores. Si las páginas nuevas suelen rastrearse el mismo día en que se publican, no es imprescindible que los webmasters se fijen en el presupuesto de rastreo. Si el sitio web tiene unas pocas miles de URL, casi siempre se rastreará bien.

Priorizar el contenido que se debe rastrear, cuándo debe rastrearse y cuántos recursos puede asumir el servidor que aloja el sitio es más importante para los sitios web grandes o para aquellos que generan páginas automáticamente a partir de parámetros de URL, por ejemplo.



Límite de la frecuencia de rastreo
El robot de Google está diseñado para tener un funcionamiento ejemplar en la Web. Su prioridad es el rastreo, pero también se asegura de que no se degrade la experiencia de los usuarios en el sitio web. Esto se llama «frecuencia de rastreo», que limita la frecuencia con la que se obtienen las páginas de un sitio web.

Es decir, representa el número de conexiones paralelas y simultáneas que utiliza el robot de Google para rastrear el sitio web, así como el tiempo de espera entre cada obtención. La frecuencia de rastreo puede aumentar o disminuir en función de dos factores:

  • Estado del rastreo: si el sitio web responde rápidamente durante un tiempo, el límite aumenta, lo que significa que se pueden usar más conexiones para rastrear las páginas. Si el sitio se ralentiza o genera errores de servidor, el límite disminuye y el robot de Google rastrea menos páginas.
  • Límite definido en Search Console: el propietario de un sitio web puede reducir la frecuencia de rastreo del robot de Google en su sitio. Ampliar el límite no aumenta automáticamente la frecuencia de rastreo.



Demanda de rastreo
Aunque no se alcance el límite de la frecuencia de rastreo, si no hay demanda de indexación, el robot de Google tendrá poco trabajo. Estos son los dos factores que juegan un papel crucial en la demanda de rastreo:

  • Popularidad: las URL que son más populares en la red suelen rastrearse con más frecuencia, para que estén lo más actualizadas posible en nuestro índice.
  • Inactividad: nuestros sistemas intentan evitar que las URL del índice queden inactivas.

Además, los eventos que afectan a todo un sitio, por ejemplo, un traslado, pueden aumentar la demanda de rastreo para que se vuelva a indexar el contenido en las nuevas URL.

La frecuencia y la demanda son la base del presupuesto de rastreo, es decir, el número de URLs que el robot de Google puede y quiere rastrear.



Factores que afectan al presupuesto de rastreo
Según nuestros análisis, si un sitio tiene muchas URL de poca calidad, el rastreo y la indexación podrían verse perjudicados. Estas URL se dividen en las categorías siguientes, por orden de importancia:

  • Navegación por facetas e identificadores de sesión
  • Contenido duplicado en el sitio
  • Páginas con errores menores
  • Páginas pirateadas
  • Espacios infinitos y servidores proxy
  • Contenido spam y de poca calidad

Si malgastamos los recursos del servidor con páginas como éstas, se dejarán de rastrear páginas que verdaderamente son interesantes, lo que puede provocar que se tarde mucho en descubrir el contenido de calidad de un sitio web.



Preguntas frecuentes
Para los sitios web, el rastreo es la puerta de entrada a los resultados de búsqueda de Google. Si este paso se hace bien, la indexación en la Búsqueda de Google será más fácil.


P: ¿La velocidad de un sitio afecta al presupuesto de rastreo? ¿Y los errores?
R: Si un sitio web es rápido, la experiencia del usuario es mejor y el sitio también se rastrea con más frecuencia. Para el robot de Google, si un sitio es rápido significa que los servidores están en buen estado, y puede obtener más contenido con el mismo número de conexiones. En cambio, si hay muchos errores del tipo 5xx o a menudo se agota el tiempo de espera de las conexiones, significa lo contrario y el rastreo se ralentiza.
Te recomendamos que prestes atención al informe de errores de rastreo de Search Console y que reduzcas al máximo los errores de servidor.


P: ¿El rastreo afecta a la clasificación de un sitio web?
R: Que un sitio web se rastree con más frecuencia no significa que vaya a ocupar una mejor posición en los resultados de búsqueda. Google utiliza cientos de indicadores para clasificar los resultados, y aunque rastrear un sitio es imprescindible para que este aparezca en los resultados de búsqueda, no es un factor determinante para la clasificación.


P: ¿En el presupuesto de rastreo se tienen en cuenta las URL alternativas y el contenido insertado?
R: En principio, cualquier URL que rastree el robot de Google se tendrá en cuenta en el presupuesto de rastreo del sitio. Es posible que haya que rastrear las URL alternativas, como AMP o hreflang, y el contenido insertado, como CSS y JavaScript, lo que consumirá el presupuesto del sitio web. Las cadenas largas de redireccionamiento también podrían perjudicar el rastreo.


P: ¿Puedo controlar el robot de Google con la directiva «crawl-delay»?
R: El robot de Google no procesa la directiva «crawl-delay» no estándar de robots.txt.
Si quieres saber cómo mejorar el rastreo de tu sitio web, lee la entrada del blog sobre cómo optimizar el rastreo. Es de 2009, pero las indicaciones siguen vigentes. Y si tienes dudas, publícalas en los foros.


P: ¿La directiva “nofollow” afecta a mi “presupuesto de rastreo”?
R: Depende. Todas la URLs rastreadas afectan al presupuesto de rastreo, de modo que aunque tu página marque una URL como “nofollow”, ésta puede ser rastreada si cualquier otra página en tu sitio o en la web no marca el enlace como “nofollow”.



Escrito por Gary, Equipo de Rastreo y de Indexación. Publicado por Joan Ortiz, Equipo de Calidad de Búsqueda.


Source: Google Webmasters