Une page pour tout comprendre
Le 3 mars 2026, Google a publié « Things to know about Google's web crawling » dans sa documentation Crawling Infrastructure. Pour la première fois, l'ensemble de la logique de crawl est condensé en une seule page en 9 sections — de la définition du crawling aux contrôles robots.txt.
Ce document éducatif lève le voile sur des mécanismes que Google n'avait jamais formalisés aussi clairement.
« Frequent crawling is a good sign »
C'est le message clé : si Googlebot visite souvent votre site, c'est un signal positif. Google y voit un indicateur de « contenu frais et pertinent que les gens veulent trouver ». L'exemple donné : les sites e-commerce sont recrawlés fréquemment pour capturer les prix et stocks en temps réel.
La fréquence varie considérablement : toutes les quelques minutes pour une page d'actualités chaudes, tous les mois pour un contenu stable. Le crawl s'ajuste automatiquement.
Le rendering, un processus devenu massif
Google révèle que ses crawlers chargent les pages comme un vrai navigateur — JavaScript compris — pour les « voir » telles qu'un utilisateur les verrait. Le document souligne l'explosion de la complexité : la page mobile médiane est passée de 816 KB à 2,3 MB et nécessite le chargement de plus de 60 fichiers (images, scripts, composants interactifs).
Cette réalité explique en partie la nouvelle limite d'indexation de 2 MB annoncée en février 2026.
Efficacité automatique et respect des paywalls
Les crawlers réduisent automatiquement leur rythme quand un serveur ralentit ou retourne des erreurs. Ils utilisent un système de cache pour éviter les requêtes redondantes et identifient les sections nécessitant peu de recrawl (calendriers en scroll infini, archives statiques).
Le document confirme aussi que les crawlers ne franchissent pas les paywalls sans permission explicite via les données structurées.
Google-Extended n'affecte pas le Search
Point important pour les éditeurs : utiliser Google-Extended dans robots.txt pour bloquer l'entraînement de Gemini n'a aucun impact sur l'inclusion ou le classement dans Google Search. Les deux systèmes sont indépendants — un soulagement pour ceux qui hésitaient à restreindre l'IA sans risquer leur visibilité organique.