Quelle est la limite de taille HTML pour Googlebot ?

Googlebot ne crawle que les 2 premiers Mo de HTML non compressé pour l'indexation Search. Au-delà, le contenu est tronqué silencieusement sans alerte dans Google Search Console.

La compression gzip réduit-elle la taille vue par Googlebot ?

Non, la limite s'applique aux données non compressées. Gzip et Brotli réduisent le transfert réseau mais pas la taille que Googlebot prend en compte pour l'indexation.

Les fichiers CSS et JavaScript sont-ils concernés par la limite de 2 Mo ?

Chaque ressource (CSS, JS, images) est fetchée séparément avec sa propre limite. Un bundle JS de 3 Mo ne pénalise pas l'indexation du HTML car c'est une requête distincte.

Mon site est-il concerné par ces limites ?

Probablement pas. 90 % des pages web font moins de 151 Ko de HTML, soit 13 fois moins que la limite. Les profils à risque sont les SPA avec du JS/CSS inline massif, les pages avec des images base64, ou les CMS générant du JSON-LD volumineux.

Googlebot : les nouvelles limites de taille de fichiers

Trois limites, trois contextes

En février 2026, Google a mis à jour sa documentation développeur pour clarifier les limites de taille de fichiers de ses crawlers. Trois seuils coexistent désormais :

15 Mo : limite par défaut pour tous les crawlers et fetchers Google (Shopping, News, Gemini, AdSense)
2 Mo : limite spécifique à Googlebot pour le HTML et les fichiers texte destinés au Search
64 Mo : limite spécifique pour les fichiers PDF

Ces limites s'appliquent aux données non compressées. La compression gzip ou Brotli ne change rien au calcul.

Ce qui se passe au-delà de la limite

Quand un fichier dépasse le seuil, Googlebot arrête le téléchargement et n'envoie que la partie déjà récupérée pour indexation. Les tests de Spotibo le confirment : un fichier HTML de 3 Mo a été tronqué net à 2 Mo, coupé en plein mot ("Prevention is b"). Un fichier de 16 Mo a déclenché une erreur générique.

Point critique : la troncature est silencieuse. Google Search Console ne signale aucune alerte. Pire, l'outil d'inspection d'URL utilise le crawler "Google-InspectionTool" qui opère sous la limite de 15 Mo, pas 2 Mo — il affiche donc le contenu complet alors que Googlebot l'a tronqué.

Chaque ressource est indépendante

Chaque fichier CSS, JavaScript ou image référencé dans le HTML est fetché séparément avec sa propre limite. Un bundle JavaScript de 3 Mo ne pénalise pas l'indexation du HTML, car c'est une requête distincte.

Cette architecture explique pourquoi les sites modernes avec de nombreuses ressources externes ne sont généralement pas affectés : seul le HTML doit tenir dans les 2 Mo.

Qui est réellement concerné ?

La réponse courte : presque personne. Selon John Mueller, 90 % des pages web contiennent moins de 151 Ko de HTML. La médiane se situe autour de 30 Ko — soit 60 fois moins que la limite.

Les profils à risque restent très spécifiques :

Single Page Applications avec du JavaScript/CSS inline massif
Pages avec des images en base64 encodées dans le HTML (data URLs)
CMS legacy générant du JSON-LD volumineux ou du code inline excessif
Pages de données avec des tableaux HTML géants (catalogues produits, listings)

Documentation ou changement réel ?

Google insiste : il s'agit d'une clarification documentaire, pas d'un changement de comportement. La limite de 15 Mo existait depuis 2022. La nouveauté est l'organisation : les limites générales ont été déplacées vers la documentation crawler commune, et les limites spécifiques au Search restent sur la page Googlebot.

Cette réorganisation s'inscrit dans un mouvement plus large depuis fin 2025, où Google a migré sa documentation crawling vers un site dédié multi-produits. Un signal que l'écosystème de crawlers Google s'élargit au-delà du Search.

Recommandations pratiques

Auditer la taille HTML via DevTools (onglet Network, filtre "Doc") — viser moins de 1 Mo
Déplacer le code inline vers des fichiers externes (CSS, JS)
Remplacer les data URLs par des images externes
Placer le contenu critique en haut du HTML, avant tout code non essentiel
Ne pas se fier à l'inspection d'URL de GSC pour valider les limites de taille