Trois limites, trois contextes
En février 2026, Google a mis à jour sa documentation développeur pour clarifier les limites de taille de fichiers de ses crawlers. Trois seuils coexistent désormais :
- 15 Mo : limite par défaut pour tous les crawlers et fetchers Google (Shopping, News, Gemini, AdSense)
- 2 Mo : limite spécifique à Googlebot pour le HTML et les fichiers texte destinés au Search
- 64 Mo : limite spécifique pour les fichiers PDF
Ces limites s'appliquent aux données non compressées. La compression gzip ou Brotli ne change rien au calcul.
Ce qui se passe au-delà de la limite
Quand un fichier dépasse le seuil, Googlebot arrête le téléchargement et n'envoie que la partie déjà récupérée pour indexation. Les tests de Spotibo le confirment : un fichier HTML de 3 Mo a été tronqué net à 2 Mo, coupé en plein mot ("Prevention is b"). Un fichier de 16 Mo a déclenché une erreur générique.
Point critique : la troncature est silencieuse. Google Search Console ne signale aucune alerte. Pire, l'outil d'inspection d'URL utilise le crawler "Google-InspectionTool" qui opère sous la limite de 15 Mo, pas 2 Mo — il affiche donc le contenu complet alors que Googlebot l'a tronqué.
Chaque ressource est indépendante
Chaque fichier CSS, JavaScript ou image référencé dans le HTML est fetché séparément avec sa propre limite. Un bundle JavaScript de 3 Mo ne pénalise pas l'indexation du HTML, car c'est une requête distincte.
Cette architecture explique pourquoi les sites modernes avec de nombreuses ressources externes ne sont généralement pas affectés : seul le HTML doit tenir dans les 2 Mo.
Qui est réellement concerné ?
La réponse courte : presque personne. Selon John Mueller, 90 % des pages web contiennent moins de 151 Ko de HTML. La médiane se situe autour de 30 Ko — soit 60 fois moins que la limite.
Les profils à risque restent très spécifiques :
- Single Page Applications avec du JavaScript/CSS inline massif
- Pages avec des images en base64 encodées dans le HTML (data URLs)
- CMS legacy générant du JSON-LD volumineux ou du code inline excessif
- Pages de données avec des tableaux HTML géants (catalogues produits, listings)
Documentation ou changement réel ?
Google insiste : il s'agit d'une clarification documentaire, pas d'un changement de comportement. La limite de 15 Mo existait depuis 2022. La nouveauté est l'organisation : les limites générales ont été déplacées vers la documentation crawler commune, et les limites spécifiques au Search restent sur la page Googlebot.
Cette réorganisation s'inscrit dans un mouvement plus large depuis fin 2025, où Google a migré sa documentation crawling vers un site dédié multi-produits. Un signal que l'écosystème de crawlers Google s'élargit au-delà du Search.
Recommandations pratiques
- Auditer la taille HTML via DevTools (onglet Network, filtre "Doc") — viser moins de 1 Mo
- Déplacer le code inline vers des fichiers externes (CSS, JS)
- Remplacer les data URLs par des images externes
- Placer le contenu critique en haut du HTML, avant tout code non essentiel
- Ne pas se fier à l'inspection d'URL de GSC pour valider les limites de taille