Aller au contenu principal

Googlebot : Google documente trois limites de taille — 2 Mo pour le HTML, 15 Mo par défaut, 64 Mo pour les PDF

4 févr. 2026 3 min de lecture Paul Forcadel
Googlebot : Google documente trois limites de taille — 2 Mo pour le HTML, 15 Mo par défaut, 64 Mo pour les PDF

Trois limites, trois contextes

En février 2026, Google a mis à jour sa documentation développeur pour clarifier les limites de taille de fichiers de ses crawlers. Trois seuils coexistent désormais :

  • 15 Mo : limite par défaut pour tous les crawlers et fetchers Google (Shopping, News, Gemini, AdSense)
  • 2 Mo : limite spécifique à Googlebot pour le HTML et les fichiers texte destinés au Search
  • 64 Mo : limite spécifique pour les fichiers PDF

Ces limites s'appliquent aux données non compressées. La compression gzip ou Brotli ne change rien au calcul.

Ce qui se passe au-delà de la limite

Quand un fichier dépasse le seuil, Googlebot arrête le téléchargement et n'envoie que la partie déjà récupérée pour indexation. Les tests de Spotibo le confirment : un fichier HTML de 3 Mo a été tronqué net à 2 Mo, coupé en plein mot ("Prevention is b"). Un fichier de 16 Mo a déclenché une erreur générique.

Point critique : la troncature est silencieuse. Google Search Console ne signale aucune alerte. Pire, l'outil d'inspection d'URL utilise le crawler "Google-InspectionTool" qui opère sous la limite de 15 Mo, pas 2 Mo — il affiche donc le contenu complet alors que Googlebot l'a tronqué.

Chaque ressource est indépendante

Chaque fichier CSS, JavaScript ou image référencé dans le HTML est fetché séparément avec sa propre limite. Un bundle JavaScript de 3 Mo ne pénalise pas l'indexation du HTML, car c'est une requête distincte.

Cette architecture explique pourquoi les sites modernes avec de nombreuses ressources externes ne sont généralement pas affectés : seul le HTML doit tenir dans les 2 Mo.

Qui est réellement concerné ?

La réponse courte : presque personne. Selon John Mueller, 90 % des pages web contiennent moins de 151 Ko de HTML. La médiane se situe autour de 30 Ko — soit 60 fois moins que la limite.

Les profils à risque restent très spécifiques :

  • Single Page Applications avec du JavaScript/CSS inline massif
  • Pages avec des images en base64 encodées dans le HTML (data URLs)
  • CMS legacy générant du JSON-LD volumineux ou du code inline excessif
  • Pages de données avec des tableaux HTML géants (catalogues produits, listings)

Documentation ou changement réel ?

Google insiste : il s'agit d'une clarification documentaire, pas d'un changement de comportement. La limite de 15 Mo existait depuis 2022. La nouveauté est l'organisation : les limites générales ont été déplacées vers la documentation crawler commune, et les limites spécifiques au Search restent sur la page Googlebot.

Cette réorganisation s'inscrit dans un mouvement plus large depuis fin 2025, où Google a migré sa documentation crawling vers un site dédié multi-produits. Un signal que l'écosystème de crawlers Google s'élargit au-delà du Search.

Recommandations pratiques

  • Auditer la taille HTML via DevTools (onglet Network, filtre "Doc") — viser moins de 1 Mo
  • Déplacer le code inline vers des fichiers externes (CSS, JS)
  • Remplacer les data URLs par des images externes
  • Placer le contenu critique en haut du HTML, avant tout code non essentiel
  • Ne pas se fier à l'inspection d'URL de GSC pour valider les limites de taille
Partager cet article

Questions fréquentes

Googlebot ne crawle que les 2 premiers Mo de HTML non compressé pour l'indexation Search. Au-delà, le contenu est tronqué silencieusement sans alerte dans Google Search Console.
Non, la limite s'applique aux données non compressées. Gzip et Brotli réduisent le transfert réseau mais pas la taille que Googlebot prend en compte pour l'indexation.
Chaque ressource (CSS, JS, images) est fetchée séparément avec sa propre limite. Un bundle JS de 3 Mo ne pénalise pas l'indexation du HTML car c'est une requête distincte.
Probablement pas. 90 % des pages web font moins de 151 Ko de HTML, soit 13 fois moins que la limite. Les profils à risque sont les SPA avec du JS/CSS inline massif, les pages avec des images base64, ou les CMS générant du JSON-LD volumineux.

Sources

Références et articles originaux

Rédigé par

Paul Forcadel

Paul Forcadel

Fondateur & Rédacteur en chef

Passionné de SEO, Paul décrypte les dernières évolutions des moteurs de recherche et du référencement naturel.

Articles connexes

Parcourir par catégorie