Une réduction de 86,7 % de la limite
Le 3 février 2026, Google a mis à jour sa documentation pour révéler que Googlebot n'indexe plus que les 2 premiers MB d'un fichier HTML, contre 15 MB auparavant — soit une réduction de 86,7 %. Les fichiers PDF conservent leur limite de 64 MB, et la limite générale de fetch des crawlers Google reste à 15 MB.
Cette distinction est cruciale : Googlebot télécharge jusqu'à 15 MB, mais n'envoie pour indexation que les 2 premiers MB de données non compressées.
Troncature silencieuse, zéro avertissement
Les tests réalisés par Spotibo confirment le comportement : un fichier HTML de 3 MB est fetché mais seuls les 2 premiers MB sont indexés, avec une troncature brutale en plein milieu d'un mot. Aucun warning n'apparaît dans Google Search Console.
Pire : l'URL Inspection Tool utilise le crawler Google-InspectionTool (limite 15 MB), pas Googlebot. Il affiche donc le contenu complet, masquant les problèmes de troncature réels. Un fichier HTML de 16 MB, lui, est purement et simplement rejeté.
Impact limité pour la plupart des sites
John Mueller a relativisé : le 90e percentile des pages HTML ne fait que 151 KB — soit 13 fois sous la limite. Selon le Web Almanac 2025, la médiane se situe à environ 33 KB. Les sites standards ne sont pas concernés.
En revanche, les Single Page Applications avec de gros bundles JavaScript non compressés risquent la troncature. Le code splitting devient une stratégie de mitigation indispensable pour ces architectures.
Pourquoi maintenant ?
Selon les analystes, cette réduction reflète une optimisation des coûts d'infrastructure chez Google, qui redirige ses ressources de crawl vers les fonctionnalités IA — AI Overviews, AI Mode, Gemini — bien plus gourmandes en calcul que le search classique.
Mueller conseille de « placer le contenu important dans une position raisonnable, pas seulement en bas de page ». Pour les développeurs : éviter les images Base64 inline, privilégier les fichiers séparés, et surveiller la taille HTML avec des outils de monitoring.