Aller au contenu principal

Crawlers IA : 79 % des sites d'actu bloquent les bots, mais Anthropic crawle 38 000 pages pour 1 visite référée

26 févr. 2026 2 min de lecture Paul Forcadel
Crawlers IA : 79 % des sites d'actu bloquent les bots, mais Anthropic crawle 38 000 pages pour 1 visite référée

La guerre des robots.txt s'intensifie

En février 2026, Anthropic a mis à jour la documentation de ses crawlers web, formalisant un système à trois bots : ClaudeBot (collecte pour l'entraînement IA), Claude-User (récupération de pages à la demande des utilisateurs) et Claude-SearchBot (indexation pour les résultats de recherche). OpenAI a adopté la même structure en décembre 2025 avec GPTBot, ChatGPT-User et OAI-SearchBot.

Cette segmentation donne aux éditeurs un contrôle plus granulaire : bloquer l'entraînement sans se couper de la recherche IA. Mais une différence clé persiste — Anthropic affirme que ses trois bots respectent robots.txt, tandis qu'OpenAI prévient que ChatGPT-User peut ignorer ces directives.

Un déséquilibre crawl-trafic massif

Les chiffres sont éloquents. En juillet 2025, ClaudeBot crawlait 38 000 pages pour chaque visite référée vers les sites sources. Côté OpenAI, le ratio était de 1 700 pour 1 en juin 2025. À titre de comparaison, Google renvoie du trafic proportionnel à son indexation.

Selon une analyse HTTP Archive sur 12,2 millions de sites, 94 % possèdent un fichier robots.txt. GPTBot est référencé sur 21 % des 1 000 sites les plus visités, et ClaudeBot sur plus de 560 000 sites — une croissance fulgurante depuis son apparition sur 2 382 sites en décembre 2023.

Les éditeurs dans le dilemme

Une étude BuzzStream révèle que 79 % des sites d'actualité majeurs bloquent au moins un bot d'entraînement IA, mais 71 % bloquent aussi un bot de recherche ou de récupération — se coupant potentiellement des citations dans les réponses IA. Une étude de janvier 2026 montre que les éditeurs qui bloquent les crawlers IA voient leur trafic total chuter de 23 %.

La stratégie émergente : autoriser les bots de recherche (OAI-SearchBot, Claude-SearchBot) tout en bloquant les bots d'entraînement. Selon Hostinger, la couverture d'OAI-SearchBot est passée de 4,7 % à plus de 55 % des sites échantillonnés, tandis que celle du bot d'entraînement GPTBot a chuté de 84 % à 12 %.

L'infrastructure sous pression

L'impact va au-delà du SEO. La Wikimedia Foundation alerte sur un volume de crawl « sans précédent » qui engendre des coûts croissants. Un développeur rapporte 700 Go/mois de trafic bot contre 100 Go auparavant, soit 90 $ de surcoût mensuel. SourceHut subit des dizaines de pannes hebdomadaires à cause des crawlers LLM.

Face à cette pression, de nouveaux outils émergent : Cloudflare propose AI Labyrinth (contenus piégés pour les bots) et un service de monétisation pay-per-crawl. Des solutions communautaires comme Anubis (proof-of-work) et Nepenthes (labyrinthes de liens infinis) gagnent en popularité.

Un modèle économique à inventer

Le statu quo est intenable. Les crawlers IA consomment massivement les contenus du web ouvert sans contrepartie proportionnelle. La segmentation des bots est un premier pas vers un équilibre, mais la question fondamentale reste ouverte : comment rémunérer les créateurs de contenu qui alimentent les modèles IA ?

Partager cet article

Questions fréquentes

ClaudeBot collecte du contenu pour l'entraînement des modèles IA, Claude-User récupère des pages quand un utilisateur pose une question à Claude, et Claude-SearchBot indexe le contenu pour les résultats de recherche. Chacun peut être bloqué indépendamment via robots.txt.
C'est un choix stratégique. Bloquer les bots d'entraînement (ClaudeBot, GPTBot) protège votre contenu, mais bloquer aussi les bots de recherche peut réduire votre visibilité dans les réponses IA. Les éditeurs qui bloquent tout perdent en moyenne 23 % de trafic.
Les deux utilisent une structure à trois bots (entraînement, recherche, utilisateur). La différence clé : Anthropic affirme que ses trois bots respectent robots.txt, tandis qu'OpenAI prévient que ChatGPT-User peut ignorer ces directives.
En juillet 2025, ClaudeBot crawlait 38 000 pages pour chaque visite référée aux éditeurs. OpenAI affichait un ratio de 1 700:1. Ce déséquilibre massif par rapport aux moteurs de recherche traditionnels est au cœur de la tension avec les éditeurs.

Sources

Références et articles originaux

Rédigé par

Paul Forcadel

Paul Forcadel

Fondateur & Rédacteur en chef

Passionné de SEO, Paul décrypte les dernières évolutions des moteurs de recherche et du référencement naturel.

Articles connexes

Parcourir par catégorie