Une refonte complète de la documentation crawlers
En septembre 2024, Google a profondément réorganisé sa documentation sur les crawlers et fetchers. L'ancienne page unique, devenue trop longue, a été scindée en plusieurs pages thématiques avec deux nouveaux éléments pour chaque crawler : les produits affectés et des exemples robots.txt prêts à l'emploi.
Cette restructuration clarifie la distinction entre crawlers impactant le Search (Googlebot), ceux dédiés à l'IA (Google-Extended, Google-CloudVertexBot), les crawlers publicitaires (AdsBot) et les outils spécialisés.
GoogleProducer : le fetcher des previews de liens
Parmi les mises à jour, Google a officialisé GoogleProducer, un fetcher spécialisé dans la récupération des métadonnées pour les aperçus de liens (previews) sur les plateformes sociales et applications de messagerie.
Concrètement, GoogleProducer récupère les flux RSS/Atom soumis via Google Publisher Center pour générer les previews affichés quand un lien est partagé. Son user-agent a été mis à jour :
GoogleProducer; (+https://developers.google.com/search/docs/crawling-indexing/google-producer)
Détail important : en tant que fetcher déclenché par l'utilisateur, GoogleProducer ignore le robots.txt puisque la soumission du flux vaut autorisation explicite. Bloquer ce crawler empêcherait l'affichage des previews de vos liens, réduisant l'engagement et le CTR sur les réseaux sociaux.
Indexing API : le tour de vis anti-spam
Parallèlement, Google a ajouté un avertissement anti-spam bien visible dans la documentation de l'Indexing API. Le message est sans ambiguïté :
"Toutes les soumissions font l'objet d'une détection rigoureuse du spam. Toute tentative d'abus, y compris l'utilisation de comptes multiples pour dépasser les quotas, peut entraîner la révocation de l'accès."
L'API reste strictement limitée aux pages contenant du balisage JobPosting (offres d'emploi) ou BroadcastEvent dans VideoObject (vidéos en direct). Le quota par défaut est de 200 appels, avec possibilité de demander une extension après validation.
John Mueller a enfoncé le clou : la plupart des sites qui détournent l'Indexing API à d'autres fins que celles prévues sont spammy. Le message est clair : utiliser l'API pour indexer des pages classiques (articles, fiches produit) expose à une révocation pure et simple.
Ce que ça change pour les SEO
Ces mises à jour s'inscrivent dans la volonté de Google de mieux documenter et contrôler l'accès à son infrastructure de crawl :
- GoogleProducer : pas d'action requise si vous utilisez Publisher Center normalement. Ne le bloquez pas dans votre robots.txt sous peine de perdre vos previews de liens
- Indexing API : abandonnez les plugins WordPress ou scripts qui soumettent vos articles de blog via cette API. Google détecte et sanctionne désormais activement ces usages non conformes
- Documentation crawlers : la nouvelle structure facilite le paramétrage précis du robots.txt par produit Google
La tendance est claire : Google ferme progressivement les portes aux usages détournés de ses outils d'indexation.