Médias contre IA : pourquoi 80 % des grands sites bloquent les robots d’entraînement en 2026

10 juin 2026 · 6 min de lecture · alain

80 % des principaux sites d’information américains bloquent aujourd’hui les robots d’OpenAI qui aspirent leur contenu pour entraîner des modèles comme ChatGPT, selon une étude de BuzzStream publiée en février 2026. Le New York Times, la BBC, NBC News et le Wall Street Journal refusent désormais l’accès à leurs articles. Cette vague de blocages change la donne : les chatbots IA s’appuient de plus en plus sur des sources de moindre qualité, pendant que les médias traditionnels tentent de reprendre le contrôle de leur contenu.

79 % des grands médias bloquent GPTBot, 36 % filtrent Google-Extended

L’étude BuzzStream a analysé les 50 plus grands sites d’information américains et britanniques. Résultat : 79 % d’entre eux bloquent les robots d’entraînement IA via leur fichier robots.txt. GPTBot (OpenAI) est le plus filtré, suivi de près par les crawlers d’Anthropic et Meta.

Google-Extended, le robot d’entraînement de Google, s’en tire mieux : seulement 36 % des sites le bloquent, selon le Reuters Institute. Cette différence s’explique par les partenariats de contenu que Google a négociés avec certains éditeurs. Le crawler de Perplexity est bloqué par 67 % des sites , un chiffre qui grimpe vite depuis que l’entreprise fait face à des accusations de copie non autorisée.

Les robots de « récupération » (ceux qui alimentent les réponses en temps réel des chatbots) sont aussi visés : 71 % des sites bloquent ChatGPT-User, Claude-Web ou OAI-SearchBot. CNBC, The Hill et MSN ont ajouté Perplexity à leur liste noire. Le New York Times bloque jusqu’à Claudebot, un des crawlers les plus discrets du marché.

Type de robot	Taux de blocage	Exemples
Entraînement IA	79 %	GPTBot, Anthropic, Meta
Google-Extended	36 %	Crawler Google
Récupération en direct	71 %	ChatGPT-User, Claude-Web
Perplexity	67 %	PerplexityBot

Source : BuzzStream, février 2026

À l’opposé, 14 % des 50 premiers éditeurs laissent tous les robots entrer : Fox News, The Independent, GB News, Politico ou encore le Drudge Report. Ce dernier n’a même pas de page robots.txt.

Pourquoi les médias de qualité bloquent, les sites douteux laissent passer

Une analyse de NewsGuard sur 500 sites d’actualité révèle un schéma clair : plus un média est fiable, plus il bloque les crawlers IA. Les sites notés entre 80 et 100 sur l’échelle de confiance de NewsGuard bloquent en moyenne trois robots sur sept. Ceux notés entre 0 et 60 en bloquent moins d’un.

Yahoo et le Washington Post, tous deux notés 100/100, interdisent les sept principaux crawlers analysés. NBC News (100/100) et Today.com (95/100) font pareil. À l’inverse, des sites comme ZeroHedge (15/100, connu pour diffuser des théories complotistes) ou Bipartisan Report (57,5/100, mélange actualité et opinion sans transparence) laissent tout passer.

Résultat concret : quand vous posez une question d’actualité à ChatGPT ou Claude, vous avez plus de chances de tomber sur un contenu issu d’un site peu fiable que sur un article du Guardian (Trust Score 100/100, bloque tous les bots) ou de NBC. Les modèles IA s’entraînent et répondent avec ce qu’ils peuvent récupérer, pas forcément ce qui est vérifié.

Les motivations des éditeurs qui bloquent sont doubles. Le New York Times, qui poursuit OpenAI en justice depuis fin 2023, veut être payé pour l’utilisation de ses articles. D’autres médias craignent qu’une IA génère des informations fausses et les attribue à leur marque, ce qui pourrait détruire leur crédibilité. Harry Clarkson-Bennett, directeur SEO du Telegraph, résume : « Les LLM ne sont pas conçus pour envoyer du trafic de référence, et les éditeurs ont encore besoin de ce trafic pour survivre. Donc on bloque, parce que ces entreprises ne veulent pas payer pour le contenu qui a servi à entraîner leurs modèles. »

Trois éditeurs de droite américains ouvrent grand la porte

Plusieurs médias conservateurs américains ne bloquent aucun robot IA : Newsmax, Breitbart, Zero Hedge et Fox News, malgré que d’autres propriétés de Murdoch (comme le Wall Street Journal) filtrent les crawlers. GB News au Royaume-Uni suit la même ligne.

Cette ouverture a un effet : les chatbots peuvent citer ces sources sans restriction. Si ces sites produisent du contenu factuel, pas de souci. Mais quand il s’agit de sources notées faibles par NewsGuard, l’IA risque de reproduire des biais ou des inexactitudes dans ses réponses. Un utilisateur qui interroge Perplexity ou ChatGPT sur un sujet politique pourrait recevoir un angle uniquement alimenté par les sites qui laissent entrer les robots.

À gauche, The Independent et l’Evening Standard (groupe Lebedev) laissent aussi passer tous les crawlers, tout comme les sites Ladbible et Unilad. Reach, éditeur du Mirror, de l’Express et du Manchester Evening News, autorise l’accès complet sur tous ses sites.

Un cas particulier : le Daily Beast, propriété d’IAC. Son président, Barry Diller, réclame publiquement une compensation pour les éditeurs. Pourtant, le Daily Beast ne bloque rien. Trois autres sites d’IAC (People, Entertainment Weekly, Investopedia) bloquent seulement GPTBot, laissant passer les autres.

Les robots contournent robots.txt, les éditeurs cherchent la parade

Le fichier robots.txt est un accord tacite du web depuis les années 1990. Un site y indique quels robots peuvent ou non explorer ses pages. Problème : ce n’est qu’une demande, pas un verrou technique. Un développeur peut programmer son bot pour ignorer totalement ces instructions, comme l’a expliqué The Verge dans un article récent sur l’histoire de cette convention.

Des accusations circulent déjà. Perplexity fait face à des soupçons de contournement, ce qui explique peut-être pourquoi MSN, CNBC et The Hill l’ont spécifiquement banni. Si les robots ne respectent pas les règles, les éditeurs perdent le peu de contrôle qu’ils pensaient avoir.

Face à cette situation, Anthony Katsur, PDG de l’IAB Tech Lab, a proposé en janvier 2026 lors d’une conférence à Londres que tous les éditeurs « se donnent la main » et bloquent collectivement les bots pendant 72 heures, « juste pour montrer qu’il y a une force chez les éditeurs, grands et petits ». Son argument : sans rareté du contenu, aucun marché ne peut exister. « Dans l’histoire de l’humanité, aucun marché n’a jamais été créé quand les choses sont données gratuitement ou simplement volées. »

Cette idée de grève coordonnée n’a pas encore été testée, mais elle illustre la frustration croissante. Pendant ce temps, certains médias négocient directement des licences avec OpenAI, Google ou Anthropic. Ces accords leur rapportent de l’argent et garantissent que leur contenu sera utilisé selon leurs conditions. Mais cela crée un web à deux vitesses : les médias qui ont les moyens de négocier, et les autres.

Ce qu’en disent les experts IA

# Major news websites block AI crawlers specifically from OpenAI. **A recent study by the Reuters Institute shows that a significant number of news websites are blocking AI crawlers from OpenAI and Google. These crawlers collect data from websites to… — forum

# Many News Sites Are Blocking AI Web Crawlers, New Research Shows. New research by the Reuters Institute finds that news organizations in the U.S. are blocking artificial intelligence companies from copying the news sites' online content, a process known… — forum

Les performances des outils IA mentionnés peuvent varier selon les usages et évoluent rapidement. Vérifiez les tarifs et conditions directement auprès des éditeurs.

#actualité #Communauté IA #IA #intelligence artificielle #médias #OpenAI #Traduit

Médias contre IA : pourquoi 80 % des grands sites bloquent les robots d’entraînement en 2026

79 % des grands médias bloquent GPTBot, 36 % filtrent Google-Extended

Pourquoi les médias de qualité bloquent, les sites douteux laissent passer

Trois éditeurs de droite américains ouvrent grand la porte

Les robots contournent robots.txt, les éditeurs cherchent la parade

Ce qu’en disent les experts IA

Articles similaires

Common Crawl accusé de voler du contenu payant pour l’IA : ce que ça change pour vous

SEO en 2026 : comment préparer votre site e-commerce pour les assistants IA

Google change l’adresse de ses robots d’indexation : ce qui peut casser votre site