Une fondation à but non lucratif qui scrape des milliards de pages web chaque mois pour entraîner les IA se retrouve dans le collimateur des éditeurs américains. Common Crawl, créée en 2008, est accusée de distribuer gratuitement du contenu payant , articles derrière paywalls, contenus réservés aux abonnés , aux entreprises d’intelligence artificielle comme OpenAI ou Google. Le Digital Content Next (DCN), qui représente plusieurs dizaines d’éditeurs majeurs, a envoyé une mise en demeure officielle exigeant l’arrêt immédiat du scraping et la suppression de leurs archives. Mais l’enquête d’un chercheur révèle que Common Crawl ne supprime rien depuis 2016, malgré ses promesses répétées. Voici ce qui se joue derrière cette bataille juridique et ce que ça signifie pour l’avenir du web.
Common Crawl : la machine silencieuse qui alimente ChatGPT et Gemini
Common Crawl se présente comme un service public numérique. Depuis 2008, la fondation archive des milliards de pages web chaque mois et met ces données à disposition gratuitement pour la recherche académique. Son site affirme collecter uniquement du « contenu librement disponible » sans franchir de paywalls.
La réalité est différente. Common Crawl a aspiré massivement des articles de presse derrière abonnements , du New York Times, du Wall Street Journal, de dizaines d’autres publications , et a distribué ces archives aux entreprises d’IA qui entraînent leurs modèles de langage. Selon le DCN dans sa mise en demeure, « Common Crawl a compromis le droit des propriétaires de contenus à contrôler l’usage de leurs créations en constituant et distribuant des ensembles de données qui contiennent, d’après notre analyse, des volumes substantiels de contenus protégés créés par nos membres à coût significatif. »
Le robot d’exploration CCBot est devenu l’un des scrapers les plus bloqués par les mille premiers sites web mondiaux, devant même GPTBot d’OpenAI selon The Atlantic. Mais bloquer CCBot aujourd’hui ne protège que les nouveaux contenus , tout ce qui a déjà été aspiré reste stocké dans les archives de la fondation.
Rich Skrenta, directeur exécutif de Common Crawl, assume publiquement cette position. « Les robots sont des personnes aussi », a-t-il déclaré à The Atlantic, défendant l’idée que les modèles d’IA devraient pouvoir accéder à tout ce qui est techniquement disponible sur internet, paywalls compris. Cette philosophie entre en collision frontale avec le modèle économique de l’industrie des médias, déjà fragilisée par ce que les éditeurs appellent « l’apocalypse du trafic » , les chatbots IA qui répondent directement aux questions sans renvoyer les utilisateurs vers les sources originales.
Des promesses de suppression jamais tenues depuis 2016
Plusieurs éditeurs ont demandé à Common Crawl de retirer leurs contenus des archives. La fondation a répondu positivement à ces requêtes, envoyant des emails détaillant l’avancement du processus : « 50 pour cent complété », « 70 pour cent », puis « 80 pour cent » d’après des échanges partagés avec The Atlantic.
Un chercheur a vérifié ces affirmations. Résultat : aucune de ces suppressions n’a été effectuée. Pire, les archives de Common Crawl n’ont pas été modifiées depuis 2016. Les contenus que les éditeurs croyaient retirés restent disponibles dans les datasets, accessibles aux entreprises d’IA qui téléchargent régulièrement ces bases de données pour entraîner leurs modèles.
Un éditeur ayant utilisé l’outil de recherche de Common Crawl pensait que son contenu avait été supprimé. L’analyse technique montre que ces données sont toujours présentes , simplement moins visibles dans l’interface publique. Cette découverte soulève une question de confiance fondamentale : si une organisation à but non lucratif ne respecte pas ses engagements de retrait volontaire, comment espérer une régulation efficace du scraping par les acteurs commerciaux ?
Jason Kint, PDG du DCN, formule clairement l’enjeu dans un billet de blog : la mise en demeure « remet en question une hypothèse croissante selon laquelle du contenu créé grâce à un investissement substantiel peut être collecté, stocké, réutilisé et monétisé simplement parce qu’il est techniquement accessible. »
Une alliance d’éditeurs face au modèle gratuit de l’IA
Le DCN représente plusieurs dizaines d’entreprises médias américaines. Sa mise en demeure accuse Common Crawl d’aller au-delà de la simple collecte : « Common Crawl a aggravé cette appropriation en commercialisant activement ses datasets ‘gratuitement’ auprès d’entités à but lucratif pour des usages commerciaux, comme le développement d’outils IA ou l’entraînement de grands modèles de langage. »
Le texte poursuit : « En d’autres termes, Common Crawl ne se contente pas de créer des ensembles de données contenant du contenu protégé sans autorisation ni compensation , elle utilise sciemment ces datasets pour aider des entreprises commerciales d’IA à développer des produits et services concurrents ou substitutifs. » Cette formulation vise le cœur du problème économique : les modèles d’IA entraînés sur du contenu journalistique de qualité deviennent des alternatives aux sources originales, captant l’attention et les revenus publicitaires.
L’affaire intervient dans un contexte juridique tendu. Ziff Davis, maison mère de Mashable, a déposé en avril 2026 une plainte contre OpenAI pour violation de droits d’auteur dans l’entraînement et l’exploitation de ses systèmes IA. D’autres procédures similaires sont en cours aux États-Unis, cherchant à établir que l’entraînement massif d’IA sur des contenus protégés constitue une violation du copyright, même sans reproduction exacte.
La France durcit sa protection du droit d’auteur face à l’IA
Pendant que les États-Unis règlent la question devant les tribunaux, l’Europe légifère. Le Parlement européen a adopté le 10 mars 2026 une résolution appelant les États membres et régulateurs à renforcer la protection du droit d’auteur face à l’entraînement massif d’IA sur des contenus protégés. La France, avec sa tradition forte de droits d’auteur, se positionne en tête de ce mouvement selon Global Law Experts.
L’Institut National de la Propriété Industrielle (INPI) a lancé en 2026 des programmes dédiés pour aider les PME à protéger leur propriété intellectuelle face aux usages IA. Les commissions du Sénat français intensifient leur surveillance des fournisseurs d’IA opérant sur le marché unique européen. Concrètement, la directive européenne sur le droit d’auteur permet aux créateurs de contenus de signaler leur refus du scraping via des instructions machines (robots.txt avec directive ai-disallow, en-têtes HTTP).
La Commission européenne a ouvert récemment une enquête formelle sur Google pour abus de position dominante, examinant si l’entreprise a utilisé du contenu d’éditeurs web et des vidéos YouTube pour entraîner ses modèles IA génératifs sans compensation appropriée ni possibilité de refus pour les créateurs. Cette enquête signale un tournant dans la surveillance des acteurs dominants de l’IA générative par les autorités de la concurrence.
En droit français, le Code de la propriété intellectuelle ne reconnaît que les personnes physiques comme auteurs ou inventeurs. Une IA ne peut donc pas être titulaire de droits , ce qui signifie que tout contenu généré par IA à partir de contenus protégés pose une question de chaîne de droits non résolue. Les éditeurs qui protègent leurs contenus premium derrière authentification, limites d’API et conditions contractuelles explicites interdisant le scraping et l’entraînement IA construisent une défense juridique plus solide selon les experts en propriété intellectuelle.
Ce que vous pouvez faire si vous créez du contenu web
Blogueuse, entrepreneur, photographe, média local : voici les actions concrètes recommandées par les experts pour garder le contrôle sur vos créations face au scraping IA.
Première action : modifier votre fichier robots.txt. Ajoutez les lignes suivantes à la racine de votre site :
User-agent: CCBot
Disallow: /
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
Cette instruction bloque Common Crawl (CCBot), OpenAI (GPTBot) et l’entraînement IA de Google (Google-Extended). Mais rappelez-vous : cela ne protège que les nouveaux contenus, pas ce qui a déjà été scrapé. Les crawlers respectueux obéissent à robots.txt ; rien ne garantit que tous le font.
Deuxième levier : intégrer des métadonnées de droits dans vos fichiers. Les standards IPTC, XMP et PLUS permettent d’embarquer des informations de copyright directement dans vos images et documents. Pour les visuels importants, envisagez le watermarking invisible , un tatouage numérique qui survit aux transformations et permet de prouver l’origine si votre contenu apparaît dans des outputs d’IA.
Troisième protection : réserver votre meilleur contenu derrière authentification. Un système d’abonnement ou de connexion obligatoire, couplé à des conditions générales d’utilisation interdisant explicitement le scraping automatisé et l’usage pour entraînement IA, crée une barrière juridique plus robuste. Les tribunaux considèrent différemment le scraping de contenus publiquement accessibles et celui qui nécessite de contourner une authentification.
Enfin, surveillez vos contenus. Des outils comme Originality.ai ou Copyleaks permettent de vérifier si vos textes apparaissent dans des datasets publics ou des réponses de chatbots. C’est chronophage, mais certains créateurs documentent systématiquement ces trouvailles pour constituer un dossier en vue d’actions collectives futures.
À retenir
- Common Crawl ne supprime pas les contenus malgré ses promesses , les archives n’ont pas été modifiées depuis 2016 selon une enquête technique indépendante
- Le DCN (éditeurs américains) attaque juridiquement pour collecte de contenus payants distribués gratuitement aux entreprises d’IA commerciales
- Bloquer CCBot aujourd’hui ne protège que les nouveaux contenus , tout ce qui a déjà été scrapé reste dans les datasets utilisés pour entraîner ChatGPT, Gemini et autres
- La France renforce sa protection du droit d’auteur avec l’INPI et les commissions sénatoriales mobilisées sur l’usage IA de contenus protégés
- Solutions techniques : robots.txt, métadonnées, authentification , et conditions contractuelles explicites interdisant le scraping pour IA
Ce qu’en disent les experts IA
Several hundred organizations (maybe more) were scraping Twitter data extremely aggressively, to the point where it was affecting the real user experience.
What should we do to stop that? I’m open to ideas.
— Elon Musk (@elonmusk) June 30, 2023
Plagiarism Isn’t Flattering: How to Deal With Scrapers Who Copy Your Original Content #contentmarketing #blogging https://t.co/OI3RXLJu3j pic.twitter.com/XXKiAddYQh
— Neil Patel (@neilpatel) September 20, 2017
Les performances des outils IA mentionnés peuvent varier selon les usages et évoluent rapidement. Vérifiez les tarifs et conditions directement auprès des éditeurs.