Sur 137 000 sites web analysés par Ahrefs, 97 % des fichiers llms.txt n’ont enregistré aucune requête de la part des intelligences artificielles comme ChatGPT ou Claude. Ce standard, censé guider les IA dans leur exploration du contenu web, ne fonctionne tout simplement pas en juin 2026.
Le fichier llms.txt : un pari qui n’a pas pris
Le fichier llms.txt devait devenir le robots.txt de l’ère IA. Placé à la racine d’un site, il indique aux modèles de langage quelles pages indexer en priorité, quel contenu citer, quelles sections ignorer. L’idée : contrôler comment votre site apparaît dans les réponses générées par ChatGPT, Perplexity ou Gemini.
Sauf que les IA ne le lisent pas. Un analyste travaillant avec des données de logs clients , plusieurs milliards de lignes , confirme : « J’ai cherché, aucune requête vers llms.txt. Absolument rien. »
Les modèles comme GPT-4, Claude ou Gemini utilisent d’autres méthodes pour identifier le contenu pertinent. Ils scannent directement les pages via leurs crawlers (GPTBot, ClaudeBot), analysent la structure HTML, évaluent la fraîcheur et la citation par des sources tierces. Le fichier llms.txt n’entre jamais dans l’équation.
Comment les IA choisissent vraiment ce qu’elles citent
Les données de 2 014 entreprises analysées début 2026 montrent que les taux de citation varient énormément selon les plateformes. ChatGPT cite en moyenne 0,704 marque par réponse, Claude 0,639, Gemini 0,576. Ces citations ne dépendent pas d’un fichier de configuration mais de critères précis.
Premier critère : la réponse directe. Les IA privilégient le contenu qui fournit l’information dès les premières lignes, puis la détaille. Un article qui enterre sa réponse au sixième paragraphe ne sera pas cité.
Deuxième critère : la validation externe. YouTube apparaît systématiquement parmi les sources les plus citées, tous modèles confondus. Les avis tiers, commentaires d’experts et couverture médiatique comptent davantage que le contenu produit par la marque elle-même.
Troisième critère : la fraîcheur. Les modèles privilégient le contenu récemment mis à jour. Une page avec des statistiques 2024 sera ignorée face à une page actualisée en 2026, même si celle-ci est moins complète.
Bloquer les crawlers IA : l’erreur stratégique
Face à cette nouvelle donne, certains éditeurs bloquent GPTBot ou ClaudeBot par frustration. C’est exactement ce qu’il ne faut pas faire. Bloquer ces crawlers revient à rendre votre marque invisible quand des millions d’utilisateurs posent des questions dans votre domaine.
Le trafic IA représente 0,15 % du trafic web global en 2025 selon Ahrefs, contre 0,02 % en 2024. Cette croissance de 650 % en un an dépasse de dix fois celle des réseaux sociaux à stade comparable. Les projections pour 2026 tablent sur 0,30 à 0,50 % du trafic total.
Plus significatif encore : 70,6 % du trafic IA arrive sans en-tête referrer, classé comme « Direct » dans Google Analytics 4. Ce trafic invisible convertit à 10,21 % sur les sites transactionnels, contre 2,46 % pour le trafic non-IA. Un ratio de 4,1 pour 1.
La vraie optimisation pour les IA , appelée GEO (Generative Engine Optimization) , ne passe pas par un fichier de configuration. Elle repose sur une structure claire, des réponses directes, des mises à jour régulières et une validation par des sources externes. 50 % des Français utilisent désormais l’IA régulièrement selon le Baromètre 2026. Parier sur llms.txt, c’est optimiser pour un standard que personne ne lit.
Ce qu’en disent les experts IA
# We Analyzed 137K Sites: 97% of llms.txt Files Never Get Read : r/SEO. Skip to main contentWe Analyzed 137K Sites: 97% of llms.txt Files Never Get Read : r/SEO. Image 1 Go to SEO. # We Analyzed 137K Sites:… — forum
A couple of months ago, I queried our customers' log data, billions of log lines. I found nothing, no requests at all to llms.txt at all. — forum
Les performances des outils IA mentionnés peuvent varier selon les usages et évoluent rapidement. Vérifiez les tarifs et conditions directement auprès des éditeurs.