Mémoire IA : pourquoi Google, ChatGPT et Claude ne retiennent pas l’information pareil

Mémoire IA : pourquoi Google, ChatGPT et Claude ne retiennent pas l’information pareil

Quand vous posez une question à ChatGPT, il se souvient du début de votre conversation. Quand vous relancez Google le lendemain, il repart de zéro. Cette différence n’est pas un bug : c’est le résultat de deux architectures mémorielles radicalement différentes. Les plateformes d’IA utilisent toutes deux types de mémoire , contexte immédiat et connaissances stockées , mais elles ne les équilibrent pas de la même façon. Comprendre cette distinction vous permet de choisir l’outil adapté à chaque usage.

Contexte court vs. connaissance durable : deux façons de retenir l’info

Les systèmes d’IA actuels s’appuient sur deux mécanismes distincts. Le premier, la mémoire contextuelle, fonctionne comme votre mémoire de travail : elle retient ce que vous venez de dire pendant quelques minutes ou heures. ChatGPT, Claude ou Gemini stockent ainsi les échanges récents d’une session pour maintenir la cohérence.

Le second mécanisme, la mémoire à long terme, ressemble davantage à une base de données. L’IA y enregistre des faits, préférences ou décisions qui persistent d’une session à l’autre. Selon une discussion Reddit spécialisée de mai 2026, ce stockage durable repose sur des entités typées (contacts, tâches, transactions) organisées en graphe de connaissances avec relations explicites et horodatage.

La différence se joue sur la persistance. Si vous demandez à ChatGPT de retenir votre secteur d’activité, cette info reste disponible trois semaines plus tard. En revanche, Google AI Overviews , la fonction de réponse synthétique de Google , ne stocke rien entre deux recherches : chaque requête repart d’un contexte vide. Brave Search, Exa ou Perplexity fonctionnent pareil : ils agrègent des résultats à la volée sans garder trace de vos précédentes questions.

Pourquoi ce choix ? Parce que les usages diffèrent. Un moteur classique répond à une question ponctuelle, un assistant conversationnel construit une relation dans la durée. Le premier privilégie la fraîcheur (données actualisées), le second la continuité (fil d’une conversation ou d’un projet).

Recherche hybride : combiner mots-clés et similarité sémantique

Les plateformes ne se contentent pas de stocker l’information, elles doivent aussi la retrouver. C’est là qu’intervient la recherche hybride, qui combine trois approches complémentaires selon le guide BeyondTheClick de 2026.

La correspondance par mots-clés (BM25) identifie les termes exacts. Efficace pour retrouver « la décision prise le 15 mars sur la migration de base de données », elle échoue face à des formulations variées. La recherche vectorielle, elle, encode le sens : elle rapproche « économiser de l’argent » et « réduire les coûts » même sans mot commun. Enfin, l’expansion par graphe suit les liens entre concepts pour remonter des infos connexes non directement mentionnées dans la requête.

Les meilleurs systèmes fusionnent ces trois modes via Reciprocal Rank Fusion. Exa, par exemple, a construit un index neuronal entraîné sur la prédiction de liens : « étant donné ce prompt, quelle URL un humain partagerait-il ? ». Leur index couvre 70 millions d’entreprises, un milliard de profils, GitHub, Stack Overflow. Résultat : excellente performance sémantique mais faiblesse sur les requêtes temporelles récentes.

Un benchmark Valyu de février 2026 sur 5 000 requêtes a testé la précision temporelle (FreshQA) :

Service Score FreshQA
Valyu 79 %
Parallel 52 %
Google 39 %
Exa 24 %

Source : Valyu benchmark, février 2026 (Vercel AI SDK)

L’écart de 55 points entre Valyu et Exa montre que l’architecture compte autant que la taille de l’index. Un système qui crawle en temps réel (comme Firecrawl) capte mieux les nouveautés qu’un index pré-encodé, même gigantesque.

Les plateformes natives gardent tout chez elles

ChatGPT, Claude et Gemini proposent chacun une mémoire intégrée, mais celle-ci reste cloisonnée. Selon la discussion Reddit citée plus haut, ces systèmes sont « simples, plats, sans graphe de relations, non portables d’une plateforme à l’autre ».

Concrètement : si vous configurez ChatGPT pour qu’il retienne que vous êtes consultant en finance, cette préférence ne sera jamais visible par Claude. Chaque éditeur stocke vos données dans son propre silo. Aucune norme commune ne permet d’exporter votre « profil mémoriel » vers un concurrent.

Cette fragmentation pose problème dès qu’on utilise plusieurs outils. Impossible de transférer l’historique d’un projet commencé dans Gemini vers Claude Opus 4.8 (sorti en mai 2026 avec 69,2 % de réussite sur les benchmarks de code agentic). Il faut tout recommencer ou copier-coller manuellement le contexte.

Les systèmes orientés développeurs (Mem0, Letta, Cognee, Hindsight) offrent davantage de flexibilité : graphes de connaissances, serveurs MCP, API ouvertes. Mais ils exigent clés API, variables d’environnement, installations npm ou Docker. Autrement dit, ils ciblent les créateurs d’agents, pas le grand public.

Le constat en juin 2026 : aucun standard ne permet à un utilisateur lambda de gérer sa mémoire IA de façon unifiée. Vous restez dépendant de l’écosystème choisi au départ.

L’infrastructure durable arrive avec les hyperscalers

Google, AWS et Microsoft déploient en parallèle des infrastructures d’exécution persistante pour agents IA. Selon le rapport « What Happened in AI in May 2026 », trois plateformes convergent vers le même objectif : permettre à un agent de tourner des heures, voire des jours, sans perdre son état.

AWS a lancé Bedrock AgentCore Runtime en version stable : des micro-VMs isolées style Firecracker qui garantissent la durabilité des sessions agent sur une infrastructure MCP autrement sans état. Google a déployé Gemini Antigravity, sa plateforme unifiée pour agents, couplée aux TPU de 8ᵉ génération (performance-par-watt doublée). Azure Agent Framework, passé en version 1.0 en avril, s’est largement diffusé en mai.

Ces trois piliers matérialisent une course de fond : qui fournira la couche d’exécution durable de référence pour les agents autonomes ? Alibaba a démontré la viabilité technique avec Qwen 3.7-Max-Preview, qui a complété une tâche autonome de 35 heures avec plus de 1 000 appels d’outils consécutifs.

Côté matériel, Nvidia Blackwell a atteint sa pleine capacité de production fin 2025. Toute la production 2025 était déjà vendue selon Morgan Stanley. Le GPU B200 intègre 208 milliards de transistors, 192 Go de mémoire HBM3e, 8 To/s de bande passante (le double du H100), 20 PFLOPS en FP4. Performances mesurées : entraînement 4 fois plus rapide, inférence jusqu’à 30 fois plus rapide, efficacité énergétique multipliée par 25 versus H100. Prix : de 30 000 à 40 000 dollars pour un module B200 seul, 515 000 dollars pour un système DGX B200 complet.

Le rack GB200 NVL72, configuration ultime, rassemble 72 GPU en refroidissement liquide, 1,4 exaflops de performance IA, 30 To de mémoire. Consommation : jusqu’à 140 kW par rack, infrastructure liquide à 50 000 dollars supplémentaires. On ne déploie pas ce genre d’équipement sans vision claire des charges de travail à scaler.

À retenir :

  • Mémoire contextuelle (temporaire) vs. stockage durable (persistant) : chaque plateforme dose différemment
  • La recherche hybride combine mots-clés exacts, similarité sémantique et graphe de connaissances pour retrouver l’info
  • ChatGPT, Claude, Gemini gardent tout en interne : aucune interopérabilité entre plateformes
  • AWS, Google, Azure construisent des infrastructures d’agents durables, capables de tourner des jours entiers
  • Le choix d’outil dépend de l’usage : recherche ponctuelle (Google AI Overviews, Brave) ou projet continu (ChatGPT, Claude)

Ce qu’en disent les experts IA

Les performances des outils IA mentionnés peuvent varier selon les usages et évoluent rapidement. Vérifiez les tarifs et conditions directement auprès des éditeurs.

Articles similaires