La mémoire de l'IA s'avère inefficace : le projet Tenure détecte un taux d'erreur de 95 %

Bien que les assistants IA modernes excellent dans l'écriture de code, l'analyse de documents et le maintien de longues conversations, leur mémoire peut être bien pire que prévu. Une nouvelle étude menée par le chercheur Jeffrey Flynt de l'Université du Texas montre que les systèmes de mémoire à long terme utilisés pour les grands modèles de langage (LLM) présentent des problèmes fondamentaux. Les systèmes actuels stockent les données sous forme de vecteurs mathématiques et effectuent des recherches par similarité sémantique, ce qui entraîne de graves erreurs dans la recherche de faits exacts. Rapporté par Ixbt.com rapport .
Selon Flynt, les benchmarks existants créent une illusion de qualité. En général, la réponse finale du modèle est évaluée, pas la qualité de la mémoire. Un modèle de langage peut masquer les erreurs de recherche grâce à ses connaissances logiques. Cependant, si ces données sont utilisées non pas pour la génération de texte, mais pour des tâches nécessitant une précision, comme les appels API ou la configuration de l'infrastructure, les conséquences sont critiques. Le test PrecisionMemBench créé par le chercheur a montré que la précision de la recherche de faits dans des systèmes populaires comme Mem0, Zep et Hindsight n'était que de 5 à 8 %.
Pour résoudre ce problème, le système Tenure a été proposé. Sa caractéristique principale est que la recherche en mémoire est considérée non pas comme une tâche de recherche, mais comme une gestion d'état (state management). Tenure utilise un référentiel structuré appelé « croyances » (beliefs) au lieu de représentations sémantiques vagues. Chaque entrée est un fait distinct avec un type, un champ d'application et un statut de pertinence. Le système suit les données obsolètes et les remplace par de nouvelles informations, sans mélanger les données de différents projets.
Tenure abandonne la recherche vectorielle au profit de méthodes classiques basées sur la correspondance exacte des termes. Par exemple, si un utilisateur indique qu'il utilise la base de données Redis, le système renvoie exactement Redis, et non des technologies similaires comme MongoDB ou PostgreSQL. Lors des tests, alors que les systèmes vectoriels renvoyaient 16 faits inutiles avec une seule réponse correcte, Tenure a fourni uniquement les données nécessaires avec un score de 1,0. De plus, les contextes dans le système sont strictement isolés, de sorte que les données des anciennes conversations n'interfèrent pas avec les nouvelles tâches.














Commentaires 0
…