RECHERCHE
MEME : un benchmark pour évaluer la mémoire multi-entités et évolutive des agents LLM
Un nouveau benchmark révèle que tous les systèmes de mémoire testés s'effondrent sur le raisonnement de dépendance, avec des taux de précision proches de zéro.
arXiv cs.AI · cs.LG · cs.CL·Seokwon Jung, Alexander Rubinstein, Arnas Uselis, Sangdoo Yun·12 mai 2026

Image · Source originale
MEME définit six tâches couvrant les dimensions multi-entités et évolutives de la mémoire des agents LLM, dont trois inédites : Cascade, Absence (raisonnement de dépendance) et Deletion. Évalués sur 100 épisodes contrôlés, six systèmes de mémoire échouent massivement sur le raisonnement de dépendance (Cascade : 3 %, Absence : 1 % en moyenne). Seul un agent basé sur des fichiers couplé à Claude Opus 4.7 parvient partiellement à combler cet écart, mais au prix d'un coût ~70 fois supérieur à la baseline.