RECHERCHE

MEME : un benchmark pour évaluer la mémoire multi-entités et évolutive des agents LLM

Un nouveau benchmark révèle que tous les systèmes de mémoire testés s'effondrent sur le raisonnement de dépendance, avec des taux de précision proches de zéro.

arXiv cs.AI · cs.LG · cs.CL·Seokwon Jung, Alexander Rubinstein, Arnas Uselis, Sangdoo Yun·12 mai 2026

Image · Source originale

MEME définit six tâches couvrant les dimensions multi-entités et évolutives de la mémoire des agents LLM, dont trois inédites : Cascade, Absence (raisonnement de dépendance) et Deletion. Évalués sur 100 épisodes contrôlés, six systèmes de mémoire échouent massivement sur le raisonnement de dépendance (Cascade : 3 %, Absence : 1 % en moyenne). Seul un agent basé sur des fichiers couplé à Claude Opus 4.7 parvient partiellement à combler cet écart, mais au prix d'un coût ~70 fois supérieur à la baseline.

Chaleur 0

Pertinence 78

Nouveauté 72

OUVRIR LA SOURCE ↗

#benchmark #mémoire #agents #LLM #raisonnement