RECHERCHE
Mémorisation non littérale dans les LLM : le rôle des variantes de noms d'entités
Une étude sur 13 LLM montre que les réponses factuelles varient selon la façon dont une entité est nommée, révélant une mémorisation ni purement lexicale ni totalement invariante.
arXiv cs.AI · cs.LG · cs.CL·Yuto Nishida, Naoki Shikoda, Yosuke Kishinami, Ryo Fujii·23 avril 2026

Les chercheurs introduisent RedirectQA, un dataset de QA basé sur les redirections Wikipedia, associant des triples factuels Wikidata à des formes de surface catégorisées (alias, abréviations, variantes orthographiques). Testés sur 13 LLM, les résultats montrent que les prédictions changent fréquemment selon la variante de nom utilisée pour une même entité. Les modèles résistent mieux aux variations orthographiques mineures qu'aux variations lexicales majeures. La fréquence de l'entité et celle de sa forme de surface influencent toutes deux la précision.