RECHERCHE
Confabulations prévisibles : le rappel factuel des LLM suit une loi d'échelle
Une étude sur 38 modèles montre que la précision factuelle des LLM dépend conjointement de la taille du modèle et de la fréquence du sujet dans les données d'entraînement.
arXiv cs.AI · cs.LG · cs.CL·Matthew L. Smith, Jonathan P. Shock, Samuel T. Segun, Iyiola E. Olatunji·18 mai 2026

Image · Source originale
Des chercheurs ont évalué 38 LLM sur plus de 8 900 références académiques et montrent que la qualité du rappel factuel suit une courbe sigmoïde en fonction de la combinaison log-linéaire du nombre de paramètres et de la représentation du sujet dans les données d'entraînement. Ces deux variables expliquent 60 % de la variance sur 16 modèles denses issus de quatre familles, et jusqu'à 74-94 % au sein d'une même famille. Le mécanisme proposé repose sur un ratio signal/bruit : la fréquence du concept renforce le signal, tandis que la capacité du modèle réduit le bruit de fond.