RECHERCHE
Évaluation causale de l'apprenabilité des tâches en langages formels
Des chercheurs montrent que les évaluations corrélatives standard des LLM sont biaisées et proposent une approche causale rigoureuse.
arXiv cs.AI · cs.LG · cs.CL·Vésteinn Snæbjarnarson, Anej Svete, Josef Valvoda, Reda Boumasmoud·8 juin 2026

Image · Source originale
Les pratiques d'évaluation corrélatives classiques pour mesurer l'apprenabilité des modèles de langage souffrent de biais fondamentaux. En s'appuyant sur des langages formels issus d'automates finis probabilistes, les auteurs introduisent le « binning semiring », un objet algébrique permettant de contrôler la fréquence d'une propriété ciblée dans un corpus. Formulant l'expérience comme un modèle graphique causal, ils montrent qu'une analyse sans intervention causale mène à des conclusions erronées.