RECHERCHE
Améliorer la reproductibilité des évaluations par une modélisation multi-niveaux des annotateurs
Une approche par bootstrapping multi-niveaux pour mieux comprendre comment la variance des annotateurs humains affecte la fiabilité des évaluations de LLMs.
arXiv cs.AI · cs.LG · cs.CL·Deepak Pandita, Flip Korn, Chris Welty, Christopher M. Homan·13 mai 2026

Image · Source originale
Face à la crise de reproductibilité qui touche l'évaluation des LLMs, des chercheurs proposent une méthode de bootstrapping multi-niveaux pour modéliser le comportement des annotateurs humains. En exploitant des jeux de données avec un grand nombre de notations et des identifiants persistants par annotateur, ils analysent les compromis entre le nombre d'items évalués (N) et le nombre de réponses par item (K) nécessaires pour atteindre une significativité statistique robuste.