RECHERCHE

Améliorer la reproductibilité des évaluations par une modélisation multi-niveaux des annotateurs

Une approche par bootstrapping multi-niveaux pour mieux comprendre comment la variance des annotateurs humains affecte la fiabilité des évaluations de LLMs.

arXiv cs.AI · cs.LG · cs.CL·Deepak Pandita, Flip Korn, Chris Welty, Christopher M. Homan·13 mai 2026

Image · Source originale

Face à la crise de reproductibilité qui touche l'évaluation des LLMs, des chercheurs proposent une méthode de bootstrapping multi-niveaux pour modéliser le comportement des annotateurs humains. En exploitant des jeux de données avec un grand nombre de notations et des identifiants persistants par annotateur, ils analysent les compromis entre le nombre d'items évalués (N) et le nombre de réponses par item (K) nécessaires pour atteindre une significativité statistique robuste.

Chaleur 0

Pertinence 68

Nouveauté 62

OUVRIR LA SOURCE ↗

#évaluation #annotation #reproductibilité #LLM #safety