Toutes les news taguées avec ce sujet.
Une étude unifiée examine comment la variabilité humaine dans les explications affecte l'évaluation des modèles de détection de discours haineux.
Une approche par bootstrapping multi-niveaux pour mieux comprendre comment la variance des annotateurs humains affecte la fiabilité des évaluations de LLMs.