RECHERCHE

Rationales divergentes : repenser l'évaluation de la détection de discours haineux

Une étude unifiée examine comment la variabilité humaine dans les explications affecte l'évaluation des modèles de détection de discours haineux.

arXiv cs.AI · cs.LG · cs.CL·Benedetta Muscato, Beiduo Chen, Gizem Gezici, Barbara Plank·29 mai 2026

Image · Source originale

Les désaccords humains dans l'annotation sont courants, mais la variation dans les rationales au niveau des tokens reste peu explorée. Cette étude unifie modèles, stratégies d'entraînement et métriques d'évaluation sous un protocole commun, couvrant classification et explicabilité. Les résultats montrent que les représentations « soft » captent mieux la variabilité humaine, remettant en question les pratiques d'évaluation standard dans les tâches NLP subjectives.

Chaleur 0

Pertinence 55

Nouveauté 62

OUVRIR LA SOURCE ↗

#NLP #hate-speech #explicabilité #annotation #évaluation