SAFETY
EQUITRIAGE : audit des biais de genre dans le triage aux urgences par LLM
Une étude évalue cinq grands modèles de langage sur 374 000 cas de triage aux urgences et révèle des biais de genre persistants, dont une sous-estimation du niveau de gravité chez les femmes.
arXiv cs.AI · cs.LG · cs.CL·Richard J. Young, Alice M. Matthews·5 mai 2026

Image · Source originale
EQUITRIAGE est un audit de fairness appliqué à cinq LLMs (GPT-4.1-Nano, DeepSeek-V3.1, Gemini, Mistral, Nemotron) pour l'attribution d'un score de triage ESI sur 18 714 vignettes cliniques issues de MIMIC-IV-ED. Tous les modèles dépassent le seuil préenregistré de 5 % de flip rate (de 9,9 % à 43,8 %). Deux modèles présentent un undertriage directionnel des femmes, et le masquage des données démographiques réduit significativement les biais. Le prompting chain-of-thought dégrade la précision sur l'ensemble des modèles.