RECHERCHE
Grilles d'évaluation clinique cas par cas pour l'IA médicale : méthodologie et validation sur 823 rencontres
Une méthodologie d'évaluation de l'IA clinique fondée sur des grilles rédigées par des médecins, validée sur 823 cas réels et synthétiques.
arXiv cs.AI · cs.LG · cs.CL·Aaryan Shah, Andrew Hines, Alexia Downs, Denis Bajet·27 avril 2026

Image · Source originale
Des chercheurs proposent une méthodologie d'évaluation de systèmes d'IA documentaire clinique reposant sur des grilles spécifiques à chaque cas, rédigées par 20 cliniciens pour 823 rencontres. Les grilles LLM atteignent un niveau d'accord avec les cliniciens (tau : 0,42-0,46) comparable à l'accord inter-cliniciens (tau : 0,38-0,43), à un coût environ 1 000 fois inférieur. Les scores médians des agents évalués progressent de 84 % à 95 % au fil des itérations.