RECHERCHE
ClinHallu : un benchmark pour diagnostiquer les hallucinations par étape dans les MLLM médicaux
Un nouveau benchmark open-source analyse à quelle étape du raisonnement médical les modèles multimodaux hallucinent — perception, mémoire ou intégration.
arXiv cs.AI · cs.LG · cs.CL·Sicheng Yang, Hangjie Yuan, Wenjun Zhang, Jinwang Wang·12 juin 2026

Image · Source originale
ClinHallu est un benchmark de 7 031 instances conçu pour localiser les hallucinations dans le raisonnement des MLLM médicaux, en décomposant chaque trace en trois étapes : reconnaissance visuelle, rappel des connaissances et intégration du raisonnement. Des interventions par substitution d'étape mesurent l'impact de chaque correction sur la réponse finale. Les auteurs montrent qu'un fine-tuning supervisé sur ces traces réduit les hallucinations par étape. Le benchmark est disponible en open source.