RECHERCHE
ClinEnv : un environnement interactif multi-étapes pour agents sur dossiers médicaux
Un nouveau benchmark évalue les LLMs comme médecins hospitaliers sur des décisions cliniques séquentielles — et révèle d'importants écarts entre qualité de décision et qualité de raisonnement.
arXiv cs.AI · cs.LG · cs.CL·Yuxing Lu, Yushuhong Lin, Wenqi Shi, J. Ben Tamo·1 juin 2026

Image · Source originale
ClinEnv est un benchmark interactif qui simule des hospitalisations réelles en plusieurs étapes de décision séquentielles et irréversibles. Le modèle évalué doit interroger quatre agents spécialisés avant de valider médicaments, procédures et diagnostics. Sur sept modèles testés, le meilleur atteint seulement un F1 de 0,31, avec un écart marqué entre récupération des diagnostics de sortie (0,51) et décisions de gestion (0,17). ClinEnv rend mesurable le fossé dans l'acquisition d'information, invisible aux évaluations centrées sur les seuls résultats.