RECHERCHE
MedSP1000 : un benchmark interactif pour évaluer les LLM en décision clinique dynamique
Un nouveau benchmark issu de cas de patients standardisés met en lumière les limites des LLM face à des scénarios cliniques réalistes et multi-tours.
arXiv cs.AI · cs.LG · cs.CL·Cheng Liang, Pengcheng Qiu, Ya Zhang, Yanfeng Wang·3 juin 2026

Image · Source originale
MedSP1000 est un benchmark interactif composé de 1 638 cas de patients standardisés et 24 602 rubriques évaluées par des pairs, conçu pour tester les agents cliniques en conditions dynamiques. Contrairement aux benchmarks statiques, il simule des interactions en boucle fermée entre un agent clinique, un agent patient et un contrôleur d'environnement. Les résultats révèlent que les performances sur benchmarks classiques ne se transfèrent pas : GPT-5.5, le meilleur modèle testé, ne complète que 60,4 % des critères experts, et augmenter le calcul à l'inférence n'améliore pas les scores.