RECHERCHE

Sécurité et précision obéissent à des lois d'échelle différentes dans les LLM cliniques

Une étude sur 34 LLM médicaux déploie le framework SaFE-Scale et montre que scaling et sécurité clinique ne progressent pas de concert.

arXiv cs.AI · cs.LG · cs.CL·Sebastian Wind, Tri-Thien Nguyen, Jeta Sopa, Mahshad Lotfinia·5 mai 2026

Image · Source originale

Des chercheurs introduisent SaFE-Scale, un cadre d'évaluation mesurant comment la sécurité des LLM cliniques évolue selon la taille du modèle, la stratégie de retrieval et le compute d'inférence. Le benchmark RadSaFE-200, composé de 200 questions en radiologie, révèle que des preuves propres réduisent drastiquement les erreurs à haut risque (de 12 % à 2,6 %), tandis que le RAG standard ou agentique ne reproduit pas ce profil de sécurité. La conclusion centrale : précision et sécurité suivent des lois d'échelle distinctes en médecine.

Chaleur 0

Pertinence 72

Nouveauté 74

OUVRIR LA SOURCE ↗

#LLM #safety #RAG #médecine #benchmark