RECHERCHE
RubricsTree : évaluation évolutive des agents de santé personnels à grande échelle
Un framework d'évaluation hiérarchique de plus de 100 critères cliniques booléens pour tester les agents LLM de santé personnelle, avec jusqu'à 66 % de gains sur HealthBench.
arXiv cs.AI · cs.LG · cs.CL·Weizhi Zhang, Zechen Li, Hamid Palangi, Ben Graef·16 juin 2026

Image · Source originale
RubricsTree est un cadre d'évaluation scalable pour les agents de santé alimentés par des LLM, reposant sur une taxonomie hiérarchique de plus de 100 critères booléens cliniquement vérifiables. Construit à partir de 4 000 requêtes réelles via un protocole itératif avec des experts médicaux, il intègre un routeur adaptatif qui sélectionne dynamiquement les critères pertinents par requête. Utilisé comme signal d'entraînement, il génère jusqu'à 66 % de gains relatifs sur HealthBench pour les familles Gemini, GPT et Qwen.