RECHERCHE
MetaSyn : benchmark d'agents LLM sur des méta-analyses issues de Nature Portfolio
Un nouveau dataset de 442 méta-analyses expertes révèle un goulot d'étranglement critique dans la sélection d'études par les agents LLM.
arXiv cs.AI · cs.LG · cs.CL·Anzhe Xie, Weihang Su, Yujia Zhou, Yiqun Liu·15 juin 2026

Image · Source originale
MetaSyn est un dataset de 442 méta-analyses issues de revues Nature Portfolio, conçu pour évaluer le raisonnement scientifique systématique des agents LLM sur l'ensemble du pipeline récupération-sélection-synthèse. Douze configurations ont été testées, dont neuf variantes RAG et un agent guidé par protocole. Résultat : malgré un recall de 90,9 % à K=200 en récupération, aucun système ne retrouve plus de 52,7 % des études incluses. Les LLMs actuels peinent à distinguer les études éligibles des distracteurs thématiquement proches mais non conformes aux critères PI/ECO.