RECHERCHE

MathDuels : évaluer les LLM comme poseurs et solveurs de problèmes mathématiques

Un nouveau benchmark auto-évolutif où les modèles créent et résolvent mutuellement des problèmes de maths, révélant des capacités invisibles dans les évaluations classiques.

arXiv cs.AI · cs.LG · cs.CL·Zhiqiu Xu, Shibo Jin, Shreya Arya, Mayur Naik·23 avril 2026

MathDuels est un benchmark en self-play où chaque LLM joue un double rôle : auteur de problèmes mathématiques sous prompting adversarial et solveur des problèmes produits par les autres participants. Un pipeline en trois étapes génère et valide les problèmes, tandis qu'un modèle de Rasch estime conjointement les capacités des solveurs et la difficulté des problèmes. Testé sur 19 modèles frontier, le benchmark révèle que les aptitudes de création et de résolution sont partiellement découplées, et que sa difficulté évolue avec les participants sans atteindre de plafond fixe.

Chaleur 0

Pertinence 78

Nouveauté 74

OUVRIR LA SOURCE ↗

#benchmark #LLM #mathématiques #évaluation #self-play