RECHERCHE
Les agents de code peuvent-ils reproduire des résultats en science computationnelle des matériaux ?
Un nouveau benchmark, AutoMat, évalue la capacité des LLMs à reproduire des expériences computationnelles publiées — avec des résultats décevants.
arXiv cs.AI · cs.LG · cs.CL·Ziyang Huang, Yi Cao, Ali K. Shargh, Jing Luo·1 mai 2026

Image · Source originale
AutoMat est un benchmark conçu pour tester si des agents LLM peuvent reproduire des résultats issus de publications en science computationnelle des matériaux. Les tâches exigent de reconstituer des procédures sous-spécifiées, de maîtriser des outils spécialisés et d'évaluer si les résultats obtenus soutiennent les affirmations des papiers. Les meilleurs agents n'atteignent qu'un taux de succès de 54,1 %, les échecs étant principalement liés à des procédures incomplètes et à des déviations méthodologiques.