RECHERCHE

Les agents de code peuvent-ils reproduire des résultats en science computationnelle des matériaux ?

Un nouveau benchmark, AutoMat, évalue la capacité des LLMs à reproduire des expériences computationnelles publiées — avec des résultats décevants.

arXiv cs.AI · cs.LG · cs.CL·Ziyang Huang, Yi Cao, Ali K. Shargh, Jing Luo·1 mai 2026

Image · Source originale

AutoMat est un benchmark conçu pour tester si des agents LLM peuvent reproduire des résultats issus de publications en science computationnelle des matériaux. Les tâches exigent de reconstituer des procédures sous-spécifiées, de maîtriser des outils spécialisés et d'évaluer si les résultats obtenus soutiennent les affirmations des papiers. Les meilleurs agents n'atteignent qu'un taux de succès de 54,1 %, les échecs étant principalement liés à des procédures incomplètes et à des déviations méthodologiques.

Chaleur 0

Pertinence 65

Nouveauté 72

OUVRIR LA SOURCE ↗

#benchmark #agents #LLM #science computationnelle #matériaux