RECHERCHE
SciCrafter : des agents IA capables de découverte et d'application scientifique dans Minecraft ?
Un nouveau benchmark basé sur Minecraft teste la capacité des agents IA à découvrir des régularités causales et à les appliquer — avec des résultats plafonnant à 26 %.
arXiv cs.AI · cs.LG · cs.CL·Zhou Ziheng, Huacong Tang, Jinyuan Zhang, Haowei Lin·27 avril 2026

Image · Source originale
SciCrafter est un benchmark Minecraft fondé sur des circuits redstone paramétrés pour évaluer la boucle découverte-application chez les agents IA. GPT-5.2, Gemini-3-Pro et Claude-Opus-4.5 plafonnent tous à environ 26 % de succès. L'analyse révèle que si l'application des connaissances reste le principal obstacle, l'identification des lacunes de connaissance devient un goulot d'étranglement croissant pour les modèles frontier — signalant un déplacement du défi vers la formulation des bons problèmes.