RECHERCHE
Goedel-Architect : démonstration formelle de théorèmes par génération et raffinement de blueprints
Un framework agentique basé sur DeepSeek-V4-Flash atteint 100 % sur MiniF2F et 88,8 % sur PutnamBench, à un coût 500x inférieur aux pipelines comparables.
arXiv cs.AI · cs.LG · cs.CL·Jui-Hui Chung, Ziyang Cai, Zihao Li, Qishuo Yin·4 juin 2026

Image · Source originale
Goedel-Architect est un framework agentique pour la démonstration formelle de théorèmes en Lean 4, reposant sur la génération d'un blueprint — graphe de dépendances de définitions et lemmes — suivi d'un raffinement itératif. Utilisant DeepSeek-V4-Flash (284B-A13B) comme modèle de base, il atteint 99,2 % pass@1 sur MiniF2F-test et 75,6 % sur PutnamBench sans aide extérieure. Avec amorçage par preuve en langage naturel, il monte à 100 % sur MiniF2F, 88,8 % sur PutnamBench, et résout 4/6 problèmes de l'IMO 2025, établissant un nouvel état de l'art open-source.