Toutes les news taguées avec ce sujet.
Un framework agentique basé sur DeepSeek-V4-Flash atteint 100 % sur MiniF2F et 88,8 % sur PutnamBench, à un coût 500x inférieur aux pipelines comparables.
Un environnement de travail agentique dédié aux mathématiciens obtient 48 % sur FrontierMath Tier 4, nouveau record toutes IA confondues.