OPINION · OpenAI
Pourquoi SWE-bench Verified ne mesure plus les capacités de codage frontier
OpenAI explique pourquoi il abandonne SWE-bench Verified comme référence d'évaluation pour ses modèles de codage de pointe.
Hacker News (filtré IA)·@kmdupree·26 avril 2026

Image · Logo de l'acteur
OpenAI annonce qu'il cesse d'utiliser le benchmark SWE-bench Verified pour évaluer ses modèles frontier en génération de code. Le benchmark, autrefois référence du secteur, serait désormais saturé : les meilleurs modèles y atteignent des scores si élevés qu'il ne permet plus de différencier les capacités réelles. OpenAI appelle à de nouveaux standards d'évaluation plus robustes pour mesurer les progrès en coding.