OPINION · OpenAI

Pourquoi SWE-bench Verified ne mesure plus les capacités de codage frontier

OpenAI explique pourquoi il abandonne SWE-bench Verified comme référence d'évaluation pour ses modèles de codage de pointe.

Hacker News (filtré IA)·@kmdupree·26 avril 2026

Image · Logo de l'acteur

OpenAI annonce qu'il cesse d'utiliser le benchmark SWE-bench Verified pour évaluer ses modèles frontier en génération de code. Le benchmark, autrefois référence du secteur, serait désormais saturé : les meilleurs modèles y atteignent des scores si élevés qu'il ne permet plus de différencier les capacités réelles. OpenAI appelle à de nouveaux standards d'évaluation plus robustes pour mesurer les progrès en coding.

Chaleur 0

Pertinence 78

Nouveauté 55

OUVRIR LA SOURCE ↗

#benchmark #coding #évaluation #SWE-bench #LLM