RECHERCHE
FrontierCode : un nouveau benchmark pour évaluer la qualité de code des modèles frontier
Face aux limites de SWE-bench, l'équipe de Latent Space lance FrontierCode, un benchmark centré sur la qualité et la maintenabilité du code.
Latent Space (Swyx)·9 juin 2026

Image · Source originale
FrontierCode est un nouveau benchmark conçu pour évaluer la qualité du code produit par les modèles frontier, en réponse aux insuffisances identifiées dans SWE-bench-Verified et SWE-bench Pro. Inspiré de FrontierMath, il se concentre sur des problèmes difficiles et introduit des critères stricts de maintenabilité. L'initiative fait suite à des travaux de METR montrant que de nombreuses PR passant SWE-bench ne seraient pas acceptées dans un dépôt réel, révélant des faux positifs structurels dans les benchmarks existants.