RECHERCHE

FrontierCode : un nouveau benchmark pour évaluer la qualité de code des modèles frontier

Face aux limites de SWE-bench, l'équipe de Latent Space lance FrontierCode, un benchmark centré sur la qualité et la maintenabilité du code.

Latent Space (Swyx)·9 juin 2026

Image · Source originale

FrontierCode est un nouveau benchmark conçu pour évaluer la qualité du code produit par les modèles frontier, en réponse aux insuffisances identifiées dans SWE-bench-Verified et SWE-bench Pro. Inspiré de FrontierMath, il se concentre sur des problèmes difficiles et introduit des critères stricts de maintenabilité. L'initiative fait suite à des travaux de METR montrant que de nombreuses PR passant SWE-bench ne seraient pas acceptées dans un dépôt réel, révélant des faux positifs structurels dans les benchmarks existants.

Chaleur 31

Pertinence 82

Nouveauté 68

OUVRIR LA SOURCE ↗

#benchmark #code #LLM #SWE-bench #qualité-logicielle