RECHERCHE

SWE-Interact : un nouveau benchmark pour les agents de codage en sessions multi-tours

Un nouveau testbed évalue les agents IA sur des tâches de développement logiciel interactives et évolutives, révélant un écart important avec les benchmarks classiques.

arXiv cs.AI · cs.LG · cs.CL·Mohit Raghavendra, Anisha Gunjal, Aakash Sabharwal, Yunzhong He·29 juin 2026

Image · Source originale

SWE-Interact propose un environnement d'évaluation où un simulateur utilisateur fournit des instructions vagues, révèle progressivement les exigences et ajuste les contraintes au fil de la session. Les résultats montrent que les meilleurs modèles résolvent ~50 % des tâches en mode autonome, mais seulement ~25 % en mode interactif multi-tours. Même les modèles les plus performants (Opus 4.8, GPT 5.5) souffrent de sur-agentivité, d'oubli de contraintes et d'erreurs techniques dans ce cadre réaliste.

Chaleur 51

Pertinence 80

Nouveauté 75

OUVRIR LA SOURCE ↗

#benchmark #coding-agents #multi-turn #SWE #évaluation