Toutes les news taguées avec ce sujet.
Un nouveau testbed évalue les agents IA sur des tâches de développement logiciel interactives et évolutives, révélant un écart important avec les benchmarks classiques.