2 items

#multi-turn

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 72
SWE-Interact : un nouveau benchmark pour les agents de codage en sessions multi-tours
Un nouveau testbed évalue les agents IA sur des tâches de développement logiciel interactives et évolutives, révélant un écart important avec les benchmarks classiques.
RECHERCHE
heat 38
Précision et satisfaction dans les dialogues multi-tours LLM pour l'évaluation des exigences non fonctionnelles
Une étude sur 49 développeurs montre que les LLM comme GitHub Copilot peinent à évaluer correctement les exigences HIPAA, malgré une satisfaction utilisateur élevée.