RECHERCHE
Précision et satisfaction dans les dialogues multi-tours LLM pour l'évaluation des exigences non fonctionnelles
Une étude sur 49 développeurs montre que les LLM comme GitHub Copilot peinent à évaluer correctement les exigences HIPAA, malgré une satisfaction utilisateur élevée.
arXiv cs.AI · cs.LG · cs.CL·Ali Pourghasemi Fatideh, Wilder Baldwin, Maria Dhakal, Collin McMillan·23 juin 2026

Image · Source originale
Des chercheurs ont évalué la qualité des conversations multi-tours entre développeurs et un agent LLM (GitHub Copilot) pour l'évaluation d'exigences non fonctionnelles (NFR) liées à la conformité HIPAA. Sur 49 programmeurs testant 148 NFR, la précision par rapport à un référentiel expert s'avère faible, bien que les développeurs tendent à approuver les évaluations du LLM. L'étude révèle que des réponses longues et de nombreux tours informatifs nuisent à la satisfaction, tandis que les interactions proactives l'améliorent.