RECHERCHE
EVA-Bench : un framework d'évaluation end-to-end pour les agents vocaux
Un benchmark complet pour mesurer les agents IA conversationnels vocaux, couvrant précision, expérience utilisateur et robustesse au bruit.
arXiv cs.AI · cs.LG · cs.CL·Tara Bogavelli, Gabrielle Gauthier Melançon, Katrina Stankiewicz, Oluwanifemi Bamgbose·13 mai 2026

Image · Source originale
EVA-Bench propose un cadre d'évaluation end-to-end pour les agents vocaux d'entreprise, combinant simulation de conversations audio multi-tours et mesure de la qualité via deux métriques composites : EVA-A (précision, fidélité, qualité audio) et EVA-X (fluidité conversationnelle, concision, timing). Testé sur 213 scénarios et 12 systèmes, aucun n'atteint simultanément 0,5 sur les deux métriques pass@1, révélant un écart notable entre performance de pointe et performance fiable.