RECHERCHE

EVA-Bench : un framework d'évaluation end-to-end pour les agents vocaux

Un benchmark complet pour mesurer les agents IA conversationnels vocaux, couvrant précision, expérience utilisateur et robustesse au bruit.

arXiv cs.AI · cs.LG · cs.CL·Tara Bogavelli, Gabrielle Gauthier Melançon, Katrina Stankiewicz, Oluwanifemi Bamgbose·13 mai 2026

Image · Source originale

EVA-Bench propose un cadre d'évaluation end-to-end pour les agents vocaux d'entreprise, combinant simulation de conversations audio multi-tours et mesure de la qualité via deux métriques composites : EVA-A (précision, fidélité, qualité audio) et EVA-X (fluidité conversationnelle, concision, timing). Testé sur 213 scénarios et 12 systèmes, aucun n'atteint simultanément 0,5 sur les deux métriques pass@1, révélant un écart notable entre performance de pointe et performance fiable.

Chaleur 0

Pertinence 68

Nouveauté 72

OUVRIR LA SOURCE ↗

#voice-agents #benchmark #évaluation #LLM #audio