RECHERCHE
Évaluation de la reconnaissance vocale automatique par les LLM génératifs
Des chercheurs testent les LLM comme alternative au WER pour évaluer l'ASR, avec jusqu'à 94 % d'accord avec les annotateurs humains.
arXiv cs.AI · cs.LG · cs.CL·Thibault Bañeras-Roux, Shashi Kumar, Driss Khalil, Sergio Burdisso·23 avril 2026

Le Word Error Rate (WER), métrique standard de l'ASR, est insensible au sens. Cette étude explore trois approches basées sur des LLM génératifs : sélection de la meilleure hypothèse, distance sémantique par embeddings génératifs, et classification qualitative des erreurs. Sur le dataset HATS, les meilleurs LLM atteignent 92–94 % d'accord avec les annotateurs humains contre 63 % pour le WER, surpassant aussi les métriques sémantiques classiques.