Toutes les news taguées avec ce sujet.
ServiceNow AI évalue les systèmes ASR frontier face au code-switching, ce défi linguistique où les locuteurs alternent deux langues mid-phrase.
NVIDIA propose une approche par agents pour accélérer l'évaluation des modèles de reconnaissance vocale dans le domaine médical.
Des chercheurs montrent que les hallucinations du modèle ASR Whisper peuvent être détectées et fortement réduites en manipulant ses représentations internes.
Des chercheurs proposent un modèle audio en streaming capable d'écouter, décider et répondre en continu, unifiant ASR, dialogue et suivi d'instructions.
NVIDIA et Hugging Face publient un guide complet pour adapter le modèle de reconnaissance vocale Nemotron 3.5 ASR à des contextes spécifiques.
Un pipeline génère des dialogues fictifs via LLM et TTS pour entraîner des modèles de reconnaissance vocale en langues peu dotées.
Une nouvelle métrique d'évaluation de la reconnaissance vocale qui corrige les biais liés aux variations d'écriture dans les langues indiennes.