RECHERCHE
Entraînement ASR efficace avec des conversations synthétiques
Un pipeline génère des dialogues fictifs via LLM et TTS pour entraîner des modèles de reconnaissance vocale en langues peu dotées.
arXiv cs.AI · cs.LG · cs.CL·Máté Gedeon, Péter Mihajlik·2 juin 2026

Image · Source originale
Des chercheurs proposent un pipeline d'augmentation de données générant des conversations simulées multi-locuteurs à partir de LLM et de profils vocaux TTS. Évalué sur le corpus hongrois BEA-Dialogue, le système combinant 67 heures réelles et 636 heures synthétiques surpasse un modèle zero-shot entraîné sur 2 700 heures de parole hongroise. Le choix du générateur LLM et la composition des données influencent fortement les gains obtenus.