RECHERCHE
LASE : encodeur de locuteur robuste aux changements de script pour les langues indiennes
Un encodeur de locuteur entraîné avec un gradient adversarial sur la langue pour préserver l'identité vocale entre scripts latins et indiens.
arXiv cs.AI · cs.LG · cs.CL·Venkata Pushpak Teja Menta·1 mai 2026

Image · Source originale
Les encodeurs de locuteur standards (WavLM, ECAPA-TDNN) perdent en cohérence d'identité vocale lorsqu'un même locuteur change de script, surtout pour les voix à accent occidental. LASE, une tête de projection légère sur WavLM gelé, combine une perte contrastive supervisée et un gradient-reversal sur un classificateur 4 langues pour rendre l'embedding insensible à la langue tout en restant discriminant sur le locuteur. Les écarts résiduels deviennent statistiquement non significatifs sur deux corpus (occidental et indien), avec un gain de marche de 2,4 à 2,7x par rapport aux baselines.