RECHERCHE

HPRO : optimisation hiérarchique des récompenses pour la synthèse vocale émotionnelle

Un framework d'optimisation par préférences à plusieurs niveaux pour améliorer l'expressivité émotionnelle des modèles TTS basés sur les LLM.

arXiv cs.AI · cs.LG · cs.CL·Sihang Nie, Xiaofen Xing, Rui Xing, Haoming Li·26 juin 2026

Image · Source originale

Les modèles TTS basés sur les LLM peinent à restituer une prosodie émotionnelle au-delà d'une moyenne statistique. HPRO propose un cadre d'optimisation hiérarchique qui isole structurellement le contenu sémantique des préférences stylistiques via un codec HD-Emo, évitant ainsi les conflits de gradients. Le framework aligne progressivement les objectifs au niveau du phonème, du mot et de la phrase pour pallier le manque de granularité des récompenses classiques.

Chaleur 9

Pertinence 58

Nouveauté 72

OUVRIR LA SOURCE ↗

#TTS #speech-synthesis #RLHF #prosody #LLM