RECHERCHE
LeVo 2 : génération de chansons stables et mélodieuses par modélisation hiérarchique
Un framework hybride LLM-Diffusion capable de générer des chansons complètes en combinant planification sémantique et raffinement acoustique par piste.
arXiv cs.AI · cs.LG · cs.CL·Shun Lei, Huaicheng Zhang, Dapeng Wu, Yaoxun Xu·29 juin 2026

Image · Source originale
LeVo 2 est un système hybride LLM-Diffusion pour la génération de chansons complètes et contrôlables. Il adopte une modélisation hiérarchique : un LLM prédit d'abord des tokens mixtes pour la planification sémantique, puis génère en parallèle les tokens vocaux et d'accompagnement, avant une reconstruction par diffusion. Un calendrier d'entraînement progressif combinant SFT, DPO offline et DPO semi-online améliore qualité, contrôlabilité et musicalité séparément.