RECHERCHE
Des tokens aux visages : représentations discrètes de la parole pour l'animation faciale 3D
Une étude comparative évalue quatre familles de représentations speech pour la synthèse faciale 3D, et introduit un pipeline Audio-Visuel Text-to-Speech.
arXiv cs.AI · cs.LG · cs.CL·Pedro Correa, Olivier Perrotin, Samir Sadok, Paula Costa·11 juin 2026

Image · Source originale
Cette recherche examine l'impact du choix de la représentation de la parole sur l'animation faciale 3D pilotée par la voix. Quatre familles sont comparées — SSL, codecs neuronaux, ASR — selon des métriques objectives et une évaluation perceptuelle. Les représentations encodant des classes phonétiques s'avèrent les plus précises. Les auteurs en déduisent un pipeline AVTTS exploitant des représentations discrètes pour décoder simultanément parole et mouvement facial 3D.