RECHERCHE

Des tokens aux visages : représentations discrètes de la parole pour l'animation faciale 3D

Une étude comparative évalue quatre familles de représentations speech pour la synthèse faciale 3D, et introduit un pipeline Audio-Visuel Text-to-Speech.

arXiv cs.AI · cs.LG · cs.CL·Pedro Correa, Olivier Perrotin, Samir Sadok, Paula Costa·11 juin 2026

Image · Source originale

Cette recherche examine l'impact du choix de la représentation de la parole sur l'animation faciale 3D pilotée par la voix. Quatre familles sont comparées — SSL, codecs neuronaux, ASR — selon des métriques objectives et une évaluation perceptuelle. Les représentations encodant des classes phonétiques s'avèrent les plus précises. Les auteurs en déduisent un pipeline AVTTS exploitant des représentations discrètes pour décoder simultanément parole et mouvement facial 3D.

Chaleur 13

Pertinence 55

Nouveauté 65

OUVRIR LA SOURCE ↗

#speech synthesis #animation faciale 3D #SSL #text-to-speech #représentations discrètes