RECHERCHE

TunerDiT : pilotage progressif sans entraînement des Diffusion Transformers pour la génération vidéo multi-événements

Une méthode training-free qui exploite les points de bascule intrinsèques des DiTs pour générer des vidéos longues à plusieurs événements distincts.

arXiv cs.AI · cs.LG · cs.CL·Ruotong Liao, Guowen Huang, Qing Cheng, Guangyao Zhai·29 mai 2026

Image · Source originale

TunerDiT identifie des points de transition dans la trajectoire de débruitage des Diffusion Transformers (DiTs) où le texte de conditionnement influence la génération, du cadrage global aux détails fins. La méthode propose deux mécanismes : un masquage par partition d'événements et une fusion de prompts inter-événements pour le raffinement tardif. Sans entraînement supplémentaire, TunerDiT atteint des performances état de l'art sur 8 métriques et améliore l'alignement textuel à mesure que le nombre d'événements augmente.

Chaleur 0

Pertinence 72

Nouveauté 74

OUVRIR LA SOURCE ↗

#diffusion transformer #text-to-video #training-free #génération vidéo #multi-événements