RECHERCHE
TunerDiT : pilotage progressif sans entraînement des Diffusion Transformers pour la génération vidéo multi-événements
Une méthode training-free qui exploite les points de bascule intrinsèques des DiTs pour générer des vidéos longues à plusieurs événements distincts.
arXiv cs.AI · cs.LG · cs.CL·Ruotong Liao, Guowen Huang, Qing Cheng, Guangyao Zhai·29 mai 2026

Image · Source originale
TunerDiT identifie des points de transition dans la trajectoire de débruitage des Diffusion Transformers (DiTs) où le texte de conditionnement influence la génération, du cadrage global aux détails fins. La méthode propose deux mécanismes : un masquage par partition d'événements et une fusion de prompts inter-événements pour le raffinement tardif. Sans entraînement supplémentaire, TunerDiT atteint des performances état de l'art sur 8 métriques et améliore l'alignement textuel à mesure que le nombre d'événements augmente.