RECHERCHE
Contrôle des tokens aberrants dans les Diffusion Transformers
Des chercheurs identifient et corrigent les tokens à haute norme dans les DiTs, améliorant la qualité de génération d'images via une méthode baptisée DSR.
arXiv cs.AI · cs.LG · cs.CL·Xiaoyu Wu, Yifei Wang, Tsu-Jui Fu, Liang-Chieh Chen·6 mai 2026

Image · Source originale
Des travaux menés sur les Diffusion Transformers (DiTs) montrent que des tokens aberrants à haute norme apparaissent aussi bien dans l'encodeur ViT que dans le débruiteur, dégradant la sémantique locale des patches. La méthode proposée, Dual-Stage Registers (DSR), introduit des registres entraînés ou adaptatifs à l'inférence pour chaque composant. Les expériences sur ImageNet et en génération texte-image à grande échelle confirment une réduction des artefacts et une meilleure qualité visuelle.