RECHERCHE
Semantic Generative Tuning pour les modèles multimodaux unifiés
Une nouvelle méthode de post-entraînement utilise la segmentation d'image comme proxy pour aligner compréhension et génération visuelle dans un seul modèle.
arXiv cs.AI · cs.LG · cs.CL·Songsong Yu, Yuxin Chen, Ying Shan, Yanwei Li·18 mai 2026

Image · Source originale
Les modèles multimodaux unifiés (UMMs) peinent à faire coexister compréhension et génération visuelle en raison d'espaces de représentation désalignés. Les chercheurs proposent le Semantic Generative Tuning (SGT), qui exploite la segmentation d'image comme tâche proxy hiérarchique pour combler ce fossé. Les analyses mécanistiques montrent que SGT améliore la séparabilité linéaire des features et l'allocation d'attention visuo-textuelle, avec des gains mesurés sur les principaux benchmarks.