RECHERCHE

IV-CoT : raisonnement visuel implicite pour la génération texte-image structurée

Un framework de Chain-of-Thought visuel latent améliore le suivi des contraintes structurelles (comptage, relations spatiales, attributs) en génération texte-image.

arXiv cs.AI · cs.LG · cs.CL·Zixuan Li, Haokun Lin, Yicheng Xiao, Zhiwei Li·23 juin 2026

Image · Source originale

IV-CoT décompose les requêtes de conditionnement visuel en une cascade structurelle-sémantique : des requêtes structurelles forment d'abord un plan visuel latent, puis des requêtes sémantiques rendent l'apparence en s'y conditionnant. Une supervision par esquisses, utilisée uniquement à l'entraînement, guide les requêtes structurelles sans nécessiter d'extraction ni de décodage intermédiaire à l'inférence. Le raisonnement s'effectue en un seul passage forward, avec des gains mesurés sur GenEval et T2I-CompBench.

Chaleur 19

Pertinence 72

Nouveauté 74

OUVRIR LA SOURCE ↗

#text-to-image #chain-of-thought #MLLM #génération structurée #raisonnement visuel