RECHERCHE
IV-CoT : raisonnement visuel implicite pour la génération texte-image structurée
Un framework de Chain-of-Thought visuel latent améliore le suivi des contraintes structurelles (comptage, relations spatiales, attributs) en génération texte-image.
arXiv cs.AI · cs.LG · cs.CL·Zixuan Li, Haokun Lin, Yicheng Xiao, Zhiwei Li·23 juin 2026

Image · Source originale
IV-CoT décompose les requêtes de conditionnement visuel en une cascade structurelle-sémantique : des requêtes structurelles forment d'abord un plan visuel latent, puis des requêtes sémantiques rendent l'apparence en s'y conditionnant. Une supervision par esquisses, utilisée uniquement à l'entraînement, guide les requêtes structurelles sans nécessiter d'extraction ni de décodage intermédiaire à l'inférence. Le raisonnement s'effectue en un seul passage forward, avec des gains mesurés sur GenEval et T2I-CompBench.