RECHERCHE
CORA : aligner le raisonnement et la réponse dans les modèles multimodaux avec RLVR
Une méthode plug-and-play pour corriger l'incohérence sémantique entre le raisonnement interne et la réponse finale des LVLMs entraînés par RLVR.
arXiv cs.AI · cs.LG · cs.CL·Jiayue Cao, Zhicong Lu, Xuehan Sun, Wei Jia·12 juin 2026

Image · Source originale
Les méthodes RLVR actuelles pour les grands modèles vision-langage (LVLMs) négligent l'incohérence sémantique entre la chaîne de raisonnement et la réponse finale. CORA introduit un modèle de récompense de cohérence léger et modulaire, combiné à un mécanisme de séparation des avantages de récompense hybride (HRAS) pour stabiliser l'optimisation. Les expériences sur plusieurs benchmarks multimodaux montrent une amélioration des performances tout en réduisant les incohérences thinking-answer.