RECHERCHE

CORA : aligner le raisonnement et la réponse dans les modèles multimodaux avec RLVR

Une méthode plug-and-play pour corriger l'incohérence sémantique entre le raisonnement interne et la réponse finale des LVLMs entraînés par RLVR.

arXiv cs.AI · cs.LG · cs.CL·Jiayue Cao, Zhicong Lu, Xuehan Sun, Wei Jia·12 juin 2026

Image · Source originale

Les méthodes RLVR actuelles pour les grands modèles vision-langage (LVLMs) négligent l'incohérence sémantique entre la chaîne de raisonnement et la réponse finale. CORA introduit un modèle de récompense de cohérence léger et modulaire, combiné à un mécanisme de séparation des avantages de récompense hybride (HRAS) pour stabiliser l'optimisation. Les expériences sur plusieurs benchmarks multimodaux montrent une amélioration des performances tout en réduisant les incohérences thinking-answer.

Chaleur 1

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#RLVR #multimodal #LVLMs #raisonnement #alignement