RECHERCHE

AIR : raisonnement interleaved adaptatif avec du code dans les MLLMs

Des chercheurs proposent une méthode d'entraînement par RL pour doter les modèles multimodaux d'un raisonnement adaptatif alternant langage naturel et code.

arXiv cs.AI · cs.LG · cs.CL·Cong Han, Xiaohan Lan, Haibo Qiu, Yujie Zhong·22 juin 2026

Image · Source originale

AIR enrichit les MLLMs d'une capacité de raisonnement interleaved adaptative, combinant génération de code et raisonnement textuel pour traiter des calculs numériques complexes. La solution repose sur trois composantes : un pipeline de données cold-start en deux étapes, des stratégies de filtrage pour le dataset RL, et une stratégie d'invocation d'outils pilotée par une fonction de récompense à contrainte de groupe. Après entraînement par RL, les benchmarks affichent un gain moyen de 6,1 points de pourcentage, avec un taux de réussite d'utilisation d'outils dépassant 95%.

Chaleur 12

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#MLLMs #reinforcement-learning #raisonnement #code-generation #multimodal