RECHERCHE
ContextRL : un apprentissage par renforcement contextuel pour les LLMs agentiques et multimodaux
Une méthode RL auxiliaire pousse les LLMs à identifier précisément l'élément décisif dans un contexte long ou complexe, avec des gains mesurables.
arXiv cs.AI · cs.LG · cs.CL·Peiyang Xu, Bangzheng Li, Sijia Liu, Karthik R. Narasimhan·15 juin 2026

Image · Source originale
ContextRL propose un objectif auxiliaire indirect en renforcement par renforcement : le modèle doit sélectionner, parmi deux contextes très similaires, celui qui supporte une paire question-réponse donnée. Cette approche est appliquée aux agents de code (1 000 paires de trajectoires) et au raisonnement multimodal (7 000 paires d'images). Elle surpasse le GRPO standard de +2,2 % sur 5 benchmarks long-horizon et de +1,8 % sur 12 benchmarks VQA, sans que l'augmentation de données seule ne suffise à expliquer ces gains.