RECHERCHE
Le RL sans solutions de référence peut améliorer les LLM
RiVER entraîne des LLM par reinforcement learning sur des tâches d'optimisation sans ground-truth, via des retours d'exécution continus.
arXiv cs.AI · cs.LG · cs.CL·Yingyu Lin, Qiyue Gao, Nikki Lijing Kuang, Xunpeng Huang·25 juin 2026

Image · Source originale
RiVER (Ranking-induced VERifiable framework) applique le reinforcement learning à des tâches d'optimisation par score, sans réponses de référence, en s'appuyant sur des retours d'exécution déterministes comme supervision continue. Le cadre résout deux problèmes identifiés dans le RL groupe-relatif : la dominance d'échelle et la dominance de fréquence, via un reward shaping calibré par comparaisons intra-instances. Sur Qwen3-8B et GLM-Z1-9B, RiVER améliore de 8,9 % et 9,4 % le rang ALE, tout en progressant sur LiveCodeBench (+2,4 %) et USACO (+3,5 %) sans jamais s'entraîner sur ces benchmarks.