RECHERCHE
RACES : composition récursive d'environnements vérifiables pour le raisonnement des LLMs
Un framework traite les environnements vérifiables comme des briques LEGO composables, permettant de scaler le RL sans limites linéaires.
arXiv cs.AI · cs.LG · cs.CL·Hao Xiang, Qiaoyu Tang, Le Yu, Yaojie Lu·10 juin 2026

Image · Source originale
RACES (Recursive Automated Composition for Environment Scaling) propose de composer automatiquement des environnements vérifiables en associant ceux dont les types d'entrée/sortie sont compatibles. Implémenté avec 300 environnements individuels et quatre opérateurs de composition, le framework améliore DeepSeek-R1-Distill-Qwen-14B de 3,1 points en moyenne et Qwen3-14B de 58,8 à 61,1 sur six benchmarks non vus à l'entraînement.