RECHERCHE
Pourquoi le RL multi-étapes pour l'usage d'outils s'effondre et comment y remédier
Des chercheurs identifient les causes des effondrements catastrophiques lors de l'entraînement RL d'agents LLM utilisant des outils, et proposent des signaux superviseurs pour stabiliser l'apprentissage.
arXiv cs.AI · cs.LG · cs.CL·Yupu Hao, Zhuoran Jin, Huanxuan Liao, Kang Liu·24 juin 2026

Image · Source originale
L'entraînement par reinforcement learning (RL) de LLMs sur des tâches multi-étapes d'usage d'outils provoque parfois des effondrements catastrophiques dus à des pics de probabilité sur certains tokens de contrôle. Les chercheurs montrent que l'intercalage de fine-tuning supervisé (SFT) avec le RL améliore la stabilité, au prix d'une dégradation en évaluation hors-distribution. Plusieurs types de signaux superviseurs — supervision off-policy, guidage par indices, exemples erronés — sont comparés dans différents schémas d'entraînement.