RECHERCHE
Progress Advantage : un signal d'évaluation pas-à-pas gratuit pour les agents LLM
Des chercheurs montrent que le fine-tuning par RL produit implicitement un signal d'évaluation step-level performant, sans entraîner de reward model dédié.
arXiv cs.AI · cs.LG · cs.CL·Changdae Oh, Wendi Li, Seongheon Park, Samuel Yeh·24 juin 2026

Image · Source originale
Les process reward models sont coûteux à construire pour les agents LLM en raison des interactions longues et des environnements stochastiques. Les auteurs montrent que le ratio log-probabilité entre la politique RL entraînée et sa politique de référence constitue un estimateur implicite de l'avantage optimal, qu'ils nomment « progress advantage ». Ce signal, sans annotation ni entraînement spécifique, surpasse les baselines de confiance et les reward models dédiés sur cinq benchmarks et quatre familles de modèles.