RECHERCHE

Progress Advantage : un signal d'évaluation pas-à-pas gratuit pour les agents LLM

Des chercheurs montrent que le fine-tuning par RL produit implicitement un signal d'évaluation step-level performant, sans entraîner de reward model dédié.

arXiv cs.AI · cs.LG · cs.CL·Changdae Oh, Wendi Li, Seongheon Park, Samuel Yeh·24 juin 2026

Image · Source originale

Les process reward models sont coûteux à construire pour les agents LLM en raison des interactions longues et des environnements stochastiques. Les auteurs montrent que le ratio log-probabilité entre la politique RL entraînée et sa politique de référence constitue un estimateur implicite de l'avantage optimal, qu'ils nomment « progress advantage ». Ce signal, sans annotation ni entraînement spécifique, surpasse les baselines de confiance et les reward models dédiés sur cinq benchmarks et quatre familles de modèles.

Chaleur 36

Pertinence 78

Nouveauté 74

OUVRIR LA SOURCE ↗

#LLM #agents #reinforcement-learning #reward-model #post-training