RECHERCHE

QVal : évaluer à moindre coût les signaux de supervision dense pour agents LLM

Un banc d'essai sans entraînement pour comparer 21 méthodes de supervision dense d'agents LLM sur des trajectoires longues.

arXiv cs.AI · cs.LG · cs.CL·Sergio Hernández-Gutiérrez, Matteo Merler, Ilze Amanda Auzina, Joschka Strüber·30 juin 2026

Image · Source originale

Les agents LLM sur horizons longs souffrent de récompenses trop clairsemées. QVal propose un cadre d'évaluation sans entraînement mesurant l'alignement des scores intermédiaires sur les Q-values d'une politique de référence. La version QVal-v1.0 benchmark 21 méthodes sur 4 environnements et 6 modèles open-weights. Résultat surprenant : de simples baselines de prompting surpassent régulièrement les méthodes récentes de supervision dense.

Chaleur 30

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#LLM agents #supervision dense #reinforcement-learning #benchmark #long-horizon