RECHERCHE
QVal : évaluer à moindre coût les signaux de supervision dense pour agents LLM
Un banc d'essai sans entraînement pour comparer 21 méthodes de supervision dense d'agents LLM sur des trajectoires longues.
arXiv cs.AI · cs.LG · cs.CL·Sergio Hernández-Gutiérrez, Matteo Merler, Ilze Amanda Auzina, Joschka Strüber·30 juin 2026

Image · Source originale
Les agents LLM sur horizons longs souffrent de récompenses trop clairsemées. QVal propose un cadre d'évaluation sans entraînement mesurant l'alignement des scores intermédiaires sur les Q-values d'une politique de référence. La version QVal-v1.0 benchmark 21 méthodes sur 4 environnements et 6 modèles open-weights. Résultat surprenant : de simples baselines de prompting surpassent régulièrement les méthodes récentes de supervision dense.