RECHERCHE
HABC : pondération hiérarchique des avantages pour le fine-tuning RL des VLA
Une nouvelle méthode de fine-tuning par RL en ligne pour les politiques VLA, qui sépare viabilité et efficacité via deux têtes critiques adaptatives.
arXiv cs.AI · cs.LG · cs.CL·Tongyan Fang, Siyuan Huang, Naiyu Fang, Ganlong Zhao·15 juin 2026

Image · Source originale
Les politiques VLA fine-tunées par RL en ligne ne reçoivent qu'un signal binaire succès/échec par épisode, insuffisant pour guider chaque transition. HABC propose deux têtes critiques distinctes — l'une pour la viabilité, l'autre pour l'efficacité — combinées par une porte adaptative à l'état. Un mécanisme d'assignation de crédit tenant compte des interventions humaines évite la fuite de supervision entre segments autonomes et assistés.