RECHERCHE

HABC : pondération hiérarchique des avantages pour le fine-tuning RL des VLA

Une nouvelle méthode de fine-tuning par RL en ligne pour les politiques VLA, qui sépare viabilité et efficacité via deux têtes critiques adaptatives.

arXiv cs.AI · cs.LG · cs.CL·Tongyan Fang, Siyuan Huang, Naiyu Fang, Ganlong Zhao·15 juin 2026

Image · Source originale

Les politiques VLA fine-tunées par RL en ligne ne reçoivent qu'un signal binaire succès/échec par épisode, insuffisant pour guider chaque transition. HABC propose deux têtes critiques distinctes — l'une pour la viabilité, l'autre pour l'efficacité — combinées par une porte adaptative à l'état. Un mécanisme d'assignation de crédit tenant compte des interventions humaines évite la fuite de supervision entre segments autonomes et assistés.

Chaleur 4

Pertinence 55

Nouveauté 68

OUVRIR LA SOURCE ↗

#VLA #reinforcement-learning #fine-tuning #robotique #credit-assignment