RECHERCHE
Q2RL : extraire des Q-fonctions depuis le Behavior Cloning pour le RL sur robot
Un algorithme combine Behavior Cloning et Reinforcement Learning pour apprendre des politiques robotiques robustes en 1 à 2 heures d'interaction réelle.
arXiv cs.AI · cs.LG · cs.CL·Lakshita Dodeja, Ondrej Biza, Shivam Vats, Stephen Hart·6 mai 2026

Image · Source originale
Q2RL propose une méthode d'apprentissage offline-to-online en deux étapes : Q-Estimation extrait une Q-fonction à partir d'une politique BC avec peu d'interactions, puis Q-Gating sélectionne dynamiquement entre les actions BC et RL selon leurs Q-valeurs. Sur les benchmarks D4RL et robomimic, Q2RL surpasse les baselines SOTA en taux de succès et en vitesse de convergence. Appliqué sur robot réel, il atteint jusqu'à 100 % de succès sur des tâches de manipulation complexes en 1 à 2 heures.