RECHERCHE

FPL : apprentissage par préférences libres pour la manipulation robotique

Une méthode permet aux annotateurs de définir leurs propres axes d'évaluation en langage naturel pour guider l'apprentissage de politiques robotiques.

arXiv cs.AI · cs.LG · cs.CL·Marcel Torne, Anubha Mahajan, Abhijnya Bhat, Chelsea Finn·30 juin 2026

Image · Source originale

Freeform Preference Learning (FPL) remplace les labels binaires par des axes de préférence en langage naturel (vitesse, sécurité, précision) définis par les annotateurs. Un modèle de récompense conditionné par le langage est entraîné à partir de ces annotations par paires, puis utilisé pour optimiser une politique multi-dimensionnelle. Sur six tâches de manipulation, FPL surpasse les méthodes classiques de 38 points de pourcentage et permet de piloter le comportement du robot à l'inférence sans réentraînement.

Chaleur 30

Pertinence 62

Nouveauté 72

OUVRIR LA SOURCE ↗

#robotique #reward-learning #RLHF #manipulation #language-conditioned