RECHERCHE
Apprentissage de récompenses de processus par correspondance de visites de succès pour un RL efficace
Une méthode simple pour transformer une récompense sparse en signal dense, en entraînant un discriminateur à distinguer épisodes réussis et échoués.
arXiv cs.AI · cs.LG · cs.CL·Raymond Tsao, Andrew Wagenmaker, Sergey Levine·22 juin 2026

Image · Source originale
Les auteurs proposent de convertir une récompense sparse en récompense de processus dense via un discriminateur entraîné à distinguer les épisodes réussis des échoués. La politique RL est incitée à reproduire les distributions d'état-action des épisodes réussis, fournissant un signal d'apprentissage continu sans altérer la politique optimale. Appliquée au fine-tuning de politiques de contrôle robotique, la méthode accélère significativement l'apprentissage sur des tâches de manipulation simulées et réelles.