RECHERCHE
UBP2 : planification sous incertitude pour un RL basé sur les préférences plus efficace
Une approche model-based qui guide activement l'exploration en raisonnant conjointement sur les incertitudes de récompense, dynamique et valeur.
arXiv cs.AI · cs.LG · cs.CL·Mohamed Nabail, Leo Cheng, Jingmin Wang, Nicholas Rhinehart·17 juin 2026

Image · Source originale
UBP2 (Uncertainty-Balanced Preference Planning) propose une méthode model-based pour le reinforcement learning basé sur les préférences, remplaçant la collecte passive de données par une exploration active. Des ensembles de modèles (récompense, dynamique, fonction de valeur) évaluent les trajectoires selon un score unifié combinant récompense attendue et incertitude épistémique. La méthode offre des garanties de regret sous-linéaire et surpasse les baselines model-free sur le benchmark Meta-World.