RECHERCHE
SAVGO : apprentissage de la géométrie valeur-action par similarité cosinus pour le contrôle continu
Un nouvel algorithme de reinforcement learning intègre la similarité cosinus dans l'espace d'action pour guider directement les mises à jour de politique.
arXiv cs.AI · cs.LG · cs.CL·Stavros Orfanoudakis, Pedro P. Vergara·1 mai 2026

Image · Source originale
SAVGO propose un algorithme de RL géométriquement cohérent qui apprend un espace d'embedding joint état-action, où les paires à valeurs similaires présentent une haute similarité cosinus. Cette géométrie apprise génère un noyau de similarité sur les actions candidates, orientant l'amélioration de la politique vers des régions de haute valeur au-delà des mises à jour par gradient local. La méthode unifie représentation, estimation de valeur et optimisation de politique dans un seul objectif, évaluée sur les benchmarks MuJoCo.