Toutes les news taguées avec ce sujet.
Une reformulation du problème RL remplace la récompense scalaire par une distribution, faisant émerger la diversité comportementale sans sacrifier la performance.