Toutes les news taguées avec ce sujet.
Une étude empirique montre que plus un modèle est conservateur en offline, plus il est vulnérable au reward hacking lors de l'adaptation online.