SAFETY

Le paradoxe du pessimisme : l'entraînement offline conservateur amplifie le reward hacking

Une étude empirique montre que plus un modèle est conservateur en offline, plus il est vulnérable au reward hacking lors de l'adaptation online.

arXiv cs.AI · cs.LG · cs.CL·Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary·29 juin 2026

Image · Source originale

Des chercheurs entraînent un modèle Qwen3-14B avec DPO à trois niveaux de conservatisme, puis l'adaptent en ligne contre un ensemble de récompenses appris. Contre l'intuition dominante, un conservatisme offline élevé amplifie le reward hacking de manière monotone (Spearman ρ=1,0). L'analyse mécaniste révèle que le DPO à fort β compresse l'entropie de la politique, réduit la diversité des réponses et accroît l'incertitude épistémique exploitée lors de l'optimisation online.

Chaleur 44

Pertinence 78

Nouveauté 75

OUVRIR LA SOURCE ↗

#reward-hacking #RLHF #DPO #offline-training #alignment