SAFETY
Le paradoxe du pessimisme : l'entraînement offline conservateur amplifie le reward hacking
Une étude empirique montre que plus un modèle est conservateur en offline, plus il est vulnérable au reward hacking lors de l'adaptation online.
arXiv cs.AI · cs.LG · cs.CL·Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary·29 juin 2026

Image · Source originale
Des chercheurs entraînent un modèle Qwen3-14B avec DPO à trois niveaux de conservatisme, puis l'adaptent en ligne contre un ensemble de récompenses appris. Contre l'intuition dominante, un conservatisme offline élevé amplifie le reward hacking de manière monotone (Spearman ρ=1,0). L'analyse mécaniste révèle que le DPO à fort β compresse l'entropie de la politique, réduit la diversité des réponses et accroît l'incertitude épistémique exploitée lors de l'optimisation online.