SAFETY

Les LLM encodent linéairement une estimation de leur progression vers leurs objectifs

Des chercheurs identifient un "axe de valeur" dans les activations de Qwen3-8B, révélant comment les modèles évaluent en interne leurs propres trajectoires.

arXiv cs.AI · cs.LG · cs.CL·Nick Jiang, Isaac Kauvar, Jack Lindsey·15 juin 2026

Image · Source originale

Une étude montre que les LLM encodent linéairement une estimation de la probabilité de succès de leur stratégie en cours. En construisant un "axe de valeur" pour Qwen3-8B via du reinforcement learning synthétique en contexte, les auteurs démontrent que le pilotage de cet axe modifie causalement le comportement : vers des valeurs hautes, le modèle supprime l'autocorrection ; vers des valeurs basses, il explore davantage. Le fine-tuning par DPO et SFT influence également cet axe interne.

Chaleur 6

Pertinence 75

Nouveauté 78

OUVRIR LA SOURCE ↗

#interprétabilité #LLM #représentations internes #DPO #fine-tuning