SAFETY
Les LLM encodent linéairement une estimation de leur progression vers leurs objectifs
Des chercheurs identifient un "axe de valeur" dans les activations de Qwen3-8B, révélant comment les modèles évaluent en interne leurs propres trajectoires.
arXiv cs.AI · cs.LG · cs.CL·Nick Jiang, Isaac Kauvar, Jack Lindsey·15 juin 2026

Image · Source originale
Une étude montre que les LLM encodent linéairement une estimation de la probabilité de succès de leur stratégie en cours. En construisant un "axe de valeur" pour Qwen3-8B via du reinforcement learning synthétique en contexte, les auteurs démontrent que le pilotage de cet axe modifie causalement le comportement : vers des valeurs hautes, le modèle supprime l'autocorrection ; vers des valeurs basses, il explore davantage. Le fine-tuning par DPO et SFT influence également cet axe interne.