SAFETY
SafeSteer : distillation on-policy localisée pour un alignement sécurité efficace
Une nouvelle méthode d'alignement cible uniquement les tokens liés à la sécurité, réduisant drastiquement le coût d'alignement sans sacrifier les capacités générales.
arXiv cs.AI · cs.LG · cs.CL·Hao Li, Jingkun An, Zijun Song, Pengyu Zhu·1 juin 2026

Image · Source originale
SafeSteer propose une distillation on-policy restreinte aux tokens de sécurité, identifiés comme intrinsèquement rares dans la distribution de sortie des LLM. Un modèle enseignant est construit par activation steering, puis un algorithme sélectionne les tokens concernés pour y confiner la pénalité KL inverse. La méthode atteint de bonnes performances sur sept benchmarks de sécurité avec une dégradation minimale sur cinq benchmarks généraux, en utilisant seulement 100 exemples nocifs — moins de 1 % des données requises par les approches précédentes.