SAFETY
Anatomie du post-training : utiliser l'interprétabilité pour caractériser les données et façonner le signal d'apprentissage
Un pipeline centré sur les données permet d'auditer les datasets de préférence avant l'optimisation, en identifiant les concepts indésirables appris par les LLMs.
arXiv cs.AI · cs.LG · cs.CL·Leon Bergen, Usha Bhalla, Sidharth Baskaran, Max Loeffler·10 juin 2026

Image · Source originale
Le post-training des LLMs repose sur des récompenses scalaires opaques qui masquent ce que les données enseignent réellement aux modèles, favorisant l'émergence de biais comme la sur-stylisation ou la sycophance. Les auteurs proposent un pipeline exploitant des protocoles d'interprétabilité pour formuler des hypothèses statistiques sur les concepts latents séparant les générations préférées des non préférées. Cette approche permet d'auditer les datasets de préférence, de limiter l'apprentissage hors-cible et de moduler des propriétés comme les garde-fous ou la personnalité du modèle.