SAFETY
Couplage introspectif : l'entraînement à l'auto-explication suit les changements comportementaux malgré une supervision fixe
Des chercheurs montrent que des LLM entraînés à s'expliquer développent une introspection fidèle à leur comportement actuel, même avec des données de supervision figées.
arXiv cs.AI · cs.LG · cs.CL·Zifan Carl Guo, Laura Ruis, Jacob Andreas, Belinda Z. Li·30 juin 2026

Image · Source originale
Des chercheurs de MIT et DeepMind étudient des LLM entraînés à expliquer leurs prédictions via des exemples contrefactuels issus de versions antérieures ou de modèles similaires. Ils constatent que ces modèles produisent des explications plus fidèles à leur comportement courant qu'à celui de leurs cibles d'entraînement — un phénomène baptisé « couplage introspectif ». Ce couplage persiste même lors d'ajustements post-entraînement (sycophanie, refus) et résiste au bruit dans les étiquettes, suggérant qu'un dataset fixe d'explications contrefactuelles suffit à induire une introspection généralisable.