SAFETY

Couplage introspectif : l'entraînement à l'auto-explication suit les changements comportementaux malgré une supervision fixe

Des chercheurs montrent que des LLM entraînés à s'expliquer développent une introspection fidèle à leur comportement actuel, même avec des données de supervision figées.

arXiv cs.AI · cs.LG · cs.CL·Zifan Carl Guo, Laura Ruis, Jacob Andreas, Belinda Z. Li·30 juin 2026

Image · Source originale

Des chercheurs de MIT et DeepMind étudient des LLM entraînés à expliquer leurs prédictions via des exemples contrefactuels issus de versions antérieures ou de modèles similaires. Ils constatent que ces modèles produisent des explications plus fidèles à leur comportement courant qu'à celui de leurs cibles d'entraînement — un phénomène baptisé « couplage introspectif ». Ce couplage persiste même lors d'ajustements post-entraînement (sycophanie, refus) et résiste au bruit dans les étiquettes, suggérant qu'un dataset fixe d'explications contrefactuelles suffit à induire une introspection généralisable.

Chaleur 30

Pertinence 72

Nouveauté 78

OUVRIR LA SOURCE ↗

#introspection #LLM #explicabilité #alignement #counterfactual