SAFETY
Fidélité des substituts : quand les LLM ouverts peuvent-ils expliquer les modèles fermés ?
Une étude évalue dans quelle mesure les analyses d'interprétabilité réalisées sur des modèles open-weights sont transférables aux modèles propriétaires à accès restreint.
arXiv cs.AI · cs.LG · cs.CL·Philippe Chlenski, Zachariah Carmichael, Ayush Warikoo, Chia-Tse Shao·30 juin 2026

Image · Source originale
La recherche en interprétabilité mécaniste exige un accès complet aux paramètres internes, inaccessibles pour la plupart des grands modèles commerciaux. Sur onze modèles issus de quatre familles (Llama, Qwen, GPT, Gemini), les auteurs montrent que l'accord au niveau des prédictions surestime largement l'accord au niveau des attributions causales. Ils documentent une « inversion accès-validité » : les signaux white-box sont stables entre modèles mais peu prédictifs des attributions causales, mieux capturées par les ablations black-box. L'interprétabilité mécaniste ne se transfère donc pas automatiquement d'un modèle ouvert vers un modèle fermé.