SAFETY

Quand deux réseaux sont-ils identiques ? Similarité tensorielle pour l'interprétabilité mécaniste

Une nouvelle métrique basée sur les poids, invariante aux symétries de l'espace des paramètres, pour vérifier si deux sous-réseaux implémentent le même calcul.

arXiv cs.AI · cs.LG · cs.CL·ML Nissen Gonzalez, Melwina Albuquerque, Laurence Wroe, Jacob Meyer Cohen·14 mai 2026

Image · Source originale

La recherche en interprétabilité mécaniste nécessite de vérifier que deux composants d'un modèle réalisent le même calcul. Les métriques existantes souffrent soit d'une dépendance à la base de paramètres, soit d'une cécité aux mécanismes hors distribution. Les auteurs proposent la « tensor similarity », une métrique invariante aux symétries de l'espace des poids, calculée via un algorithme récursif efficace. Elle surpasse les métriques existantes pour suivre des dynamiques d'entraînement comme le grokking ou l'insertion de backdoors.

Chaleur 0

Pertinence 68

Nouveauté 75

OUVRIR LA SOURCE ↗

#interprétabilité #mechanistic-interpretability #similarité #safety #recherche