RECHERCHE
La superposition n'est pas nécessaire : analyse mécaniste des représentations Transformer pour la prévision de séries temporelles
Une étude applique les sparse autoencoders à PatchTST et constate que les représentations internes n'exploitent pas la superposition pour performer.
arXiv cs.AI · cs.LG · cs.CL·Alper Yıldırım·6 mai 2026

Image · Source originale
Des chercheurs appliquent des sparse autoencoders (SAEs), issus de l'interprétabilité mécaniste, aux représentations internes de PatchTST pour les séries temporelles. Les résultats montrent que l'expansion du dictionnaire n'améliore quasiment pas les performances (0,214% en moyenne) et que les interventions causales sur les features latentes ont un impact minimal. Les représentations FFN restent sparse et stables, sans recourir à la superposition. Ces résultats expliquent pourquoi de simples modèles linéaires restent compétitifs face aux Transformers sur les benchmarks standards.