RECHERCHE
SATFormer : accès sélectif aux représentations des premières couches dans les Transformers
Une nouvelle architecture Transformer contrôle dynamiquement l'accès aux représentations de la première couche via une gate contextuelle, améliorant les benchmarks retrieval-intensifs.
arXiv cs.AI · cs.LG · cs.CL·Skye Gunasekaran, Téa Wright, Rui-Jie Zhu, Jason Eshraghian·5 mai 2026

Image · Source originale
SATFormer (Selective Access Transformer) introduit une gate dépendante du contexte pour réguler l'accès aux projections de valeurs de la première couche, traitant la réutilisation des représentations précoces comme un problème de retrieval plutôt que de connectivité. Sur des modèles de 130M à 1,3B paramètres, l'architecture améliore systématiquement la validation loss et la précision zero-shot, avec un gain d'environ 1,5 point sur les benchmarks retrieval-intensifs, sans surcoût mémoire ni perte de débit significatifs.