RECHERCHE
Quantification de la concentration des Transformers mean-field en régime basse température
Une analyse mathématique rigoureuse montre comment les tokens se concentrent rapidement dans les Transformers profonds à l'inférence, via des outils de systèmes multi-particules.
arXiv cs.AI · cs.LG · cs.CL·Albert Alcalde, Leon Bungert, Konstantin Riedl, Tim Roith·11 mai 2026

Image · Source originale
Ce papier étudie l'évolution des tokens dans des Transformers encodeurs profonds à l'inférence, décrite dans la limite d'un grand nombre de tokens par une équation de continuité mean-field. Les auteurs prouvent que la distribution des tokens se concentre rapidement vers une distribution limite induite par les matrices clé, requête et valeur, et reste métastable sur des temps modérés. La distance de Wasserstein entre les deux distributions est quantifiée en fonction du paramètre de température et du temps d'inférence, avec confirmation numérique des résultats théoriques.