RECHERCHE
Variable-Width Transformers : une architecture en forme de X pour les LLM
Des chercheurs proposent une architecture transformer à largeur variable, plus large en début et fin de réseau, qui réduit les FLOPs de 22 % à performance égale.
arXiv cs.AI · cs.LG · cs.CL·Zhaofeng Wu, Oliver Sieberling, Shawn Tan, Rameswar Panda·16 juin 2026

Image · Source originale
La plupart des transformers maintiennent une largeur constante à travers toutes les couches, répartissant uniformément le budget de calcul. Cette étude propose une architecture « >|<former » en forme de X, plus large en début et fin de réseau et plus étroite au centre, via un mécanisme de redimensionnement résiduel sans paramètre supplémentaire. Testée sur des modèles de 200M à 3B paramètres (dense et MoE), elle surpasse les baselines uniformes à iso-paramètres, réduit les FLOPs de 22 % et le cache KV de 15 %.