RECHERCHE
Tapered Language Models : allouer plus de capacité aux premières couches
Une nouvelle approche architecturale réduit progressivement la largeur des MLP en profondeur et améliore la perplexité sans coût supplémentaire.
arXiv cs.AI · cs.LG · cs.CL·Reza Bayat, Ali Behrouz, Aaron Courville·22 juin 2026

Image · Source originale
Les LLMs actuels empilent des couches identiques avec une répartition uniforme des paramètres, héritage non questionné du transformer original. Des chercheurs montrent que concentrer la capacité sur les couches initiales améliore la perplexité, tandis que l'inverse la dégrade. Ils proposent les Tapered Language Models (TLMs), qui appliquent une réduction monotone de la largeur des MLP selon un calendrier cosinus. Cette approche améliore systématiquement les performances sur quatre architectures et trois échelles, sans paramètres ni calculs supplémentaires.