RECHERCHE

Tapered Language Models : allouer plus de capacité aux premières couches

Une nouvelle approche architecturale réduit progressivement la largeur des MLP en profondeur et améliore la perplexité sans coût supplémentaire.

arXiv cs.AI · cs.LG · cs.CL·Reza Bayat, Ali Behrouz, Aaron Courville·22 juin 2026

Image · Source originale

Les LLMs actuels empilent des couches identiques avec une répartition uniforme des paramètres, héritage non questionné du transformer original. Des chercheurs montrent que concentrer la capacité sur les couches initiales améliore la perplexité, tandis que l'inverse la dégrade. Ils proposent les Tapered Language Models (TLMs), qui appliquent une réduction monotone de la largeur des MLP selon un calendrier cosinus. Cette approche améliore systématiquement les performances sur quatre architectures et trois échelles, sans paramètres ni calculs supplémentaires.

Chaleur 13

Pertinence 72

Nouveauté 75

OUVRIR LA SOURCE ↗

#LLM #architecture #transformers #MLP #perplexité