RECHERCHE

Fast Byte Latent Transformer : accélérer les modèles de langage au niveau octet

Des chercheurs proposent plusieurs techniques pour rendre les LMs byte-level jusqu'à deux fois plus rapides, sans sacrifier la qualité de génération.

arXiv cs.AI · cs.LG · cs.CL·Julie Kallini, Artidoro Pagnoni, Tomasz Limisiewicz, Gargi Ghosh·8 mai 2026

Image · Source originale

Le Byte Latent Transformer (BLT) génère du texte octet par octet, ce qui le ralentit face aux modèles tokenisés. Les auteurs introduisent BLT Diffusion (BLT-D), qui génère plusieurs octets en parallèle via un objectif de diffusion par blocs, ainsi que deux variantes combinant décodage spéculatif et vérification. L'ensemble des méthodes réduit le coût en bande passante mémoire de plus de 50 % par rapport au BLT standard.

Chaleur 0

Pertinence 68

Nouveauté 74

OUVRIR LA SOURCE ↗

#byte-level LM #diffusion #speculative decoding #génération rapide #BLT