RECHERCHE
Fast Byte Latent Transformer : accélérer les modèles de langage au niveau octet
Des chercheurs proposent plusieurs techniques pour rendre les LMs byte-level jusqu'à deux fois plus rapides, sans sacrifier la qualité de génération.
arXiv cs.AI · cs.LG · cs.CL·Julie Kallini, Artidoro Pagnoni, Tomasz Limisiewicz, Gargi Ghosh·8 mai 2026

Image · Source originale
Le Byte Latent Transformer (BLT) génère du texte octet par octet, ce qui le ralentit face aux modèles tokenisés. Les auteurs introduisent BLT Diffusion (BLT-D), qui génère plusieurs octets en parallèle via un objectif de diffusion par blocs, ainsi que deux variantes combinant décodage spéculatif et vérification. L'ensemble des méthodes réduit le coût en bande passante mémoire de plus de 50 % par rapport au BLT standard.