RECHERCHE
CLSA : attention sparse cross-couches avec routage partagé pour l'inférence longue
Une architecture qui mutualise l'index de routage entre couches pour accélérer l'inférence des LLM sur de très longs contextes sans perte de qualité notable.
arXiv cs.AI · cs.LG · cs.CL·Yutao Sun, Yanqi Zhang, Li Dong, Jianyong Wang·4 juin 2026

Image · Source originale
CLSA (Cross-Layer Sparse Attention) s'appuie sur les architectures à partage de cache KV comme YOCO pour également partager l'index de sélection top-k entre couches. Un seul indexeur calcule la sélection une fois et la réutilise, réduisant le coût du routage tout en préservant la précision de l'attention sparse par token. Sur des contextes de 128K tokens, la méthode atteint jusqu'à 7,6× de speedup en décodage et 17,1× de gain de débit global, avec des résultats compétitifs sur les benchmarks court et long contexte.