RECHERCHE

CLSA : attention sparse cross-couches avec routage partagé pour l'inférence longue

Une architecture qui mutualise l'index de routage entre couches pour accélérer l'inférence des LLM sur de très longs contextes sans perte de qualité notable.

arXiv cs.AI · cs.LG · cs.CL·Yutao Sun, Yanqi Zhang, Li Dong, Jianyong Wang·4 juin 2026

Image · Source originale

CLSA (Cross-Layer Sparse Attention) s'appuie sur les architectures à partage de cache KV comme YOCO pour également partager l'index de sélection top-k entre couches. Un seul indexeur calcule la sélection une fois et la réutilise, réduisant le coût du routage tout en préservant la précision de l'attention sparse par token. Sur des contextes de 128K tokens, la méthode atteint jusqu'à 7,6× de speedup en décodage et 17,1× de gain de débit global, avec des résultats compétitifs sur les benchmarks court et long contexte.

Chaleur 3

Pertinence 72

Nouveauté 74

OUVRIR LA SOURCE ↗

#sparse attention #long-context #inférence #KV-cache #LLM