RECHERCHE

DashAttention : une attention hiérarchique sparse, différentiable et adaptive

DashAttention propose une alternative aux méthodes top-k figées en sélectionnant un nombre variable de blocs KV via la transformation α-entmax, tout en restant entièrement différentiable.

arXiv cs.AI · cs.LG · cs.CL·Yuxiang Huang, Nuno M. T. Gonçalves, Federico Alvetreti, Lei Li·18 mai 2026

Image · Source originale

Les méthodes d'attention hiérarchique actuelles (NSA, InfLLMv2) reposent sur une sélection top-k qui bloque le gradient entre les étapes sparse et dense. DashAttention introduit la transformation α-entmax pour adapter dynamiquement le nombre de blocs sélectionnés par requête, rendant le pipeline entièrement différentiable. À 75 % de sparsité, il atteint une précision comparable à l'attention dense et surpasse NSA et InfLLMv2, avec une implémentation Triton plus rapide que FlashAttention-3 à l'inférence.

Chaleur 0

Pertinence 72

Nouveauté 76

OUVRIR LA SOURCE ↗

#attention #sparse-attention #long-context #LLM #transformers