RECHERCHE
DashAttention : une attention hiérarchique sparse, différentiable et adaptive
DashAttention propose une alternative aux méthodes top-k figées en sélectionnant un nombre variable de blocs KV via la transformation α-entmax, tout en restant entièrement différentiable.
arXiv cs.AI · cs.LG · cs.CL·Yuxiang Huang, Nuno M. T. Gonçalves, Federico Alvetreti, Lei Li·18 mai 2026

Image · Source originale
Les méthodes d'attention hiérarchique actuelles (NSA, InfLLMv2) reposent sur une sélection top-k qui bloque le gradient entre les étapes sparse et dense. DashAttention introduit la transformation α-entmax pour adapter dynamiquement le nombre de blocs sélectionnés par requête, rendant le pipeline entièrement différentiable. À 75 % de sparsité, il atteint une précision comparable à l'attention dense et surpasse NSA et InfLLMv2, avec une implémentation Triton plus rapide que FlashAttention-3 à l'inférence.