RECHERCHE
SubFit : compression de LLMs au niveau des sous-modules plutôt que des couches entières
Une nouvelle méthode post-training compresse les LLMs en ciblant les sous-modules Attention et FeedForward de façon non contiguë, surpassant les approches par couches complètes.
arXiv cs.AI · cs.LG · cs.CL·Elia Cunegatti, Marcus Vukojevic, Erik Nielsen, Giovanni Iacca·1 juin 2026

Image · Source originale
SubFit (Submodule-level Fitted residual replacement) repense la granularité de la compression des LLMs en opérant au niveau des sous-modules plutôt que des couches entières. Contrairement aux méthodes existantes qui imposent une sélection contiguë, SubFit sélectionne de façon non contiguë les sous-modules Attention et FeedForward, chacun recevant un bypass résiduel léger. Sur dix LLMs et cinq niveaux de sparsité (12,5 % à 37,5 %), SubFit retient 84,6 % de la précision dense à 25 % de sparsité, contre 81,6 % pour les meilleures baselines, tout en réduisant la latence et l'empreinte KV-cache.