Toutes les news taguées avec ce sujet.
Une nouvelle méthode post-training compresse les LLMs en ciblant les sous-modules Attention et FeedForward de façon non contiguë, surpassant les approches par couches complètes.
Une étude montre que les méthodes pour évaluer la redondance des couches de transformers ne sont pas interchangeables et influencent directement les décisions d'élagage.