Toutes les news taguées avec ce sujet.
Un framework sans entraînement qui optimise la compression du KV cache durant le décodage, en allouant dynamiquement les ressources par couche et par tête d'attention.
Un framework combine autoencoder appris et transcodage JPEG pour réduire drastiquement la bande passante en robotique cloud sans sacrifier les performances de perception.
Une nouvelle méthode post-training compresse les LLMs en ciblant les sous-modules Attention et FeedForward de façon non contiguë, surpassant les approches par couches complètes.
AdaCodec réduit drastiquement les tokens visuels vidéo en ne transmettant des frames complètes que lorsque la scène change vraiment.
Une étude montre que les méthodes pour évaluer la redondance des couches de transformers ne sont pas interchangeables et influencent directement les décisions d'élagage.
Des chercheurs établissent des garanties théoriques rigoureuses pour la quantification vectorielle via la transformée de Hadamard aléatoire, à coût computationnel réduit.