Toutes les news taguées avec ce sujet.
Un framework sans entraînement qui optimise la compression du KV cache durant le décodage, en allouant dynamiquement les ressources par couche et par tête d'attention.
Une méthode sans entraînement qui traite le KV-Cache comme accumulateur d'un fold fonctionnel pour étendre le contexte jusqu'à 128K tokens.