Toutes les news taguées avec ce sujet.
Une méthode d'édition apprise du KV cache permet de supprimer des spans de contexte sans recomputer les tokens suivants, avec une latence quasi inchangée.