RECHERCHE

KV-Fold : inférence longue séquence via récurrence sur le KV-Cache

Une méthode sans entraînement qui traite le KV-Cache comme accumulateur d'un fold fonctionnel pour étendre le contexte jusqu'à 128K tokens.

arXiv cs.AI · cs.LG · cs.CL·Alireza Nadali, Patrick Cooper, Ashutosh Trivedi, Alvaro Velasquez·12 mai 2026

Image · Source originale

KV-Fold est un protocole d'inférence longue séquence sans entraînement qui applique une récurrence chunk par chunk sur le KV-Cache, à la manière d'un foldl fonctionnel. Le modèle traite chaque segment en s'appuyant sur le cache accumulé des segments précédents, sans modifier les poids. Sur un benchmark needle-in-a-haystack, la méthode atteint 100 % de récupération exacte sur 152 essais couvrant des contextes de 16K à 128K tokens, sur Llama-3.1-8B avec un seul GPU 40 Go.

Chaleur 0

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#kv-cache #long-context #inférence #LLM #récurrence