RECHERCHE

TokenPilot : gestion de contexte cache-efficiente pour agents LLM

Un framework à double granularité réduit les coûts d'inférence des agents LLM de 56 à 87 % en préservant la continuité du cache de prompt.

arXiv cs.AI · cs.LG · cs.CL·Buqiang Xu, Zirui Xue, Dianmou Chen, Chenyang Fu·15 juin 2026

Image · Source originale

TokenPilot propose un système de gestion de contexte en deux niveaux pour les agents LLM en sessions longues. Au niveau global, une compaction sensible à l'ingestion stabilise les préfixes de prompt ; au niveau local, une éviction basée sur le cycle de vie des segments élimine le contenu obsolète. Sur les benchmarks PinchBench et Claw-Eval, le framework réduit les coûts d'inférence de 61 % à 87 % selon le mode, sans dégradation notable des performances.

Chaleur 5

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#LLM #agents #prompt-cache #gestion-contexte #inférence