RECHERCHE
TokenPilot : gestion de contexte cache-efficiente pour agents LLM
Un framework à double granularité réduit les coûts d'inférence des agents LLM de 56 à 87 % en préservant la continuité du cache de prompt.
arXiv cs.AI · cs.LG · cs.CL·Buqiang Xu, Zirui Xue, Dianmou Chen, Chenyang Fu·15 juin 2026

Image · Source originale
TokenPilot propose un système de gestion de contexte en deux niveaux pour les agents LLM en sessions longues. Au niveau global, une compaction sensible à l'ingestion stabilise les préfixes de prompt ; au niveau local, une éviction basée sur le cycle de vie des segments élimine le contenu obsolète. Sur les benchmarks PinchBench et Claw-Eval, le framework réduit les coûts d'inférence de 61 % à 87 % selon le mode, sans dégradation notable des performances.