RECHERCHE

Parallel-Synthesis : synthèse directe dans l'espace latent pour les workflows multi-agents LLM

Un framework plug-and-play permet aux agents LLM de consommer directement les KV caches de branches parallèles, sans concaténation textuelle.

arXiv cs.AI · cs.LG · cs.CL·Shikun Liu, Mufei Li, Dongqi Fu, Haoyu Wang·12 juin 2026

Image · Source originale

Parallel-Synthesis est un framework qui court-circuite la concaténation de textes dans les workflows agents en permettant à un synthesizer de lire directement les KV caches produits par des agents workers parallèles. Il combine un cache mapper et un adaptateur fine-tuné. Sur neuf benchmarks couvrant maths, QA scientifique, génération de code et GAIA, il égale ou dépasse la synthèse textuelle sur sept datasets, tout en réduisant le temps avant premier token de 2,5x à 11x.

Chaleur 2

Pertinence 72

Nouveauté 78

OUVRIR LA SOURCE ↗

#LLM #agents #KV-cache #multi-agent #inférence