RECHERCHE

Réévaluer la récupération intensive en raisonnement pour les systèmes de recherche agentique

Un nouveau benchmark et un retriever fine-tuné révèlent les limites des évaluations classiques dans les systèmes de recherche agentique.

arXiv cs.AI · cs.LG · cs.CL·Yilun Zhao, Jinbiao Wei, Tingyu Song, Siyue Zhang·5 mai 2026

Image · Source originale

Les auteurs introduisent BRIGHT-Pro, un benchmark annoté par des experts qui étend chaque requête avec des preuves multi-aspects et évalue les retrievers dans des protocoles statiques et agentiques. Ils construisent également RTriever-Synth, un corpus synthétique décomposé par aspects, utilisé pour fine-tuner via LoRA le modèle RTriever-4B à partir de Qwen3-Embedding-4B. Les expériences montrent que l'évaluation agentique révèle des comportements invisibles avec les métriques standard, et que RTriever-4B surpasse significativement son modèle de base.

Chaleur 0

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#RAG #retrieval #agents #benchmark #fine-tuning