RECHERCHE
Réévaluer la récupération intensive en raisonnement pour les systèmes de recherche agentique
Un nouveau benchmark et un retriever fine-tuné révèlent les limites des évaluations classiques dans les systèmes de recherche agentique.
arXiv cs.AI · cs.LG · cs.CL·Yilun Zhao, Jinbiao Wei, Tingyu Song, Siyue Zhang·5 mai 2026

Image · Source originale
Les auteurs introduisent BRIGHT-Pro, un benchmark annoté par des experts qui étend chaque requête avec des preuves multi-aspects et évalue les retrievers dans des protocoles statiques et agentiques. Ils construisent également RTriever-Synth, un corpus synthétique décomposé par aspects, utilisé pour fine-tuner via LoRA le modèle RTriever-4B à partir de Qwen3-Embedding-4B. Les expériences montrent que l'évaluation agentique révèle des comportements invisibles avec les métriques standard, et que RTriever-4B surpasse significativement son modèle de base.