RECHERCHE
DRFLOW : un benchmark pour la prédiction de workflows personnalisés par agents IA
Un nouveau benchmark évalue la capacité des agents à identifier des séquences d'actions concrètes à partir de sources hétérogènes, au-delà de la simple génération de rapports.
arXiv cs.AI · cs.LG · cs.CL·Md Tawkat Islam Khondaker, Raymond Li, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan·16 juin 2026

Image · Source originale
DRFLOW est un benchmark conçu pour évaluer la prédiction de workflows personnalisés par des agents de deep research. Il comprend 100 tâches réparties sur cinq domaines, avec 1 246 étapes de référence ancrées dans plus de 3 900 sources. Sept métriques diagnostiques couvrent le grounding factuel, la récupération d'étapes, l'ordonnancement structurel et la personnalisation. L'agent de référence DRFA améliore les baselines jusqu'à 10,02 % de F1, mais des marges de progression importantes subsistent.