RECHERCHE

DRFLOW : un benchmark pour la prédiction de workflows personnalisés par agents IA

Un nouveau benchmark évalue la capacité des agents à identifier des séquences d'actions concrètes à partir de sources hétérogènes, au-delà de la simple génération de rapports.

arXiv cs.AI · cs.LG · cs.CL·Md Tawkat Islam Khondaker, Raymond Li, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan·16 juin 2026

Image · Source originale

DRFLOW est un benchmark conçu pour évaluer la prédiction de workflows personnalisés par des agents de deep research. Il comprend 100 tâches réparties sur cinq domaines, avec 1 246 étapes de référence ancrées dans plus de 3 900 sources. Sept métriques diagnostiques couvrent le grounding factuel, la récupération d'étapes, l'ordonnancement structurel et la personnalisation. L'agent de référence DRFA améliore les baselines jusqu'à 10,02 % de F1, mais des marges de progression importantes subsistent.

Chaleur 7

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#benchmark #agents #workflow #deep-research #personnalisation