RECHERCHE
DataMaster : vers une ingénierie des données autonome pour le machine learning
Un agent autonome optimise uniquement la partie données d'un pipeline ML fixe, via recherche arborescente, mémoire cumulative et pool de données partagé.
arXiv cs.AI · cs.LG · cs.CL·Yaxin Du, Xiyuan Yang, Zhifan Zhou, Wanxu Liu·11 mai 2026

Image · Source originale
DataMaster est un framework d'agent capable de réaliser automatiquement les tâches d'ingénierie des données (découverte, sélection, nettoyage, transformation) sans modifier l'algorithme d'apprentissage. Il s'appuie sur une structure en arbre (DataTree), un pool de données externes réutilisables et une mémoire globale accumulant les résultats des branches explorées. L'objectif est d'améliorer les performances downstream en optimisant uniquement le côté données, dans un espace de recherche ouvert et à validation retardée.