RECHERCHE
Quand l'augmentation par données synthétiques améliore-t-elle la classification déséquilibrée ?
Une étude théorique rigoureuse établit les conditions sous lesquelles l'augmentation de la classe minoritaire améliore réellement les métriques de classification.
arXiv cs.AI · cs.LG · cs.CL·Zhengchi Ma, Pengfei Lyu, Anru R. Zhang·24 juin 2026

Image · Source originale
Ce papier développe un cadre théorique pour analyser l'impact de l'augmentation synthétique sur des métriques comme AUROC, AUPRC et F1 dans les contextes de classification déséquilibrée. Sous un modèle de score bien spécifié, l'augmentation n'apporte pas d'amélioration fondamentale et peut introduire un biais. En revanche, en cas de mauvaise spécification, modifier l'équilibre effectif des classes peut corriger des erreurs de classement. Des bornes minimax et des simulations viennent étayer les résultats.