RECHERCHE
Dataset distillation vs coresets : les ensembles distillés surpassent-ils vraiment les sous-ensembles réels ?
Une étude à grande échelle remet en cause l'avantage supposé du dataset distillation face aux méthodes de sélection de coresets sur ImageNet.
arXiv cs.AI · cs.LG · cs.CL·Trisha Mittal, Akshay Mehra, Joshua Kimball·16 juin 2026

Image · Source originale
Des chercheurs évaluent sept méthodes SOTA de dataset distillation (DD) sur ImageNet-1K, ImageNet100 et ImageNette à l'aide de protocoles standardisés. Leurs résultats montrent que certaines méthodes DD n'améliorent pas les performances au-delà d'un sous-ensemble aléatoire, tandis que les meilleures sont au mieux comparables aux coresets, pour un coût de construction nettement supérieur. Les coresets offrent en outre une meilleure couverture de la distribution originale des données.