RECHERCHE
MLSkip : élagage de données pour filtres ML via métadonnées légères
Des chercheurs proposent d'adapter les techniques de data skipping aux filtres ML dans les bases de données, en exploitant les métadonnées Parquet existantes.
arXiv cs.AI · cs.LG · cs.CL·Mihail Stoian, Mark Gerarts, Pascal Ginter, Andreas Zimmerer·2 juin 2026

Image · Source originale
Les fonctions IA intégrées aux prédicats de filtrage des bases de données posent de nouveaux défis : les mécanismes classiques de data skipping ne s'appliquent pas aux modèles ML boîte noire. MLSkip démontre que les métadonnées min-max de Parquet suffisent à activer l'élagage, en mobilisant la vérification de réseaux de neurones. Sur des tables TPC-H et TPC-DS, l'efficacité d'élagage atteint 27,4 %, portée à 38,31 % grâce à une enveloppe convexe 2D bornée, avec un gain de vitesse de 1,07× dans DuckDB.