OUTILS · Pleias
Bad Data Toolbox : une collection d'outils pour détecter les données d'entraînement problématiques
PleIAs publie une boîte à outils open-source dédiée à l'identification et au filtrage des données de mauvaise qualité dans les corpus d'entraînement LLM.
Pleias (Hugging Face)·18 juillet 2024

Image · Source originale
Le lab PleIAs met à disposition sur Hugging Face une collection d'outils baptisée « Bad Data Toolbox », destinée à détecter et écarter les données problématiques des jeux d'entraînement. La boîte à outils cible notamment les contenus dupliqués, bruités ou de faible qualité susceptibles de dégrader les performances des modèles de langage. Cette initiative s'inscrit dans une démarche de curation rigoureuse des données d'entraînement.