OUTILS · Pleias
Common Corpus : le plus grand corpus de textes libres de droits pour l'IA
PleIAs publie Common Corpus, une collection massive de données d'entraînement open-weights constituée exclusivement de textes dans le domaine public ou sous licences libres.
Pleias (Hugging Face)·13 novembre 2024

Image · Source originale
Common Corpus est une collection de datasets publiée par le lab PleIAs sur Hugging Face, rassemblant des textes multilingues libres de droits destinés à l'entraînement de modèles de langage. La collection vise à fournir une alternative éthique et légalement sécurisée aux corpus d'entraînement habituellement constitués de données crawlées sans vérification des droits. Elle couvre plusieurs langues dont le français et l'anglais.