OUTILS · Pleias

Common Corpus : le plus grand corpus de textes libres de droits pour l'IA

PleIAs publie Common Corpus, une collection massive de données d'entraînement open-weights constituée exclusivement de textes dans le domaine public ou sous licences libres.

Pleias (Hugging Face)·13 novembre 2024

Image · Source originale

Common Corpus est une collection de datasets publiée par le lab PleIAs sur Hugging Face, rassemblant des textes multilingues libres de droits destinés à l'entraînement de modèles de langage. La collection vise à fournir une alternative éthique et légalement sécurisée aux corpus d'entraînement habituellement constitués de données crawlées sans vérification des droits. Elle couvre plusieurs langues dont le français et l'anglais.

Chaleur 0

Pertinence 72

Nouveauté 58

OUVRIR LA SOURCE ↗

#corpus #open-data #pre-training #multilingue #PleIAs