OUTILS · Pleias
GoldenSwag : un nouveau benchmark d'évaluation par Pleias
Pleias publie GoldenSwag, une collection sur Hugging Face destinée à l'évaluation de modèles de langage avec des données de haute qualité.
Pleias (Hugging Face)·11 avril 2025

Image · Source originale
Le lab français Pleias publie GoldenSwag, une collection disponible sur Hugging Face. Il s'agit d'un benchmark d'évaluation conçu pour tester les LLMs sur des données soigneusement sélectionnées. La démarche s'inscrit dans les efforts de Pleias pour produire des outils d'évaluation rigoureux, notamment pour les modèles francophones et multilingues.