RECHERCHE
SkMTEB : un benchmark d'embedding textuel pour le slovaque et adaptation de modèles
Premier benchmark MTEB complet pour la langue slovaque, avec 31 datasets et deux modèles open-source compétitifs face aux APIs propriétaires.
arXiv cs.AI · cs.LG · cs.CL·Marek Šuppa, Andrej Ridzik, Daniel Hládek, Natália Kňažeková·11 juin 2026

Image · Source originale
SkMTEB est le premier benchmark d'embedding de type MTEB dédié au slovaque, couvrant 31 datasets sur 7 types de tâches. L'évaluation de 31 modèles montre que les grands modèles multilingues instruction-tuned surpassent les modèles slovaques existants. Les auteurs proposent e5-sk-small (45M) et e5-sk-large (365M), obtenus par vocabulary trimming et fine-tuning de Multilingual E5, offrant des performances compétitives tout en restant déployables localement pour la recherche sémantique et le RAG.