RECHERCHE

SkMTEB : un benchmark d'embedding textuel pour le slovaque et adaptation de modèles

Premier benchmark MTEB complet pour la langue slovaque, avec 31 datasets et deux modèles open-source compétitifs face aux APIs propriétaires.

arXiv cs.AI · cs.LG · cs.CL·Marek Šuppa, Andrej Ridzik, Daniel Hládek, Natália Kňažeková·11 juin 2026

Image · Source originale

SkMTEB est le premier benchmark d'embedding de type MTEB dédié au slovaque, couvrant 31 datasets sur 7 types de tâches. L'évaluation de 31 modèles montre que les grands modèles multilingues instruction-tuned surpassent les modèles slovaques existants. Les auteurs proposent e5-sk-small (45M) et e5-sk-large (365M), obtenus par vocabulary trimming et fine-tuning de Multilingual E5, offrant des performances compétitives tout en restant déployables localement pour la recherche sémantique et le RAG.

Chaleur 13

Pertinence 62

Nouveauté 65

OUVRIR LA SOURCE ↗

#benchmark #embedding #low-resource #RAG #multilingual