RECHERCHE

L3Cube-MahaPOS : un dataset et des modèles BERT pour le POS tagging en marathi

Un corpus gold-standard de 32 354 phrases annotées manuellement pour le marquage morpho-syntaxique du marathi, langue encore très sous-dotée en ressources NLP.

arXiv cs.AI · cs.LG · cs.CL·Hariom Ingle, Ronit Ghode, Ishwari Gondkar, Jidnyasa Harad·23 juin 2026

Image · Source originale

L3Cube-MahaPOS est un dataset de référence pour le POS tagging en marathi, couvrant 32 354 phrases issues de textes journalistiques annotées selon un schéma de 16 tags aligné sur Universal Dependencies. Six familles de modèles sont évaluées (HMM, CRF, BiLSTM, BiLSTM+CharCNN, MuRIL, MahaBERT-v2), la meilleure atteignant 88,67 % de précision token et un macro-F1 de 81,67 %. Le dataset, les guidelines d'annotation et les checkpoints sont publiés en open access.

Chaleur 12

Pertinence 42

Nouveauté 55

OUVRIR LA SOURCE ↗

#NLP #POS tagging #langues sous-dotées #marathi #BERT