RECHERCHE
Synthèse de données et fine-tuning efficace pour la traduction neurale du maya Q'eqchi'
Une méthodologie de bootstrapping sans scraping pour entraîner des modèles NMT sur une langue indigène à très faibles ressources.
arXiv cs.AI · cs.LG · cs.CL·Alexander Chulzhanov, Soeren Eberhardt, Arjun Mukherjee·8 juin 2026

Image · Source originale
Cette étude propose une approche de synthèse de données pour entraîner des modèles de traduction automatique neurale (NMT) sur le Q'eqchi' (maya), sans recourir au scraping web, afin de préserver la souveraineté des données. Des dictionnaires communautaires sont transformés en corpus synthétique massif, utilisé pour fine-tuner un modèle mT5-base via LoRA (PEFT). Les résultats montrent une bonne acquisition structurelle (BLEU 42,02) mais un écart sémantique important face à du texte naturel (BLEU 0,59), révélant les limites du bootstrapping synthétique.