RECHERCHE
Découverte morphologique zero-shot dans les langues bantoues à faibles ressources par transfert cross-lingue
Une méthode combinant transfer learning et clustering non supervisé permet d'identifier des structures morphologiques inédites en giriama, langue bantoue quasi-non dotée.
arXiv cs.AI · cs.LG · cs.CL·Hillary Mutisya, John Mugane·24 avril 2026

Image · Source originale
Des chercheurs proposent un pipeline combinant transfert cross-lingue depuis le swahili et clustering non supervisé pour découvrir des traits morphologiques en giriama (91 paradigmes étiquetés disponibles). La méthode identifie des classes nominales pour 2 455 mots et met au jour deux patrons morphologiques non documentés, dont un préfixe contracté k'- avec 98,5 % de consistance. Sur un corpus élargi de 19 624 mots, le système atteint 97,3 % de segmentation et 86,7 % de lemmatisation. Le code et les lexiques découverts sont publiés en accès libre.