RECHERCHE
Test statistique précis et efficace pour mesurer l'étendue sémantique des mots
Une nouvelle méthode basée sur la réflexion de Householder réduit les faux positifs de 32,5 % lors de la comparaison de la polysémie contextuelle de deux mots.
arXiv cs.AI · cs.LG · cs.CL·Yo Ehara·8 mai 2026

Image · Source originale
Les embeddings contextualisés permettent de mesurer la diversité sémantique d'un mot en modélisant ses occurrences comme un nuage de vecteurs. Mais les tests d'hypothèse naïfs sur la dispersion confondent différences directionnelles et différences d'étendue, gonflant les erreurs de type I. L'auteur propose un test de permutation avec alignement de Householder pour isoler la dispersion pure, accompagné d'une implémentation GPU 23× plus rapide que la base CPU.