RECHERCHE

La matrice de dé-embedding des LLM comme filtre de features pour les embeddings textuels

EmbedFilter exploite la matrice de dé-embedding des LLM pour supprimer l'influence des tokens fréquents et améliorer les représentations sémantiques zero-shot.

arXiv cs.AI · cs.LG · cs.CL·Songhao Wu, Zhongxin Chen, Yuxuan Liu, Heng Cui·5 juin 2026

Image · Source originale

Les LLM peinent à produire des embeddings textuels de qualité car leurs représentations tendent à s'aligner sur des tokens fréquents mais peu informatifs. Les auteurs proposent EmbedFilter, une transformation linéaire qui identifie et filtre le sous-espace de la matrice de dé-embedding responsable de ce biais. La méthode améliore les performances zero-shot sur les benchmarks d'embeddings tout en réduisant naturellement la dimensionnalité des vecteurs, accélérant ainsi la recherche et diminuant le stockage.

Chaleur 4

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#embeddings #LLM #représentation sémantique #zero-shot #dimensionality-reduction