RECHERCHE
La matrice de dé-embedding des LLM comme filtre de features pour les embeddings textuels
EmbedFilter exploite la matrice de dé-embedding des LLM pour supprimer l'influence des tokens fréquents et améliorer les représentations sémantiques zero-shot.
arXiv cs.AI · cs.LG · cs.CL·Songhao Wu, Zhongxin Chen, Yuxuan Liu, Heng Cui·5 juin 2026

Image · Source originale
Les LLM peinent à produire des embeddings textuels de qualité car leurs représentations tendent à s'aligner sur des tokens fréquents mais peu informatifs. Les auteurs proposent EmbedFilter, une transformation linéaire qui identifie et filtre le sous-espace de la matrice de dé-embedding responsable de ce biais. La méthode améliore les performances zero-shot sur les benchmarks d'embeddings tout en réduisant naturellement la dimensionnalité des vecteurs, accélérant ainsi la recherche et diminuant le stockage.