RECHERCHE
Les normes d'embeddings contrastifs encodent la spécificité sémantique via la dynamique d'optimisation
Des chercheurs montrent que la magnitude des embeddings, pourtant ignorée par la similarité cosinus, capture naturellement des propriétés sémantiques clés.
arXiv cs.AI · cs.LG · cs.CL·Ziwei Su, Junyu Ren, Victor Veitch·29 juin 2026

Image · Source originale
Les modèles d'embedding contrastifs entraînés avec des pertes invariantes à l'échelle utilisent la similarité cosinus, qui ignore les normes des vecteurs. Or, empiriquement, ces normes corrèlent avec la spécificité conceptuelle, la fréquence des tokens et l'incertitude humaine. Les auteurs proposent un cadre théorique formel expliquant ce phénomène via l'analyse des dynamiques d'optimisation, et montrent que cette information peut servir d'outil de calibration gratuit pour certaines tâches de retrieval.