RECHERCHE
Aligner les retrievers denses avec l'utilité LLM par distillation
UAE propose d'injecter des signaux d'utilité LLM directement dans l'espace d'embedding, sans inférence LLM à l'exécution, pour un RAG 180x plus rapide.
arXiv cs.AI · cs.LG · cs.CL·Rajinder Sandhu, Di Mu, Cheng Chang, Md Shahriar Tasjid·24 avril 2026

Image · Source originale
UAE (Utility-Aligned Embeddings) est un framework RAG qui entraîne un bi-encodeur à imiter la distribution d'utilité d'un LLM — mesurée par réduction de perplexité — via un objectif Utility-Modulated InfoNCE. Cette approche élimine le besoin de re-ranking LLM à l'exécution tout en surpassant le baseline BGE-Base : +30,59 % en Recall@1 et +17,3 % en Token F1 sur QASPER, à une vitesse 180x supérieure aux méthodes de re-ranking efficaces.