RECHERCHE
Grad Detect : détection des hallucinations dans les LLMs par analyse des gradients
Une méthode basée sur les gradients couche par couche permet de prédire les hallucinations des LLMs dès un seul passage forward-backward.
arXiv cs.AI · cs.LG · cs.CL·Anand Kamat, Daniel Blake, Brent M. Werness·23 juin 2026

Image · Source originale
Grad Detect exploite les patterns de gradients internes d'un LLM lors d'un unique passage forward-backward pour détecter les hallucinations, sans recourir aux seuls signaux de sortie. Évalué sur plusieurs benchmarks Q&A, le système surpasse les approches basées sur la confiance et l'échantillonnage. Les études d'ablation révèlent que les cinq dernières couches concentrent plus de 97 % du signal discriminant, permettant un déploiement efficace avec une perte de performance minimale.