RECHERCHE

Grad Detect : détection des hallucinations dans les LLMs par analyse des gradients

Une méthode basée sur les gradients couche par couche permet de prédire les hallucinations des LLMs dès un seul passage forward-backward.

arXiv cs.AI · cs.LG · cs.CL·Anand Kamat, Daniel Blake, Brent M. Werness·23 juin 2026

Image · Source originale

Grad Detect exploite les patterns de gradients internes d'un LLM lors d'un unique passage forward-backward pour détecter les hallucinations, sans recourir aux seuls signaux de sortie. Évalué sur plusieurs benchmarks Q&A, le système surpasse les approches basées sur la confiance et l'échantillonnage. Les études d'ablation révèlent que les cinq dernières couches concentrent plus de 97 % du signal discriminant, permettant un déploiement efficace avec une perte de performance minimale.

Chaleur 22

Pertinence 78

Nouveauté 72

OUVRIR LA SOURCE ↗

#hallucination #LLM #gradients #fiabilité #interprétabilité