RECHERCHE
Le premier token suffit : détection des hallucinations par confiance au décodage unique
Une simple métrique d'entropie sur le premier token généré rivalise avec les méthodes de self-consistency multiple, à une fraction du coût computationnel.
arXiv cs.AI · cs.LG · cs.CL·Mina Gabriel·6 mai 2026

Image · Source originale
Des chercheurs montrent que la confiance calculée sur le premier token d'un décodage greedy (phi_first) égale ou dépasse légèrement la self-consistency sémantique pour détecter les hallucinations en QA factuel. Sur trois modèles 7-8B et deux benchmarks, phi_first atteint un AUROC moyen de 0,820 contre 0,793 pour l'accord sémantique. L'essentiel de l'information d'incertitude capturée par les méthodes multi-échantillons serait déjà présent dans la distribution initiale du modèle.