SAFETY

MoRFI : identification de features SAE monotones pour analyser les hallucinations

Des chercheurs proposent MoRFI, une méthode basée sur les sparse autoencoders pour isoler les directions causales des hallucinations lors du fine-tuning de LLMs.

arXiv cs.AI · cs.LG · cs.CL·Dimitris Dimakopoulos, Shay B. Cohen, Ioannis Konstas·29 avril 2026

Image · Source originale

MoRFI est une méthode d'identification de features dans les sparse autoencoders (SAEs) qui repère les directions causalement liées aux hallucinations lors du fine-tuning supervisé. Les chercheurs ont fine-tuné Llama 3.1 8B, Gemma 2 9B et Mistral 7B sur sept datasets QA en contrôlant le taux de nouvelles connaissances. Leurs résultats montrent que l'exposition à des faits inconnus perturbe la capacité du modèle à récupérer ses connaissances paramétriques dans le residual stream. MoRFI filtre les features SAE répondant de façon monotone aux mixtures d'entraînement ciblées.

Chaleur 0

Pertinence 72

Nouveauté 74

OUVRIR LA SOURCE ↗

#hallucinations #sparse-autoencoder #fine-tuning #interpretabilité #LLM