SAFETY
MoRFI : identification de features SAE monotones pour analyser les hallucinations
Des chercheurs proposent MoRFI, une méthode basée sur les sparse autoencoders pour isoler les directions causales des hallucinations lors du fine-tuning de LLMs.
arXiv cs.AI · cs.LG · cs.CL·Dimitris Dimakopoulos, Shay B. Cohen, Ioannis Konstas·29 avril 2026

Image · Source originale
MoRFI est une méthode d'identification de features dans les sparse autoencoders (SAEs) qui repère les directions causalement liées aux hallucinations lors du fine-tuning supervisé. Les chercheurs ont fine-tuné Llama 3.1 8B, Gemma 2 9B et Mistral 7B sur sept datasets QA en contrôlant le taux de nouvelles connaissances. Leurs résultats montrent que l'exposition à des faits inconnus perturbe la capacité du modèle à récupérer ses connaissances paramétriques dans le residual stream. MoRFI filtre les features SAE répondant de façon monotone aux mixtures d'entraînement ciblées.