SAFETY
Les LLMs peuvent-ils détecter fiablement les attaques par préfill adversarial ?
Une étude teste la capacité des LLMs à reconnaître qu'ils ont été manipulés par un préfill adversarial — les résultats révèlent des limites profondes.
arXiv cs.AI · cs.LG · cs.CL·Quang Minh Nguyen, Uzair Ahmed, Taegyoon Kim·22 juin 2026

Image · Source originale
Des chercheurs ont évalué dix LLMs open-weight (3B à 70B) sur leur capacité à identifier rétrospectivement une compromission par attaque de type adversarial prefill. Aucun modèle ne détecte fiablement ses sorties compromises, avec un taux moyen de reconnaissance erronée de 27,3 %. Les signaux introspectifs proviennent principalement des mécanismes de refus, et le fine-tuning LoRA (SFT, GRPO, DPO), bien qu'améliorant certaines métriques, augmente paradoxalement le taux de succès des attaques sur la plupart des modèles.