SAFETY
Détection adversariale latente : sondage adaptatif des activations de LLM pour détecter les attaques multi-tours
Une signature dans le flux résiduel des LLM trahit les attaques par injection de prompt en plusieurs tours, même quand chaque message isolé paraît anodin.
arXiv cs.AI · cs.LG · cs.CL·Prashant Kulkarni·30 avril 2026

Image · Source originale
Les attaques multi-tours par injection de prompt laissent une empreinte dans le flux d'activations des LLM : chaque changement de phase déplace les activations, produisant une longueur de trajectoire anormalement élevée — le phénomène est nommé « adversarial restlessness ». Cinq caractéristiques scalaires extraites de cette trajectoire font passer la détection de 76,2 % à 93,8 % sur données synthétiques. Le signal se réplique sur quatre familles de modèles (24B-70B), mais les sondes sont spécifiques à chaque architecture. Un entraînement combinant trois sources de données atteint 89,4 % de détection pour 2,4 % de faux positifs.