SAFETY
SkillHarm : attaques basées sur les compétences d'agents IA à travers leur cycle de vie
Un nouveau benchmark révèle que les agents IA restent vulnérables à des attaques via leurs skills, avec des taux de succès atteignant 86 %.
arXiv cs.AI · cs.LG · cs.CL·Yuting Ning, Zhehao Zhang, Yash Kumar Lal, Boyu Gou·1 juin 2026

Image · Source originale
SkillHarm est un benchmark évaluant les attaques par empoisonnement de skills d'agents IA sur l'ensemble de leur cycle de vie. Il distingue deux scénarios : l'empoisonnement à charge fixe (FPP) et l'empoisonnement auto-mutant (SMP), qui défère le préjudice à une réutilisation ultérieure. La taxonomie couvre 12 types de risques ciblant les pipelines de données, environnements système et autonomie des agents. Les expériences montrent des taux d'attaque réussis atteignant 86,3 % (FPP) et 69,3 % (SMP).