SAFETY

Red-teaming après Mythos — Zico Kolter & Matt Fredrikson, Gray Swan

Les jailbreaks et injections de prompts indirectes reviennent au centre du débat sécurité IA après les contrôles à l'export américains sur Mythos et Fable.

Latent Space (Swyx)·22 juin 2026

Image · Source originale

Zico Kolter (comité Safety & Security d'OpenAI) et Matt Fredrikson (CEO de Gray Swan, professeur à CMU) ont co-signé le papier de référence sur les injections de prompts indirectes. Gray Swan, cité dans la model card de Mythos, développe Shade — outil de red-teaming adversarial utilisé par Anthropic — ainsi que Cygnal, un produit de guardrails, et la plus grande AI Red Teaming Arena au monde. L'interview dresse un état des lieux du red-teaming face à des risques qualifiés de « gray swan events ».

Chaleur 18

Pertinence 80

Nouveauté 55

OUVRIR LA SOURCE ↗

#red-teaming #prompt-injection #jailbreak #AI security #gray-swan