SAFETY
Red-teaming après Mythos — Zico Kolter & Matt Fredrikson, Gray Swan
Les jailbreaks et injections de prompts indirectes reviennent au centre du débat sécurité IA après les contrôles à l'export américains sur Mythos et Fable.
Latent Space (Swyx)·22 juin 2026

Image · Source originale
Zico Kolter (comité Safety & Security d'OpenAI) et Matt Fredrikson (CEO de Gray Swan, professeur à CMU) ont co-signé le papier de référence sur les injections de prompts indirectes. Gray Swan, cité dans la model card de Mythos, développe Shade — outil de red-teaming adversarial utilisé par Anthropic — ainsi que Cygnal, un produit de guardrails, et la plus grande AI Red Teaming Arena au monde. L'interview dresse un état des lieux du red-teaming face à des risques qualifiés de « gray swan events ».