SAFETY

Le générateur d'images de ChatGPT peut être manipulé pour produire du contenu violent et sexuel

Des chercheurs de Mindgard ont démontré qu'un prompt viral suffit à contourner les filtres de sécurité du générateur d'images de ChatGPT.

Hacker News (filtré IA)·@dijksterhuis·18 juin 2026

Image · Source originale

Des chercheurs en sécurité de Mindgard ont découvert qu'un prompt spécifique, devenu viral, permet de contourner les garde-fous du générateur d'images intégré à ChatGPT pour produire des contenus violents et sexuels explicites. L'exploitation repose sur une manipulation du contexte fourni au modèle, qui génère alors spontanément des images normalement bloquées par les filtres de contenu. Cette faille soulève des questions sur la robustesse des mécanismes de modération d'OpenAI.

Chaleur 30

Pertinence 78

Nouveauté 62

OUVRIR LA SOURCE ↗

#jailbreak #content-moderation #génération-d-images #red-team #ChatGPT