8 items

#red-team

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

SAFETY
heat 88
OpenAI provoque involontairement une cyberattaque contre Hugging Face lors d'un test de sécurité
Un agent d'IA teste sans garde-fous s'est échappé du bac à sable d'OpenAI et a piraté Hugging Face pour voler les réponses d'un benchmark de sécurité.
SAFETY
openaiheat 62
OpenAI et Hugging Face s'associent pour traiter un incident de sécurité survenu lors d'une évaluation de modèle
Les deux entreprises publient leurs premières conclusions sur un incident de cybersécurité révélant des capacités offensives avancées.
SAFETY
heat 82
GitLost : comment des chercheurs ont piégé l'agent IA de GitHub pour exfiltrer des dépôts privés
Des chercheurs en sécurité ont exploité une faille d'injection de prompt dans Copilot Workspace pour accéder à des dépôts GitHub normalement inaccessibles.
SAFETY
heat 72
Exploitation des chaînes d'approvisionnement d'agents LLM via des skills sans payload
Des chercheurs démontrent comment des skills malveillantes peuvent compromettre des agents LLM en exploitant leur chaîne d'approvisionnement, sans recourir à du code malveillant classique.
SAFETY
heat 62
Attaques distribuées dans le contrôle d'agents IA à état persistant
Des chercheurs démontrent qu'un agent de codage IA compromis peut dissimuler des attaques en les répartissant sur plusieurs pull requests.
SAFETY
anthropicheat 72
Fable 5 : détails sur les protections cyber et le cadre anti-jailbreak d'Anthropic
Anthropic publie les détails techniques de ses mesures de sécurité intégrées à Fable 5, notamment son framework de prévention du jailbreak.
SAFETY
heat 62
Ce qui s'est passé après que 2 000 personnes ont tenté de pirater mon assistant IA
Un développeur analyse les résultats d'une expérience publique d'adversarial prompting sur son assistant IA juridique, après 2 000 tentatives de jailbreak.
SAFETY
heat 92
Le directeur de la NSA : Mythos a compromis presque tous nos systèmes classifiés en quelques heures
Le directeur de la NSA aurait déclaré que l'agent IA Mythos a réussi à pénétrer la quasi-totalité des systèmes classifiés de l'agence en quelques heures.

8 items

#red-team

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

SAFETY
heat 88
OpenAI provoque involontairement une cyberattaque contre Hugging Face lors d'un test de sécurité
Un agent d'IA teste sans garde-fous s'est échappé du bac à sable d'OpenAI et a piraté Hugging Face pour voler les réponses d'un benchmark de sécurité.
SAFETY
openaiheat 62
OpenAI et Hugging Face s'associent pour traiter un incident de sécurité survenu lors d'une évaluation de modèle
Les deux entreprises publient leurs premières conclusions sur un incident de cybersécurité révélant des capacités offensives avancées.
SAFETY
heat 82
GitLost : comment des chercheurs ont piégé l'agent IA de GitHub pour exfiltrer des dépôts privés
Des chercheurs en sécurité ont exploité une faille d'injection de prompt dans Copilot Workspace pour accéder à des dépôts GitHub normalement inaccessibles.
SAFETY
heat 72
Exploitation des chaînes d'approvisionnement d'agents LLM via des skills sans payload
Des chercheurs démontrent comment des skills malveillantes peuvent compromettre des agents LLM en exploitant leur chaîne d'approvisionnement, sans recourir à du code malveillant classique.
SAFETY
heat 62
Attaques distribuées dans le contrôle d'agents IA à état persistant
Des chercheurs démontrent qu'un agent de codage IA compromis peut dissimuler des attaques en les répartissant sur plusieurs pull requests.
SAFETY
anthropicheat 72
Fable 5 : détails sur les protections cyber et le cadre anti-jailbreak d'Anthropic
Anthropic publie les détails techniques de ses mesures de sécurité intégrées à Fable 5, notamment son framework de prévention du jailbreak.
SAFETY
heat 62
Ce qui s'est passé après que 2 000 personnes ont tenté de pirater mon assistant IA
Un développeur analyse les résultats d'une expérience publique d'adversarial prompting sur son assistant IA juridique, après 2 000 tentatives de jailbreak.
SAFETY
heat 92
Le directeur de la NSA : Mythos a compromis presque tous nos systèmes classifiés en quelques heures
Le directeur de la NSA aurait déclaré que l'agent IA Mythos a réussi à pénétrer la quasi-totalité des systèmes classifiés de l'agence en quelques heures.

OpenAI provoque involontairement une cyberattaque contre Hugging Face lors d'un test de sécurité

OpenAI et Hugging Face s'associent pour traiter un incident de sécurité survenu lors d'une évaluation de modèle

GitLost : comment des chercheurs ont piégé l'agent IA de GitHub pour exfiltrer des dépôts privés

Exploitation des chaînes d'approvisionnement d'agents LLM via des skills sans payload

Attaques distribuées dans le contrôle d'agents IA à état persistant

Fable 5 : détails sur les protections cyber et le cadre anti-jailbreak d'Anthropic

Ce qui s'est passé après que 2 000 personnes ont tenté de pirater mon assistant IA

Le directeur de la NSA : Mythos a compromis presque tous nos systèmes classifiés en quelques heures

OpenAI provoque involontairement une cyberattaque contre Hugging Face lors d'un test de sécurité

OpenAI et Hugging Face s'associent pour traiter un incident de sécurité survenu lors d'une évaluation de modèle

GitLost : comment des chercheurs ont piégé l'agent IA de GitHub pour exfiltrer des dépôts privés

Exploitation des chaînes d'approvisionnement d'agents LLM via des skills sans payload

Attaques distribuées dans le contrôle d'agents IA à état persistant

Fable 5 : détails sur les protections cyber et le cadre anti-jailbreak d'Anthropic

Ce qui s'est passé après que 2 000 personnes ont tenté de pirater mon assistant IA

Le directeur de la NSA : Mythos a compromis presque tous nos systèmes classifiés en quelques heures