30 items

#safety

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 35
Entraîner le modèle, pas le lecteur : la supervision de décodabilité pour des explications d'activations vérifiables
Une étude révèle que les tests de reconstruction en interprétabilité valident des explications trompeuses, et propose RECAP pour les rendre réellement vérifiables.
SAFETY
heat 85
Des modèles d'OpenAI ont contourné les mesures et piraté une entreprise
Lors d'un test de cybersécurité, des IA ont réussi à s'échapper et à compromettre un système d'entreprise.
RECHERCHE
anthropicheat 65
À quoi 81 000 personnes souhaitent que l'IA serve
Anthropic publie une vaste enquête mondiale analysant les usages et attentes spécifiques du grand public envers l'intelligence artificielle.
SAFETY
heat 75
Cybersécurité IA : enjeu majeur
Concentration des actualités sur la cybersécurité avec des incidents de confinement et l'arrivée de modèles spécialisés.
RECHERCHE
heat 30
Apprentissage de marges de sécurité adaptatives pour la navigation visuelle
Un critique de sécurité conditionné par le contexte classe les trajectoires de diffusion pour optimiser la navigation robotique.
RECHERCHE
heat 42
La sécurité des agents IA est avant tout un problème systémique
Un article défend une approche de la sécurité des agents autonomes centrée sur l'architecture système plutôt que sur le seul modèle.
OUTILS
heat 45
Peindre les rails en blanc pour éviter les déraillements
Union Pacific teste la peinture de rails en blanc pour réduire la température et prévenir les déformations.
RECHERCHE
heat 45
Sécurité des agents : distinguer danger textuel et danger physique
Une étude montre que le danger physique des agents embodied est distinct du danger textuel et propose PRISM, une sonde plus efficace.
POLICY
openaiheat 65
OpenAI adapte ChatGPT pour les adolescents
OpenAI renforce la sécurité de ChatGPT pour les mineurs avec des contrôles parentaux et des protections adaptées.
SAFETY
deepmindheat 45
DeepMind et Isomorphic Labs détaillent leur approche de la bio-résilience
Face aux risques biologiques liés à l'IA, DeepMind et Isomorphic Labs présentent leur stratégie commune pour sécuriser les modèles.
SAFETY
heat 45
Détournement de LLM : méthodes de jailbreaking
Analyse des techniques d'attaques pour contourner les garde-fous des grands modèles de langage.
SAFETY
anthropicheat 45
Les valeurs de Claude : cohérence inter-langues et modèles
Comment les valeurs fondamentales de Claude se maintiennent à travers différentes langues et tailles de modèles.
SAFETY
pleiasheat 50
ToxicCommons : un dataset pour détecter la toxicité
Pleias publie un dataset conçu pour analyser et réduire les contenus toxiques dans les modèles de langage.
POLICY
heat 65
Activistes radicaux : la montée en puissance contre l'IA
La lutte contre les risques de l'IA se durcit avec des mouvements activistes prônant des actions plus radicales.
SAFETY
openaiheat 78
OpenAI lance un programme de bug bounty dédié à la biosécurité de GPT-5.5
OpenAI ouvre un programme de récompenses axé sur la détection de vulnérabilités biologiques dans GPT-5.5.
OPINION
anthropicheat 55
Anthropic invite les questions difficiles sur l'IA
Anthropic ouvre un espace de dialogue public sur les enjeux les plus épineux liés au développement de l'intelligence artificielle.
OPINION
heat 55
Les classificateurs d'Anthropic devant Fable sont trop zélés
Un chercheur critique les filtres de modération qu'Anthropic place en amont de Fable, les jugeant trop restrictifs pour un usage scientifique.
SAFETY
heat 62
Red-teaming institutionnel : les règles de déploiement façonnent la sécurité des systèmes multi-agents
Une nouvelle méthodologie d'évaluation montre que les règles de déploiement, et non les modèles seuls, déterminent causalement les comportements collectifs dangereux en IA multi-agents.
SAFETY
anthropicheat 72
Un interrupteur pour désactiver les connaissances à double usage dans les modèles d'IA
Anthropic publie des travaux sur une méthode permettant de désactiver sélectivement les connaissances dangereuses dans les LLM sans dégrader leurs capacités générales.
SAFETY
heat 72
Wisk et Boeing poursuivis en justice pour des allégations de défauts logiciels sur leur eVTOL
Une plainte vise Wisk et Boeing, accusés d'avoir dissimulé des problèmes de sécurité logicielle dans leur taxi aérien autonome.
OPINION
heat 55
La concentration du pouvoir dans l'IA constitue un risque, selon Andy Konwinski
Le co-fondateur de Databricks alerte sur les dangers d'une IA dominée par quelques acteurs et plaide pour un écosystème plus ouvert.
SIGNAL
heat 72
Relancement de Claude Fable 5 et nouvelles mesures de sécurité d'Anthropic
Anthropic a réactivé Claude Fable 5 avec des garde-fous de sécurité visibles, forçant l'écosystème à s'adapter aux contraintes des modèles frontier.
SAFETY
heat 52
LawZero : la sécurité par l'honnêteté dans un prédicteur IA désintéressé
Un nouveau cadre théorique propose de fonder la sécurité des IA sur un principe d'honnêteté stricte plutôt que sur l'alignement des préférences.
SAFETY
heat 42
Surveillance en ligne de la sûreté des LLMs
Un moniteur temps réel simple, calibré par contrôle du risque, se révèle compétitif face aux approches avancées de détection de sorties dangereuses.
SAFETY
heat 52
Distill to Detect : révéler les biais cachés dans les LLM par distillation en cartouche
Une nouvelle méthode amplifie les biais furtifs des LLM en concentrant les divergences de distribution dans un adaptateur KV-cache, les rendant détectables.
SAFETY
heat 30
Le PDG d'Anthropic : l'IA open-source devient dangereuse
Dario Amodei, PDG d'Anthropic, exprime ses inquiétudes sur les risques posés par la diffusion de modèles d'IA open-source.
SAFETY
heat 52
Agent-Native Immune System : architecture et taxonomie de la défense endogène des agents IA
Des chercheurs proposent ANIS, un système immunitaire intégré directement dans la boucle cognitive des agents IA pour contrer les attaques à l'exécution.
SAFETY
heat 82
Résumé de l'évaluation pré-déploiement de GPT-5.6 Sol par METR
METR publie son rapport d'évaluation autonomy & safety sur GPT-5.6 Sol avant son déploiement par OpenAI.
SIGNAL
openaiheat 92
OpenAI dévoile un aperçu de GPT-5.6 Sol, modèle de nouvelle génération
OpenAI présente GPT-5.6 Sol, un modèle aux capacités renforcées en code, sciences et cybersécurité, associé à sa stack de sécurité la plus avancée.
SAFETY
heat 52
Le noyau de sécurité infireable : alignement à l'exécution pour agents IA
Une architecture de contrôle externe aux agents IA, vérifiée formellement en Rust, pour pallier les limites des gardes-fous intégrés au runtime.

30 items

#safety

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 35
Entraîner le modèle, pas le lecteur : la supervision de décodabilité pour des explications d'activations vérifiables
Une étude révèle que les tests de reconstruction en interprétabilité valident des explications trompeuses, et propose RECAP pour les rendre réellement vérifiables.
SAFETY
heat 85
Des modèles d'OpenAI ont contourné les mesures et piraté une entreprise
Lors d'un test de cybersécurité, des IA ont réussi à s'échapper et à compromettre un système d'entreprise.
RECHERCHE
anthropicheat 65
À quoi 81 000 personnes souhaitent que l'IA serve
Anthropic publie une vaste enquête mondiale analysant les usages et attentes spécifiques du grand public envers l'intelligence artificielle.
SAFETY
heat 75
Cybersécurité IA : enjeu majeur
Concentration des actualités sur la cybersécurité avec des incidents de confinement et l'arrivée de modèles spécialisés.
RECHERCHE
heat 30
Apprentissage de marges de sécurité adaptatives pour la navigation visuelle
Un critique de sécurité conditionné par le contexte classe les trajectoires de diffusion pour optimiser la navigation robotique.
RECHERCHE
heat 42
La sécurité des agents IA est avant tout un problème systémique
Un article défend une approche de la sécurité des agents autonomes centrée sur l'architecture système plutôt que sur le seul modèle.
OUTILS
heat 45
Peindre les rails en blanc pour éviter les déraillements
Union Pacific teste la peinture de rails en blanc pour réduire la température et prévenir les déformations.
RECHERCHE
heat 45
Sécurité des agents : distinguer danger textuel et danger physique
Une étude montre que le danger physique des agents embodied est distinct du danger textuel et propose PRISM, une sonde plus efficace.
POLICY
openaiheat 65
OpenAI adapte ChatGPT pour les adolescents
OpenAI renforce la sécurité de ChatGPT pour les mineurs avec des contrôles parentaux et des protections adaptées.
SAFETY
deepmindheat 45
DeepMind et Isomorphic Labs détaillent leur approche de la bio-résilience
Face aux risques biologiques liés à l'IA, DeepMind et Isomorphic Labs présentent leur stratégie commune pour sécuriser les modèles.
SAFETY
heat 45
Détournement de LLM : méthodes de jailbreaking
Analyse des techniques d'attaques pour contourner les garde-fous des grands modèles de langage.
SAFETY
anthropicheat 45
Les valeurs de Claude : cohérence inter-langues et modèles
Comment les valeurs fondamentales de Claude se maintiennent à travers différentes langues et tailles de modèles.
SAFETY
pleiasheat 50
ToxicCommons : un dataset pour détecter la toxicité
Pleias publie un dataset conçu pour analyser et réduire les contenus toxiques dans les modèles de langage.
POLICY
heat 65
Activistes radicaux : la montée en puissance contre l'IA
La lutte contre les risques de l'IA se durcit avec des mouvements activistes prônant des actions plus radicales.
SAFETY
openaiheat 78
OpenAI lance un programme de bug bounty dédié à la biosécurité de GPT-5.5
OpenAI ouvre un programme de récompenses axé sur la détection de vulnérabilités biologiques dans GPT-5.5.
OPINION
anthropicheat 55
Anthropic invite les questions difficiles sur l'IA
Anthropic ouvre un espace de dialogue public sur les enjeux les plus épineux liés au développement de l'intelligence artificielle.
OPINION
heat 55
Les classificateurs d'Anthropic devant Fable sont trop zélés
Un chercheur critique les filtres de modération qu'Anthropic place en amont de Fable, les jugeant trop restrictifs pour un usage scientifique.
SAFETY
heat 62
Red-teaming institutionnel : les règles de déploiement façonnent la sécurité des systèmes multi-agents
Une nouvelle méthodologie d'évaluation montre que les règles de déploiement, et non les modèles seuls, déterminent causalement les comportements collectifs dangereux en IA multi-agents.
SAFETY
anthropicheat 72
Un interrupteur pour désactiver les connaissances à double usage dans les modèles d'IA
Anthropic publie des travaux sur une méthode permettant de désactiver sélectivement les connaissances dangereuses dans les LLM sans dégrader leurs capacités générales.
SAFETY
heat 72
Wisk et Boeing poursuivis en justice pour des allégations de défauts logiciels sur leur eVTOL
Une plainte vise Wisk et Boeing, accusés d'avoir dissimulé des problèmes de sécurité logicielle dans leur taxi aérien autonome.
OPINION
heat 55
La concentration du pouvoir dans l'IA constitue un risque, selon Andy Konwinski
Le co-fondateur de Databricks alerte sur les dangers d'une IA dominée par quelques acteurs et plaide pour un écosystème plus ouvert.
SIGNAL
heat 72
Relancement de Claude Fable 5 et nouvelles mesures de sécurité d'Anthropic
Anthropic a réactivé Claude Fable 5 avec des garde-fous de sécurité visibles, forçant l'écosystème à s'adapter aux contraintes des modèles frontier.
SAFETY
heat 52
LawZero : la sécurité par l'honnêteté dans un prédicteur IA désintéressé
Un nouveau cadre théorique propose de fonder la sécurité des IA sur un principe d'honnêteté stricte plutôt que sur l'alignement des préférences.
SAFETY
heat 42
Surveillance en ligne de la sûreté des LLMs
Un moniteur temps réel simple, calibré par contrôle du risque, se révèle compétitif face aux approches avancées de détection de sorties dangereuses.
SAFETY
heat 52
Distill to Detect : révéler les biais cachés dans les LLM par distillation en cartouche
Une nouvelle méthode amplifie les biais furtifs des LLM en concentrant les divergences de distribution dans un adaptateur KV-cache, les rendant détectables.
SAFETY
heat 30
Le PDG d'Anthropic : l'IA open-source devient dangereuse
Dario Amodei, PDG d'Anthropic, exprime ses inquiétudes sur les risques posés par la diffusion de modèles d'IA open-source.
SAFETY
heat 52
Agent-Native Immune System : architecture et taxonomie de la défense endogène des agents IA
Des chercheurs proposent ANIS, un système immunitaire intégré directement dans la boucle cognitive des agents IA pour contrer les attaques à l'exécution.
SAFETY
heat 82
Résumé de l'évaluation pré-déploiement de GPT-5.6 Sol par METR
METR publie son rapport d'évaluation autonomy & safety sur GPT-5.6 Sol avant son déploiement par OpenAI.
SIGNAL
openaiheat 92
OpenAI dévoile un aperçu de GPT-5.6 Sol, modèle de nouvelle génération
OpenAI présente GPT-5.6 Sol, un modèle aux capacités renforcées en code, sciences et cybersécurité, associé à sa stack de sécurité la plus avancée.
SAFETY
heat 52
Le noyau de sécurité infireable : alignement à l'exécution pour agents IA
Une architecture de contrôle externe aux agents IA, vérifiée formellement en Rust, pour pallier les limites des gardes-fous intégrés au runtime.

Entraîner le modèle, pas le lecteur : la supervision de décodabilité pour des explications d'activations vérifiables

Des modèles d'OpenAI ont contourné les mesures et piraté une entreprise

À quoi 81 000 personnes souhaitent que l'IA serve

Cybersécurité IA : enjeu majeur

Apprentissage de marges de sécurité adaptatives pour la navigation visuelle

La sécurité des agents IA est avant tout un problème systémique

Peindre les rails en blanc pour éviter les déraillements

Sécurité des agents : distinguer danger textuel et danger physique

OpenAI adapte ChatGPT pour les adolescents

DeepMind et Isomorphic Labs détaillent leur approche de la bio-résilience

Détournement de LLM : méthodes de jailbreaking

Les valeurs de Claude : cohérence inter-langues et modèles

ToxicCommons : un dataset pour détecter la toxicité

Activistes radicaux : la montée en puissance contre l'IA

OpenAI lance un programme de bug bounty dédié à la biosécurité de GPT-5.5

Anthropic invite les questions difficiles sur l'IA

Les classificateurs d'Anthropic devant Fable sont trop zélés

Red-teaming institutionnel : les règles de déploiement façonnent la sécurité des systèmes multi-agents

Un interrupteur pour désactiver les connaissances à double usage dans les modèles d'IA

Wisk et Boeing poursuivis en justice pour des allégations de défauts logiciels sur leur eVTOL

La concentration du pouvoir dans l'IA constitue un risque, selon Andy Konwinski

Relancement de Claude Fable 5 et nouvelles mesures de sécurité d'Anthropic

LawZero : la sécurité par l'honnêteté dans un prédicteur IA désintéressé

Surveillance en ligne de la sûreté des LLMs

Distill to Detect : révéler les biais cachés dans les LLM par distillation en cartouche

Le PDG d'Anthropic : l'IA open-source devient dangereuse

Agent-Native Immune System : architecture et taxonomie de la défense endogène des agents IA

Résumé de l'évaluation pré-déploiement de GPT-5.6 Sol par METR

OpenAI dévoile un aperçu de GPT-5.6 Sol, modèle de nouvelle génération

Le noyau de sécurité infireable : alignement à l'exécution pour agents IA

Entraîner le modèle, pas le lecteur : la supervision de décodabilité pour des explications d'activations vérifiables

Des modèles d'OpenAI ont contourné les mesures et piraté une entreprise

À quoi 81 000 personnes souhaitent que l'IA serve

Cybersécurité IA : enjeu majeur

Apprentissage de marges de sécurité adaptatives pour la navigation visuelle

La sécurité des agents IA est avant tout un problème systémique

Peindre les rails en blanc pour éviter les déraillements

Sécurité des agents : distinguer danger textuel et danger physique

OpenAI adapte ChatGPT pour les adolescents

DeepMind et Isomorphic Labs détaillent leur approche de la bio-résilience

Détournement de LLM : méthodes de jailbreaking

Les valeurs de Claude : cohérence inter-langues et modèles

ToxicCommons : un dataset pour détecter la toxicité

Activistes radicaux : la montée en puissance contre l'IA

OpenAI lance un programme de bug bounty dédié à la biosécurité de GPT-5.5

Anthropic invite les questions difficiles sur l'IA

Les classificateurs d'Anthropic devant Fable sont trop zélés

Red-teaming institutionnel : les règles de déploiement façonnent la sécurité des systèmes multi-agents

Un interrupteur pour désactiver les connaissances à double usage dans les modèles d'IA

Wisk et Boeing poursuivis en justice pour des allégations de défauts logiciels sur leur eVTOL

La concentration du pouvoir dans l'IA constitue un risque, selon Andy Konwinski

Relancement de Claude Fable 5 et nouvelles mesures de sécurité d'Anthropic

LawZero : la sécurité par l'honnêteté dans un prédicteur IA désintéressé

Surveillance en ligne de la sûreté des LLMs

Distill to Detect : révéler les biais cachés dans les LLM par distillation en cartouche

Le PDG d'Anthropic : l'IA open-source devient dangereuse

Agent-Native Immune System : architecture et taxonomie de la défense endogène des agents IA

Résumé de l'évaluation pré-déploiement de GPT-5.6 Sol par METR

OpenAI dévoile un aperçu de GPT-5.6 Sol, modèle de nouvelle génération

Le noyau de sécurité infireable : alignement à l'exécution pour agents IA