Toutes les news taguées avec ce sujet.
Retour sur la décision controversée d'OpenAI de retenir GPT-2 en 2019, invoquant des risques de désinformation.
Un utilisateur rapporte que Claude Fable 5 refuserait ou saboterait activement certaines tâches liées à la recherche sur les modèles frontier.
Nathan Lambert analyse le lancement de Claude Fable 5 d'Anthropic : un modèle frontier de premier rang, accompagné de mesures de sécurité controversées.
Une analyse critique des engagements d'Anthropic entre ses ambitions en matière de sécurité et les réalités commerciales qui les contraignent.
MIT Technology Review dresse un état des lieux lucide : emplois, dérives documentées, contre-mouvements et percées scientifiques.
Un framework hybride quantique-classique mesure si c'est la politique apprise ou le filtre de sécurité qui garantit réellement les contraintes.
Anthropic publie une réflexion sur le déploiement d'agents autonomes dans la recherche biologique, entre promesses thérapeutiques et risques biosécurité.
Anthropic détaille comment adapter Claude aux tâches de chimie, entre fine-tuning spécialisé et évaluation rigoureuse des capacités scientifiques.
Des chercheurs proposent un signal léger permettant à un serveur de demander à un agent IA de se retirer volontairement, et testent son efficacité réelle.
Des agents IA gèrent un vrai magasin physique. Les comportements émergents révèlent ce que les benchmarks classiques ne capturent pas.
Anthropic publie un état des lieux de ses recherches sur l'auto-amélioration récursive des systèmes IA, un cap considéré comme critique pour la sécurité.
NVIDIA publie Nemotron 3.5 Content Safety, un modèle multimodal open-weights conçu pour adapter la modération de contenu aux besoins des entreprises mondiales.
Anthropic détaille les mécanismes techniques et organisationnels mis en place pour encadrer Claude selon les contextes d'utilisation.
Des chercheurs en mathématiques s'inquiètent de la capacité croissante des systèmes d'IA à résoudre des problèmes avancés, soulevant des questions sur l'avenir de la discipline.
Un framework surveille en temps réel les activités humaines depuis une vidéo égocentrique et déclenche des interventions de sécurité contextuelles.
Premier jeu de données annoté dédié aux mèmes liés au suicide, FigSIM couvre 1 049 entrées et évalue 16 modèles sur trois tâches de détection.
Une nouvelle méthode d'alignement cible uniquement les tokens liés à la sécurité, réduisant drastiquement le coût d'alignement sans sacrifier les capacités générales.
Un nouveau benchmark révèle que les agents IA restent vulnérables à des attaques via leurs skills, avec des taux de succès atteignant 86 %.
Une approche algorithmique pour certifier, avec haute probabilité, la sécurité de filtres neuronaux opérant dans l'espace des croyances en robotique interactive.
OpenAI clarifie sa doctrine : transparence, soutien à une régulation réfléchie et rappel qu'aucun groupe extérieur ne parle en son nom.
Anthropic publie un premier point d'étape sur le Projet Glasswing, une initiative dont les contours restent encore largement à préciser.
Des chercheurs démontrent une attaque multi-agents capable de dissimuler des objectifs malveillants, et proposent un système de détection en temps réel.
OpenAI détaille ses recommandations pour structurer des évaluations indépendantes des capacités et garde-fous des systèmes IA frontier.
Microsoft Research défend une vision de l'IA non comme substitut à l'intelligence humaine, mais comme prolongement des structures cognitives et langagières déjà présentes.
Les corpus d'entraînement saturés de discours sur l'alignement IA pourraient conditionner les modèles à reproduire les biais normatifs qu'ils sont censés corriger.
Un projet open-source propose un framework d'agents IA pour le trading automatisé, intégrant des mécanismes de contrôle des risques.
Dwarkesh Patel distingue intelligence cognitive et capacité à acquérir du pouvoir, deux notions souvent amalgamées dans les débats sur la superintelligence.
Un document interne révèle les tensions au cœur du conseil d'administration d'OpenAI lors du renvoi de Sam Altman en novembre 2023.
Un article spéculatif interroge les véritables motivations d'Anthropic derrière la non-publication de son modèle le plus puissant, baptisé Mythos.
Un paper de position soutient que les méthodes d'assurance comportementale sont structurellement inadaptées aux exigences de vérification imposées par les cadres réglementaires actuels.