SAFETY

Résumé de l'évaluation pré-déploiement de GPT-5.6 Sol par METR

METR publie son rapport d'évaluation autonomy & safety sur GPT-5.6 Sol avant son déploiement par OpenAI.

Hacker News (filtré IA)·@pongogogo·26 juin 2026

Image · Source originale

METR, organisation spécialisée dans l'évaluation des modèles d'IA à haut risque, a conduit une évaluation pré-déploiement de GPT-5.6 Sol d'OpenAI. Le rapport porte notamment sur les capacités d'autonomie de l'agent et les risques associés à un déploiement large. Ce type d'évaluation tierce est devenu un élément clé des processus de responsible scaling des grands labs.

Chaleur 41

Pertinence 88

Nouveauté 72

OUVRIR LA SOURCE ↗

#évaluation #safety #agents #OpenAI #METR