SAFETY

Les traces de raisonnement « illisibles » de Mythos restent plutôt lisibles

Une analyse des chaînes de raisonnement internes du modèle Mythos suggère qu'elles sont bien plus interprétables qu'annoncé.

Hacker News (filtré IA)·@kqr·13 juin 2026

Image · Source originale

Un post publié sur LessWrong examine les traces de raisonnement du modèle Mythos, réputées opaques. L'auteur constate que ces chaînes de pensée internes demeurent, dans les faits, relativement lisibles et compréhensibles pour un observateur humain. Cette observation soulève des questions sur la distinction entre raisonnement réellement illisible et raisonnement simplement complexe, avec des implications pour l'interprétabilité des LLM.

Chaleur 2

Pertinence 65

Nouveauté 52

OUVRIR LA SOURCE ↗

#interprétabilité #raisonnement #LLM #chain-of-thought #alignement