SAFETY · Anthropic
Auto-encodeurs en langage naturel : transformer les pensées de Claude en texte
Anthropic explore une nouvelle approche pour rendre les représentations internes de Claude lisibles par l'humain via des auto-encodeurs en langage naturel.
Hacker News (filtré IA)·@instagraham·7 mai 2026

Image · Source originale
Anthropic publie une recherche sur les « Natural Language Autoencoders », une méthode visant à convertir les activations internes de Claude en descriptions textuelles compréhensibles. L'approche s'inscrit dans les travaux d'interprétabilité mécaniste et cherche à rendre transparents les états représentationnels du modèle. Cette technique pourrait améliorer la compréhension de ce que « pense » réellement le modèle lors de ses inférences.