7 items

#mechanistic-interpretability

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 45
Visualiser la pensée d'un modèle avant qu'il ne parle
Une exploration technique de l'analyse des états internes d'un LLM pour comprendre son processus de raisonnement avant génération.
RECHERCHE
heat 45
Interprétabilité mécaniste du biais des LLM juges
Une analyse des états cachés révèle la structure géométrique des biais de notation chez les LLM-juges.
RECHERCHE
heat 65
Ce que révèle et ne révèle pas la dernière découverte d'Anthropic
Analyse des travaux d'Anthropic en interprétabilité mécaniste et de leurs réelles implications pour la compréhension des LLM.
RECHERCHE
heat 35
Comprendre le raisonnement des LLM : l'interprétabilité mécaniste s'appuie sur la théorie de la causalité
Des chercheurs en interprétabilité mécaniste empruntent des outils de la théorie de la causalité pour décrypter les mécanismes internes des grands modèles de langage.
SAFETY
heat 78
Anthropic découvre un espace caché où Claude élabore ses réponses
Une nouvelle technique d'interprétabilité, le « J-lens », révèle un espace interne dans Claude Opus 4.6 où les intentions du modèle précèdent ses sorties.
SAFETY
heat 62
Les représentations verbalisables forment un espace de travail global dans les LLM
Une étude de Transformer Circuits révèle que les LLM développent une structure analogue au « Global Workspace » théorisé en neurosciences cognitives.
SAFETY
heat 52
Fidélité des substituts : quand les LLM ouverts peuvent-ils expliquer les modèles fermés ?
Une étude évalue dans quelle mesure les analyses d'interprétabilité réalisées sur des modèles open-weights sont transférables aux modèles propriétaires à accès restreint.

7 items

#mechanistic-interpretability

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 45
Visualiser la pensée d'un modèle avant qu'il ne parle
Une exploration technique de l'analyse des états internes d'un LLM pour comprendre son processus de raisonnement avant génération.
RECHERCHE
heat 45
Interprétabilité mécaniste du biais des LLM juges
Une analyse des états cachés révèle la structure géométrique des biais de notation chez les LLM-juges.
RECHERCHE
heat 65
Ce que révèle et ne révèle pas la dernière découverte d'Anthropic
Analyse des travaux d'Anthropic en interprétabilité mécaniste et de leurs réelles implications pour la compréhension des LLM.
RECHERCHE
heat 35
Comprendre le raisonnement des LLM : l'interprétabilité mécaniste s'appuie sur la théorie de la causalité
Des chercheurs en interprétabilité mécaniste empruntent des outils de la théorie de la causalité pour décrypter les mécanismes internes des grands modèles de langage.
SAFETY
heat 78
Anthropic découvre un espace caché où Claude élabore ses réponses
Une nouvelle technique d'interprétabilité, le « J-lens », révèle un espace interne dans Claude Opus 4.6 où les intentions du modèle précèdent ses sorties.
SAFETY
heat 62
Les représentations verbalisables forment un espace de travail global dans les LLM
Une étude de Transformer Circuits révèle que les LLM développent une structure analogue au « Global Workspace » théorisé en neurosciences cognitives.
SAFETY
heat 52
Fidélité des substituts : quand les LLM ouverts peuvent-ils expliquer les modèles fermés ?
Une étude évalue dans quelle mesure les analyses d'interprétabilité réalisées sur des modèles open-weights sont transférables aux modèles propriétaires à accès restreint.

Visualiser la pensée d'un modèle avant qu'il ne parle

Interprétabilité mécaniste du biais des LLM juges

Ce que révèle et ne révèle pas la dernière découverte d'Anthropic

Comprendre le raisonnement des LLM : l'interprétabilité mécaniste s'appuie sur la théorie de la causalité

Anthropic découvre un espace caché où Claude élabore ses réponses

Les représentations verbalisables forment un espace de travail global dans les LLM

Fidélité des substituts : quand les LLM ouverts peuvent-ils expliquer les modèles fermés ?

Visualiser la pensée d'un modèle avant qu'il ne parle

Interprétabilité mécaniste du biais des LLM juges

Ce que révèle et ne révèle pas la dernière découverte d'Anthropic

Comprendre le raisonnement des LLM : l'interprétabilité mécaniste s'appuie sur la théorie de la causalité

Anthropic découvre un espace caché où Claude élabore ses réponses

Les représentations verbalisables forment un espace de travail global dans les LLM

Fidélité des substituts : quand les LLM ouverts peuvent-ils expliquer les modèles fermés ?