30 items

#raisonnement

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

OUTILS
heat 65
ARC-AGI : nouveau classement publié
Le classement officiel du benchmark ARC-AGI est désormais accessible pour mesurer le raisonnement.
OPINION
heat 35
Letterpaths : comment les LLM peuvent être utiles même quand ils se trompent
Un essai explore comment les erreurs des LLM sur des tâches simples révèlent des usages où leur imperfection reste exploitable.
OUTILS
moonshotheat 60
Moonshot AI dévoile Kimi K2 Thinking, un modèle de raisonnement en open-weights
Le laboratoire chinois Moonshot AI publie une nouvelle version de son modèle Kimi orientée raisonnement long, disponible en poids ouverts.
RECHERCHE
heat 35
PyroDash : inférence collaborative token par token entre petits et grands modèles de langage
Un framework où un petit modèle décide lui-même quand solliciter un LLM, réduisant fortement les coûts d'inférence sans sacrifier la précision.
RECHERCHE
heat 35
Notes personnelles : les LLM peuvent-ils tirer parti d'abstractions expérientielles ?
Une étude explore si les LLM peuvent extraire des stratégies réutilisables de leurs propres traces de résolution, comme le font les humains avec l'expérience.
RECHERCHE
heat 25
SoftReason : une architecture neuro-symbolique différentiable pour le raisonnement déductif sur données perceptuelles
Un nouveau cadre neuro-symbolique fusionne perception et déduction logique en un seul modèle entièrement différentiable, testé sur des tâches de VQA guidées par graphe de connaissances.
RECHERCHE
heat 30
Adaptation et récupération sélectives par espace d'états pour le raisonnement des LLM
Deux nouveaux adaptateurs inspirés de Mamba ajoutent une mémoire dynamique au LoRA, avec des gains mesurables sur le raisonnement multi-sauts.
RECHERCHE
heat 35
Copier moins, ancrer plus : corriger la copie répétitive dans le raisonnement long-contexte via un RL sensible aux preuves
Une étude identifie un défaut fréquent des LLM en contexte long : recopier le texte source au lieu de raisonner, et propose une méthode de RL pour y remédier.
RECHERCHE
heat 25
Jugements logiques sous pression : diagnostiquer la stabilité syllogistique avec des préfixes souples appris
Des préfixes continus appris peuvent faire basculer les réponses correctes de plusieurs LLM sur des tâches de raisonnement syllogistique, révélant des failles de stabilité logique.
RECHERCHE
h-companyheat 35
H Company présente « Booting Fast and Slow », une approche à double vitesse pour ses agents IA
Le laboratoire français détaille une architecture combinant raisonnement rapide et lent, inspirée des travaux en psychologie cognitive.
OPINION
heat 25
Fable 5 face à GPT-5.6 Sol sur un problème NP-difficile : la commande /goal fait-elle la différence ?
Un billet compare deux modèles sur un problème d'optimisation NP-difficile pour évaluer l'apport d'une fonctionnalité de guidage par objectif.
OPINION
heat 40
Tout simuler, presque : promesses et limites des modèles du monde
Un tour d'horizon des « world models », leur potentiel pour l'IA générative et physique, et les obstacles techniques qui subsistent.
RECHERCHE
heat 38
Les agents IA savent-ils reconnaître une tâche simple ? Vers un raisonnement conscient de la complexité
Un nouveau cadre, E3, apprend aux agents LLM à estimer l'effort nécessaire avant d'agir, réduisant drastiquement coûts et sur-lecture inutile de code.
RECHERCHE
heat 40
AdvancedMathBench : un benchmark pour la génération et la vérification de preuves mathématiques avancées
Un nouveau benchmark évalue la capacité des LLM à produire et vérifier des preuves de niveau universitaire à doctoral, au-delà des olympiades.
OPINION
heat 35
L'efficacité déraisonnable des LLM en mathématiques
Un essai revient sur les capacités surprenantes des grands modèles de langage à résoudre des problèmes mathématiques avancés.
RECHERCHE
heat 35
Agora : améliorer le raisonnement des agents LLM via une allocation des tâches par enchères
Un mécanisme d'enchères pour router chaque étape de raisonnement vers le modèle expert le plus compétent, pas le plus confiant.
RECHERCHE
h-companyheat 35
H Company détaille son approche « pensée rapide et lente » pour les agents IA
Le laboratoire français présente une architecture combinant réflexes rapides et raisonnement approfondi pour ses agents autonomes.
OPINION
heat 42
Adam Brown : introduction accessible à la relativité générale
Le physicien Adam Brown distille l'essence de la relativité générale et évoque la capacité des IA à redécouvrir cette théorie par elles-mêmes.
OUTILS
heat 62
Un outil web pour visualiser et modifier le raisonnement d'un LLM avant sa réponse
Un développeur indépendant publie Lucid, un outil qui expose et rend éditables les étapes de réflexion d'un modèle d'IA avant qu'il génère sa réponse.
RECHERCHE
heat 52
OpenCoF : raisonner par génération vidéo via le Chain-of-Frame
Un framework open-source qui transforme la génération vidéo en mécanisme de raisonnement séquentiel, alternatif au Chain-of-Thought textuel.
RECHERCHE
heat 62
AdaPrefix-GRPO : contrôle adaptatif du préfixe pour maximiser le signal d'entraînement sur les problèmes difficiles
Une méthode de feedback adaptatif ajuste dynamiquement la longueur du préfixe de solution fourni au modèle, doublant la précision de GRPO sur les problèmes mathématiques difficiles.
RECHERCHE
heat 62
Agon : apprentissage par renforcement compétitif inter-modèles pour le raisonnement
Deux modèles s'affrontent et se notent mutuellement pour améliorer leur raisonnement, sans étiquettes de processus ni reward model externe.
RECHERCHE
heat 62
Distillation on-policy directe pour la généralisation weak-to-strong
Une méthode transfère le signal RLVR d'un petit modèle vers un plus grand, sans relancer le RL coûteux sur la cible.
OPINION
heat 42
Largeur vs. profondeur : spéculations sur la marge dans les LLM
Un essai de réflexion sur le compromis fondamental entre largeur (MoE, parallélisme) et profondeur (chaînes de raisonnement) dans l'architecture des modèles de langage.
OPINION
heat 45
Raisonnement local pour des propriétés globales
Un essai technique explore comment des garanties globales sur un système peuvent émerger de raisonnements purement locaux sur ses composants.
RECHERCHE
heat 42
G-RRM : guider les solveurs symboliques avec des modèles de raisonnement récurrents
Une approche neuro-symbolique combine des réseaux récurrents équivariants avec des solveurs SAT classiques pour accélérer la résolution de contraintes.
RECHERCHE
heat 42
DemoPSD : auto-distillation de politique modulée par le désaccord
Un nouveau framework limite les fuites d'information et préserve la capacité d'exploration des LLMs lors de la distillation sur politique.
OPINION
heat 52
L'IA « n'est pas intelligente » : quelles sont les prochaines étapes ?
Des chercheurs remettent en question les capacités réelles des LLM actuels et débattent des prochaines directions pour l'intelligence artificielle.
RECHERCHE
heat 52
ReContext : replay récursif de preuves pour le raisonnement sur longs contextes
Une méthode d'inférence sans entraînement améliore l'utilisation des preuves dans les LLMs sur des contextes de 128K tokens.
RECHERCHE
heat 42
Diffusion-GR2 : un re-ranker de recommandation par raisonnement génératif et diffusion
Un pipeline convertit un re-ranker autorégressif avec chaîne de pensée en modèle de diffusion par blocs, sans sacrifier la précision du classement.

30 items

#raisonnement

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

OUTILS
heat 65
ARC-AGI : nouveau classement publié
Le classement officiel du benchmark ARC-AGI est désormais accessible pour mesurer le raisonnement.
OPINION
heat 35
Letterpaths : comment les LLM peuvent être utiles même quand ils se trompent
Un essai explore comment les erreurs des LLM sur des tâches simples révèlent des usages où leur imperfection reste exploitable.
OUTILS
moonshotheat 60
Moonshot AI dévoile Kimi K2 Thinking, un modèle de raisonnement en open-weights
Le laboratoire chinois Moonshot AI publie une nouvelle version de son modèle Kimi orientée raisonnement long, disponible en poids ouverts.
RECHERCHE
heat 35
PyroDash : inférence collaborative token par token entre petits et grands modèles de langage
Un framework où un petit modèle décide lui-même quand solliciter un LLM, réduisant fortement les coûts d'inférence sans sacrifier la précision.
RECHERCHE
heat 35
Notes personnelles : les LLM peuvent-ils tirer parti d'abstractions expérientielles ?
Une étude explore si les LLM peuvent extraire des stratégies réutilisables de leurs propres traces de résolution, comme le font les humains avec l'expérience.
RECHERCHE
heat 25
SoftReason : une architecture neuro-symbolique différentiable pour le raisonnement déductif sur données perceptuelles
Un nouveau cadre neuro-symbolique fusionne perception et déduction logique en un seul modèle entièrement différentiable, testé sur des tâches de VQA guidées par graphe de connaissances.
RECHERCHE
heat 30
Adaptation et récupération sélectives par espace d'états pour le raisonnement des LLM
Deux nouveaux adaptateurs inspirés de Mamba ajoutent une mémoire dynamique au LoRA, avec des gains mesurables sur le raisonnement multi-sauts.
RECHERCHE
heat 35
Copier moins, ancrer plus : corriger la copie répétitive dans le raisonnement long-contexte via un RL sensible aux preuves
Une étude identifie un défaut fréquent des LLM en contexte long : recopier le texte source au lieu de raisonner, et propose une méthode de RL pour y remédier.
RECHERCHE
heat 25
Jugements logiques sous pression : diagnostiquer la stabilité syllogistique avec des préfixes souples appris
Des préfixes continus appris peuvent faire basculer les réponses correctes de plusieurs LLM sur des tâches de raisonnement syllogistique, révélant des failles de stabilité logique.
RECHERCHE
h-companyheat 35
H Company présente « Booting Fast and Slow », une approche à double vitesse pour ses agents IA
Le laboratoire français détaille une architecture combinant raisonnement rapide et lent, inspirée des travaux en psychologie cognitive.
OPINION
heat 25
Fable 5 face à GPT-5.6 Sol sur un problème NP-difficile : la commande /goal fait-elle la différence ?
Un billet compare deux modèles sur un problème d'optimisation NP-difficile pour évaluer l'apport d'une fonctionnalité de guidage par objectif.
OPINION
heat 40
Tout simuler, presque : promesses et limites des modèles du monde
Un tour d'horizon des « world models », leur potentiel pour l'IA générative et physique, et les obstacles techniques qui subsistent.
RECHERCHE
heat 38
Les agents IA savent-ils reconnaître une tâche simple ? Vers un raisonnement conscient de la complexité
Un nouveau cadre, E3, apprend aux agents LLM à estimer l'effort nécessaire avant d'agir, réduisant drastiquement coûts et sur-lecture inutile de code.
RECHERCHE
heat 40
AdvancedMathBench : un benchmark pour la génération et la vérification de preuves mathématiques avancées
Un nouveau benchmark évalue la capacité des LLM à produire et vérifier des preuves de niveau universitaire à doctoral, au-delà des olympiades.
OPINION
heat 35
L'efficacité déraisonnable des LLM en mathématiques
Un essai revient sur les capacités surprenantes des grands modèles de langage à résoudre des problèmes mathématiques avancés.
RECHERCHE
heat 35
Agora : améliorer le raisonnement des agents LLM via une allocation des tâches par enchères
Un mécanisme d'enchères pour router chaque étape de raisonnement vers le modèle expert le plus compétent, pas le plus confiant.
RECHERCHE
h-companyheat 35
H Company détaille son approche « pensée rapide et lente » pour les agents IA
Le laboratoire français présente une architecture combinant réflexes rapides et raisonnement approfondi pour ses agents autonomes.
OPINION
heat 42
Adam Brown : introduction accessible à la relativité générale
Le physicien Adam Brown distille l'essence de la relativité générale et évoque la capacité des IA à redécouvrir cette théorie par elles-mêmes.
OUTILS
heat 62
Un outil web pour visualiser et modifier le raisonnement d'un LLM avant sa réponse
Un développeur indépendant publie Lucid, un outil qui expose et rend éditables les étapes de réflexion d'un modèle d'IA avant qu'il génère sa réponse.
RECHERCHE
heat 52
OpenCoF : raisonner par génération vidéo via le Chain-of-Frame
Un framework open-source qui transforme la génération vidéo en mécanisme de raisonnement séquentiel, alternatif au Chain-of-Thought textuel.
RECHERCHE
heat 62
AdaPrefix-GRPO : contrôle adaptatif du préfixe pour maximiser le signal d'entraînement sur les problèmes difficiles
Une méthode de feedback adaptatif ajuste dynamiquement la longueur du préfixe de solution fourni au modèle, doublant la précision de GRPO sur les problèmes mathématiques difficiles.
RECHERCHE
heat 62
Agon : apprentissage par renforcement compétitif inter-modèles pour le raisonnement
Deux modèles s'affrontent et se notent mutuellement pour améliorer leur raisonnement, sans étiquettes de processus ni reward model externe.
RECHERCHE
heat 62
Distillation on-policy directe pour la généralisation weak-to-strong
Une méthode transfère le signal RLVR d'un petit modèle vers un plus grand, sans relancer le RL coûteux sur la cible.
OPINION
heat 42
Largeur vs. profondeur : spéculations sur la marge dans les LLM
Un essai de réflexion sur le compromis fondamental entre largeur (MoE, parallélisme) et profondeur (chaînes de raisonnement) dans l'architecture des modèles de langage.
OPINION
heat 45
Raisonnement local pour des propriétés globales
Un essai technique explore comment des garanties globales sur un système peuvent émerger de raisonnements purement locaux sur ses composants.
RECHERCHE
heat 42
G-RRM : guider les solveurs symboliques avec des modèles de raisonnement récurrents
Une approche neuro-symbolique combine des réseaux récurrents équivariants avec des solveurs SAT classiques pour accélérer la résolution de contraintes.
RECHERCHE
heat 42
DemoPSD : auto-distillation de politique modulée par le désaccord
Un nouveau framework limite les fuites d'information et préserve la capacité d'exploration des LLMs lors de la distillation sur politique.
OPINION
heat 52
L'IA « n'est pas intelligente » : quelles sont les prochaines étapes ?
Des chercheurs remettent en question les capacités réelles des LLM actuels et débattent des prochaines directions pour l'intelligence artificielle.
RECHERCHE
heat 52
ReContext : replay récursif de preuves pour le raisonnement sur longs contextes
Une méthode d'inférence sans entraînement améliore l'utilisation des preuves dans les LLMs sur des contextes de 128K tokens.
RECHERCHE
heat 42
Diffusion-GR2 : un re-ranker de recommandation par raisonnement génératif et diffusion
Un pipeline convertit un re-ranker autorégressif avec chaîne de pensée en modèle de diffusion par blocs, sans sacrifier la précision du classement.

ARC-AGI : nouveau classement publié

Letterpaths : comment les LLM peuvent être utiles même quand ils se trompent

Moonshot AI dévoile Kimi K2 Thinking, un modèle de raisonnement en open-weights

PyroDash : inférence collaborative token par token entre petits et grands modèles de langage

Notes personnelles : les LLM peuvent-ils tirer parti d'abstractions expérientielles ?

SoftReason : une architecture neuro-symbolique différentiable pour le raisonnement déductif sur données perceptuelles

Adaptation et récupération sélectives par espace d'états pour le raisonnement des LLM

Copier moins, ancrer plus : corriger la copie répétitive dans le raisonnement long-contexte via un RL sensible aux preuves

Jugements logiques sous pression : diagnostiquer la stabilité syllogistique avec des préfixes souples appris

H Company présente « Booting Fast and Slow », une approche à double vitesse pour ses agents IA

Fable 5 face à GPT-5.6 Sol sur un problème NP-difficile : la commande /goal fait-elle la différence ?

Tout simuler, presque : promesses et limites des modèles du monde

Les agents IA savent-ils reconnaître une tâche simple ? Vers un raisonnement conscient de la complexité

AdvancedMathBench : un benchmark pour la génération et la vérification de preuves mathématiques avancées

L'efficacité déraisonnable des LLM en mathématiques

Agora : améliorer le raisonnement des agents LLM via une allocation des tâches par enchères

H Company détaille son approche « pensée rapide et lente » pour les agents IA

Adam Brown : introduction accessible à la relativité générale

Un outil web pour visualiser et modifier le raisonnement d'un LLM avant sa réponse

OpenCoF : raisonner par génération vidéo via le Chain-of-Frame

AdaPrefix-GRPO : contrôle adaptatif du préfixe pour maximiser le signal d'entraînement sur les problèmes difficiles

Agon : apprentissage par renforcement compétitif inter-modèles pour le raisonnement

Distillation on-policy directe pour la généralisation weak-to-strong

Largeur vs. profondeur : spéculations sur la marge dans les LLM

Raisonnement local pour des propriétés globales

G-RRM : guider les solveurs symboliques avec des modèles de raisonnement récurrents

DemoPSD : auto-distillation de politique modulée par le désaccord

L'IA « n'est pas intelligente » : quelles sont les prochaines étapes ?

ReContext : replay récursif de preuves pour le raisonnement sur longs contextes

Diffusion-GR2 : un re-ranker de recommandation par raisonnement génératif et diffusion

ARC-AGI : nouveau classement publié

Letterpaths : comment les LLM peuvent être utiles même quand ils se trompent

Moonshot AI dévoile Kimi K2 Thinking, un modèle de raisonnement en open-weights

PyroDash : inférence collaborative token par token entre petits et grands modèles de langage

Notes personnelles : les LLM peuvent-ils tirer parti d'abstractions expérientielles ?

SoftReason : une architecture neuro-symbolique différentiable pour le raisonnement déductif sur données perceptuelles

Adaptation et récupération sélectives par espace d'états pour le raisonnement des LLM

Copier moins, ancrer plus : corriger la copie répétitive dans le raisonnement long-contexte via un RL sensible aux preuves

Jugements logiques sous pression : diagnostiquer la stabilité syllogistique avec des préfixes souples appris

H Company présente « Booting Fast and Slow », une approche à double vitesse pour ses agents IA

Fable 5 face à GPT-5.6 Sol sur un problème NP-difficile : la commande /goal fait-elle la différence ?

Tout simuler, presque : promesses et limites des modèles du monde

Les agents IA savent-ils reconnaître une tâche simple ? Vers un raisonnement conscient de la complexité

AdvancedMathBench : un benchmark pour la génération et la vérification de preuves mathématiques avancées

L'efficacité déraisonnable des LLM en mathématiques

Agora : améliorer le raisonnement des agents LLM via une allocation des tâches par enchères

H Company détaille son approche « pensée rapide et lente » pour les agents IA

Adam Brown : introduction accessible à la relativité générale

Un outil web pour visualiser et modifier le raisonnement d'un LLM avant sa réponse

OpenCoF : raisonner par génération vidéo via le Chain-of-Frame

AdaPrefix-GRPO : contrôle adaptatif du préfixe pour maximiser le signal d'entraînement sur les problèmes difficiles

Agon : apprentissage par renforcement compétitif inter-modèles pour le raisonnement

Distillation on-policy directe pour la généralisation weak-to-strong

Largeur vs. profondeur : spéculations sur la marge dans les LLM

Raisonnement local pour des propriétés globales

G-RRM : guider les solveurs symboliques avec des modèles de raisonnement récurrents

DemoPSD : auto-distillation de politique modulée par le désaccord

L'IA « n'est pas intelligente » : quelles sont les prochaines étapes ?

ReContext : replay récursif de preuves pour le raisonnement sur longs contextes

Diffusion-GR2 : un re-ranker de recommandation par raisonnement génératif et diffusion