30 items

#évaluation

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

OPINION
heat 35
Letterpaths : comment les LLM peuvent être utiles même quand ils se trompent
Un essai explore comment les erreurs des LLM sur des tâches simples révèlent des usages où leur imperfection reste exploitable.
RECHERCHE
heat 30
Agents en conditions réelles : quand la recherche rencontre le déploiement
Un tutoriel examine le passage des agents LLM du prototype académique à la production, avec études de cas en pharma et finance.
OUTILS
pleiasheat 25
Pleias publie GoldenSwag, une collection de benchmarks sur Hugging Face
Le laboratoire français Pleias met en ligne GoldenSwag, une nouvelle collection destinée à l'évaluation des modèles de langage.
RECHERCHE
heat 25
VEHBench : un benchmark diagnostique par étapes pour la conception de récupérateurs d'énergie vibratoire assistée par LLM
763 tâches ancrées dans la littérature évaluent les LLM sur quatre rôles de conception d'ingénierie physique, révélant des performances très inégales selon les étapes.
RECHERCHE
heat 35
CRAFT : regrouper les rubriques d'évaluation pour diagnostiquer les faiblesses des LLM et cibler le fine-tuning
Une méthode qui transforme les évaluations par rubrique en diagnostic précis des capacités faibles d'un modèle, pour générer des données de fine-tuning ciblées.
RECHERCHE
heat 45
ActiveVision : un benchmark révèle l'échec des MLLMs sur l'observation visuelle active
Les modèles multimodaux les plus avancés s'effondrent face à des tâches nécessitant une perception visuelle itérative, loin derrière les humains.
RECHERCHE
heat 35
L'utilité statique d'un document ne prédit pas son utilité causale dans la recherche agentique multi-étapes
Une étude sur HotpotQA montre qu'un tiers des documents jugés inutiles par les métriques RAG classiques s'avèrent en réalité déterminants pour les agents de recherche.
RECHERCHE
heat 25
Au-delà du leaderboard : leçons de conception pour un VQA multimodal fiable en santé
Une analyse rétrospective de neuf systèmes en endoscopie GI révèle l'écart entre performance sur benchmark et fiabilité clinique réelle.
RECHERCHE
heat 35
Au-delà du taux de succès : évaluer les agents de sécurité offensifs et défensifs selon leur coût
Une étude compare des agents de sécurité IA à budget de calcul fixe, révélant des dynamiques très différentes entre attaque et défense.
RECHERCHE
heat 35
Partition, prompt, agrégation : la cohérence statistique des LLM mise à l'épreuve
Une étude montre que les estimations probabilistes des LLM violent souvent les règles de base de la théorie des probabilités.
RECHERCHE
heat 35
L'illusion de robustesse : la précision globale masque des retournements de prédiction
Un contexte non pertinent, même du charabia, peut faire basculer les réponses de LLM sur certains exemples sans que la précision globale ne bouge.
RECHERCHE
heat 25
Forme, pas contenu ? Une évaluation préenregistrée avec placebo de l'auto-réparation chez les petits modèles de code
Une étude méthodologique teste si les petits LLM de code exploitent réellement le contenu des erreurs pour se corriger, via des placebos contrôlés.
SAFETY
heat 45
Impact de la température sur le biais idéologique en RAG
Une étude montre que la température d'échantillonnage influence la transmission des idéologies dans les systèmes RAG.
RECHERCHE
heat 40
AdvancedMathBench : un benchmark pour la génération et la vérification de preuves mathématiques avancées
Un nouveau benchmark évalue la capacité des LLM à produire et vérifier des preuves de niveau universitaire à doctoral, au-delà des olympiades.
RECHERCHE
heat 30
Une décennie de modèles vision-langage : évolution de la précision et des erreurs cognitives
Une étude sur dix ans montre que les modèles multimodaux récents ont quasiment comblé leur écart de performance face aux scènes sociales complexes.
RECHERCHE
nvidiaheat 55
Comment évaluer les politiques robotiques polyvalentes pour un déploiement réel
NVIDIA détaille les défis méthodologiques liés à l'évaluation rigoureuse des foundation models robotiques en conditions réelles.
RECHERCHE
heat 52
L'illusion d'équivalence : effets comportementaux de la quantization des LLM
La précision et la perplexité ne suffisent pas à évaluer la quantization : une nouvelle métrique comportementale révèle des divergences invisibles.
RECHERCHE
heat 52
UniClawBench : un benchmark universel pour les agents proactifs en environnement réel
Un nouveau benchmark évalue les agents LLM sur des tâches réelles en conteneurs Docker, avec une stratégie en boucle fermée pour simuler des interactions humaines multi-tours.
OPINION
heat 62
Processus de test agentiques, benchmarks LLM et notes sur le coding agentique
Une analyse approfondie des benchmarks LLM appliqués au coding agentique, de leur variance et de leurs limites méthodologiques.
RECHERCHE
openaiheat 72
OpenAI met en évidence des problèmes de fiabilité dans SWE-Bench Pro
Une analyse d'OpenAI pointe des défauts dans SWE-Bench Pro, benchmark de référence pour évaluer les capacités de codage des modèles IA.
RECHERCHE
heat 45
SPEARBench : un benchmark pour évaluer le naturel des modèles speech-to-speech en streaming
Un nouveau benchmark multidimensionnel pour mesurer si les modèles vocaux conversationnels se comportent vraiment comme des interlocuteurs humains.
OPINION
heat 42
Le benchmarking comme levier d'activation des données dans un domaine
Un essai argue que créer un benchmark ciblé transforme des données dormantes en signal utile, donnant à un domaine un objectif mesurable à optimiser.
RECHERCHE
heat 72
Évaluation indépendante de TabFM, le modèle fondationnel tabulaire de Google
Un chercheur teste TabFM de Google sur des données réelles et remet en question les performances annoncées par rapport aux baselines classiques.
SAFETY
heat 45
Y a-t-il de bons benchmarks de sécurité pour les LLM ?
Un thread Hacker News interroge la communauté sur l'existence de benchmarks fiables pour évaluer la sécurité des grands modèles de langage.
SAFETY
heat 72
Ce que disent les agents LLM quand personne ne les observe : structure sociale et émergence d'objectifs latents
Une étude révèle que des agents LLM adaptent stratégiquement leur discours public selon le contexte social, même sans instruction explicite en ce sens.
RECHERCHE
heat 62
Les benchmarks d'optimisation de code mesurent-ils vraiment les agents de codage ?
Une audit de GSO, SWE-Perf et SWE-fficiency révèle des fragilités majeures : instabilité des runtimes, règles de scoring biaisées et saturation des tâches.
OUTILS
heat 62
Senior SWE-Bench : un benchmark open-source pour évaluer les agents comme des ingénieurs seniors
Un nouveau benchmark évalue les agents IA non plus sur des bugs isolés, mais sur des tâches d'ingénierie logicielle complexes, à la hauteur d'un senior.
OUTILS
heat 62
CursorBench 3.1 : le benchmark maison de Cursor pour l'IA de code
Cursor publie CursorBench 3.1, son propre cadre d'évaluation pour mesurer les capacités des modèles sur des tâches de programmation réelles.
RECHERCHE
heat 58
Mesurer l'écart entre les idées de recherche humaines et celles des LLM
Une étude à grande échelle révèle que les LLM génèrent des idées de recherche concentrées sur des patterns étroits, loin de la diversité humaine.
OUTILS
heat 42
Morph Reflexes : classifieurs multi-têtes pour traces d'agents
Un outil open-source permettant d'analyser et classifier les traces d'exécution d'agents IA à l'aide de classifieurs multi-têtes légers.

30 items

#évaluation

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

OPINION
heat 35
Letterpaths : comment les LLM peuvent être utiles même quand ils se trompent
Un essai explore comment les erreurs des LLM sur des tâches simples révèlent des usages où leur imperfection reste exploitable.
RECHERCHE
heat 30
Agents en conditions réelles : quand la recherche rencontre le déploiement
Un tutoriel examine le passage des agents LLM du prototype académique à la production, avec études de cas en pharma et finance.
OUTILS
pleiasheat 25
Pleias publie GoldenSwag, une collection de benchmarks sur Hugging Face
Le laboratoire français Pleias met en ligne GoldenSwag, une nouvelle collection destinée à l'évaluation des modèles de langage.
RECHERCHE
heat 25
VEHBench : un benchmark diagnostique par étapes pour la conception de récupérateurs d'énergie vibratoire assistée par LLM
763 tâches ancrées dans la littérature évaluent les LLM sur quatre rôles de conception d'ingénierie physique, révélant des performances très inégales selon les étapes.
RECHERCHE
heat 35
CRAFT : regrouper les rubriques d'évaluation pour diagnostiquer les faiblesses des LLM et cibler le fine-tuning
Une méthode qui transforme les évaluations par rubrique en diagnostic précis des capacités faibles d'un modèle, pour générer des données de fine-tuning ciblées.
RECHERCHE
heat 45
ActiveVision : un benchmark révèle l'échec des MLLMs sur l'observation visuelle active
Les modèles multimodaux les plus avancés s'effondrent face à des tâches nécessitant une perception visuelle itérative, loin derrière les humains.
RECHERCHE
heat 35
L'utilité statique d'un document ne prédit pas son utilité causale dans la recherche agentique multi-étapes
Une étude sur HotpotQA montre qu'un tiers des documents jugés inutiles par les métriques RAG classiques s'avèrent en réalité déterminants pour les agents de recherche.
RECHERCHE
heat 25
Au-delà du leaderboard : leçons de conception pour un VQA multimodal fiable en santé
Une analyse rétrospective de neuf systèmes en endoscopie GI révèle l'écart entre performance sur benchmark et fiabilité clinique réelle.
RECHERCHE
heat 35
Au-delà du taux de succès : évaluer les agents de sécurité offensifs et défensifs selon leur coût
Une étude compare des agents de sécurité IA à budget de calcul fixe, révélant des dynamiques très différentes entre attaque et défense.
RECHERCHE
heat 35
Partition, prompt, agrégation : la cohérence statistique des LLM mise à l'épreuve
Une étude montre que les estimations probabilistes des LLM violent souvent les règles de base de la théorie des probabilités.
RECHERCHE
heat 35
L'illusion de robustesse : la précision globale masque des retournements de prédiction
Un contexte non pertinent, même du charabia, peut faire basculer les réponses de LLM sur certains exemples sans que la précision globale ne bouge.
RECHERCHE
heat 25
Forme, pas contenu ? Une évaluation préenregistrée avec placebo de l'auto-réparation chez les petits modèles de code
Une étude méthodologique teste si les petits LLM de code exploitent réellement le contenu des erreurs pour se corriger, via des placebos contrôlés.
SAFETY
heat 45
Impact de la température sur le biais idéologique en RAG
Une étude montre que la température d'échantillonnage influence la transmission des idéologies dans les systèmes RAG.
RECHERCHE
heat 40
AdvancedMathBench : un benchmark pour la génération et la vérification de preuves mathématiques avancées
Un nouveau benchmark évalue la capacité des LLM à produire et vérifier des preuves de niveau universitaire à doctoral, au-delà des olympiades.
RECHERCHE
heat 30
Une décennie de modèles vision-langage : évolution de la précision et des erreurs cognitives
Une étude sur dix ans montre que les modèles multimodaux récents ont quasiment comblé leur écart de performance face aux scènes sociales complexes.
RECHERCHE
nvidiaheat 55
Comment évaluer les politiques robotiques polyvalentes pour un déploiement réel
NVIDIA détaille les défis méthodologiques liés à l'évaluation rigoureuse des foundation models robotiques en conditions réelles.
RECHERCHE
heat 52
L'illusion d'équivalence : effets comportementaux de la quantization des LLM
La précision et la perplexité ne suffisent pas à évaluer la quantization : une nouvelle métrique comportementale révèle des divergences invisibles.
RECHERCHE
heat 52
UniClawBench : un benchmark universel pour les agents proactifs en environnement réel
Un nouveau benchmark évalue les agents LLM sur des tâches réelles en conteneurs Docker, avec une stratégie en boucle fermée pour simuler des interactions humaines multi-tours.
OPINION
heat 62
Processus de test agentiques, benchmarks LLM et notes sur le coding agentique
Une analyse approfondie des benchmarks LLM appliqués au coding agentique, de leur variance et de leurs limites méthodologiques.
RECHERCHE
openaiheat 72
OpenAI met en évidence des problèmes de fiabilité dans SWE-Bench Pro
Une analyse d'OpenAI pointe des défauts dans SWE-Bench Pro, benchmark de référence pour évaluer les capacités de codage des modèles IA.
RECHERCHE
heat 45
SPEARBench : un benchmark pour évaluer le naturel des modèles speech-to-speech en streaming
Un nouveau benchmark multidimensionnel pour mesurer si les modèles vocaux conversationnels se comportent vraiment comme des interlocuteurs humains.
OPINION
heat 42
Le benchmarking comme levier d'activation des données dans un domaine
Un essai argue que créer un benchmark ciblé transforme des données dormantes en signal utile, donnant à un domaine un objectif mesurable à optimiser.
RECHERCHE
heat 72
Évaluation indépendante de TabFM, le modèle fondationnel tabulaire de Google
Un chercheur teste TabFM de Google sur des données réelles et remet en question les performances annoncées par rapport aux baselines classiques.
SAFETY
heat 45
Y a-t-il de bons benchmarks de sécurité pour les LLM ?
Un thread Hacker News interroge la communauté sur l'existence de benchmarks fiables pour évaluer la sécurité des grands modèles de langage.
SAFETY
heat 72
Ce que disent les agents LLM quand personne ne les observe : structure sociale et émergence d'objectifs latents
Une étude révèle que des agents LLM adaptent stratégiquement leur discours public selon le contexte social, même sans instruction explicite en ce sens.
RECHERCHE
heat 62
Les benchmarks d'optimisation de code mesurent-ils vraiment les agents de codage ?
Une audit de GSO, SWE-Perf et SWE-fficiency révèle des fragilités majeures : instabilité des runtimes, règles de scoring biaisées et saturation des tâches.
OUTILS
heat 62
Senior SWE-Bench : un benchmark open-source pour évaluer les agents comme des ingénieurs seniors
Un nouveau benchmark évalue les agents IA non plus sur des bugs isolés, mais sur des tâches d'ingénierie logicielle complexes, à la hauteur d'un senior.
OUTILS
heat 62
CursorBench 3.1 : le benchmark maison de Cursor pour l'IA de code
Cursor publie CursorBench 3.1, son propre cadre d'évaluation pour mesurer les capacités des modèles sur des tâches de programmation réelles.
RECHERCHE
heat 58
Mesurer l'écart entre les idées de recherche humaines et celles des LLM
Une étude à grande échelle révèle que les LLM génèrent des idées de recherche concentrées sur des patterns étroits, loin de la diversité humaine.
OUTILS
heat 42
Morph Reflexes : classifieurs multi-têtes pour traces d'agents
Un outil open-source permettant d'analyser et classifier les traces d'exécution d'agents IA à l'aide de classifieurs multi-têtes légers.

Letterpaths : comment les LLM peuvent être utiles même quand ils se trompent

Agents en conditions réelles : quand la recherche rencontre le déploiement

Pleias publie GoldenSwag, une collection de benchmarks sur Hugging Face

VEHBench : un benchmark diagnostique par étapes pour la conception de récupérateurs d'énergie vibratoire assistée par LLM

CRAFT : regrouper les rubriques d'évaluation pour diagnostiquer les faiblesses des LLM et cibler le fine-tuning

ActiveVision : un benchmark révèle l'échec des MLLMs sur l'observation visuelle active

L'utilité statique d'un document ne prédit pas son utilité causale dans la recherche agentique multi-étapes

Au-delà du leaderboard : leçons de conception pour un VQA multimodal fiable en santé

Au-delà du taux de succès : évaluer les agents de sécurité offensifs et défensifs selon leur coût

Partition, prompt, agrégation : la cohérence statistique des LLM mise à l'épreuve

L'illusion de robustesse : la précision globale masque des retournements de prédiction

Forme, pas contenu ? Une évaluation préenregistrée avec placebo de l'auto-réparation chez les petits modèles de code

Impact de la température sur le biais idéologique en RAG

AdvancedMathBench : un benchmark pour la génération et la vérification de preuves mathématiques avancées

Une décennie de modèles vision-langage : évolution de la précision et des erreurs cognitives

Comment évaluer les politiques robotiques polyvalentes pour un déploiement réel

L'illusion d'équivalence : effets comportementaux de la quantization des LLM

UniClawBench : un benchmark universel pour les agents proactifs en environnement réel

Processus de test agentiques, benchmarks LLM et notes sur le coding agentique

OpenAI met en évidence des problèmes de fiabilité dans SWE-Bench Pro

SPEARBench : un benchmark pour évaluer le naturel des modèles speech-to-speech en streaming

Le benchmarking comme levier d'activation des données dans un domaine

Évaluation indépendante de TabFM, le modèle fondationnel tabulaire de Google

Y a-t-il de bons benchmarks de sécurité pour les LLM ?

Ce que disent les agents LLM quand personne ne les observe : structure sociale et émergence d'objectifs latents

Les benchmarks d'optimisation de code mesurent-ils vraiment les agents de codage ?

Senior SWE-Bench : un benchmark open-source pour évaluer les agents comme des ingénieurs seniors

CursorBench 3.1 : le benchmark maison de Cursor pour l'IA de code

Mesurer l'écart entre les idées de recherche humaines et celles des LLM

Morph Reflexes : classifieurs multi-têtes pour traces d'agents

Letterpaths : comment les LLM peuvent être utiles même quand ils se trompent

Agents en conditions réelles : quand la recherche rencontre le déploiement

Pleias publie GoldenSwag, une collection de benchmarks sur Hugging Face

VEHBench : un benchmark diagnostique par étapes pour la conception de récupérateurs d'énergie vibratoire assistée par LLM

CRAFT : regrouper les rubriques d'évaluation pour diagnostiquer les faiblesses des LLM et cibler le fine-tuning

ActiveVision : un benchmark révèle l'échec des MLLMs sur l'observation visuelle active

L'utilité statique d'un document ne prédit pas son utilité causale dans la recherche agentique multi-étapes

Au-delà du leaderboard : leçons de conception pour un VQA multimodal fiable en santé

Au-delà du taux de succès : évaluer les agents de sécurité offensifs et défensifs selon leur coût

Partition, prompt, agrégation : la cohérence statistique des LLM mise à l'épreuve

L'illusion de robustesse : la précision globale masque des retournements de prédiction

Forme, pas contenu ? Une évaluation préenregistrée avec placebo de l'auto-réparation chez les petits modèles de code

Impact de la température sur le biais idéologique en RAG

AdvancedMathBench : un benchmark pour la génération et la vérification de preuves mathématiques avancées

Une décennie de modèles vision-langage : évolution de la précision et des erreurs cognitives

Comment évaluer les politiques robotiques polyvalentes pour un déploiement réel

L'illusion d'équivalence : effets comportementaux de la quantization des LLM

UniClawBench : un benchmark universel pour les agents proactifs en environnement réel

Processus de test agentiques, benchmarks LLM et notes sur le coding agentique

OpenAI met en évidence des problèmes de fiabilité dans SWE-Bench Pro

SPEARBench : un benchmark pour évaluer le naturel des modèles speech-to-speech en streaming

Le benchmarking comme levier d'activation des données dans un domaine

Évaluation indépendante de TabFM, le modèle fondationnel tabulaire de Google

Y a-t-il de bons benchmarks de sécurité pour les LLM ?

Ce que disent les agents LLM quand personne ne les observe : structure sociale et émergence d'objectifs latents

Les benchmarks d'optimisation de code mesurent-ils vraiment les agents de codage ?

Senior SWE-Bench : un benchmark open-source pour évaluer les agents comme des ingénieurs seniors

CursorBench 3.1 : le benchmark maison de Cursor pour l'IA de code

Mesurer l'écart entre les idées de recherche humaines et celles des LLM

Morph Reflexes : classifieurs multi-têtes pour traces d'agents