Toutes les news taguées avec ce sujet.
Simon Willison partage ses observations initiales sur Claude Fable 5, le dernier modèle d'Anthropic, à travers une analyse pratique.
Une étude remet en cause l'idée que les LLM atteignent le niveau des experts humains, en pointant les limites des benchmarks standards.
Ethan Mollick a eu accès en avant-première à Claude 5 Fable et livre ses impressions : un bond qualitatif significatif sur l'ensemble des tâches testées.
Un nouveau framework standardise le reporting des évaluations IA en unifiant métadonnées de benchmarks, résultats et modèles dans un enregistrement unique interprétable.
Cognition publie FrontierCode, un nouveau benchmark conçu pour tester les capacités de codage des modèles frontier sur des tâches complexes et réalistes.
Des chercheurs montrent que les évaluations corrélatives standard des LLM sont biaisées et proposent une approche causale rigoureuse.
Un nouveau benchmark basé sur Unreal Engine 5 évalue des agents VLM dans 12 jeux en modes Solo, PvP et Coop, avec un protocole de réflexion autonome.
Une analyse empirique de la calibration des modèles IA : leurs scores de confiance reflètent-ils vraiment la probabilité d'avoir raison ?
Un nouveau benchmark teste si les agents IA peuvent réellement se comporter comme des chercheurs humains — et les résultats révèlent des lacunes persistantes.
Une méthodologie data-driven basée sur le modèle Bradley-Terry pour comparer équitablement les algorithmes de recommandation sans biais d'agrégation.
L'absence de métriques standardisées sur les effets sociétaux de l'IA soulève une question fondamentale : comment évaluer ce qu'on ne mesure pas ?
Une étude questionne la fiabilité et la valeur réelle des benchmarks utilisés pour évaluer les modèles d'IA.
Des chercheurs proposent un système agentique capable de générer automatiquement des benchmarks LLM de bout en bout, réduisant l'intervention humaine.
Des agents IA gèrent un vrai magasin physique. Les comportements émergents révèlent ce que les benchmarks classiques ne capturent pas.
ServiceNow AI publie une nouvelle version de son benchmark EVA-Bench, couvrant 3 domaines métiers, 121 outils et 213 scénarios d'évaluation.
Un nouveau benchmark révèle que les meilleurs modèles multimodaux peinent à comprendre les événements visuels fugaces dans les vidéos, avec seulement 39,6 % de précision au mieux.
Une nouvelle métrique d'évaluation de la reconnaissance vocale qui corrige les biais liés aux variations d'écriture dans les langues indiennes.
Des chercheurs identifient un biais systématique dans les modèles multimodaux jouant le rôle de juges : ils privilégient le texte sur la perception visuelle.
Un nouveau framework transforme l'évaluation personnalisée des LLMs en problème d'apprentissage, en induisant des rubriques alignées sur les historiques utilisateurs.
Des employés d'Amazon auraient manipulé un leaderboard interne évaluant les performances IA, forçant la direction à clore le dispositif.
Une étude unifiée examine comment la variabilité humaine dans les explications affecte l'évaluation des modèles de détection de discours haineux.
Un framework reproductible pour générer des corpus synthétiques à grande échelle, permettant de diagnostiquer les limites des systèmes de retrieval avant tout effort d'annotation humaine.
OpenAI détaille ses recommandations pour structurer des évaluations indépendantes des capacités et garde-fous des systèmes IA frontier.
Un framework d'évaluation automatisé en quatre dimensions pour benchmarker les modèles de génération vidéo appliqués à l'animation de design.
Un mois dense pour les modèles ouverts : plusieurs sorties majeures et une évaluation controversée du CAISI sur l'écart open/closed frontier.
Un nouveau benchmark mesure objectivement la plausibilité physique des vidéos générées, révélant des défaillances géométriques invisibles aux métriques perceptuelles classiques.
Un nouveau benchmark rejoue chronologiquement des actualités réelles pour tester la capacité des agents à prédire des événements au-delà de leur knowledge cutoff.
Une approche par bootstrapping multi-niveaux pour mieux comprendre comment la variance des annotateurs humains affecte la fiabilité des évaluations de LLMs.
Un benchmark complet pour mesurer les agents IA conversationnels vocaux, couvrant précision, expérience utilisateur et robustesse au bruit.
Une étude analyse comment les politiques RL exploitent les failles des vérificateurs basés sur des rubriques, même lorsque ces vérificateurs sont robustes.