6 items

#benchmarks

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

OPINION
heat 45
Processus de test agentiques, benchmarks LLM et autres notes sur le codage agentique
Dan Luu passe au crible les pratiques de test des agents de codage IA et interroge la fiabilité des benchmarks LLM actuels.
OUTILS
heat 75
Le consortium allemand sort Soofi S, un modèle 30B open performant
Un nouveau consortium allemand publie Soofi S, un modèle open de 30 milliards de paramètres qui surpasse les benchmarks en anglais et en allemand.
RECHERCHE
heat 45
Les LLM maîtrisent-ils la compréhension technique des papiers d'archi ?
Une étude évalue la capacité des grands modèles de langage à analyser et comprendre en profondeur les papiers scientifiques en architecture informatique.
SAFETY
heat 45
Y a-t-il de bons benchmarks de sécurité pour les LLM ?
Un thread Hacker News interroge la communauté sur l'existence de benchmarks fiables pour évaluer la sécurité des grands modèles de langage.