Toutes les news taguées avec ce sujet.
Google publie des modèles Gemma 4 entraînés avec quantification consciente (QAT) pour améliorer l'efficacité sur appareils edge.
Des chercheurs démontrent une nouvelle attaque qui rend des modèles apparemment sains malveillants après quantization, contournant AWQ, GPTQ et GGUF.
Plus de 1 000 participants, 2 000 soumissions : la compétition Parameter Golf d'OpenAI révèle les limites et le potentiel des agents de recherche en ML.
Meta-scale recommandation : LoKA rend l'arithmétique FP8 viable là où les LLM avaient montré la voie, mais les modèles de reco résistaient.
NVIDIA détaille l'utilisation de son outil Model Optimizer pour quantifier des LLMs et réduire leur empreinte mémoire sur GPU grand public.