5 items

#quantization

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

OUTILS
heat 72
Exécution d'un LLM de 28,9M paramètres sur un microcontrôleur à 8$
Un projet démontre la faisabilité de faire tourner un petit modèle LLM sur ESP32, un microcontrôleur à très bas coût.
OUTILS
huggingfaceheat 65
Nunchaku : inférence 4-bit pour diffusion dans Diffusers
Hugging Face intègre Nunchaku pour accélérer l'inférence Stable Diffusion via la quantification 4-bit.
RECHERCHE
heat 35
PagedWeight : servir les LLM MoE efficacement grâce à une quantification dynamique adaptée à la qualité
Une nouvelle méthode de gestion mémoire pour les modèles MoE promet jusqu'à 72% d'économies GPU sans perte de précision.
RECHERCHE
heat 52
L'illusion d'équivalence : effets comportementaux de la quantization des LLM
La précision et la perplexité ne suffisent pas à évaluer la quantization : une nouvelle métrique comportementale révèle des divergences invisibles.
OUTILS
nvidiaheat 52
Création du checkpoint NVFP4 de NVIDIA Nemotron Ultra avec Model Optimizer
NVIDIA détaille comment le format NVFP4 4-bit de l'architecture Blackwell permet de compresser Nemotron Ultra sans sacrifier les performances.

5 items

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

OUTILS
heat 72
Exécution d'un LLM de 28,9M paramètres sur un microcontrôleur à 8$
Un projet démontre la faisabilité de faire tourner un petit modèle LLM sur ESP32, un microcontrôleur à très bas coût.
OUTILS
huggingfaceheat 65
Nunchaku : inférence 4-bit pour diffusion dans Diffusers
Hugging Face intègre Nunchaku pour accélérer l'inférence Stable Diffusion via la quantification 4-bit.
RECHERCHE
heat 35
PagedWeight : servir les LLM MoE efficacement grâce à une quantification dynamique adaptée à la qualité
Une nouvelle méthode de gestion mémoire pour les modèles MoE promet jusqu'à 72% d'économies GPU sans perte de précision.
RECHERCHE
heat 52
L'illusion d'équivalence : effets comportementaux de la quantization des LLM
La précision et la perplexité ne suffisent pas à évaluer la quantization : une nouvelle métrique comportementale révèle des divergences invisibles.
OUTILS
nvidiaheat 52
Création du checkpoint NVFP4 de NVIDIA Nemotron Ultra avec Model Optimizer
NVIDIA détaille comment le format NVFP4 4-bit de l'architecture Blackwell permet de compresser Nemotron Ultra sans sacrifier les performances.