Toutes les news taguées avec ce sujet.
NVIDIA détaille comment convertir un checkpoint FP8 quantifié en moteur TensorRT pour accélérer l'inférence et optimiser l'utilisation GPU en production.
Des chercheurs établissent des garanties théoriques rigoureuses pour la quantification vectorielle via la transformée de Hadamard aléatoire, à coût computationnel réduit.
Une nouvelle stratégie de recherche fine des facteurs d'échelle BFP réduit l'erreur de quantification de 27 % sur NVFP4 et améliore les LLM en post-training.
Une nouvelle approche élimine les multiplications flottantes lors de l'inférence LLM sur CPU, en exploitant des noyaux ternaires fusionnés pour réduire drastiquement le coût de calcul.