Toutes les news taguées avec ce sujet.
Un framework sans entraînement qui optimise la compression du KV cache durant le décodage, en allouant dynamiquement les ressources par couche et par tête d'attention.
Un développeur raconte comment une architecture mal calibrée lui a coûté 1 000 $ de frais cloud inattendus — un retour d'expérience sur les coûts cachés de l'IA.
NVIDIA détaille comment convertir un checkpoint FP8 quantifié en moteur TensorRT pour accélérer l'inférence et optimiser l'utilisation GPU en production.
Tilert.ai détaille comment deux avancées techniques ont permis de franchir le seuil de 1000 tokens/seconde sur un LLM à 1 trillion de paramètres.
Une architecture qui mutualise l'index de routage entre couches pour accélérer l'inférence des LLM sur de très longs contextes sans perte de qualité notable.
Une startup YC W21 propose un outil pour monitorer et réduire les coûts d'appels aux LLM dans les pipelines d'agents.
Un essai explore comment les méthodes du lean manufacturing peuvent optimiser les workflows d'inférence des modèles d'IA.
Une méthode plug-and-play permet d'appliquer le décodage spéculatif aux LLM par diffusion, sans réentraînement.
Une équipe propose d'utiliser la génération de questions à l'inférence pour sonder l'état interne d'un LLM et prédire la correction de ses raisonnements.
NVIDIA présente une solution au problème du cold-start en inférence : des snapshots pour réduire les délais de démarrage sur Kubernetes.
Après les licornes de la semaine dernière, deux nouveaux acteurs de l'infrastructure d'inférence IA franchissent le cap des 10 milliards de valorisation.
Une infrastructure d'inférence LLM souveraine émerge au Royaume-Uni, soulevant des enjeux de souveraineté numérique et de contrôle des données.
NVIDIA détaille comment son architecture Vera Rubin NVL72 répond aux défis de latence et de scalabilité posés par l'inférence agentique non déterministe.
Hugging Face explore comment l'asynchronisme peut améliorer l'efficacité du continuous batching pour l'inférence LLM à grande échelle.
Une méthode sans entraînement qui traite le KV-Cache comme accumulateur d'un fold fonctionnel pour étendre le contexte jusqu'à 128K tokens.
Une nouvelle approche élimine les multiplications flottantes lors de l'inférence LLM sur CPU, en exploitant des noyaux ternaires fusionnés pour réduire drastiquement le coût de calcul.
Des chercheurs proposent DECO, une architecture MoE qui n'active que 20 % des experts tout en égalant les performances de modèles denses, avec un speedup de 3× sur matériel réel.
Hugging Face et AWS détaillent les composants clés pour déployer et entraîner des modèles fondamentaux à grande échelle sur l'infrastructure cloud Amazon.
Ben Thompson analyse comment le centre de gravité économique de l'IA se déplace de l'entraînement vers l'inférence.
Un chercheur de Modal obtient plus de 10 % de performance supplémentaire en inférence multimodale grâce à une astuce de configuration minimaliste.
NVIDIA détaille l'utilisation de son outil Model Optimizer pour quantifier des LLMs et réduire leur empreinte mémoire sur GPU grand public.
ServiceNow AI partage son retour d'expérience sur la migration de vLLM V0 à V1 dans un pipeline de reinforcement learning, et les pièges à éviter.