19 items

#inference

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

OPINION
heat 35
Que se passe-t-il en coulisses quand on modifie le niveau d'effort d'un même modèle LLM ?
Une discussion technique explore ce que recouvre réellement le paramètre 'effort' proposé par certains fournisseurs de LLM.
OUTILS
heat 75
AMD et Cerebras lancent une solution d'inférence IA
Un partenariat pour une inférence ultra-rapide à haut débit.
OUTILS
moonshotheat 60
Moonshot AI publie Kimi-Linear-48B-A3B-Base
Un modèle 48B en open-weights optimisé pour l'efficience.
OUTILS
huggingfaceheat 65
Nunchaku : inférence 4-bit pour diffusion dans Diffusers
Hugging Face intègre Nunchaku pour accélérer l'inférence Stable Diffusion via la quantification 4-bit.
OUTILS
nvidiaheat 30
NVIDIA rend les compilations de moteurs TensorRT observables et annulables en Python et C++
NVIDIA ajoute un suivi de progression et une annulation à la volée pour les longues compilations de moteurs TensorRT.
RECHERCHE
heat 50
Contrôler l'effort de raisonnement dans les LLM
Analyse technique des méthodes pour optimiser les ressources de calcul.
RECHERCHE
heat 35
PagedWeight : servir les LLM MoE efficacement grâce à une quantification dynamique adaptée à la qualité
Une nouvelle méthode de gestion mémoire pour les modèles MoE promet jusqu'à 72% d'économies GPU sans perte de précision.
OUTILS
heat 45
Inférence CIFAR-10 en chiffrement homomorphe réalisée en 200 ms
Un projet démontre une inférence de classification d'images entièrement chiffrée, avec un temps de calcul ramené à 200 millisecondes.
OUTILS
heat 45
Exécution de Gemma 4 26B à 5 tok/s sur un Xeon sans GPU
Inférence d'un modèle 26B sur du matériel obsolète via optimisation logicielle.
RECHERCHE
heat 45
LatentFlow : un cadre général pour conditionner des processus stochastiques
Une méthode sans apprentissage pour conditionner divers modèles stochastiques complexes via des SDE rétrogrades.
OUTILS
heat 45
Un moteur d'inférence C/CUDA performant pour Qwen 3.6 35B sur RTX 5090 / Blackwell
Un projet open source propose un moteur d'inférence bas niveau optimisé pour faire tourner Qwen 3.6 35B sur les GPU Blackwell.
OUTILS
huggingfaceheat 62
Les modèles Hugging Face disponibles sur Foundry Managed Compute
Microsoft Azure AI Foundry intègre les modèles Hugging Face via un service de calcul managé, simplifiant le déploiement en production.
RECHERCHE
heat 62
Program-as-Weights : un paradigme de programmation pour les fonctions floues
PAW compile des spécifications en langage naturel en adaptateurs légers exécutables localement, rivalisant avec un LLM 32B avec 50× moins de mémoire.
RECHERCHE
heat 72
Micro-Agent : surpasser les modèles frontier grâce à la collaboration interne à l'API
Une approche multi-agents légère intégrée à l'API de vLLM permettrait de dépasser les performances des grands modèles frontier sans coût supplémentaire.
OPINION
heat 52
Le tokenmaxxing est mort, vive le tokenmaxxing
Une analyse critique de l'évolution du tokenmaxxing dans les systèmes agentiques : la stratégie est-elle dépassée ou en mutation ?
OUTILS
nvidiaheat 62
NVIDIA TensorRT étend l'inférence IA sur plusieurs GPU simultanément
NVIDIA introduit le support multi-GPU dans TensorRT pour répondre aux besoins croissants des pipelines de génération de médias en production.
MARCHE
openaiheat 88
OpenAI et Broadcom dévoilent Jalapeño, une puce d'inférence optimisée pour les LLM
OpenAI et Broadcom annoncent conjointement Jalapeño, un chip IA personnalisé conçu spécifiquement pour l'inférence de grands modèles de langage.
OPINION
nvidiaheat 42
Maximiser l'efficacité énergétique des usines IA grâce aux optimisations full-stack
NVIDIA détaille comment l'optimisation conjointe de l'inférence et de l'entraînement permet de réduire le coût énergétique par token dans les AI factories.
OUTILS
nvidiaheat 42
DAQIRI : l'IA en temps réel pour l'acquisition de données haute vitesse
NVIDIA présente DAQIRI, un framework permettant d'intégrer l'inférence IA directement dans les pipelines d'acquisition de données scientifiques à haute fréquence.

19 items

#inference

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

OPINION
heat 35
Que se passe-t-il en coulisses quand on modifie le niveau d'effort d'un même modèle LLM ?
Une discussion technique explore ce que recouvre réellement le paramètre 'effort' proposé par certains fournisseurs de LLM.
OUTILS
heat 75
AMD et Cerebras lancent une solution d'inférence IA
Un partenariat pour une inférence ultra-rapide à haut débit.
OUTILS
moonshotheat 60
Moonshot AI publie Kimi-Linear-48B-A3B-Base
Un modèle 48B en open-weights optimisé pour l'efficience.
OUTILS
huggingfaceheat 65
Nunchaku : inférence 4-bit pour diffusion dans Diffusers
Hugging Face intègre Nunchaku pour accélérer l'inférence Stable Diffusion via la quantification 4-bit.
OUTILS
nvidiaheat 30
NVIDIA rend les compilations de moteurs TensorRT observables et annulables en Python et C++
NVIDIA ajoute un suivi de progression et une annulation à la volée pour les longues compilations de moteurs TensorRT.
RECHERCHE
heat 50
Contrôler l'effort de raisonnement dans les LLM
Analyse technique des méthodes pour optimiser les ressources de calcul.
RECHERCHE
heat 35
PagedWeight : servir les LLM MoE efficacement grâce à une quantification dynamique adaptée à la qualité
Une nouvelle méthode de gestion mémoire pour les modèles MoE promet jusqu'à 72% d'économies GPU sans perte de précision.
OUTILS
heat 45
Inférence CIFAR-10 en chiffrement homomorphe réalisée en 200 ms
Un projet démontre une inférence de classification d'images entièrement chiffrée, avec un temps de calcul ramené à 200 millisecondes.
OUTILS
heat 45
Exécution de Gemma 4 26B à 5 tok/s sur un Xeon sans GPU
Inférence d'un modèle 26B sur du matériel obsolète via optimisation logicielle.
RECHERCHE
heat 45
LatentFlow : un cadre général pour conditionner des processus stochastiques
Une méthode sans apprentissage pour conditionner divers modèles stochastiques complexes via des SDE rétrogrades.
OUTILS
heat 45
Un moteur d'inférence C/CUDA performant pour Qwen 3.6 35B sur RTX 5090 / Blackwell
Un projet open source propose un moteur d'inférence bas niveau optimisé pour faire tourner Qwen 3.6 35B sur les GPU Blackwell.
OUTILS
huggingfaceheat 62
Les modèles Hugging Face disponibles sur Foundry Managed Compute
Microsoft Azure AI Foundry intègre les modèles Hugging Face via un service de calcul managé, simplifiant le déploiement en production.
RECHERCHE
heat 62
Program-as-Weights : un paradigme de programmation pour les fonctions floues
PAW compile des spécifications en langage naturel en adaptateurs légers exécutables localement, rivalisant avec un LLM 32B avec 50× moins de mémoire.
RECHERCHE
heat 72
Micro-Agent : surpasser les modèles frontier grâce à la collaboration interne à l'API
Une approche multi-agents légère intégrée à l'API de vLLM permettrait de dépasser les performances des grands modèles frontier sans coût supplémentaire.
OPINION
heat 52
Le tokenmaxxing est mort, vive le tokenmaxxing
Une analyse critique de l'évolution du tokenmaxxing dans les systèmes agentiques : la stratégie est-elle dépassée ou en mutation ?
OUTILS
nvidiaheat 62
NVIDIA TensorRT étend l'inférence IA sur plusieurs GPU simultanément
NVIDIA introduit le support multi-GPU dans TensorRT pour répondre aux besoins croissants des pipelines de génération de médias en production.
MARCHE
openaiheat 88
OpenAI et Broadcom dévoilent Jalapeño, une puce d'inférence optimisée pour les LLM
OpenAI et Broadcom annoncent conjointement Jalapeño, un chip IA personnalisé conçu spécifiquement pour l'inférence de grands modèles de langage.
OPINION
nvidiaheat 42
Maximiser l'efficacité énergétique des usines IA grâce aux optimisations full-stack
NVIDIA détaille comment l'optimisation conjointe de l'inférence et de l'entraînement permet de réduire le coût énergétique par token dans les AI factories.
OUTILS
nvidiaheat 42
DAQIRI : l'IA en temps réel pour l'acquisition de données haute vitesse
NVIDIA présente DAQIRI, un framework permettant d'intégrer l'inférence IA directement dans les pipelines d'acquisition de données scientifiques à haute fréquence.

Que se passe-t-il en coulisses quand on modifie le niveau d'effort d'un même modèle LLM ?

AMD et Cerebras lancent une solution d'inférence IA

Moonshot AI publie Kimi-Linear-48B-A3B-Base

Nunchaku : inférence 4-bit pour diffusion dans Diffusers

NVIDIA rend les compilations de moteurs TensorRT observables et annulables en Python et C++

Contrôler l'effort de raisonnement dans les LLM

PagedWeight : servir les LLM MoE efficacement grâce à une quantification dynamique adaptée à la qualité

Inférence CIFAR-10 en chiffrement homomorphe réalisée en 200 ms

Exécution de Gemma 4 26B à 5 tok/s sur un Xeon sans GPU

LatentFlow : un cadre général pour conditionner des processus stochastiques

Un moteur d'inférence C/CUDA performant pour Qwen 3.6 35B sur RTX 5090 / Blackwell

Les modèles Hugging Face disponibles sur Foundry Managed Compute

Program-as-Weights : un paradigme de programmation pour les fonctions floues

Micro-Agent : surpasser les modèles frontier grâce à la collaboration interne à l'API

Le tokenmaxxing est mort, vive le tokenmaxxing

NVIDIA TensorRT étend l'inférence IA sur plusieurs GPU simultanément

OpenAI et Broadcom dévoilent Jalapeño, une puce d'inférence optimisée pour les LLM

Maximiser l'efficacité énergétique des usines IA grâce aux optimisations full-stack

DAQIRI : l'IA en temps réel pour l'acquisition de données haute vitesse

Que se passe-t-il en coulisses quand on modifie le niveau d'effort d'un même modèle LLM ?

AMD et Cerebras lancent une solution d'inférence IA

Moonshot AI publie Kimi-Linear-48B-A3B-Base

Nunchaku : inférence 4-bit pour diffusion dans Diffusers

NVIDIA rend les compilations de moteurs TensorRT observables et annulables en Python et C++

Contrôler l'effort de raisonnement dans les LLM

PagedWeight : servir les LLM MoE efficacement grâce à une quantification dynamique adaptée à la qualité

Inférence CIFAR-10 en chiffrement homomorphe réalisée en 200 ms

Exécution de Gemma 4 26B à 5 tok/s sur un Xeon sans GPU

LatentFlow : un cadre général pour conditionner des processus stochastiques

Un moteur d'inférence C/CUDA performant pour Qwen 3.6 35B sur RTX 5090 / Blackwell

Les modèles Hugging Face disponibles sur Foundry Managed Compute

Program-as-Weights : un paradigme de programmation pour les fonctions floues

Micro-Agent : surpasser les modèles frontier grâce à la collaboration interne à l'API

Le tokenmaxxing est mort, vive le tokenmaxxing

NVIDIA TensorRT étend l'inférence IA sur plusieurs GPU simultanément

OpenAI et Broadcom dévoilent Jalapeño, une puce d'inférence optimisée pour les LLM

Maximiser l'efficacité énergétique des usines IA grâce aux optimisations full-stack

DAQIRI : l'IA en temps réel pour l'acquisition de données haute vitesse