dimanche 26 juillet 2026Connexion →

36 SOURCES ACTIVES+357 / 7J

La veille de l'intelligence artificielle

Rechercher · papers, agents, LeCun…⌘K ALERTES43

À la une Rechercher Topics Entités Modèles Live Alertes Réglages

Sauvegardés · 0

La newsletter Fellow

Le briefing IA, chaque matin à 8h Paris.

Adresse email

FELLOW1748 items ingérés36 sources · 17 acteurs →Newsletter →Méthodologie →

30 items

#inférence

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

SIGNAL
heat 45
Hetzner développerait une offre d'inférence LLM
L'hébergeur allemand Hetzner, connu pour ses serveurs bon marché, préparerait un service d'inférence de modèles de langage.
RECHERCHE
heat 35
PyroDash : inférence collaborative token par token entre petits et grands modèles de langage
Un framework où un petit modèle décide lui-même quand solliciter un LLM, réduisant fortement les coûts d'inférence sans sacrifier la précision.
OUTILS
heat 55
Google mise l'avenir de son inférence sur une puce conçue pour un seul modèle
Google grave son architecture Gemini directement dans le silicium, un pari risqué mais potentiellement décisif pour l'inférence à grande échelle.
RECHERCHE
heat 35
FlashRT : un agent qui optimise le déploiement d'applications multimodales temps réel
Un nouveau framework guide des agents de codage pour transformer des implémentations de référence en déploiements multi-GPU optimisés, avec des gains massifs de latence.

OPINION

heat 42

Ce qui se passe entre la saisie du prompt et l'apparition du premier mot

Un article pédagogique détaille la mécanique interne des LLM, du tokenisation à la génération du premier token en sortie.

OUTILS

heat 52

Mesh LLM : l'inférence IA distribuée sur le réseau iroh

Iroh propose une architecture peer-to-peer pour faire tourner des LLM en distribué, sans infrastructure centralisée.

OUTILS

heat 52

Reame – un serveur d'inférence CPU qui s'accélère au fil du temps

Reame est un serveur d'inférence tournant sur CPU qui optimise ses performances dynamiquement à mesure qu'il traite des requêtes.

MARCHE

heat 72

Les entreprises face à l'explosion des coûts liés à l'IA

Alors que les dépenses en IA s'envolent, les organisations cherchent en urgence des stratégies pour maîtriser des factures de plus en plus difficiles à justifier.

RECHERCHE

heat 52

Optimisation de l'inférence pour MiMo v2.5 : maximiser l'efficacité du Hybrid SWA

Xiaomi détaille les techniques d'optimisation d'inférence de son modèle MiMo v2.5, centré sur l'architecture Hybrid Sliding Window Attention.

RECHERCHE

nvidiaheat 52

Co-conception matérielle : comment concevoir des LLM adaptés au hardware

NVIDIA détaille comment les choix d'architecture d'un LLM influencent directement le débit de tokens et la latence perçue par l'utilisateur.

OUTILS

heat 55

Frugon : identifier quels appels LLM pourraient être traités par un modèle moins coûteux

Un outil open-source MIT pour analyser ses logs d'appels LLM et repérer les requêtes qui ne nécessitent pas un modèle coûteux.

OUTILS

huggingfaceheat 62

Backend de modélisation transformers à vitesse native pour vLLM

Hugging Face intègre un backend transformers natif dans vLLM, permettant d'atteindre des vitesses d'inférence optimales sans surcoût de conversion.

RECHERCHE

heat 52

Abandon précoce des épisodes d'agents LLM par cascade de sondes à rappel contrôlé

Des chercheurs montrent que l'échec d'un agent LLM est prévisible dès le premier tour via ses représentations internes, permettant d'économiser jusqu'à 47 % du calcul d'inférence.

RECHERCHE

heat 52

FreqDepthKV : compression du cache KV guidée par la fréquence et la profondeur pour l'inférence LLM longue

Une nouvelle méthode de compression du cache KV à l'inférence divise les états en composantes basse fréquence partagées et résidus haute fréquence, sans réentraînement.

RECHERCHE

heat 52

DepthWeave-KV : compression adaptative du cache KV par factorisation résiduelle inter-couches

Une nouvelle méthode réduit jusqu'à 8,3× la mémoire du cache KV des LLMs en contexte long, sans réentraîner le modèle de base.

OUTILS

nvidiaheat 72

Le CPU NVIDIA Vera améliore le débit des usines IA pour les workloads agentiques

NVIDIA présente son CPU Vera, conçu pour accélérer les tâches intermédiaires entre les étapes GPU dans les systèmes agentiques à grande échelle.

OPINION

heat 52

Le rapport performance/prix de l'IA s'améliore rapidement sur AMD

Un benchmark comparatif montre que les GPU AMD offrent désormais une alternative sérieuse aux puces NVIDIA pour l'inférence de modèles LLM à moindre coût.

OPINION

heat 72

Prix des tokens en chute, régulation en hausse : le pouvoir de tarification de l'IA fragilisé

Alors que le coût des tokens s'effondre et que les régulateurs resserrent leur emprise, la capacité des acteurs de l'IA à maintenir leurs marges est remise en question.

OUTILS

heat 62

Guide pratique pour faire tourner des LLM de pointe en local

Un développeur publie un guide complet pour exécuter les meilleurs LLM disponibles directement sur sa machine, sans dépendance cloud.

RECHERCHE

heat 52

OrbitQuant : quantification sans données pour les diffusion transformers image et vidéo

OrbitQuant propose une quantification post-entraînement agnostique aux données pour les DiTs, atteignant l'état de l'art jusqu'en W2A4 sur FLUX.1, Wan 2.1 et CogVideoX.

RECHERCHE

heat 52

ReContext : replay récursif de preuves pour le raisonnement sur longs contextes

Une méthode d'inférence sans entraînement améliore l'utilisation des preuves dans les LLMs sur des contextes de 128K tokens.

OUTILS

nvidiaheat 42

La sécurité IA ancrée dans le matériel selon NVIDIA : performances préservées

NVIDIA présente sa solution Confidential Computing pour protéger les données en cours d'inférence sans compromis sur les performances.

RECHERCHE

heat 52

QuasiMoTTo : mise à l'échelle de l'inférence par quasi-Monte Carlo

Une méthode de sampling corrélé qui réduit la redondance lors du scaling de l'inférence, sans sacrifier la parallélisation ni la rigueur statistique.

OUTILS

huggingfaceheat 62

Hugging Face et Cerebras intègrent Gemma 4 à l'IA vocale en temps réel

Le modèle Gemma 4 de Google tourne désormais en inférence ultra-rapide via Cerebras pour alimenter des applications vocales en temps réel.

OUTILS

heat 72

Mistral lance Leanstral 1.5, un modèle léger optimisé pour l'efficacité

Mistral publie Leanstral 1.5, un nouveau modèle conçu pour offrir de hautes performances avec une empreinte computationnelle réduite.

OUTILS

heat 55

DGX Spark face au Mac Studio et au Halo : comparaison matérielle pour l'IA locale

Le DGX Spark de NVIDIA s'attaque au marché des stations de travail IA compactes, face au Mac Studio d'Apple et d'autres alternatives.

OUTILS

deepmindheat 78

Gemini Nano Banana 2 Lite et Gemini Omni Flash désormais disponibles pour les développeurs

DeepMind ouvre l'accès à deux nouveaux modèles Gemini optimisés pour la légèreté et la rapidité d'inférence.

OUTILS

heat 72

ZLUDA 6 : exécuter des applications CUDA sans modification sur des GPU non-Nvidia

Le projet ZLUDA franchit une nouvelle étape avec sa version 6, permettant de faire tourner des workloads CUDA natifs sur du matériel AMD ou Intel.

OUTILS

heat 72

Gemma 4 sur Cerebras : l'inférence la plus rapide devient multimodale

Cerebras annonce le support de Gemma 4 sur son infrastructure, combinant sa vitesse d'inférence record avec les capacités multimodales du modèle de Google.

MARCHE

heat 72

Meta utilise le CXL pour réemployer de la DDR4 ancienne et réduire ses flottes d'inférence de 25 %

Meta a développé un ASIC CXL maison permettant de recycler la mémoire DDR4 de serveurs obsolètes, réduisant la taille de certaines flottes d'inférence d'un quart.

#inférence — Fellow