Toutes les news taguées avec ce sujet.
Tilert.ai détaille comment deux avancées techniques ont permis de franchir le seuil de 1000 tokens/seconde sur un LLM à 1 trillion de paramètres.
IBM Research et Hugging Face expliquent pourquoi les agents IA, plus que les LLM seuls, sont la clé d'un déploiement enterprise à grande échelle.
NVIDIA détaille comment son architecture Vera Rubin NVL72 répond aux défis de latence et de scalabilité posés par l'inférence agentique non déterministe.
Une nouvelle architecture ViT élimine l'attention quadratique patch-à-patch grâce à des « core tokens » appris, permettant une complexité linéaire O(N).
Une nouvelle méthode permet d'appliquer la régression par processus gaussiens à des milliards de points en haute dimension, avec une mise à l'échelle quasi-linéaire.