Toutes les news taguées avec ce sujet.
Le CEO de MatX et ex-ingénieur TPU chez Google explique le fonctionnement des chips, des portes logiques aux architectures modernes.
Modal détaille comment combiner plusieurs techniques système pour réduire drastiquement la latence au démarrage des inférences GPU en environnement serverless.
Un développeur détaille comment porter les performances de la multiplication matricielle de quelques Gflop/s à plusieurs Tflop/s en Swift, première étape vers l'entraînement d'un LLM natif.
Une nouvelle méthode basée sur la réflexion de Householder réduit les faux positifs de 32,5 % lors de la comparaison de la polysémie contextuelle de deux mots.
NVIDIA lance NCCL Inspector, un outil de surveillance continue des communications GPU pour diagnostiquer les ralentissements d'entraînement distribué.