OUTILS

DeepSeek V4 Pro (1.6T-A49B) et Flash (284B-A13B) : bases et instruct disponibles sur puces Huawei Ascend

DeepSeek publie son premier grand modèle depuis V3 et R1, un MoE de 1,6T paramètres entraîné sur 32T tokens avec context de 1M tokens.

Latent Space (Swyx)·25 avril 2026·+ 7 sources

Article composé de 8 sources

Latent Space (Swyx)latent.space · source primaire
NVIDIA Developer Blogdeveloper.nvidia.com → mention
MIT Technology Review · IAtechnologyreview.com → mention
DeepSeek (Hugging Face)huggingface.co → mention
DeepSeek (Hugging Face)huggingface.co → mention
DeepSeek (Hugging Face)huggingface.co → mention
DeepSeek (Hugging Face)huggingface.co → mention
DeepSeek (Hugging Face)huggingface.co → mention

Image · Source originale

DeepSeek publie la collection DeepSeek-V4 sur Hugging Face, comprenant V4 Pro (1,6T-A49B) et V4 Flash (284B-A13B) en versions base (pre-trained) et instruct. Le modèle DeepSeek-V4-Pro-Base est disponible en open-weights. Architecture MoE avec attention compressée (CSA/HCA) réduisant les FLOPs à 10–27 %, contexte jusqu'à 1M tokens. Première compatibilité native avec les puces Huawei Ascend.

Chaleur 0

Pertinence 95

Nouveauté 82

OUVRIR LA SOURCE ↗

#DeepSeek #MoE #open-weights #LLM #Huawei-Ascend