OUTILS
DeepSeek V4 Pro (1.6T-A49B) et Flash (284B-A13B) : bases et instruct disponibles sur puces Huawei Ascend
DeepSeek publie son premier grand modèle depuis V3 et R1, un MoE de 1,6T paramètres entraîné sur 32T tokens avec context de 1M tokens.
Article composé de 8 sources

Image · Source originale
DeepSeek publie la collection DeepSeek-V4 sur Hugging Face, comprenant V4 Pro (1,6T-A49B) et V4 Flash (284B-A13B) en versions base (pre-trained) et instruct. Le modèle DeepSeek-V4-Pro-Base est disponible en open-weights. Architecture MoE avec attention compressée (CSA/HCA) réduisant les FLOPs à 10–27 %, contexte jusqu'à 1M tokens. Première compatibilité native avec les puces Huawei Ascend.