上证报中国证券网讯(记者时娜)4月24日,DeepSeek V4-Pro和DeepSeek V4-Flash正式发布并开源,意外曝光了备受关注的昇腾950超节点的上市时间。
此次发布DeepSeek-V4预览版,Deepseek用的新闻稿标题是“迈入百万上下文普惠时代”。然而,其API访问价格并不低,尤其是DeepSeek V4-Pro。

Deepseek在备注中解释称,受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调。
华为披露昇腾950参数
昇腾950超节点作为当前最强国产算力,搭载了尚未正式发布的华为昇腾950芯片。该超节点今年2月已率先在2026年世界移动通信大会(下称“巴展”)上面向海外市场展出,但尚未在国内亮相。
4月24日,DeepSeek-V4预览版发布后,华为中国在其公众号发文称,包括昇腾950在内的昇腾超节点全系列产品全面适配DeepSeek V4系列模型,并首次揭秘了昇腾950超节点的技术参数。
DeepSeek-V4上下文处理长度由原有的128K显著扩展至1M(一百万),实现近10倍的容量提升。这项能力提升的背后,是DeepSeek-V4开创了一种全新的注意力机制,在token维度进行压缩,结合DSA稀疏注意力(DeepSeek Sparse Attention),实现了全球领先的长上下文能力,并且相比于传统方法大幅降低了对计算和显存的需求。
这一飞跃离不开昇腾950超节点的协同。
华为提到,昇腾一直同步支持DeepSeek系列模型,本次通过双方芯模技术紧密协同,实现昇腾超节点全系列产品支持DeepSeek V4系列模型。昇腾950通过融合kernel和多流并行技术降低Attention计算和访存开销,大幅提升推理性能,结合多种量化算法,实现了高吞吐、低时延的DeepSeek V4模型推理部署。
基于DeepSeek V4-Pro模型,在8K输入场景,昇腾950超节点可实现TPOT约20ms时单卡Decode吞吐4700TPS。DeepSeek V4-Flash模型,8K长序列输入场景下可实现TPOT约10ms时单卡Decode吞吐1600TPS。
华为表示,极低时延的实现源于昇腾950代际底层架构的三大升级——
原生精度加速:昇腾950全面支持FP8、MXFP8、MXFP4等数据格式,在保证模型精度的同时,可实现内存占用降低逾50%,计算能力翻倍。
稀疏访存优化:针对MoE模型(混合专家模型)的离散访存特征,昇腾950通过大幅提升硬件级稀疏访存能力,有效解决了专家路由过程中的带宽瓶颈。
向量单元与矩阵单元共享Memory(存储):创新的存储架构设计,昇腾950实现了向量单元(Vector)与矩阵单元(Cube)的Memory共享,消除了大量片上数据搬运开销,极大地降低了端到端推理时延。
昇腾950未发先火
昇腾950虽然还没正式发布,但已经拿到了订单。
近日中国移动2026年至2027年人工智能超节点设备集中采购结果出炉,昆仑技术等5家企业中标。本次集采指定采用华为CANN生态方案,采购规模为6208张AI加速卡,折合776套计算节点设备。据中标企业透露,此次集采的设备正是华为昇腾950超节点。
据了解,昇腾950超节点将搭载华为最新的Ascend 950(以下称昇腾950)系列芯片。该系列芯片包括昇腾950PR和昇腾950DT,这两款芯片共用了Ascend 950 Die,与前一代昇腾芯片相比,Ascend 950 Die在低精度数据格式、向量算力、互联带宽等方面实现根本性提升。
推理不同阶段对于算力、内存、访存带宽的需求不同,华为自研了两种HBM(高带宽内存),不同的HBM与Ascend 950 Die合封,分别构成芯片昇腾950PR和昇腾950DT。昇腾950PR主要面向推理Prefill阶段和推荐业务场景,昇腾950DT则更注重推理Decode阶段和训练场景。
昇腾950系列首先支持的产品形态是加速卡和超节点服务器。
今年3月,昇腾950PR已经搭载在华为最新AI训练推理加速卡Atlas 350上正式商用,昆仑、华鲲振宇、神州鲲泰、长江计算、宝德、软通华方、百信7家华为核心伙伴已推出基于Atlas 350的服务器整机产品。
据华为介绍,Atlas 350的单卡算力达到了英伟达H20的2.87倍,是目前国内唯一支持FP4低精度的推理产品;HBM容量是H20的1.16倍,达到了112GB,多模态生成速度可以提升60%;内存访问颗粒度从512字节减少到128字节,小算子访存效率提升4倍。
据了解,因Atlas 350在短视频、电商、广告推荐等互联网推荐场景的实测数据优秀,字节、腾讯互联网大厂对其非常感兴趣。
中国移动的集采也意味着运营商已在规模部署昇腾950超节点。而DeepSeek-V4预览版的发布及“下半年Pro价格会大幅下调”的表态,也显示昇腾已经能够支撑DeepSeek-V4系列模型的量产部署,这也将带动光模块、AI服务器、存储、集群调度优化等全链条国产化提速。
(文章来源:上海证券报·中国证券网)
