蓝鲸新闻4月24日讯(记者朱俊熹)时隔近一年,DeepSeek终于端出新一代模型DeepSeek-V4的预览版本。在这段时间内,团队虽然也保持了更新,但更多的还是基于V3进行小版本迭代。而根据官方介绍,全新的DeepSeek-V4拥有百万字超长上下文,在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先。
按照模型大小的不同,此次发布同时提供DeepSeek-V4-Pro、DeepSeek-V4-Flash两个版本。其中,Pro版本主打性能,强调可以比肩顶级闭源模型。具体来看,该模型的Agent能力相比前代模型显著增强。在SWE Verified (Resolved)等Agent相关评测中,V4-Pro的表现要接近或优于Anthropic的Claude-Opus-4.6-Max、谷歌的Gemini-3.1-Pro-High,但不及OpenAI的GPT-5.4-xHigh。
在世界知识方面,DeepSeek-V4-Pro的表现要大幅领先于Kimi-K2.6 Thinking、智谱GLM-5.1 Thinking等其他开源模型,仅略逊于顶级闭源模型Gemini-Pro-3.1。而在数学、STEM 以及竞赛型代码等高强度推理任务中,V4-Pro已超越现有公开评测中的所有开源模型,整体表现接近世界第一梯队闭源模型。
DeepSeek-V4-Flash版本走的则是更快捷高效的路线。相比Pro版,V4-Flash在世界知识储备方面稍逊一筹,但展现出了接近的推理能力。由于模型参数和激活更小,V4-Flash能够提供更加快捷、经济的API服务。
为了验证DeepSeek-V4模型的实际表现,蓝鲸科技将其与腾讯混元昨日发布的新一代模型Hy3 preview进行了直接评测。首先是一个难倒过很多模型的经典文字题:“我想去洗车,洗车店距离我家50米,你说我应该开车过去还是走过去?”两款模型均能识别出问题中的陷阱,并给出了相应的正确回答。
在更复杂的任务中,两个模型的差异开始体现。以“生成一个可直接运行的AI模型价格对比网页工具”为例,这一任务不仅测试代码能力,还要求模型具备将模糊需求转化为完整产品的端到端交付能力。
从结果来看,DeepSeek-V4和Hy3 preview均能生成可运行的单文件HTML页面,支持交互输入和数值调整,图表信息真实正确,数据变化后图表也会跟着更新。但在产品层面,DeepSeek-V4生成的页面更简洁明确、审美清晰,而Hy3 preview的网页呈现略显繁琐、重复信息较多。
在世界知识考察中,例如判断“日本首都是大阪”、“便利店普遍24小时营业”等说法的正误,两款模型都能给出正确判断,并提供解释。在第二个选项的说明中,DeepSeek-V4表现更进一步,额外引用了2024年的相关信息作为补充,指出近年来日本便利店24小时营业的“普遍性”正逐步下降,使整体回答更具时效性与现实感。
在DeepSeek-V4缺席的这段时间内,大模型行业已经发生了明显变化:Coding与Agent能力快速提升,多模态能力也在成为新一轮竞争焦点。而回到DeepSeek-V4本身,此次更新依然没有加入多模态,但在Agent与长上下文两个方向给出了明确推进。
尤其是在长上下文能力上,DeepSeek-V4开创了一种全新的注意力机制。通过在token维度进行压缩,并结合DSA稀疏注意力(DeepSeek Sparse Attention),实现百万级上下文处理能力,同时显著降低计算与显存开销。官方也明确表示,1M上下文将成为后续所有服务的标配。
价格方面,DeepSeek-V4-Pro的定价为:每百万token 1元(命中缓存)、12元(未命中缓存),输出价格24元/百万token。DeepSeek-V4-Flash的定价为:每百万token 0.2元(命中缓存)、1元(未命中缓存),输出价格2元/百万token。
作为参考,Hy3 preview在腾讯云大模型服务平台TokenHub上的定价为:输入价格最低1.2元/百万tokens,输入命中缓存价格0.4元/百万tokens,输出价格最低4元/百万tokens。
从定价结构来看,DeepSeek-V4-Flash版本在性价比上更具冲击力。对于Pro版本的价格,DeepSeek解释称,“受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调。”
这也意味着,DeepSeek-V4在算力侧正与国产算力体系形成更深层的协同关系,未来更便宜的单位Token成本,要靠国产AI芯片的大规模部署来兑现。华为官方也表示,昇腾一直同步支持DeepSeek系列模型,本次通过双方芯模技术紧密协同,实现昇腾超节点全系列产品支持DeepSeek V4系列模型。
近段时间以来,市场也传出DeepSeek正在寻求新一轮融资,并与腾讯、阿里等投资方接触的消息。一方面,DeepSeek需要持续强化其在人才与研发投入上的竞争力,以应对大厂的“挖角”压力。另一方面,DeepSeek-V4的亮相更像是下一阶段的起点。如何逐步缓解高端算力供给的约束,并将模型能力更稳定地转化为可持续的产品形态与商业体系,将成为DeepSeek接下来必须面对的核心课题。
(文章来源:蓝鲸财经)
