一手实测DeepSeek-V4预览版:复杂任务交付能力跃升,世界知识更具现实感

蓝鲸财经 04-24 17:23

蓝鲸新闻4月24日讯(记者朱俊熹)时隔近一年,DeepSeek终于端出新一代模型DeepSeek-V4的预览版本。在这段时间内,团队虽然也保持了更新,但更多的还是基于V3进行小版本迭代。而根据官方介绍,全新的DeepSeek-V4拥有百万字超长上下文,在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先。

按照模型大小的不同,此次发布同时提供DeepSeek-V4-Pro、DeepSeek-V4-Flash两个版本。其中,Pro版本主打性能,强调可以比肩顶级闭源模型。具体来看,该模型的Agent能力相比前代模型显著增强。在SWE Verified (Resolved)等Agent相关评测中,V4-Pro的表现要接近或优于Anthropic的Claude-Opus-4.6-Max、谷歌的Gemini-3.1-Pro-High,但不及OpenAI的GPT-5.4-xHigh。

在世界知识方面,DeepSeek-V4-Pro的表现要大幅领先于Kimi-K2.6 Thinking、智谱GLM-5.1 Thinking等其他开源模型,仅略逊于顶级闭源模型Gemini-Pro-3.1。而在数学、STEM 以及竞赛型代码等高强度推理任务中,V4-Pro已超越现有公开评测中的所有开源模型,整体表现接近世界第一梯队闭源模型。

DeepSeek-V4-Flash版本走的则是更快捷高效的路线。相比Pro版,V4-Flash在世界知识储备方面稍逊一筹,但展现出了接近的推理能力。由于模型参数和激活更小,V4-Flash能够提供更加快捷、经济的API服务。

为了验证DeepSeek-V4模型的实际表现,蓝鲸科技将其与腾讯混元昨日发布的新一代模型Hy3 preview进行了直接评测。首先是一个难倒过很多模型的经典文字题:“我想去洗车,洗车店距离我家50米,你说我应该开车过去还是走过去?”两款模型均能识别出问题中的陷阱,并给出了相应的正确回答。

在更复杂的任务中,两个模型的差异开始体现。以“生成一个可直接运行的AI模型价格对比网页工具”为例,这一任务不仅测试代码能力,还要求模型具备将模糊需求转化为完整产品的端到端交付能力。

从结果来看,DeepSeek-V4和Hy3 preview均能生成可运行的单文件HTML页面,支持交互输入和数值调整,图表信息真实正确,数据变化后图表也会跟着更新。但在产品层面,DeepSeek-V4生成的页面更简洁明确、审美清晰,而Hy3 preview的网页呈现略显繁琐、重复信息较多。

在世界知识考察中,例如判断“日本首都是大阪”、“便利店普遍24小时营业”等说法的正误,两款模型都能给出正确判断,并提供解释。在第二个选项的说明中,DeepSeek-V4表现更进一步,额外引用了2024年的相关信息作为补充,指出近年来日本便利店24小时营业的“普遍性”正逐步下降,使整体回答更具时效性与现实感。

在DeepSeek-V4缺席的这段时间内,大模型行业已经发生了明显变化:Coding与Agent能力快速提升,多模态能力也在成为新一轮竞争焦点。而回到DeepSeek-V4本身,此次更新依然没有加入多模态,但在Agent与长上下文两个方向给出了明确推进。

尤其是在长上下文能力上,DeepSeek-V4开创了一种全新的注意力机制。通过在token维度进行压缩,并结合DSA稀疏注意力(DeepSeek Sparse Attention),实现百万级上下文处理能力,同时显著降低计算与显存开销。官方也明确表示,1M上下文将成为后续所有服务的标配。

价格方面,DeepSeek-V4-Pro的定价为:每百万token 1元(命中缓存)、12元(未命中缓存),输出价格24元/百万token。DeepSeek-V4-Flash的定价为:每百万token 0.2元(命中缓存)、1元(未命中缓存),输出价格2元/百万token。

作为参考,Hy3 preview在腾讯云大模型服务平台TokenHub上的定价为:输入价格最低1.2元/百万tokens,输入命中缓存价格0.4元/百万tokens,输出价格最低4元/百万tokens。

从定价结构来看,DeepSeek-V4-Flash版本在性价比上更具冲击力。对于Pro版本的价格,DeepSeek解释称,“受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调。”

这也意味着,DeepSeek-V4在算力侧正与国产算力体系形成更深层的协同关系,未来更便宜的单位Token成本,要靠国产AI芯片的大规模部署来兑现。华为官方也表示,昇腾一直同步支持DeepSeek系列模型,本次通过双方芯模技术紧密协同,实现昇腾超节点全系列产品支持DeepSeek V4系列模型。

近段时间以来,市场也传出DeepSeek正在寻求新一轮融资,并与腾讯、阿里等投资方接触的消息。一方面,DeepSeek需要持续强化其在人才与研发投入上的竞争力,以应对大厂的“挖角”压力。另一方面,DeepSeek-V4的亮相更像是下一阶段的起点。如何逐步缓解高端算力供给的约束,并将模型能力更稳定地转化为可持续的产品形态与商业体系,将成为DeepSeek接下来必须面对的核心课题。

(文章来源:蓝鲸财经)

文章来源:蓝鲸财经
原标题:一手实测DeepSeek-V4预览版:复杂任务交付能力跃升,世界知识更具现实感
郑重声明:东方财富发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。
热点阅读
全球市场:纳指、标普再创新高 英特尔涨超23% 英伟达市值重返5万亿美元之上
全球市场:纳指、标普再创新高 英特尔涨超23% 英伟达市值重返5万亿美元之上
东方财富Choice数据 806评论
首批17家券商季报出炉 业绩温差加大 中信百亿净利是12家中小券商总和3倍
首批17家券商季报出炉 业绩温差加大 中信百亿净利是12家中小券商总和3倍
财联社 409评论
全球主力买家抛售超22吨黄金!土耳其、俄罗斯等国央行也在卖 摩根士丹利大幅下调金价预期
全球主力买家抛售超22吨黄金!土耳其、俄罗斯等国央行也在卖 摩根士丹利大幅下调金价预期
每日经济新闻 245评论
5次“抢跑” 35亿美元“砸盘”!起底中东冲突背后的美国“原油内幕交易”疑云
5次“抢跑” 35亿美元“砸盘”!起底中东冲突背后的美国“原油内幕交易”疑云
每日经济新闻 68评论
打开东方财富APP查看更多内容
24小时点击排行
工程机械十年等一回,四大金刚谁执牛耳?
出什么事了?摩根、高盛近期狂买,A股第一真龙藏不住了
卡中国脖子的后果,中国突破“工业血液”封锁,西方巨头降价也晚了
中东土豪买入、北向加仓,A股唯一真龙浮出水面,全球第一大
AI业务收入占比过半,软通动力2025年营利双增
点击查看更多内容
写评论 ...