DeepSeek新版本发布速度更快成本更低 | 科创观察员

日前，DeepSeek-V3.2-Exp模型正式发布。这是一个实验性版本，主要针对长文本的训练和推理效率进行了探索性的优化和验证。

此次发布的核心突破在于使用了一种有别于传统的注意力机制——稀疏注意力，在性能基本不变前提下，大幅提升了效率并降低了成本。

稀疏注意力有何特别之处？如何同时做到速度更快、成本更低？解放日报记者专访了上海交通大学人工智能学院赵沛霖教授。

从“一一逐个看”变为“挑重点看”

“尽管稀疏注意力这一技术方向并非DeepSeek首创，但真正在如此大规模的模型上实施，并使得计算量和成本都大幅度下降，DeepSeek是第一个做到的。”赵沛霖介绍，他本人就曾在2020年发表的一篇论文中使用这一技术来预测电力。

要理解稀疏注意力，不妨先来看一下传统的自注意力机制。2017年，谷歌在一篇具有开创意义的论文中提出了Transformer架构，其核心正是自注意力机制。

“当时谷歌引入自注意力机制，主要是为了优化翻译功能，因为仅仅关注文字本身和相邻的信息远远不够，有时候需要观察上下文才能准确翻译。”赵沛霖说。

目前绝大多数有影响力的大语言模型，都是以Transformer架构为核心。自注意力机制相当于在预测每个字时，需要计算当前预测的字与过去所有字的相关性。如此带来的计算复杂度和内存消耗之大，可想而知。

有意思的是，谷歌这篇论文本身就已经意识到了自注意力机制的计算缺陷。作者简要提到了可以使用局部注意力或稀疏注意力来降低计算复杂度。这表明，从Transformer诞生第一天起，研究如何让注意力“稀疏化”的思想就已经存在了。

与“面面俱到”的自注意力不同，稀疏注意力让AI模型处理信息时学会了“抓关键”，从“一一逐个看”变为“挑重点看”，计算复杂度自然大大下降。

尤其值得一提的是，DeepSeek是在参数量为6710亿如此大规模的模型上，验证了这一稀疏注意力机制。

在赵沛霖看来，这是DeepSeek的一种尝试，后续可能在稀疏注意力机制之外，会补充一些低成本的线性注意力。线性注意力也是一种速度很快的方法，为稀疏注意力可能遗漏关键信息起到“打补丁”作用。“现在很多公司都在研究线性注意力，但效果并不佳，未来‘稀疏+线性’可能会是一条比较优化的路径。”

仅用1/4算力便可与前代模型能力基本持平

从目前各领域的公开评测集来看，DeepSeek新版本的效果与之前基本持平，但长文本推理速度比前代版本快2-3倍，内存占用降低约30%-40%。

“我粗略估算了一下，它保持了上代模型90%以上的性能，但计算量减少了约75%，相当于仅用1/4算力便可与前代模型能力基本持平。”赵沛霖说。

随着新版本的发布，DeepSeek也公布了新的价格政策，百万tokens（文本的基本单位，可以理解为字或词）的输出价格仅为3元人民币，差不多是国外大模型均价的1/30到1/20，开发者调用API的成本相较过去将降低50%以上。无怪乎有网友惊叹，这是新时代的“水电气”。

速度更快、成本更低，除了直接给中小企业和个人开发者带来实惠，还将给产业带来什么影响呢？

赵沛霖认为，一方面这将对我国算力的缓解有所帮助。特别是随着大模型需求量的不断增加，如果能大规模节省算力，也就降低了对目前还是短板的GPU等芯片的需求。

另一方面，对于因成本限制而原本使用小模型的一些产业应用场景而言，如果大模型成本降低，可能直接使用大模型，这样在相应场景中的精度也会提高。

（文章来源：上观新闻）

文章来源：上观新闻

原标题：DeepSeek新版本发布，速度更快，成本更低|科创观察员

DeepSeek新版本发布 速度更快 成本更低 | 科创观察员