不再一颗AI芯片通吃?谷歌拆分模型训练和推理专用芯片

南方都市报 04-23 12:39

4月22日,谷歌发布第八代专用AI芯片TPU(张量处理器)。和此前TPU作为单一产品不同,第八代TPU首次拆分为两款:包含用于模型训练的TPU 8t,以及为模型推理优化的TPU 8i。

据谷歌介绍,TPU 8t提供更高的计算吞吐量和更强的可扩展带宽,擅长处理大规模、计算密集型的训练工作负载,旨在将前沿模型的开发周期从数月缩短至数周,其性价比上一代产品提高2.7倍。

而TPU 8i专为对延迟高度敏感的模型推理工作负载设计,将288 GB的HBM(高带宽内存)与384 MB的静态随机存储器(SRAM)结合,其内存带宽达到TPU 8t的1.3倍,性价比提升了80%。SRAM是与动态随机存取器(DRAM)相对的两种核心内存类型,前者的延迟极低但造价贵,后者成本更低、容量大但存取速度相对较慢,HBM也基于DRAM堆叠打造。

谷歌TPU 8i芯片。图:谷歌官网

智能体应用的爆发,是谷歌推动训练推理芯片分离的重要背景。谷歌CEO桑达尔·皮查伊(Sundar Pichai)在一篇博客中解释,TPU 8i针对推理进行了优化,所搭载的静态随机存储器(SRAM)容量增加了3倍,从而提供了同时运行数百万个智能体所需的巨大吞吐量和低延迟。

谷歌推出专用推理芯片,也被外界视为对英伟达的正面挑战。在今年3月的GTC大会上,英伟达发布用于推理的Groq 3 LPX机架,可容纳256颗Groq 3 LPU芯片,专为满足智能体对低延迟与大量上下文的需求而设计。每颗LPU芯片提供500 MB的SRAM。

英伟达模型推理芯片方案有进一步的细分。模型推理分为对计算能力要求高的预填充prefill(处理输入提示)阶段,以及要求快速内存传输的解码decode(生成输出token)阶段。英伟达的方案中,Groq 3 LPU芯片负责解码阶段,而预填充阶段由Vera Rubin GPU承担。

长期以来,AI芯片行业多采取“训推一体”的设计思路,亦即让一款芯片既能用于模型训练又用于推理服务。国内头部GPU芯片公司,如摩尔线程沐曦股份等,均定位于此路线。但“训推分离”方案正逐渐成为新的发展方向,并催生了一些专门聚焦推理场景的芯片公司。

国产推理AI芯片公司曦望Sunrise的商业产品负责人阎研表示,模型训练和推理在计算精度、内存架构、互联方式等方面存在较大区别,一颗芯片难以兼顾训练效能与推理的经济性。

据曦望Sunrise介绍,公司在2026年1月发布的新一代旗舰产品启望S3推理GPU,搭载LPDDR6内存(第六代低功耗双倍数据速率内存,属于DRAM),而没有沿用高端训练GPU的HBM显存路线。公司方面称,大模型推理的一个核心特征是,在高并发、长上下文的主流云端推理场景中,用于加速推理的KV Cache的显存占比可超过80%,且随并发用户数线性增长。S3采用的LPDDR6方案,在提供足够推理带宽的同时,大幅提高显存容量上限,以匹配推理场景的核心需求。

(文章来源:南方都市报)

文章来源:南方都市报
原标题:不再一颗AI芯片通吃?谷歌拆分模型训练和推理专用芯片
郑重声明:东方财富发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。
热点阅读
干货!一文读懂伯克希尔·哈撒韦股东大会
干货!一文读懂伯克希尔·哈撒韦股东大会
第一财经 248评论
伊朗公布伊方最新谈判方案:所有问题应在30天内解决
伊朗公布伊方最新谈判方案:所有问题应在30天内解决
央视新闻客户端 1212评论
张雪机车WSBK再夺冠 A股“朋友圈”不断刷新:谁将分享胜利?
张雪机车WSBK再夺冠 A股“朋友圈”不断刷新:谁将分享胜利?
财联社 63评论
5月3日晚间央视新闻联播要闻集锦
5月3日晚间央视新闻联播要闻集锦
央视新闻客户端 4评论
打开东方财富APP查看更多内容
24小时点击排行
寒武纪股价新高,牛散跑路,华为围剿,芯片赛道散户何去何从?
载入史册的五粮液!
两大事件 引爆节后机器人
商业航天唯一低估真龙,卫星导航+光纤+储能,主力资金重仓抢筹
出事了?美国高盛近期疯狂买入,机器人唯一低估真龙藏不住了?
点击查看更多内容
写评论 ...