不再一颗AI芯片通吃？谷歌拆分模型训练和推理专用芯片

4月22日，谷歌发布第八代专用AI芯片TPU（张量处理器）。和此前TPU作为单一产品不同，第八代TPU首次拆分为两款：包含用于模型训练的TPU 8t，以及为模型推理优化的TPU 8i。

据谷歌介绍，TPU 8t提供更高的计算吞吐量和更强的可扩展带宽，擅长处理大规模、计算密集型的训练工作负载，旨在将前沿模型的开发周期从数月缩短至数周，其性价比上一代产品提高2.7倍。

而TPU 8i专为对延迟高度敏感的模型推理工作负载设计，将288 GB的HBM（高带宽内存）与384 MB的静态随机存储器（SRAM）结合，其内存带宽达到TPU 8t的1.3倍，性价比提升了80%。SRAM是与动态随机存取器（DRAM）相对的两种核心内存类型，前者的延迟极低但造价贵，后者成本更低、容量大但存取速度相对较慢，HBM也基于DRAM堆叠打造。

谷歌TPU 8i芯片。图：谷歌官网

智能体应用的爆发，是谷歌推动训练推理芯片分离的重要背景。谷歌CEO桑达尔·皮查伊（Sundar Pichai）在一篇博客中解释，TPU 8i针对推理进行了优化，所搭载的静态随机存储器（SRAM）容量增加了3倍，从而提供了同时运行数百万个智能体所需的巨大吞吐量和低延迟。

谷歌推出专用推理芯片，也被外界视为对英伟达的正面挑战。在今年3月的GTC大会上，英伟达发布用于推理的Groq 3 LPX机架，可容纳256颗Groq 3 LPU芯片，专为满足智能体对低延迟与大量上下文的需求而设计。每颗LPU芯片提供500 MB的SRAM。

英伟达模型推理芯片方案有进一步的细分。模型推理分为对计算能力要求高的预填充prefill（处理输入提示）阶段，以及要求快速内存传输的解码decode（生成输出token）阶段。英伟达的方案中，Groq 3 LPU芯片负责解码阶段，而预填充阶段由Vera Rubin GPU承担。

长期以来，AI芯片行业多采取“训推一体”的设计思路，亦即让一款芯片既能用于模型训练又用于推理服务。国内头部GPU芯片公司，如摩尔线程、沐曦股份等，均定位于此路线。但“训推分离”方案正逐渐成为新的发展方向，并催生了一些专门聚焦推理场景的芯片公司。

国产推理AI芯片公司曦望Sunrise的商业产品负责人阎研表示，模型训练和推理在计算精度、内存架构、互联方式等方面存在较大区别，一颗芯片难以兼顾训练效能与推理的经济性。

据曦望Sunrise介绍，公司在2026年1月发布的新一代旗舰产品启望S3推理GPU，搭载LPDDR6内存（第六代低功耗双倍数据速率内存，属于DRAM），而没有沿用高端训练GPU的HBM显存路线。公司方面称，大模型推理的一个核心特征是，在高并发、长上下文的主流云端推理场景中，用于加速推理的KV Cache的显存占比可超过80%，且随并发用户数线性增长。S3采用的LPDDR6方案，在提供足够推理带宽的同时，大幅提高显存容量上限，以匹配推理场景的核心需求。

（文章来源：南方都市报）

文章来源：南方都市报

原标题：不再一颗AI芯片通吃？谷歌拆分模型训练和推理专用芯片

不再一颗AI芯片通吃？谷歌拆分模型训练和推理专用芯片

分享成功

热门推荐