12月18日,在昆山举行的光合组织2025人工智能创新大会(HAIC2025)上,中科曙光发布并展出了全球领先的大规模智能计算系统——scaleX万卡超集群。这是国产万卡级AI集群系统首次以真机形式亮相。凭借全球首创的单机柜级640卡超节点,scaleX万卡超集群将单机柜算力密度提升20倍,远超行业平均水平。
“scaleX万卡超集群,是曙光发挥大型计算机系统研制经验优势,面向万亿参数大模型、科学智能等复杂任务场景打造的大规模智能算力基础设施方案。”中科曙光高级副总裁李斌表示,面对人工智能基础设施对性能、效率、可靠性、可扩展性等方面的极致需求,scaleX万卡超集群在超节点架构、高速互连网络、存储性能优化、系统管理调度等方面实现了多项创新突破,部分技术与能力已超越海外同类产品研发路线图中的2027年NVL576里程节点。
一是全球首创单机柜级640卡超节点。scaleX万卡超集群由16个曙光scaleX640超节点通过scaleFabric高速网络互连而成,可实现10240块AI加速卡部署,总算力规模超5EFlops。作为世界首个单机柜级640卡超节点,scaleX640采用超高密度刀片、浸没相变液冷等技术,将单机柜算力密度提升20倍,PUE值低至1.04。
中科曙光在最新发布的投资者关系活动记录表中表示,scaleX640采用“一拖二”高密架构设计,不仅实现了单机柜640卡超高速总线互连,构建大规模、高带宽、低时延的超节点通信域,而且可以通过双scaleX640超节点组成千卡级计算单元。相比业界同类产品,scaleX640不仅综合算力性能实现倍增,同时单机柜算力密度提升20倍;相比传统方案,可实现MoE万亿参数大模型训练推理场景30%—40%的性能提升。scaleX640通过超30天长稳运行可靠性测试验证,可保障超大规模集群扩展部署。
同时,scaleX640采用AI计算开放架构,硬件层面支持多品牌加速卡,软件层面兼容主流计算生态,构建了一个“软硬协同、生态兼容”的国产智算新范式,支持MoE万亿参数大模型训练、高通量推理、科学智能(AI4S)等前沿场景。
二是自主研发原生RDMA高速网络。曙光scaleFabric网络基于国内首款400G类InfiniBand的原生RDMA网卡与交换芯片,可实现400Gb/s超高带宽、低于1微秒端侧通信延迟。超节点间的通信性能达到业内领先水平,可充分释放万卡超集群算力,并可将超集群规模扩展至10万卡以上。
三是存、算、传紧耦合深度优化。通过“超级隧道”、AI数据加速等设计,scaleX万卡超集群实现从芯片级、系统级到应用级的三级数据传输协同优化,使存力平台高效应对大模型训练时万卡并发读写对带宽极致需求的挑战,高通量AI推理时的响应速度与结果精准度得到提升,AI加速卡资源利用率可提高到55%。
四是超集群数字孪生与智能调度。通过物理集群数字孪生,实现集群故障定位、修复等全流程可视化智能管理。智能化运维平台可支撑集群长期可用性达99.99%。智能调度引擎可管理万级节点、服务十万级用户,支持每秒万级作业调度。
在未来战略规划方面,中科曙光表示,公司未来的业务发展将依托国家战略红利、技术壁垒构筑、市场需求爆发三大核心驱动力,在算力国产化、AI算力扩张、计算技术架构突破等赛道具备显著增长潜力,同时全球化布局与生态协同进一步打开公司的长期成长空间。未来,中科曙光仍将继续围绕高端计算机核心业务,在超节点智算算力、科学大模型开发平台、超集群系统等前沿技术突破的基础上,持续在智能计算、算力调度、数据中心解决方案等领域开展全栈布局,完善“芯-端-云-算”的全产业链系统能力。
(文章来源:上海证券报)
