OpenAI 携手5 大巨头发布 MRC 协议,重塑大规模 AI 训练网络架构

IT之家 昨天 13:34

5 月 7 日消息,OpenAI 昨日(5 月 6 日)发布公告,为解决大规模 AI 训练中的网络延迟和故障问题,已携手 AMD、博通英特尔微软英伟达公司,联合推出多路径可靠连接(MRC)协议,并通过 OCP(开放计算项目)向全行业开放该协议。

IT之家援引博文介绍,MRC 全称为 Multipath Reliable Connection,基于 RoCE 标准扩展,结合 SRv6 技术,通过开放计算项目(OCP)向全行业开源,致力于提升超级计算机网络的性能与韧性。

大规模训练 AI 模型面临严峻的网络挑战,单一数据传输延迟可能导致整个进程中断,致使 GPU(图形处理器)闲置。网络拥塞、链路及设备故障是主要诱因,且集群规模越大,问题发生频率越高。

针对传统网络架构扩展性不足的问题,MRC 采用多平面网络设计。通过将单一 800Gb/s 接口拆分为多个较小链路,系统仅需两层交换机即可连接约 13.1 万块 GPU。相比传统三层或四层架构,这一设计显著降低了网络功耗与组件数量,在降低成本的同时提升了路径多样性。

在流量调度方面,MRC 引入自适应数据包喷淋技术。与传统单路径传输不同,该技术将单一传输任务的数据包分散至数百条路径并行传输,有效避免了核心网络拥塞。即使数据包乱序到达,接收端也能依据内存地址信息正确重组。

为简化网络控制,MRC 摒弃了复杂的动态路由协议(如 BGP),转而采用 SRv6 源路由。发送端直接指定数据包路径,交换机仅需依据静态配置表转发。这种机制消除了动态路由的故障行为,使网络故障恢复时间从秒级缩短至微秒级。

实际部署数据显示,MRC 已应用于 NVIDIA GB200 超级计算机及 Oracle Cloud Infrastructure(OCI)站点。在真实训练场景中,即使发生链路抖动或交换机重启,MRC 也能在不中断训练任务的情况下自动绕过故障。

(文章来源:IT之家)

文章来源:IT之家
郑重声明:东方财富发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。
热点阅读
伊朗武装部队:美军袭击油轮并空袭沿海地区 伊方已进行反击
伊朗武装部队:美军袭击油轮并空袭沿海地区 伊方已进行反击
央视新闻 315评论
全球市场:美股三大指数收跌 AI应用股逆市走强 Arm大跌超10%
全球市场:美股三大指数收跌 AI应用股逆市走强 Arm大跌超10%
东方财富Choice数据 121评论
“鑫多多”概念股突发大面积急跌 多股登上龙虎榜 外资、机构席位表现活跃
“鑫多多”概念股突发大面积急跌 多股登上龙虎榜 外资、机构席位表现活跃
每日经济新闻 81评论
12天10板、6天5板!两只牛股最新公告!
12天10板、6天5板!两只牛股最新公告!
证券时报网 68评论
打开东方财富APP查看更多内容
24小时点击排行
封神应验!三大主线左脚踩右脚狂飙,看懂的全躺赢!
昨夜惊雷 战火重启 原油反转
普涨行情下更应关注调整的锂电
A股的钱都被高盛赚走,高盛重仓28股集体涨停,集中在4个方向
商业航天四连涨,行情重启?
点击查看更多内容
写评论 ...