OpenAI自研机器人，是IPO讲故事还是深耕具身智能？

自去年OpenAI与Figure AI分道扬镳之后，外界便不断猜测OpenAI有“开模打铁”，打造自己机器人的计划。如今，这一猜测获得了官方的确认。

6月1日，OpenAI CEO山姆·奥特曼在社交平台发布招聘信息，宣告成立“OpenAI Robotics”团队，正式进军实体机器人领域。

奥特曼为团队设定了清晰的路线图：短期专注于开发能够协助建筑和物理基础设施领域技术工人的机器人；长期愿景则是让每个人都拥有一个可以完成各种需求的个人机器人。

据悉，OpenAI全新机器人业务板块由旗下“世界模拟研究项目”升级演化而来。此次团队的挂帅者，却是OpenAI研究副总裁、文生图模型DALL·E和视频生成模型Sora的核心开发者阿迪亚·拉梅什。

而这一人事布局也令外界好奇：按照阿迪亚·拉梅什的过往经历，依托Sora及VLA（视觉 - 语言 - 动作）大模型落地机器人具身智能，或是阿迪亚·拉梅什主攻的技术路线。但这一技术路径，已经受到业内人士质疑，并被认为难以落地通用具身智能。

那么，OpenAI是否会开辟全新的世界模型研究——亦或是依然基于ChatGPT的技术模型，来闯荡人形机器人行业？

起大早赶晚集

OpenAI的机器人筹谋始于2017年，甚至比绝大部分炙手可热的人形机器人企业起步得早。

起初，OpenAI瞄准的方向是灵巧手——其原型取名为Dactyl。2019年，OpenAI通过强化学习和“自动域随机化”（ADR）技术，训练出一个AI系统，使Dactyl成功复原了魔方。

彼时，OpenAI启发了行业从仿真环境训练并迁移能力到真实机器人的技术可行性。但是作为世界模型的创造者之一，OpenAI却在此后全身心投入了大语言模型的迭代，该项目在2020年前后也被主动放弃。

OpenAI联合创始人沃伊切赫·扎伦巴后来解释，放弃具身智能，其根本原因在于数据瓶颈。机器人物理交互数据极其稀缺、采集成本高昂、迭代缓慢。相比之下，互联网上的文本和图像数据则海量且易于获取。从通往通用人工智能（AGI）的效率路径看，将资源集中于大语言模型（LLM）——也就是后来的ChatGPT，显得更加英明。

当然，OpenAI从未放弃在机器人领域的布局，但角色却从亲自下场变成了“投资人”。

2023年，OpenAI领投了人形机器人公司1X Technologies。2024年2月，OpenAI参与了Figure AI总额6.75亿美元的B轮融资，并宣布为其人形机器人开发专属的多模态AI模型。官宣合作后不到一个月时间，Figure 01机器人便在宣称搭载了OpenAI具身智能的前提下，展示了部分自然语言交互与物体操作能力。

然而，后续OpenAI与Figure AI的决裂，却折射出了机器人与大语言模型之间天然的“水土不服”。

2025年2月，Figure AI创始人布雷特·阿德考克正式宣布终止与OpenAI的合作，转而自主研发端到端机器人AI模型。对此，阿德考克在采访中解释称，由于OpenAI规模庞大、业务范围广泛，但为机器人等具体对象装配AI并非其主要关注点。

“我们发现，要想在现实世界中大规模解决具身智能问题，就必须垂直整合机器人AI——我们不能外包AI，理由和我们不能外包硬件一样。”阿德考克表示。

不再“让语言学家当司机”

对于OpenAI与Figure AI的分手，外界还有另一种猜测。Figure AI其实并不看好基于大语言模型或其Transformer架构在人形机器人上的可行性。

怎么理解这件事？如果你向大模型发送一组盲文图片，而大模型能够明白这张图片确实属于盲文，但它却很难自主解答这个盲文的意思——因为大模型没有真的看到盲文的点位，只是读到“这似乎是一张盲文图片”的一段话。

一款通用人形机器人无疑需要同时具备语言能力和动作能力。但在具身智能的架构上，语言能力和动作能力却有可能是一个南辕北辙的技术路线。

宇树科技创始人、CEO王兴兴此前表示，VLA模型就像“让一位语言学家去开车”——他虽然能读懂交规，却很难瞬间判断刹车距离或障碍物方位。

此外，斯坦福大学教授李飞飞指出，用语言模型理解物理世界有结构性短板，空间理解、物理推理等难题从未真正解决。

当然，按照奥特曼的说法，OpenAI世界模拟研究项目在过去一年中发展迅速，现演变为OpenAI Robotics。但团队仍由Sora负责人来领衔，或暗示其仍然会沿用Transformer架构来推进人形机器人具身智能。

然而，Meta前首席AI科学家杨立昆却认为，Sora生成的视频存在大量物理规律上的错误，如物体突然消失、因果关系混乱。它学到的是“视频数据的统计规律”，生成的是“看起来合理”的幻觉，而非真正符合物理的世界模拟，因此称其为“世界幻觉生成器”更为准确。

而即便随着模型的升级，如今Sora已然不会生成那么“巅”的视频，但按照大语言模型的训练量级，以及训练机器人需要的高质量数据需求，用类似方式完成具身智能研究，几乎是一场不可能完成的任务。

智元机器人合伙人、高级副总裁姚卯青指出，如果将大语言模型的训练过程和具身智能模型训练作对比，GPT-5大语言模型的训练量级约100万亿Tokens，约为100亿小时量级，而当前高质量具身智能真机交互数据仅在50万小时的量级。两者可用数据之间存在数量级的“鸿沟”。难点在于数据获取的差异。大语言模型可以“安静地读书”，从互联网的海量文本、图像、视频中汲取一维或二维信息。而具身智能必须在三维开放世界中“摸爬滚打”，通过本体与环境的物理交互产生闭环数据。

现实的考量

事实上，就连OpenAI自身的技术报告也承认，Sora作为世界模拟器目前仍存在诸多局限。例如，它并不能准确模拟许多基本相互作用的物理原理，比如玻璃破碎；其他交互，如吃东西，也并不总是能产生正确的物体状态变化。这表明，从“生成逼真视频”到“精确模拟物理世界以训练机器人”，仍有很长的路要走。

不过，从OpenAI此次的安排来看，开辟一条与ChatGPT和Transform架构差异极大的具身智能研发路径，可能成为现实。

从OpenAI Robotics的招聘岗位设置也能看出这一思路。根据其官方招聘页面，OpenAI岗位覆盖硬件和软件协同、仿真环境、仿真真实性，以及负责缩小“仿真到现实”差距的工程师。具体职位包括3D打印实验室技术员、执行器设计工程师、电气工程师、机器人数据系统工程师、仿真工程师等。

电气工程师岗位则要求参与下一代机器人系统开发，覆盖从概念探索、原型设计、电路、PCB到集成部署的完整硬件流程。仿真相关岗位则强调缩小“模拟到现实”的差距，涉及物理、传感器、渲染等工具链，其目标是构建一个从虚拟训练到实体部署的完整闭环。

短期目标聚焦于建筑、基建等场景，似乎也是看中了这些场景任务相对结构化、市场明确，且能避开与特斯拉Optimus、波士顿动力Atlas，以及众多中国人形机器人厂商在通用人形机器人上的直接竞争。

值得注意的是，此次高调宣布机器人战略还有一个不容忽视的背景。

据悉，OpenAI已于2026年5月22日秘密提交了IPO招股书草案，计划最早于2026年9月上市。而在今年3月完成的最新一轮融资中，其估值已达到8520亿美元。