李飞飞长文拆解世界模型实现路径

澎湃新闻 06-04 21:36

世界模型是自去年以来人工智能领域的热词,不仅备受追捧,且存在多种技术路线。作为世界模型的领军人物之一,AI科学家李飞飞6月4日与其创办的World Labs团队在美国内容发布与订阅平台substack上发表题为《世界模型的功能分类:渲染器、模拟器、规划器,以及连接它们的循环》的长文,试图厘清2025年以来“世界模型”这个概念在使用上的混乱。

李飞飞发表在Substack平台上的内容。来源:Substack

李飞飞表示,大语言模型让机器学会了遣词造句和逻辑推理,但物理世界运行的底层逻辑完全不同。语言模型学的是文本的统计规律,而世界模型学的是时空的统计规律,比如光怎么照在物体上、东西受力后怎么运动。

正因为涉及物理世界,计算机视觉、机器人、强化学习、生成式AI等领域都在用“世界模型”这个词。一个能生成火焰视频的模型、一个能凭空生成可玩游戏的语言模型、一个能精确模拟燃烧过程的物理引擎,现在都被叫作世界模型,但它们实际在做三件完全不同的事:渲染、模拟和规划。其中,模拟器得到的公众关注最少,却可能是让AI真正理解物理世界的基础。

以下内容来自李飞飞及World Labs团队(略有删减)

世界模型的三种功能

第一种世界模型是渲染器。渲染器的任务是把信息转成人眼能看的像素,唯一标准是视觉上够不够逼真。不管是输入一句话就能生成航拍镜头的视频模型,还是谷歌的Genie 3、World Labs自研的RTFM这种能根据用户操作实时生成画面的交互式系统,都属于渲染器。这也是目前商业化跑得最快的方向,谷歌的相关模型已经通过手机应用送到了数亿用户手里。

但它只管“看起来像”,不管“实际上对不对”。例如AI生成的航拍镜头,从天上看城市建筑群完美无瑕;但如果想开车在街道里穿行,建筑物的结构就会暴露出各种错误,瞬间崩塌。

因为这类模型根本不掌握三维空间结构,只还原观看者会看到的画面,而非事物本身的真实构造。这种输出再精美,也没法拿来做建筑设计,或者训练一个需要在真实环境里精准操作的工业机器人

第二种是模拟器,负责输出精确的物理数据。模拟器输出的不是画面,而是几何数据、材质参数、碰撞网格这类信息。它追求的不是“看起来像”,而是结构上的正确。因为几何要经得起测量,运动要遵守牛顿定律,动力学行为要符合物理法则。

这类模型同时服务两类用户:一是建筑师、设计师、影视和游戏开发者,他们需要的是超越视觉效果的精确数据;二是强化学习智能体、机器人控制器、自动驾驶算法这类程序,它们需要在一个安全的环境里大规模训练,复现那些现实中太危险、太贵或者根本没法实测的场景。

模拟器的市场很大,仅英伟达的Omniverse仿真平台,瞄准的工厂、仓库、数字孪生、供应链等市场,潜在规模就超过万亿美元。机器人训练、自动驾驶测试、建筑可视化、工程设计、药物发现,这些领域都需要某种形态的模拟技术。

但模拟器也最难做,挑战来自好几个方面。首先是数据。训练模拟器需要带有精确几何和物理标注的三维数据,这种数据比训练渲染器用的互联网视频稀缺好几个数量级。

其次是偏差。仿真环境里物体的运动规律跟真实世界之间一直存在差距,这就是业内常说的“仿真到现实的鸿沟”。生成式AI还给模拟带来了新问题,AI生成的几何体可能看起来没问题,但暗藏着面重叠、尺寸不对等缺陷,一旦送进物理引擎计算,结果就会变得荒谬。

此外还有计算成本的问题。同时模拟刚体、柔体、流体和织物相互作用,计算成本比单一领域的模拟高出好几个数量级。

World Labs的Marble是这个方向的第一步产品。它接受文字、图片或草图输入,生成可以自由漫游的3D环境,同时输出两套数据:用于视觉呈现的高斯泼溅数据和用于物理计算的碰撞网格。

第三种是规划器,决定下一步要做什么。规划器要解决的问题很具体,即给定当前的观测和一个目标,下一步该做什么动作。那些机器人演示视频,比如机械手抓取物品、机器狗越障,背后用的就是视觉-语言-动作模型等规划器技术。

几乎所有演示都局限于严格受控的实验室环境,物体种类有限,任务周期很短。还没有一个在真实部署所要求的复杂度、多样性和长周期中被验证过。从一段精彩的演示视频,到能在厨房连续工作几小时、在仓库处理几万种不同货品、在手术室稳定配合医生的机器人,中间还有很长的路要走。

不过,资本已经在大量投入。一大波资金充裕的初创团队在竞相研发通用规划系统,头部科技公司也在把规划能力架设在仿真底座上。逻辑便是能自主规划动作的机器人,才是真正能落地干活的机器人。

三种技术正在走向融合

从功能逻辑上来看,渲染器与规划器互为逆运算。渲染器输入动作、输出观测画面,规划器输入观测、输出动作,补齐感知与行动的闭环。而渲染器、模拟器和规划器之间的关系,可以从一只杯子放在桌上的场景出发去理解。

一个模型如果真正理解了杯子的几何形状、材质、受力之后会怎么滑动或翻倒,那么从道理上讲,它就应该能从任何角度渲染这只杯子,能模拟杯子被推倒的完整物理过程,也能规划一只机械手去拿起来。三种能力共享的是同一套对物理世界的底层理解。

反过来则不成立:一个只会渲染画面的模型,未必能推断杯子被推倒后的运动轨迹;一个只会规划动作的模型,也未必能还原杯子表面的光影变化。而模拟器所处理的几何、物理和动力学这层,恰好就是三者共享的那个底层。

正因如此,模拟器被认为是连接渲染和规划的枢纽。掌握了模拟,往上可以生成给人看的像素,往下可以生成给机器人执行的动作。

眼下这三条线已经开始合流。渲染器不再只是被动输出画面,开始能接收动作指令并做出实时反馈;模拟器生成的世界变得更可控、可编辑;规划器也在从简单的应激反应,转向能够审慎推理的主动决策。

这三条路线各自已经撑起百亿美元级别的产业,现在正从独立发展走向融合。逻辑上的终点是一个统一的世界基础模型,能在“生成逼真画面、产出物理上准确的场景、规划行动序列”这三种模式之间灵活切换。

这背后是一个范式上的转变。过去近十年,AI的核心叙事是预测下一个词。但语言的边界不是世界的边界。空间智能学习的是光如何落在物体表面、物体如何遵守物理定律,这是完全不同的底层逻辑。

三者之间的边界一旦消融,将共同重塑一个更宏大的命题:机器智能与它所栖居的物理世界之间的关系,这正是空间智能的漫长征程。

(文章来源:澎湃新闻)

文章来源:澎湃新闻
原标题:李飞飞长文拆解世界模型实现路径
郑重声明:东方财富发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。
热点阅读
钨价大幅反弹!小金属板块多股涨停 7股2026业绩预测翻倍
钨价大幅反弹!小金属板块多股涨停 7股2026业绩预测翻倍
东方财富研究中心 225评论
美军发动空袭!伊朗对所有船只关闭霍尔木兹海峡
美军发动空袭!伊朗对所有船只关闭霍尔木兹海峡
券商中国 1642评论
淘宝京东拼多多抖音小红书被约谈 “百亿补贴”并非真百亿 电商平台第二批典型问题公布
淘宝京东拼多多抖音小红书被约谈 “百亿补贴”并非真百亿 电商平台第二批典型问题公布
央视新闻客户端 709评论
韩国投资者持续加码中国硬科技 增持资产曝光
韩国投资者持续加码中国硬科技 增持资产曝光
财联社 634评论
打开东方财富APP查看更多内容
24小时点击排行
深夜利空,15股减持,14股收监管函,6股提示风险,明天别踩雷
美股大跌 黄金跳水 黑周四会否出现
钻石又火了!英伟达芯片散热升级催化千亿赛道,美日连夜建厂
这次健康的回调是为以后上涨做准备
6.11:等第二只脚落下。
点击查看更多内容
写评论 ...