Logo
Loading...
期刊
专家
万字长文实录:RL 界与 CV 界的“世界模型”有什么不同?Ⅰ丨GAIR Live
GAIR SG 2025-09-04

丨GAIR Live 无论是自动驾驶还是具身智能,都在走向大规模基于世界模型的训练之路


作者丨刘欣

编辑丨马晓宁、陈彩娴

世界模型在人工智能领域中扮演着重要角色,能够有效为智能体提供对复杂现实世界的内在表征,使其像人类一样理解世界运行的逻辑与因果关系,对自动驾驶、具身智能的突破性发展至关重要,它已成为学术界和工业界的研究热点。

2015年8月5日,雷峰网、AI 科技评论 GAIR Live 品牌举办了一场主题为“世界模型 — — 通向通用智能的关键拼图”的线上圆桌沙龙。

圆桌主持人为清华大学智能产业研究院( AIR )助理教授、智源学者赵昊,并邀请了宁波东方理工大学助理教授金鑫、浙江大学特聘研究员廖依伊、布里斯托大学助理教授杨梦月、伯克利人工智能实验室博士后研究员郑文钊一起进行了一场深度的讨论。

会上主持人赵昊带头讨论世界模型,先是探讨其定义、范围,接着分析强化学习界与计算机视觉界的世界模型的不同,随后围绕视频生成、三维重建等内容,剖析通用视频生成模型向真正的世界模型的发展路径,最后关注于落地场景,聚焦于自动驾驶以及具身智能,并探讨构建其世界模型的难点和方向。

其中,四位嘉宾围绕具身智能世界模型的构建分别提出了自己的独到见解:

郑文钊认为具身智能的问题与自动驾驶相似,未来应该实现重建与生成的结合、提升三维建模精度,以及更精准地判断因果性,使因果性与物理规律更好契合,但由于具身智能的数据稀缺,纯数据驱动很难训练出符合物理规律的世界模型,因此需要更好地建模物理规律,甚至将其“注入”模型。除了“真实到仿真再到真实”的路径,更优的方向可能是数据驱动与物理规律结合 — — 探索如何通过某种方式将物理规律注入数据驱动模型,这可能是未来的趋势。

金鑫也表示物理规律、物理真实性( physical world intelligence )对具身智能的世界模型很重要,探索方向不仅依赖数据驱动,还借鉴了传统仿真领域的经验,结合图形学中的物理建模方法(如杨氏模量、弹簧 — 质量模型等基于规则的物理仿真)与数据驱动的生成模型(如 AIGC 生成模型),希望让具身智能的世界模型既能保证物理真实性,又能实现外观真实。

杨梦月则提出了她自己的思路,在具身场景中,通过某种机制或智能体捕捉物理规律,将其整合成因果模型,再利用该模型进行反事实预测或推断。

最后廖依伊对金鑫和郑文钊的观点表示赞同,还发出了路线选择的疑问,她认为核心问题在于:是否必须显式建模 3D ?在 2D 层面能否学好交互?若有足够训练数据,2D 学习交互可能更简单 — — 比如叠衣服、泥巴落地等非刚性物体场景,在 3D 中建模难度极大。如何做好 2D 与 3D 的结合,仍是难题。

Press enter or click to view image in full size

以下是此次圆桌讨论的精彩分享,AI 科技评论进行了不改原意的编辑整理:

赵昊:接下来我们进入下一个问题。杨老师刚才提到,当前许多视频生成工作因缺乏动作因素而存在不足。那么 RL 界与 CV 界的世界模型有哪些不同?我认为动作因素可能是主要差异。接下来我们具体探讨技术路径,如何让世界模型真正对动作、决策制定发挥作用。有请金老师先发言。

金鑫:虽然我自己亲手写 RL 代码的经验不多,但通过和学生的讨论(我的学生中有做 RL 的),我了解到强 RL 分为基于模型( model-based )和无模型( model-free )两种类型。其中,基于模型的 RL 所构建的“模型”,我的理解是对环境的一种代理或模拟。简单来说,就是建立一个环境模型,然后用这个模型输出环境的转移函数等信息,智能体基于这些信息进行学习。

2018 年 David Ha 和 Jürgen Schmidhuber 关于世界模型的那篇论文,就和强化学习做了一些对比。所以我个人理解,强化学习中基于模型的“模型”,与 CV 领域用于自动驾驶等场景的世界模型模拟器,核心都是通过模拟环境让智能体进行交互训练。

我们CV里面经常会用到 “ simulator ”(模拟器)这个词,它本质上就是对环境的模拟 — — 构建出环境后,让智能体在里面通过动作交互进行训练,这和赵老师一直强调的“ action ”是相呼应的。这只是我的个人理解,可能不一定准确,欢迎大家交流指正。

杨梦月:我在强化学习方面的研究相对多一些。我认为 RL 与 CV 的世界模型的核心区别在于服务对象不同。 CV 界的核心是建模世界本身,关注如何刻画世界的形态;而 RL 界的核心是智能体,建模世界的最终目的是服务于智能体,让它掌握世界知识,进而提升自身的决策策略 policy 。

正如赵老师所说, NLP 领域面临数据有限的问题, CV 领域虽然数据量更大,但也可能存在类似瓶颈。我们近期在世界模型研究中使用了一个较新的观点,名为“开放性”( open endedness ),其实质是“自我提升智能体”( self-improve agent )。具体来说,若想提升智能体性能,我们可以通过数据训练,但当数据量有限,无法支撑智能体理解世界上所有事件间的关系时,就需要让智能体主动探索,比如通过自问自答的方式学习。

例如在代码生成领域,让智能体自己提出新的代码问题;在开放世界游戏中,让它自主构建 task 。生成 task 的过程本身就是世界模型的建模过程,但其最终目标是提升智能体的决策能力和泛化能力,而非让智能体简单过拟合于某个特定环境,而是使其具备理解世界、自主构建世界模型的能力。

赵昊:比如做 RL 的研究者,就算没有图像,他们将编码环境中“智能体自己给自己出题”的过程也称为世界模型吗?

杨梦月:最广义的世界模型,可以建模任何规则,这些规则不一定局限于物理规则,数学规则、代码运行机制等也属于规则范畴。世界模型的核心目标是让智能体在特定环境或任务中,具备理解该环境或任务规则的能力。

世界模型的建模方式具有多样性,生物、化学等领域都有其独特规则。但这些规则未必都像物理规则那样明显,也未必有成熟的模拟器支持训练。许多环境中的规则是隐性的,比如 ChatGPT ,它的生成规则也属于一种世界规则,但这种规则的概率属性就非常大。

所以对于不同的环境,可能都有其对应的世界模型建模方法,这些方法都可以统称为世界模型。

我今年在 ICLR 上组织了一个关于世界模型的研讨会,当时我们希望征集的稿件能覆盖各个领域,比如自然科学、社会科学、数学等。实际上,我们也收到了一些比较特别的投稿,它们都将自己的研究称为世界模型。我认为世界模型最核心的特质是能够建模世界背后的规律,并且智能体能够借此与世界进行交互。

廖依伊:我觉得杨老师刚刚的观点非常有意思,这让我想到一个问题:CV 所说的世界模型是否无法服务于 Agent 的训练呢?可能有的也未必。

RL 界的世界模型和 CV 界的世界模型有什么不同?我的理解是这样的,一方面,正如我们之前讨论的“ x(t) + a(t) → x(t+1) ”框架, CV 界确实更关注与图像平面相关的状态变量 x ;而在 RL 界,状态变量不一定局限于图像平面,可以是任意形式的抽象状态。另一方面,据我观察, RL 在涉及世界模型时,通常不仅要预测下一状态 x(t+1) ,还要学习奖励( reward )。如果能直接学到奖励,就可以基于此进行强化学习训练和后续决策。

但目前 CV 界在视频生成(无论是 3D 还是纯视频路线)中,更关注预测下一时刻的视觉呈现,比如画面“长什么样子”,却很少考虑奖励机制。举个例子,在视频生成中,即使模拟车辆即将撞车,模型也可能因为缺乏撞车数据而继续生成车辆前行的画面,不会提示“撞车”这个负面结果。所以,奖励确实是 CV 界世界模型目前较少考虑的点。

比如 LeCun 团队今年在 ICML 上发表的“ Navigation World Model ”研究,就将自身运动作为 action ,输出图像平面结果,并基于“目标图像”( goal image )定义奖励。在这种情况下,即使模型没有直接学习奖励,也能通过生成图像与目标图像的对比构造奖励,进而基于模型的控制思路遍历路径空间,实现导航、抓取等任务。这么做的话还是可以服务于 Agent 的。

赵昊:廖老师提到的这一点很关键:我们现在做的这些世界模型,大部分确实没有考虑 reward 。这是一个很好的研究方向,我们都可以尝试探索。如果能在今年的 ICLR 和 CVPR 投稿中探讨“如何在 CV 的视频生成世界模型中引入奖励”,会是非常好的选题。感谢廖老师的分享。最后有请郑老师也来分享一下看法。

郑文钊:我对 RL 其实不是特别懂,所以简单说一下我的观点,不一定正确。但我很认同刚才几位老师的看法,总结来说,我认为 RL 界的世界模型和 CV 界世界模型主要区别在于, RL 界的世界模型更类似判别式模型,当 Agent 在环境中执行某个动作后,它会输出一个奖励值。而 CV 界的世界模型更像生成式模型,它不会评判行为的好坏,而是告诉你这个行为会导致世界呈现出什么样的状态。

比如在自动驾驶场景中,若使用 RL 界的模型,当车辆前行即将撞车时,它只会反馈“撞上了,奖励值为-1000”,而不会展示撞车后的画面;但 CV 界的世界模型会生成撞车后的具体图像,而非直接告知后果。这是第一个区别。

第二个区别,我结合刚才杨老师的观点补充一下,判别式模型在很多情况下聚焦于从输入 x 到输出 y 的映射,而生成式模型则会同时对 p(x,y) 进行建模。由此我认为, RL 界的世界模型更多是一种局部模型,它必须依赖 Agent 获取反馈,正如杨老师所说,其核心是为 Agent 服务。但 CV 界的世界模型更接近独立运行的模型,它可以不依赖智能体,独立建模世界的运行规律。 而且它是全局模型,如果有 Agent 在其中交互,理论上也能基于模型计算奖励。不过目前这类奖励计算的方法还比较缺乏,但基于模型对未来的预测,其实是有可能推导出奖励的。

这就引出了第三个区别, RL 界的世界模型更多是反馈机制,不涉及动作建模,动作由 Agent 单独处理;而 CV 界的世界模型可以给出 Action 。总结来说,CV 界的世界模型更通用,涵盖世界与动作建模; RL 界的世界模型则更狭义,主要是对智能体动作的反馈。

赵昊:我总结一下,当前 CV 界的世界模型已经取得不错进展,动作因素也已被引入,但尚未大规模应用并产生变革性影响,关键就在于缺乏奖励机制。只要定义好奖励,我们现在做的视频生成模型、数据生成模型就能很快在自动驾驶、具身智能、通用智能体等领域发挥作用。这是一个很好的趋势性观点。