Logo
Loading...
期刊
专家
万字长文实录:RL 界与 CV 界的“世界模型”有什么不同?Ⅱ 丨GAIR Live
GAIR SG 2025-09-04

作者丨刘欣

编辑丨马晓宁、陈彩娴

世界模型在人工智能领域中扮演着重要角色,能够有效为智能体提供对复杂现实世界的内在表征,使其像人类一样理解世界运行的逻辑与因果关系,对自动驾驶、具身智能的突破性发展至关重要,它已成为学术界和工业界的研究热点。

2015年8月5日,雷峰网、AI 科技评论 GAIR Live 品牌举办了一场主题为“世界模型 — — 通向通用智能的关键拼图”的线上圆桌沙龙。

圆桌主持人为清华大学智能产业研究院( AIR )助理教授、智源学者赵昊,并邀请了宁波东方理工大学助理教授金鑫、浙江大学特聘研究员廖依伊、布里斯托大学助理教授杨梦月、伯克利人工智能实验室博士后研究员郑文钊一起进行了一场深度的讨论。

会上主持人赵昊带头讨论世界模型,先是探讨其定义、范围,接着分析强化学习界与计算机视觉界的世界模型的不同,随后围绕视频生成、三维重建等内容,剖析通用视频生成模型向真正的世界模型的发展路径,最后关注于落地场景,聚焦于自动驾驶以及具身智能,并探讨构建其世界模型的难点和方向。

其中,四位嘉宾围绕具身智能世界模型的构建分别提出了自己的独到见解:

郑文钊认为具身智能的问题与自动驾驶相似,未来应该实现重建与生成的结合、提升三维建模精度,以及更精准地判断因果性,使因果性与物理规律更好契合,但由于具身智能的数据稀缺,纯数据驱动很难训练出符合物理规律的世界模型,因此需要更好地建模物理规律,甚至将其“注入”模型。除了“真实到仿真再到真实”的路径,更优的方向可能是数据驱动与物理规律结合 — — 探索如何通过某种方式将物理规律注入数据驱动模型,这可能是未来的趋势。

金鑫也表示物理规律、物理真实性( physical world intelligence )对具身智能的世界模型很重要,探索方向不仅依赖数据驱动,还借鉴了传统仿真领域的经验,结合图形学中的物理建模方法(如杨氏模量、弹簧 — 质量模型等基于规则的物理仿真)与数据驱动的生成模型(如 AIGC 生成模型),希望让具身智能的世界模型既能保证物理真实性,又能实现外观真实。

杨梦月则提出了她自己的思路,在具身场景中,通过某种机制或智能体捕捉物理规律,将其整合成因果模型,再利用该模型进行反事实预测或推断。

最后廖依伊对金鑫和郑文钊的观点表示赞同,还发出了路线选择的疑问,她认为核心问题在于:是否必须显式建模 3D ?在 2D 层面能否学好交互?若有足够训练数据,2D 学习交互可能更简单 — — 比如叠衣服、泥巴落地等非刚性物体场景,在 3D 中建模难度极大。如何做好 2D 与 3D 的结合,仍是难题。

以下是此次圆桌讨论的精彩分享,AI 科技评论进行了不改原意的编辑整理:

赵昊:我们已经讨论完两个比较抽象的问题,接下来进入专场环节,聚焦视频生成、三维重建等内容。第一个问题通用视频生成模型什么时候能变成真正的世界模型?

通用视频生成模型的发展速度远超我的预期。去年三月,很多图形学老师还认为视频生成模型缺乏物理规律,发展尚早,现在这些声音已经很少了,数据驱动的力量确实不容小觑。我很好奇大家对其发展速度和演变趋势的看法,请廖老师先讲。

廖依伊:谢谢赵老师。关于通用视频生成模型的发展,我确实不敢下结论,因为它的进步正如您所说,超乎想象。至于“通用视频生成模型如何变成真正的世界模型”这个问题,我认为答案相对清晰,还是要回到我们之前达成的共识,世界模型需要具备动作( action )和因果性( causality )。

当前最先进的视频生成方法大多采用“三维注意力机制”( 3D attention ),将空间( spatial )和时间( temporal )维度的 token 联合处理生成视频。但真正的世界模型需要满足“ x(t) + a(t) → x(t+1) ”的逻辑,即基于当前状态和动作,预测下一帧的观测结果。

近期已有相关研究尝试引入因果信息,例如在注意力机制中限制时序依赖 — — 第二帧仅关注第一帧和自身,第三帧仅关注前两帧和自身,通过这种方式强化因果关系,我认为这是合理的探索方向。而动作因素的引入仍存在开放性问题:比如建模自身相机位姿这类动作相对容易,但世界中其他动态物体的动作是否需要建模?若要建模,该如何设计?当然,也可以如郑老师所说,将无关动态归为噪声,建模未来的所有可能性,但世界模型的核心目标是什么、动作部分如何设计,这里还有很多问题。

赵昊:我完全同意这个观点。以前我认为开发基于 diffusion 的 Game Engine 没什么用,因为它短期内不可能替代游戏行业,且这类模型缺乏三维表征。但现在我认为它是重要的代理任务( Proxy Task ),比单纯的多媒体视频生成模型更接近世界模型的终极目标,是很好的研究载体。因此,动作条件下的通用视频生成模型若能进一步优化,我们就离真正的世界模型更近一步。接下来有请郑老师分享看法。

郑文钊:我比较同意刚才廖老师的观点。关于通用视频生成模型与世界模型的区别,之前很多人认为,前者可能存在虚假内容,后者需在视觉和物理层面都真实,但这种看法并不本质。随着技术发展,视频生成模型中可能隐含物理规律,至于具体怎么做,是否通过三维表征实现更优建模,属于技术路径问题,并非核心差异。

实际上,当前许多生成模型已能建模部分物理规律。伯克利的 Trevor 老师曾有一篇有趣的研究讲过,尽管物理规律难以直接定义,但数据驱动的视频生成模型可通过学习挖掘物理规律,即数据驱动在一定程度上能捕获物理规律。因此回到核心问题,我认为廖老师的观点非常正确:通用视频生成模型与世界模型目前最大的 gap ,在于对动作的反馈机制。具体包括:一是动作的定义方式(如路径类动作易定义,但复杂交互动作如何定义);二是视频生成模型能否对动作做出准确反馈;三是反馈与动作之间是否存在合理的因果关系。

赵昊:听完郑老师的分享,我忍不住想分享自己的观点。我认为当前通用视频模型要发展为真正的世界模型,缺少的是编辑能力、文本对齐能力和指令遵循能力。今年年初, GPT-4o 等模型的编辑能力给人带来巨大震撼 — — 用户输入指令后,模型能精准执行。如果这不是专门调优的结果,那么这类模型的图片编辑能力已接近世界模型,因为它能将任意指令转化为对应的视觉内容(尽管在精细的数量、位置描述上仍有不足)。

我认为编辑能力是比 action condition 更好的 task 。当通用视频生成模型能像 GPT-4o 一样,通过文本指令实现高精度编辑时,无论其内部原理如何,它必然已经学到了关于世界的某些知识。所以我的观点是,通用视频生成模型除了通过动作条件(如游戏引擎类模型)这条路径外,视频编辑能力的突破也至关重要 — — 编辑能力做好了,它就会无限接近真正的世界模型。这算是我的一个“暴论”,接下来有请杨老师分享观点。

杨梦月:我对视频生成领域了解不深,但听了刚才的分析后有一些想法。我怕在使用视频生成大模型时,有时会觉得生成内容奇怪,可能是因为未遵循因果关系。但因果关系是否为必需,需根据具体场景判断。若要利用模型训练 Agent ,使其在真实世界具备决策和探索能力,就需要模型贴近真实,遵循因果关系;但从视频生成角度,可能无需严格遵循因果或物理规则。因为人类要创作,有时会突破常规认知,反而能产生新颖的创意。

当前视频生成模型多基于被动数据学习,若数据本身带有倾向性,模型可能学到人类收集数据时的集体意识,进而迸发新的创造力。因此需具体场景具体分析,部分场景需要因果关系支撑。

关于廖老师提到的动态建模问题,世界模型的定义本就非常广义。 Multi-Agent 系统就是完全动态的,具有“智能体策略相互影响的循环关系”,例如自动驾驶场景中,两辆车决策会相互作用,但这种动态过程仍存在某种均衡。这又回到最初的问题:如何衡量动态中的不变?可能需要引入奖励模型,才能分析场景需求,从动态中提取静态知识。

赵昊:杨老师的观点很有意思。 CV 研究者常认为,能真实重建物理世界的才是好的世界模型,但大家使用 Sora 时,常让它生成不符合真实物理的内容。或许生成真实内容并非评判世界模型好坏的唯一标准。

我观察 Sora 的 dashboard 发现,流量最高、被用户推崇的视频,大多是那些 “不太可能在真实世界中出现” 的内容,它们可能符合基础物理规律,但在现实中难以见到。这确实很有意思。接下来有请金老师分享对通用视频生成模型的看法。

金鑫:几位老师刚才从物理真实性、可编辑性等方面都做了很好的分享。杨老师的观点让我想到一个点:生成与物理事实相违背的内容,即“反事实生成”( counterfactual generation )。我记得之前某本书中提到智能的几个阶段,第一阶段是“观察”,第二阶段是“行动”,第三阶段是“想象”,是“ what if ”,想象“如果做了这件事会怎样”,这种反事实生成能力或许是关键。

我认为真正的世界模型若能生成全新场景或反事实结果,可能更接近通用智能,甚至涌现出新能力。若世界模型能学到甚至超越人类总结的既定的物理规则,会非常令人兴奋。这是我的观点。

赵昊:金老师的观点很有启发性。我刚才提到生成视频中存在不符合真实物理规律的内容,这是否真的代表模型具备反事实生成能力?我觉得不一定。反而可能是因为 Sora 等模型在训练数据中学习了大量互联网视频中的特效内容,这些内容并非真实物理世界的记录,模型过拟合到了训练集中的视觉特效素材上。

廖依伊:我想结合杨老师和金老师的观点提个问题。若我们的最终目标是通用智能体,使其能在真实世界交互并完成任务,那么这些视觉特效数据对智能体而言是干扰还是有用呢?

杨梦月:我可以回答这个问题。今年有一个令我印象深刻的新流派,叫做 open endedness 。他们认为,在数据有限的情况下,要提升 Agent 决策能力,需不断为其生成新任务和新环境,这些环境可包含前所未有的元素。

我曾与苏昊团队交流,他们现在也要涉足视频生成领域,因为他们是做 robotics 的,我就问为什么。他们表示,其实是希望将视频生成的结果用于训练 robotics agent ,提升其某些能力。因为对于机器人而言,在真实环境中的探索代价是非常大的,比如让智能体在真实环境中学习时,即使是在样本复杂度可能不高的场景,在线探索也有很大的风险和代价,因此,通过视频生成辅助生成训练数据,让智能体能够先获得一些先验和反事实知识能在很大程度上提升样本效率。

赵昊: open endedness (开放性),这个词很好。关于通用视频生成中的视觉特效数据是否“有毒”,这个观点很值得探讨。这很像 NLP 领域的问题:有些数据存在错误或冗余,被称为“有毒数据”或“垃圾数据”,网上生成的这类内容可能也存在类似问题。如何让通用视频生成模型在垂直领域做好对齐,视频生成领域迟早会走到这一步。