整理丨梁丙鉴
编辑丨陈彩娴
AI 和人都站在两个时代之间的历史转折点上。
随着人类数据中可提取的知识迅速接近极限,Scaling Law 的终点已经隐约可见。今天的大语言模型可以编程、写诗,却仍无法独立发现新知。显而易见,真正的智能,呼唤着新的训练范式出现。
更迫切的问题关乎人自身。自古以来,智者们便试图理解人的心智如何运作。当这一原理终于要被探明,千年追求的终点前却不仅有期待,还有对 AI 的恐惧。站在 AI 智能水平可能超越人类的转折点上,我们要如何看待它?以及更关键的问题,如何看待自己?
WAIC 2025 现场,现代强化学习的奠基人、阿尔伯塔大学教授 Rich Sutton 教授发表了题为《从数据时代到经验时代的 AI》的主旨演讲。Sutton 教授指出,学习源于强大的体验,而体验是心智活动的基础。智能体与世界的第一人称互动中,可能藏着一条通向超越人类智能的小径。
“经验时代”的概念由此而来。智能体对世界进行感知与交互,获取海量动态且高度定制化的数据,这种数据源将超越任何静态的合成数据生成程序,也更贴近生命的本质。就像 Sutton 教授此前曾对媒体所言:“世界从未告诉你应该做什么,是你从经验中学到了一切。”
然而 Sutton 教授也指出,由于现有的深度规划算法尚不具备持续学习以及元学习能力,因此还不足以释放经验数据和强化学习的全部潜力。
在演讲中,Sutton 教授还提出了关于 AI 的四条现实主义预测。“全世界对于 AI 应该如何发展没有共识”、“真正的智能必被创造”、“人类智能水平将被很快超越”,以及“随着时间推移,社会的权力和资源会流向最智能的存在”。他用一个非人类中心的视角重新审视人类的存在,对于宇宙而言,人类真正的使命或许就是“创造那些本身能够创造事物的东西”。
AI 科技评论对演讲进行了不改变原意的整理:
非常荣幸,今天我主要有三点要讲。第一点是“人类数据时代”,我认为我们此刻正身处其中,但也正在向一个“经验时代”转变。然后我想从政治的角度谈谈人工智能,这涉及到一些根本性问题,以及我们如何在人类社会中相互协作。第三个话题是关于在人工智能的飞速发展之下,我们要如何思考未来,以及人和 AI 在其中扮演的角色。
本文将展示人类数据到经验时代的转变,下篇将为大家带来政治角度的思考以及未来任何AI的关系。
Press enter or click to view image in full size
1. 从数据时代到经验时代
让我们直接从第一个话题开始。我们现在正处于“人类数据时代”,AI 的训练数据来源于互联网上人类生成的文本和图像,然后由人类专家进行微调,其中涉及到私人偏好和关于 AI 应如何表现的示例,而这整个过程都围绕着通用的人类词汇展开。与 50 年前的世界大不相同,这是一个人类数据无处不在的时代,一个由事件和人类参与推动的新时代。
然而我们即将到达这个时代的终点。由于大多数高质量数据源已经被消耗殆尽,我们开始触及人类数据的极限。并且,基于人类数据的方法无法产生真正的新知识。因为它完全基于已有的思想,发现新知超出了该方法的能力范围。
那么,我们将如何获得真正的智能?
我认为,我们现在正进入“经验时代”,我们需要 AI 生成的数据源。这些数据会随着 AI 变得更强大而增长、改进和变化。互联网再大,也是一个静态的数据集。而通过智能体与世界的第一人称交互,可以生成更多经过调整和定制化的数据。我将其称为“经验”,即与世界交互的数据。
在初级阶段,首先要让智能体学习,让我用一个视频来说明为什么这至关重要。大家可以看到一个正在玩玩具的小婴儿,他与玩具互动,从中获得反馈,认为这是一只很好的小猫,然后转向下一个玩具。在此过程中,生成的数据不是静态的数据集合,而是非常动态且高度定制化的。通过这种互动,他自己决定何时完成一个任务,何时进行下一次探索。人类婴儿的行为因此展示出好奇心和渴望,也更加真实和多样化。
可以看到,经验数据非常密集。数据会以极高的速率进入你的身体,进入你的眼睛、耳朵和四肢。因此我们必须非常迅速地做出决策,任何延迟都无甚益处。并且所有决策都是围绕着目标的,挥动球棒是为了击中球,足球运动员为了进球而控球,动物们为了生存而奋斗。这还是一个高带宽的活动,实时获取的信息被用于决定下一步行动和预测即将发生的事情。
Press enter or click to view image in full size
这就是生命的本质。正是这种数据的可用性,让 AlphaGo 能够走出其创造性的第 37 步,人类永远不会想到的一步,并由此引发了关于围棋思维方式的变革。这也是一种经过验证的、基于数据的方法,在国际象棋等领域(如AlphaZero)已经有奖牌为证。
让我再用一页幻灯片谈谈我们这种思维方式。设想一下我们的智能体,它们通过与世界交换信号(感知与交互)来获取数据,这些数据构成了它们的经验。请注意,这种数据与经典机器学习(例如监督学习)中的数据截然不同。在监督学习中,你看到的是 IID(独立同分布) 样本,这些样本可以被随机打乱,以任何顺序出现。而智能体在这里观察到的是行为。它学到的是“在此情境下,预测某个标签”,而对抗机制则会生成它所使用的那类数据。这类数据表达的是:“在这种情境下,预测这个(行为)”。然后当智能体行动时,其实际上也是在执行预测的动作。
因此,智能体看到的并不是我们通常理解的那种数据或经验。人类采取行动,然后观察到结果。关键在于智能体并不会看到,关于“应当如何行为”的示例,它只会看到自身实际行为所产生的后果。因此,这种学习经验不同于监督学习,在人类数据时代,数据背后的本质与监督学习是分离的。在人类数据时代,数据背后的本质与监督学习是分离的(Divide from)。
一个更深入的观察是,在这种经验式思维模式下,智能体所学到的一切都是关于其自身体验的事实,我认为对人类而言也是如此。我们所相信的一切,都必须能够转化为可以成功印证我们体验的事实。你相信加拿大在北方,并且很遥远,这是一个关于你将如何旅行的信念。你相信你正坐在礼堂里听演讲,这是一个关于你体验的信念,一个关于你坐着的椅子,或你所处空间的事实。所有这些都必须转化为关于你的体验的事实,以便它们能够在无需人类干预的情况下被自动学习和调整。
延续这种体验式思维模式,当我们说一个智能体是智能的,那么其智能程度取决于它预测和控制激励信号(特别是其奖励信号)的能力。在这种观点下,经验就是AI智能的核心和基础。这是贯穿强化学习领域并构成其基础的深刻观点,我觉得这对你们所有人来说都很明显 — — 学习源于强大的体验,而体验是心智活动的基础。但有时显而易见的东西反而更难看清,人们需要新的视角才能看到它。
Press enter or click to view image in full size
我最近被计算机科学之父艾伦·图灵的这句话所震撼。他在 1947 年(那时甚至还没有 AI 这个词)说过:“我们想要的是一台能从经验中学习的机器。”我认为这是一个非常深刻的观点,尤其是在我们触及人类数据极限并试图从经验中学习的今天,它对于现代 AI 变得尤为重要。因此,这引出了我们近年的发展历程。大家可以从左到右地看到,我们这些年对强化学习投入了极大的关注。
Press enter or click to view image in full size
我们必须提到 Atari 的工作,它首次引起了人们对强化学习的浓厚兴趣,而 AlphaGo 深化了这种兴趣,并在 AlphaZero 成为世界冠军时使其达到了巅峰。基本上所有人都在说:“看,现在我们有大型语言模型了。”这就是 GPT-3 以及所有其它模型,如 ChatGPT 和更现代的那些。这在世界上引起了巨大的、真正具有创造性的轰动。这些系统的能力已经得到了展示:非常强大、非常重要、非常有用。但是我们正在触及人类数据的极限,我们现在正转向体验。我们看到在 AutoGPT 这样的系统,以及那些使用AI来控制计算机的系统(如编程助手)中,人们对利用体验的兴趣日益增长。这可能是我们获得超越人类智能,去解决那些超越人类构建能力的超级挑战的途径。
所以总结一下我对未来 AI 的看法。首先,超级智能体和超级智能增强人类的问世都会发生,并且将会为世界带来巨大福祉。这可能需要几十年时间,不需要很多个十年,也许只要一两个,并且在那之后还会持续几十年。这不是短跑冲刺,如果这是一场比赛,那会是一场马拉松。要充分享受智能的益处,我们需要能够从经验中学习的智能体。如今的大型语言模型已经非常出色,作为通往世界所有知识的可定制接口,它们非常重要且有价值,但它并不真正处于通向强大通用智能的道路上。我们已经进入了一个新时代,“经验时代”。在这个时代,我们可以使用强化学习作为致力于从经验中学习的技术。然而,要实现从经验中学习或强化学习的全部潜力,还需要更好的深度规划算法。我们现有的深度规划算法尚不具备持续学习以及元学习的能力。
由于存在一个需要被解决的根本性问题,这些问题可能会再次出现。但我相信它们终将被解决,事实上这一过程正在发生,这正是我们讨论的核心所在。那么,欢迎各位进入“经验时代”。
Summary
In his 2025 WAIC keynote, Rich Sutton — a founding father of modern reinforcement learning — argues that we are transitioning from the Data Age to the Era of Experience. As the utility of human-generated data reaches its limits, true intelligence must emerge from interactive, first-person experiences rather than passive datasets. Sutton makes a compelling case for experience-driven learning as the foundation of real intelligence, positioning reinforcement learning as the key technology for the next generation of AI. This shift challenges current training paradigms based on static corpora and calls for agents that can perceive, act, and adapt in dynamic environments. The future of AI, Sutton suggests, belongs not to those who mimic existing knowledge, but to those who learn from life itself.