最新 AGI 暴论:强化学习RL的「GPT-3 时刻」实现,还需要 1 万年?
「复制训练」或许是一条推动 RL 模型走向通用智能的重要路径。编译丨郑佳美编辑丨陈彩娴最近,国外一家 AI 初创公司 Mechanize 的三位创始人联合撰文,提出一个大胆的判断:RL 或许要迎来属于它的 “GPT-3 时刻”,但还需要拥有相当于数千至上万年“模型处理任务所用时间”的训练。在他们看来,当前的 RL 模型还存在明显短板,比如泛化能力差、难以适应新任务等,这种局面其实很像 GPT-3 出现之前的语言模型 — — 能解决特定问题,但难以迁移和扩展。为了解决这个问题,他们提出了一种新的训练范式,叫作“复制训练”(Replication Training):让模型在虚拟环境中模拟真实软件的操作过程,比如使用浏览器、编写代码、处理命令行任务等等。这种训练方式的好处在于任务目标清晰、评分机制明确,同时还能大规模自动生成训练数据,非常适合用在 RL 模型的系统性训练中。当然,它也不是万能的,比如在任务开放性和测试设计方面还有一些挑战。但他们认为,复制训练是一条能推动 RL 模型走向通用智能的重要路径,有望带来一次类似 GPT-3 那样的能力跃迁。综上,AI...