Logo
Loading...
期刊
专家
相关用户
0 个结果
暂无内容
相关文章
3 个结果
清华刘知远团队论文:在严格可控环境下重新回答「强化学习能否教会大模型新能力」丨ICLR 2026
强化学习改变了模型组织技能的方式,而非简单提升指标。 作者丨郑佳美 编辑丨岑峰 随着大语言模型规模和预训练强度的不断提升,强化学习在后训练阶段的角色正在发生微妙变化。 一方面,它仍然是当前提升模型推理能力和多步决策表现的关键技术手段;另一方面,越来越多的经验性结果表明,在许多任务上,强化学习带来的性能提升往往难以与“新能力的形成”直接划等号。 尤其是在 pass@k 等评测指标下,强化学习模型与基础模型之间的差距常常随着采样数的增加而迅速缩小,这使得一种观点逐渐占据上风:强化学习可能更多是在对模型内部已有解法进行筛选和重排,而非真正拓展模型的能力边界。 问题在于,这一判断本身并不容易被验证或反驳。自然语言任务中,技能边界高度交织,模型在预训练阶段所接触的数据分布几乎无法完全排除,使得性能变化很难被明确归因于能力结构的改变。在这样的环境下,关于强化学习是否“教会模型新能力”的讨论,往往停留在指标层面的解释差异,而缺乏一个能够清晰刻画技能、控制任务难度并排除干扰因素的实验基础。 正是在这样的背景下,清华大学的孙茂松、刘知远团队提出了《From f(x) and g(x) to...
相关视频
0 个结果
暂无内容