Gairdao Community

Loading...

0 个结果

暂无内容

3 个结果

独家对话刘知远：AGI 是一场技术理想与商业现实的「持久战」

这是一个与「朱啸虎们」相反的 AGI 叙事。访谈丨陈彩娴马晓宁作者丨马晓宁编辑丨陈彩娴...

on 2025-05-23

清华刘知远团队论文：在严格可控环境下重新回答「强化学习能否教会大模型新能力」丨ICLR 2026

强化学习改变了模型组织技能的方式，而非简单提升指标。作者丨郑佳美编辑丨岑峰随着大语言模型规模和预训练强度的不断提升，强化学习在后训练阶段的角色正在发生微妙变化。一方面，它仍然是当前提升模型推理能力和多步决策表现的关键技术手段；另一方面，越来越多的经验性结果表明，在许多任务上，强化学习带来的性能提升往往难以与“新能力的形成”直接划等号。尤其是在 pass@k 等评测指标下，强化学习模型与基础模型之间的差距常常随着采样数的增加而迅速缩小，这使得一种观点逐渐占据上风：强化学习可能更多是在对模型内部已有解法进行筛选和重排，而非真正拓展模型的能力边界。问题在于，这一判断本身并不容易被验证或反驳。自然语言任务中，技能边界高度交织，模型在预训练阶段所接触的数据分布几乎无法完全排除，使得性能变化很难被明确归因于能力结构的改变。在这样的环境下，关于强化学习是否“教会模型新能力”的讨论，往往停留在指标层面的解释差异，而缺乏一个能够清晰刻画技能、控制任务难度并排除干扰因素的实验基础。正是在这样的背景下，清华大学的孙茂松、刘知远团队提出了《From f(x) and g(x) to...

on 2026-02-10

清华刘知远团队论文：最小化结构改动，短文本到长文本丝滑升级 | ICLR 2026

InfLLM-V2：通过最小结构扰动，实现大模型从短上下文到长上下文的平滑升级。作者丨郑佳美编辑丨岑峰在大语言模型快速迈向更强推理能力与更复杂应用场景的过程中，“上下文长度”已经从一个模型配置参数，演变为制约系统能力上限的关键瓶颈。一方面，长文档理解、跨轮对话记忆、复杂规划与长链式推理等任务，对模型提出了远超传统 4k 或 8k 序列长度的需求；另一方面，主流 Transformer 架构中基于全注意力机制的计算模式，在序列长度增长时不可避免地带来平方级的时间与显存开销，使得“支持更长上下文”在现实工程中迅速转化为难以承受的成本问题。围绕这一矛盾，稀疏注意力几乎成为学术界与工业界的共识方向，但随之而来的，并不是问题的彻底解决，而是一系列新的结构性张力。...

on 2026-02-24

0 个结果

暂无内容

User Profile