Logo
Loading...
期刊
专家
相关文章
97 个结果
上交大智能计算研究院论文:不只算对答案,大模型如何真正学会运筹建模丨ICLR 2026
上海交大智能计算研究院提出 StepORLM,通过生成式过程监督提升运筹建模的整体可靠性。 作者丨郑佳美 编辑丨岑峰 在大语言模型逐步从通用推理工具走向专业领域应用的过程中,运筹优化(OR)成为一个极具吸引力、同时也极具挑战性的方向。 一方面,运筹优化问题天然具备清晰的数学结构和可验证的求解结果,看似非常适合由模型自动完成建模与求解;另一方面,真实运筹建模高度依赖变量定义、约束设计与目标函数之间的整体一致性,其推理过程往往呈现出强步骤依赖和强耦合特征,远非算出一个正确答案所能覆盖。 正是在这一张力之下,当前运筹建模大模型研究逐渐暴露出一个核心困境:模型在求解器层面得到正确结果,并不意味着其完成了正确的建模。在现有主流训练范式中,无论是仅依据最终求解结果进行奖励,还是对中间步骤进行局部、逐步的过程监督,都难以准确刻画运筹建模这种长链条推理任务的真实质量。 这种监督信号与任务本质之间的错位,使得建模错误可能被掩盖,甚至被反复强化,逐渐成为大模型走向工业级运筹优化应用的关键瓶颈。在这样的研究背景下,来自上海交通大学智能计算研究院葛冬冬、林江浩研究团队提出了《StepORLM: A...
清华刘知远团队论文:在严格可控环境下重新回答「强化学习能否教会大模型新能力」丨ICLR 2026
强化学习改变了模型组织技能的方式,而非简单提升指标。 作者丨郑佳美 编辑丨岑峰 随着大语言模型规模和预训练强度的不断提升,强化学习在后训练阶段的角色正在发生微妙变化。 一方面,它仍然是当前提升模型推理能力和多步决策表现的关键技术手段;另一方面,越来越多的经验性结果表明,在许多任务上,强化学习带来的性能提升往往难以与“新能力的形成”直接划等号。 尤其是在 pass@k 等评测指标下,强化学习模型与基础模型之间的差距常常随着采样数的增加而迅速缩小,这使得一种观点逐渐占据上风:强化学习可能更多是在对模型内部已有解法进行筛选和重排,而非真正拓展模型的能力边界。 问题在于,这一判断本身并不容易被验证或反驳。自然语言任务中,技能边界高度交织,模型在预训练阶段所接触的数据分布几乎无法完全排除,使得性能变化很难被明确归因于能力结构的改变。在这样的环境下,关于强化学习是否“教会模型新能力”的讨论,往往停留在指标层面的解释差异,而缺乏一个能够清晰刻画技能、控制任务难度并排除干扰因素的实验基础。 正是在这样的背景下,清华大学的孙茂松、刘知远团队提出了《From f(x) and g(x) to...
腾讯混元 x MBZUAI 港中文新研究:将纠错纳入策略空间,Search-R2 重构搜索增强推理学习方式
智能体性能优势并非来自更多尝试,而来自对失败路径的精确处理。 作者丨郑佳美 编辑丨岑 峰 过去几年,大语言模型的能力提升主要依赖参数和数据规模的扩张。但当模型逐步被用于研究助理、网页搜索和复杂决策支持等真实任务时,这条路径开始显露边界。 这类场景往往要求模型在开放环境中进行多轮搜索与推理,使搜索增强推理成为主流范式,同时也暴露出一个核心问题:模型在长链搜索推理中的失败,往往不是因为推理能力不足,而是无法有效处理错误在推理过程中的出现与传播。 在现实任务中,搜索结果不可避免地包含噪声,一旦早期某次检索或信息采信出现偏差,后续推理就可能在错误语义空间中不断自洽,最终生成看似合理却偏离问题的答案。然而,现有训练方法通常只依据最终答案是否正确进行优化,使“偶然成功”的轨迹与“搜索路径可靠”的轨迹获得相同反馈,长期来看反而削弱了模型对中途错误和搜索质量的约束。这也是多轮搜索、多跳推理任务中性能崩溃呈现系统性特征的重要原因。 在这一背景下,MBZUAI 、港中文和腾讯混元组成的联合团队提出了《Search-R2: Enhancing Search-Integrated Reasoning...