Gairdao Community

Loading...

0 个结果

暂无内容

1 个结果

腾讯混元 x MBZUAI 港中文新研究：将纠错纳入策略空间，Search-R2 重构搜索增强推理学习方式

智能体性能优势并非来自更多尝试，而来自对失败路径的精确处理。作者丨郑佳美编辑丨岑峰过去几年，大语言模型的能力提升主要依赖参数和数据规模的扩张。但当模型逐步被用于研究助理、网页搜索和复杂决策支持等真实任务时，这条路径开始显露边界。这类场景往往要求模型在开放环境中进行多轮搜索与推理，使搜索增强推理成为主流范式，同时也暴露出一个核心问题：模型在长链搜索推理中的失败，往往不是因为推理能力不足，而是无法有效处理错误在推理过程中的出现与传播。在现实任务中，搜索结果不可避免地包含噪声，一旦早期某次检索或信息采信出现偏差，后续推理就可能在错误语义空间中不断自洽，最终生成看似合理却偏离问题的答案。然而，现有训练方法通常只依据最终答案是否正确进行优化，使“偶然成功”的轨迹与“搜索路径可靠”的轨迹获得相同反馈，长期来看反而削弱了模型对中途错误和搜索质量的约束。这也是多轮搜索、多跳推理任务中性能崩溃呈现系统性特征的重要原因。在这一背景下，MBZUAI 、港中文和腾讯混元组成的联合团队提出了《Search-R2: Enhancing Search-Integrated Reasoning...

on 2026-02-24

0 个结果

暂无内容

User Profile