0 个结果

暂无内容
2 个结果
腾讯混元 x MBZUAI 港中文新研究:将纠错纳入策略空间,Search-R2 重构搜索增强推理学习方式
智能体性能优势并非来自更多尝试,而来自对失败路径的精确处理。 作者丨郑佳美 编辑丨岑 峰 过去几年,大语言模型的能力提升主要依赖参数和数据规模的扩张。但当模型逐步被用于研究助理、网页搜索和复杂决策支持等真实任务时,这条路径开始显露边界。 这类场景往往要求模型在开放环境中进行多轮搜索与推理,使搜索增强推理成为主流范式,同时也暴露出一个核心问题:模型在长链搜索推理中的失败,往往不是因为推理能力不足,而是无法有效处理错误在推理过程中的出现与传播。 在现实任务中,搜索结果不可避免地包含噪声,一旦早期某次检索或信息采信出现偏差,后续推理就可能在错误语义空间中不断自洽,最终生成看似合理却偏离问题的答案。然而,现有训练方法通常只依据最终答案是否正确进行优化,使“偶然成功”的轨迹与“搜索路径可靠”的轨迹获得相同反馈,长期来看反而削弱了模型对中途错误和搜索质量的约束。这也是多轮搜索、多跳推理任务中性能崩溃呈现系统性特征的重要原因。 在这一背景下,MBZUAI 、港中文和腾讯混元组成的联合团队提出了《Search-R2: Enhancing Search-Integrated Reasoning...

on 2026-02-24
腾讯混元团队最新研究:让 AI 从「固定模型」走向「实时适配系统」
HY-WU :一种在推理阶段动态生成模型参数,而非依赖固定参数处理任务的方法。 作者丨郑佳美 编辑丨岑 峰 很多机器学习系统在设计时都默认一个前提:模型一旦训练完成,其参数基本是固定的。 无论输入是什么样的数据,模型都会依赖同一套参数完成推理。这种范式在过去十多年里非常成功,模型能力的提升主要依赖更大的模型规模、更多的数据以及更长时间的训练。但当人工智能逐渐进入更加复杂的应用环境时,这种“固定参数”的方式也开始显现出局限。 现实任务往往具有高度多样性,不同用户需求、不同任务目标甚至可能彼此冲突。例如在图像编辑场景中,同一张图片可能会对应完全不同的修改要求。有的任务需要增强细节,例如去模糊或图像修复,而另一些任务则需要弱化细节,例如增加模糊效果或模拟老照片的老化过程。如果模型始终依赖同一套参数,它往往只能在不同目标之间做出折中,从而影响最终效果。 过去,研究人员通常通过 domain adaptation...

on 2026-04-23
0 个结果

暂无内容
相关用户