0 个结果

暂无内容
2 个结果
万字长文珍藏版:RL+Control 如何将机器人可靠性逼进 99.9%?丨 GAIR Live
真实世界,才是检验机器人 Learning 有效性的终极考场。 整理丨吴华秀 编辑丨陈彩娴...

on 2025-05-09
上科大何旭明团队新作:克服简单样本偏置,让多模态模型学会「难题优先」
多模态模型在感知、理解与生成等方面的能力持续提升,但其输出中仍普遍存在与客观事实不一致的内容,即多模态幻觉现象。当模型面对信息缺失、语义含混或视觉细节复杂的场景时,往往会通过臆测进行补全,从而捏造并不存在的病灶、物体或情节。这类问题并非偶发失误,而是偏好优化训练过程中逐渐积累的结构性偏差所致:模型更容易从数量庞大、差异明显的简单样本中获得学习收益,却对真正困难、歧义性强的样本关注不足,结果是在复杂真实场景中的可靠性受到限制。围绕这一问题,上海科技大学信息科学与技术学院何旭明教授带领团队在论文《DA-DPO: Cost-efficient Difficulty-aware Preference Optimization for Reducing MLLM Hallucinations》中开展了系统研究。这项工作指出,现有偏好优化方法的核心症结不在于数据规模的不足,而在于样本难度分布失衡。为此,团队提出了 DA-DPO...

on 2026-01-28
相关用户