Gairdao Community

Loading...

97 个结果

清华刘洋团队论文：揭示为何 70B 的医疗模型，反而不如 8B 会问诊丨ICLR 2026

DOCTOR-R1：将临床问诊建模为 POMDP，用强化学习训练会动态提问的医疗智能体。作者丨郑佳美编辑丨岑峰在医疗人工智能的发展历程中，能力评估方式在很大程度上塑造了技术演进的方向。过去相当长一段时间里，医疗 AI 的进步主要围绕医学知识获取与推理展开，模型是否“足够聪明”通常通过医学考试题、临床问答数据集等静态基准来衡量。在这一评价框架下，模型只需在信息完整、问题封闭的条件下给出正确答案，便被视为具备较高的医疗能力。随着大语言模型的兴起，这一路径迅速取得突破性进展，多种系统在 MedQA 等测试中达到甚至超过人类专家水平，使得“医疗 AI 是否已经成熟”一度成为行业内的乐观判断。然而，随着这些模型被逐步引入更贴近真实临床的交互场景，一个长期被掩盖的问题开始显现：真实医疗实践并非基于完整信息给出诊断，而是一种在高度不确定条件下，通过连续提问、风险识别与信息整合来逐步逼近决策的动态过程。...

on 2026-02-24

脑机接口产业化元年：谁在跨越科学、临床与商业的鸿沟？| GAIR Live 022

在科学、临床与产业的共振中，寻找脑机接口的确定性。2024年初，马斯克旗下Neuralink宣布其首位人类受试者成功实现“意念控鼠”，随后更传出将于2026年开启大规模量产的消息。这一系列进展不仅引爆了资本市场，也让一个长久以来被视为科幻命题的领域——脑机接口（BCI），正式站到了从实验室走向产业化的“上车”前夜。如果说过去几十年是脑机接口的“科学探索期”，那么当下，我们正处于技术突破（科学奇点）、标准建立（临床拐点）与商业闭环（产业爆点）三重动力交互共振的关键时刻。为了透视这场“脑内革命”的真实进展与潜在瓶颈，雷峰网 AI 科技评论 GAIR Live 第 22 期特别邀请了三位处于该领域最前沿的专家：岩思类脑首席科学家李孟、中科院深圳先进院副研究员李永程、以及伦敦大学学院（UCL）副教授赵湖斌。在本次圆桌讨论中，专家们达成了一个核心共识：2026年极有可能成为“脑机接口产业化应用元年”。这一判断并非盲目乐观，而是基于技术范式的转移——人工智能（尤其是大模型）的介入，正在将 BCI 的解码逻辑从传统的“特征驱动”重构为“数据驱动”。这意味着，BCI...

on 2026-03-04

对话李笛：异构多智能体，让 AI 学会真正的「群体思考」

基础大模型仍会是未来的中流砥柱，但异构多智能体才是AI行业的真正未来。作者丨成仲轩编辑丨董子博 “我会觉得更容易去做我想做的事情”，在被问到创立 Nextie（明日新程）后的最大感受时，李笛淡然一笑，“让 AI 能真正跟人类打交道，是我们的希望”。作为“小冰之父”，李笛在 2013 年加入微软，主导创立了微软人工智能情感计算框架，并在次年（2014 年）与技术搭档景鲲共同打造出情感聊天机器人 — — 小冰。虽然不是技术出身，但凭借敏锐的产品嗅觉与对用户需求的深刻理解，李笛依旧将小冰带到全新的高度，并在 2020 年小冰分拆独立后担任 CEO。不过，来自内部的诸多矛盾，最终促使他离开小冰。但如今已经另起炉灶的他，无疑可以将更多时间与精力用于自己想做的事情。什么是李笛真正想做的事情？群体智能，尤其是异构多智能体。在李笛看来，相比会陷入同质化内卷的大模型，AI 行业在未来会收敛到应用层，最小单元就是 Agent。不过，当你真正去做 Agent 时，会发现一个 Agent...

on 2026-03-06

计算所程学旗团队：随机剪枝 AI 攻击策略，让对抗样本更具「通用攻击力」丨CVPR 2026

RaPA ：一种提升深度模型跨架构误导能力的新方法。作者丨郑佳美编辑丨岑峰随着深度学习技术在计算机视觉领域的快速发展，神经网络模型已经在自动驾驶、智能安防、医疗影像分析以及智能终端等关键场景中得到广泛应用。例如，在自动驾驶系统中，视觉模型需要识别道路标志和行人；在智能安防系统中，人脸识别模型被用于身份验证；在医疗影像分析中，深度学习模型可以辅助医生识别疾病特征。然而，近年来的研究不断表明，这些高性能模型在安全性方面仍然存在明显隐患。其中，对抗样本问题被认为是深度学习系统面临的最重要安全挑战之一。例如，通过在一张交通标志图像上加入人类几乎无法察觉的微小扰动，自动驾驶系统可能会把"限速标志"误判为"停止标志"；在人脸识别系统中，只需在图像中加入细微噪声，就可能使模型将一个人误识别为另一个人。这些微小的输入变化却能导致模型产生完全错误的预测，这种现象不仅揭示了深度神经网络在决策边界上的脆弱性，也对现实系统的安全性提出了严峻挑战。在众多对抗攻击研究方向中，迁移攻击（Transfer-based...

on 2026-03-11

北大王选所彭宇新团队：让多模态大模型学会「看懂物种关系」丨CVPR 2026

TARA：融合生物知识与视觉特征，提升模型推理能力。作者丨郑佳美编辑丨岑峰近年来，多模态大模型的发展正在不断推动视觉理解能力的提升。从图像分类、目标检测到视觉问答等任务，视觉系统已经能够在多种场景中实现较高水平的识别和推理能力。然而，在更复杂的层级视觉识别任务中，现有模型仍然存在明显不足。现实世界中的许多视觉概念天然具有层级结构，例如生物分类体系中的“界 — 门 — 纲 — 目 — 科 — 属 — 种”，以及商品分类、医学诊断等领域中的多层级标签体系。这类任务不仅要求模型识别具体类别，还需要理解不同类别之间的层级关系和语义结构。但目前多数视觉模型仍然基于扁平分类框架进行训练，在进行层级预测时容易出现分类路径不一致或层级关系冲突等问题。与此同时，在开放世界环境中，视觉模型还需要具备识别未知类别的能力。以生物识别任务为例，现实世界中的物种数量远远超过现有数据集的覆盖范围，新的物种仍在不断被发现。当模型面对训练数据中未出现的类别时，往往难以进行合理推断。如何利用已有知识帮助模型理解类别之间的层级结构，并在有限数据条件下推断未知类别，逐渐成为当前视觉智能研究中的重要问题。...

on 2026-03-11

港大赵恒爽团队论文：让扩散模型既拿高分又不「作弊」丨CVPR 2026

GDRO：一种通过组级奖励排序优化扩散模型生成能力的后训练方法。作者丨郑佳美编辑丨岑峰现如今，扩散模型已经成为当前图像生成领域的核心技术之一。从文本生成图像到复杂视觉内容合成，这类模型已经能够生成高度逼真的画面。然而，在真实应用场景中，人们对生成模型的要求并不仅仅是“生成逼真图像”，而是希望模型能够严格按照提示完成特定任务。例如，在要求生成包含指定文字的图像时，模型可能 simply 将文字放大到占据画面大部分区域，从而轻松获得 OCR 系统的高分，而在需要生成多个对象的任务中，模型也可能通过极度简化场景结构来满足评分规则。这种现象通常被称为“奖励作弊”，已经成为当前生成模型对齐研究中的一个重要挑战。为了解决这一问题，近年来一些研究开始尝试利用强化学习或奖励机制对扩散模型进行后训练，希望通过奖励信号引导模型生成更加符合任务要求的内容。然而实践中逐渐发现，这种方法容易带来一个新的问题：模型可能学会迎合评价指标，而不是理解任务本身。在这样的研究背景下，香港大学赵恒爽团队提出了一种新的扩散模型后训练方法，并在论文《GDRO: Group-level Reward...

on 2026-03-18

西交大 x A*STAR 论文：让 AI 学会「保持一致」，多图生成迎来关键突破丨CVPR 2026

PaCo-RL：基于成对奖励与强化学习的图像一致性生成方法。作者丨郑佳美编辑丨岑峰很多人都有这样的体验：让 AI 画一个角色，第一张很好看，但第二张开始有点不一样，第三张基本就像换了个人。你让它做一套海报，单张都不错，但放在一起风格却完全不统一，再或者你让它画一个故事分镜，人物形象会一会胖一会瘦，甚至连脸都对不上，你只是改一下衣服颜色，它却顺手把脸也改了。这些看起来像小问题，但在真实应用中却是致命的。在 IP 设计、品牌视觉、内容生产甚至工业和医疗场景中，要求的从来不是某一张图好看，而是一整组都要一致。问题的关键在于，当前图像生成模型虽然已经从“能用”走向“高质量”，但能力仍停留在单次生成优化，也就是“单样本最优”。它擅长把一张图画好，却不知道哪些东西必须在多张图之间保持不变。换句话说，模型缺少的不是生成能力，而是一种对跨图关系的稳定建模能力，而这一能力，正是生成模型走向规模化应用的关键瓶颈。在这一背景下，来自西安交通大学与新加坡 A*STAR 的研究团队提出了论文《PaCo-RL: Advancing Reinforcement Learning for...

on 2026-03-20

User Profile