清华刘洋团队论文:揭示为何 70B 的医疗模型,反而不如 8B 会问诊丨ICLR 2026
DOCTOR-R1:将临床问诊建模为 POMDP,用强化学习训练会动态提问的医疗智能体。 作者丨郑佳美 编辑丨岑 峰 在医疗人工智能的发展历程中,能力评估方式在很大程度上塑造了技术演进的方向。 过去相当长一段时间里,医疗 AI 的进步主要围绕医学知识获取与推理展开,模型是否“足够聪明”通常通过医学考试题、临床问答数据集等静态基准来衡量。在这一评价框架下,模型只需在信息完整、问题封闭的条件下给出正确答案,便被视为具备较高的医疗能力。 随着大语言模型的兴起,这一路径迅速取得突破性进展,多种系统在 MedQA 等测试中达到甚至超过人类专家水平,使得“医疗 AI 是否已经成熟”一度成为行业内的乐观判断。 然而,随着这些模型被逐步引入更贴近真实临床的交互场景,一个长期被掩盖的问题开始显现:真实医疗实践并非基于完整信息给出诊断,而是一种在高度不确定条件下,通过连续提问、风险识别与信息整合来逐步逼近决策的动态过程。...