中国产业数据库及企业互动平台

揭秘医疗强化学习新范式,Baichuan-M2技术报告来啦!

发布者:百川智能
时间:2025-09-09
收藏
已收藏

8月初,我们以开源形式发布了Baichuan-M2,近一个月以来开源社区下载量已接近15万次。

期间我们收到了大量反馈,很多医疗企业、AI领域的从业者都希望更深入地了解M2的技术细节和落地过程。近日,我们发布了M2的技术报告,详细公布了训练过程的更多细节。

图片
作为开源医疗能力世界第一,HealthBench-hard上唯二超过32分的模型,M2为真实世界的医疗推理任务设计。它从真实世界的医疗问题出发,进行端到端强化学习训练,在保持模型通用能力的同时,医疗效果有突破性的提升。
M2的核心突破在于通过构建动态强化学习验证系统与多阶段训练框架,解决了医疗模型在静态基准(如 USMLE)与真实临床决策间的性能鸿沟,同时为非 STEM 类强化学习问题提供了可参考的解决方案。

强大 Verifier 

是链接模型能力与医疗场景的核心


当前医疗大模型的评测大多依赖于标准化的医学考试题库,例如 USMLE 或各类模拟问答数据集。这类评测方式有其价值,能够衡量模型对静态医学知识的记忆和基础推理能力。但它们与真实的临床实践存在本质区别,真实世界中的医生面对患者时,初始信息往往是不完整甚至模糊的。

在真实诊疗场景中,医生需要通过多轮问询、检查和互动来逐步收集信息、形成假设、并进行验证。临床沟通不仅是信息的交换,还包含了共情、安抚、解释和建立信任等多种软技能。此外在沟通过程中,患者可能会隐瞒信息、表达情绪,或受到自身社会文化背景的影响。这些都是静态评测无法衡量的。

对此,我们创新性地构建了大型验证系统(Large Verifier System),它就像是一位“严苛的带教主任”,从医疗正确性、安全性、沟通友好性等多个维度,实时对模型的输出进行全面评估。一旦发现漏洞,会立即引导模型进行优化,使模型的思维方式更加贴近临床实际逻辑,有效避免了传统模型在医疗应用中可能出现的错误与风险。这一系统主要包含两大创新组件:患者模拟器与临床评分标准生成器。

患者模拟器由三个主要模块组成:终止门、情感单元和事实单元。终止门根据预定义的触发器(例如医生的诊断)确定对话是否得出结论。情感单元使用合成数据进行训练,获得与患者档案类似的输出,以模拟具有各种性格和社会文化背景的患者。事实单元,根据患者档案进行实时验证,以防止信息泄露和不一致。

临床评分标准生成器旨在模拟资深医师的临床思维,能够根据当前的对话上下文,动态生成量化的、多维度的评估标准。这不仅让评估更贴近真实临床,也为模型优化提供了一个大规模、可监督的数据闭环。

如上图所示,整个系统形成了一个闭环:

  • 患者模拟器基于真实的医疗数据生成一个具有特定病情、性格和背景的虚拟患者。

  • AI 医生(Baichuan-M2)与虚拟患者进行多轮对话,尝试进行诊断和提供建议。

  • 临床评估细则生成器像一位经验丰富的上级医生,实时观察整个对话过程,并动态生成多维度的评估标准(Rubrics)。

  • 基于这些评估标准,系统为 AI 医生的回复计算出一个量化的奖励(Reward)。

  • 这个奖励信号被用于强化学习算法来优化 AI 医生模型。


多阶段强化学习

有效提升模型医疗能力


除了构建创新的验证系统,我们还对模型的强化学习算法进行了优化,采用多阶段强化学习(Multi - Stage RL)技术,让模型首先攻克 “医学常识” 等基础内容,接着训练 “医患沟通技巧”,最后挑战 “复杂病例诊断” 等高难度任务。通过这种逐步提升的训练方式,有效避免了因任务难度过高而导致的模型能力断层,使模型在医疗知识理解、推理能力以及与患者互动等多个方面都得到了显著提升,并且模型也不会损失通用能力。

  • 中期训练:混合医疗 / 通用 / 数学语料(2:2:1),通过 “结构化重述”(降低幻觉)、“显式思维链(CoT)注入”(学习推理模式),结合 KL 损失保留通用能力,为医疗适配打好基础;

  • SFT:基于 200 万样本(医疗占 20%),通过拒绝采样筛选高质量推理链,优化核心医疗场景(如 EHR 生成、医疗安全),为 RL 提供稳定初始化;

  • 多阶段 RL(改进 GRPO 算法):模型与患者模拟器进行多轮对话。每一轮交互后,对话历史的一个片段被提取出来,送入评估细则生成器,产出与当前上下文高度相关的评估标准。模型根据这些动态生成的标准进行学习和优化。这种动态的“模拟-评估-优化”闭环,使得模型能够持续对齐医生在信息不完整和嘈杂临床环境中的推理模式。


成本低、效率高

RTX4090单卡即可部署


在医疗行业,数据隐私保护和私有化部署需求极为突出,然而高昂的部署成本常常使得先进的技术难以真正落地应用。M2 通过技术创新,成功打破了这一困局:

  • 轻量化部署:经过先进的 4bit 量化技术处理后,模型可在 RTX4090 单卡上高效运行。相比同类模型的双节点部署方式,成本降低了 57 倍,大大减轻了医疗机构尤其是基层医院、社区医疗中心等资源有限场景的经济负担。

  • 效率优化:基于 Eagle-3 训练的 Spec 版本,在单用户场景下 token 吞吐提升了 74.9%,响应速度更快。这对于急诊、门诊等对响应速度要求极高的医疗场景来说,具有至关重要的意义,能够帮助医生更快速地为患者提供服务。

未来,我们相信随着 M2 在基层医疗诊断、慢性病管理、罕见病筛查等更多医疗场景中的深入落地,有望真正实现 “AI 医疗普惠” 的美好愿景,让优质的医疗资源借助先进的技术,惠及更多地区的患者。我们也期待与更多医疗行业的伙伴携手合作,共同探索 M2 在医疗领域的更多应用可能,为推动医疗行业的智能化发展贡献力量。