MIRA 是一项非常新的工作，于 2026 年 5 月 18 日接收。文章提出了 MIRA（Medical Intelligence for Reasoning and Action），这是一个能够在沙盒化 EHR 环境中模拟医生工作流的医疗智能体。它可以采集病史、开具化验、影像和微生物检查，解释检查结果，形成鉴别诊断，并进一步给出用药、手术、入院等治疗计划。研究报告称，在基于真实病历的模拟评估中，MIRA 的诊断准确率和部分管理决策优于医生组。不过，作者也明确强调，这类系统仍需要经过前瞻性的真实世界验证，并建立相应的安全、治理和监管框架。

背景

近年来，健康医疗领域已经出现了多项关于 AI Agent 的研究：从基于 FHIR 规范的电子病历交互，到模拟医疗决策的 benchmark，相关工作正在逐步覆盖临床流程中的不同环节。例如，AMIE 是一个面向医患交流设计的问诊模型；MAI-DxO 则是一个面向复杂病例的多智能体诊断系统。在实际临床应用中，OpenAI 与 Penda Health 也构建过一个“非自主式”的安全兜底助手，并将其嵌入基层医疗和初级保健工作流。

不过，当前的医疗 AI 系统仍有两个核心问题没有被充分解决。第一，AI 与既有临床工作流之间仍然存在融合 gap；第二，AI 的安全性和能力表现尚未在完整的患者诊疗流程中得到系统评估。MIRA 正是针对这两个问题提出的：它不只回答单个医学问题，而是尝试在一个可控的临床沙盒中完成连续的推理与行动。

MIRA 概述

为了解决上述问题，作者提出了 MIRA，一个全自动的医疗 AI Agent。它可以在可控的虚拟沙盒 EHR 环境中操作，并模拟真实医生的诊疗流程。研究者在 MIMIC-IV 数据库中抽取了 500 个病例进行评估，这些病例覆盖内科、外科和肿瘤科的诊断与治疗决策。

MIRA 会与一个严格遵照病史设定的 Patient Agent 进行交流，并调用 11 类工具。整体系统需要在总计约 85000 个可选操作中进行选择，用于解释实验室检查、微生物检查和影像学检查，生成诊断假设，并制定可执行的治疗计划，包括安排日程、开具药物和安排住院。换句话说，MIRA 面对的不是一个简单的问答任务，而是一个接近真实临床流程的连续决策空间。

在实现层面，MIRA 的操作同时符合 FHIR 标准以及六套医学编码系统的要求，包括 International Classification of Diseases（ICD）、Logical Observation Identifiers Names and Codes（LOINC）、Anatomical Therapeutic Chemical（ATC）、National Drug Code（NDC）、RxNorm 和 SNOMED-CT。

为了评价模型效果，作者将 MIRA 与两个医生队列进行比较：一个由 4 名认证医生组成，另一个由 4 名住院医生和 2 名持证医师组成。结果显示，MIRA 在多项指标上达到或优于这两个医生队列。

患者智能体的鲁棒性与一致性

Patient Agent 在整个临床决策过程中非常关键。它需要满足三个要求：第一，面对语义相同但表达不同的问题时提供稳定答案；第二，回答必须忠于现病史（history of present illness, HPI）；第三，不能泄露最终诊断结论。

为了验证 Patient Agent 回复的稳定性与可信度，作者从 MIRA 与 Patient Agent 的交流、医生队列与 Patient Agent 的交流中采样语句，并对相同语义的问题进行不同表述。在 622 个问答样本中，Patient Agent 在 99.4% 的案例里给出了与原始答案语义一致的回复，并且回答仍然与现病史保持一致。原始问题下的病史一致率为 99.3%，改写问题后的病史一致率为 99.1%。一个独立 LLM 裁判也得出了相似结果。

总体来看，Patient Agent 在这套评估中表现出较高的一致性和可用性。作者进一步检查后，也没有发现诊断结论被泄露给交互方的情况。

MIRA 的效果

作者首先将 MIRA 预测的诊断结果与 MIMIC-IV 数据库中的出院 ICD 诊断进行比较，以评估它的诊断性能。整体来看，MIRA 在 8 类疾病上的诊断准确率达到 88.9%。其中，阑尾炎的准确率最高，为 98.6%；胰腺炎为 92.3%；肺炎和泌尿道感染的准确率相对较低，分别为 72.4% 和 77.6%。

考虑到真实病历中可能存在未记录信息，作者又设计了额外实验，以避免诊断准确率被缺失数据显著低估。结果显示，在部分场景中，专业医生队列的准确率与 MIRA 持平，有时甚至低于 MIRA。

模拟医生工作流

MIRA 最主要的创新点之一，是它不只进行诊断推理，还能够模拟医生在临床流程中的行动能力，尤其体现在开具检查和制定治疗方案上。

在检查策略上，MIRA 开具的检查更接近真实病历中的检查分布。它尤其偏好血液检查，开具数量明显多于人类医生，但仍低于 MIMIC-IV 真实记录中的血液检查数量。对于微生物检查，人类医生与 MIRA 的开具数量没有显著差异；而人类医生相对更倾向于开具影像学检查。

从重合度来看，MIMIC-IV 与 MIRA 的检查项目只有 55.3% 相同；执业医师队列与混合医生队列的对应比例分别为 61.5% 和 62.5%。这说明更高的实验室检查覆盖率，并不必然意味着更高成本的过度影像学检查。综合来看，MIRA 能够在使用较少检验的基础上获得较高的诊断准确率。

由于用药核对是急诊入院接诊中的核心任务，研究者还额外评估了 MIRA 是否能够询问并记录患者入院前，也就是居家期间正在使用的药物，并将这些药物以结构化条目的形式写入电子健康记录。与 MIMIC-IV 中的用药核对记录相比，MIRA 在“药物名称”层面达到了 95.2% 的召回率和 99.6% 的精确率。

MIRA Pipeline

MIRA 的整体流程可以概括为以下几个部分：

使用 FHIR 进行信息传递，使系统能够与结构化电子健康记录交互。
对所有检查进行输入和输出校验，限制无效请求或失败检查结果，避免生成不符合临床约束的信息。
使用 ChatGPT o1 系列模型，在最终响应前生成用于推理和规划的中间输出。
每段对话都从结构化初始化开始。MIRA 会收到提示：“你现在接诊的患者主要症状是：{primary_symptom}”。该症状来自分诊患者的主诉，类似真实临床场景中患者在分诊台接受评估并说明就诊原因。
在交互过程中，MIRA 要么生成对患者的适当回应，要么判断是否需要外部资源。当某个临床工具被认为必要时，系统会自动执行对应函数，将请求提交给医院服务器，并把返回结果整合进当前对话。
为了维持临床连贯性并确保交互过程有限，Admission 工具既用于生成最终工作诊断假设，也作为终止交互的节点。此外，为防止两个 AI 系统之间出现无限对话循环，研究者设置了 20 轮对话限制。达到阈值后，MIRA 会被要求在下一轮结束对话，并在随后强制使用 Admission 工具。

医生智能体使用 GPT-4o 实现，temperature 设置为 0.01。具体问诊 prompt 如下：

小结

MIRA 的价值不只在于提高某个静态诊断任务上的准确率，而在于它把医疗 AI 的评估对象推进到了“完整工作流”层面。它需要持续获取信息、调用工具、解释结果、形成诊断，并最终给出治疗计划。这种设定更接近真实临床实践，也更能暴露医疗智能体在安全性、稳定性、可控性和责任边界上的问题。

当然，MIRA 仍然运行在沙盒环境中，距离真实临床部署还有明显距离。未来这类系统要进入实际医疗场景，仍然需要前瞻性研究、真实世界验证，以及更明确的人机协作、监管和安全框架。

Cover image icon by Dewi Sari from Flaticon