临床预测AI新纪元：大模型与传统机器学习的实战对比

最新研究表明，先进的大语言模型在临床预测任务中的表现已经能够与专门构建的医学模型相当甚至超越，这对临床AI工具的选择策略带来了重要启示。

研究背景与意义

长期以来，医学领域普遍认为专门为临床任务设计的模型（如基于BERT的医学模型）优于通用大语言模型（LLMs）。这种认知影响了医疗机构在选择预测工具时的决策。最新发表在《NPJ数字医学》的ClinicRealm研究对这一广泛假设进行了全面的重新评估。研究团队系统比较了15个GPT风格的大模型、5个BERT风格模型和11个传统机器学习/深度学习模型在临床预测中的实际表现。

该研究以MIMIC-III和MIMIC-IV数据库的临床记录为主要数据源，在死亡率预测、再入院预测和住院时间预测三个关键临床任务中进行了全面基准测试，涵盖零样本学习、小样本学习、微调和多模态融合等多种应用场景，并由5名临床医生对模型推理的质量进行了人工评估。

主要发现

零样本学习中大模型优势明显：最先进的LLMs在非结构化临床记录的死亡率预测中表现突出，DeepSeek-R1达到90.75% AUROC，GPT-5达到89.75%，显著超过微调后的专科模型（GatorTron为87.97%）
结构化数据中的差异化表现：在完整训练数据充分的情况下，专门的深度学习模型保有优势；但在数据稀缺的十样本学习场景中，先进LLMs的性能超过了传统模型
开源大模型具有竞争力：DeepSeek等开源LLMs的预测性能与GPT-5、GPT-4o等专有模型相当甚至更优，使医疗机构无需高成本投入也能获得高性能工具
多模态融合的有限价值：将结构化EHR数据和非结构化临床记录结合并未能统一改善预测性能；在许多情况下，临床记录本身往往包含更强的预测信号
LLM推理质量与特定失败模式：人工评估发现LLM推理质量整体良好，但存在特定失败模式——假阳性主要由事实不一致和幻觉驱动，假阴性源于有缺陷的临床推理
公平性表现更佳：零样本LLMs在年龄、性别、种族等人口统计学属性上展现出更好的公平性，相比之下传统训练的模型在这些维度上存在更明显的偏差

临床实践的启示

这项研究为临床决策和技术选型提供了重要参考。现代大语言模型已经成为临床预测的可靠工具，特别是在处理非结构化数据和零样本应用场景时优势明显。医疗机构应该转变传统认知——LLMs不再是”不适合临床应用”的工具，而是具有实际竞争力的选择。

对于资源受限的医疗机构，开源LLMs提供了经济且有效的解决方案。但这并不意味着传统专门模型已经过时——当医疗机构拥有充足的结构化EHR数据时，专门设计的深度学习模型仍能提供最优性能。模型选择应根据具体场景而定：数据充足用专门模型，数据稀缺用先进LLMs，非结构化数据优先考虑LLMs。

值得关注的是，提示工程在这里表现出了双重价值：既能提升模型可靠性，也能作为偏差缓解工具。精心设计的输入提示可以在一定程度上减少LLM的幻觉现象和公平性问题。这意味着即使采用LLMs，通过系统的提示优化也能显著改善临床应用的质量。在任何临床部署前，对模型推理过程、错误模式和公平性进行严格评估是必不可少的。

研究的局限性

虽然研究的证据强度很高，但仍需注意其局限性。研究主要使用MIMIC系列数据库，这些数据来自特定的医疗系统，可能不完全代表所有临床环境。三个预测任务虽然临床常见，但不能涵盖所有可能的临床预测应用场景，如诊断预测、治疗反应预测等。

此外，人工评估由5名临床医生完成，规模相对较小，可能受到评估者背景和经验的影响。未来研究应在更多样化的数据源、更广泛的临床任务和更大规模的人工评估中进行验证，以确保这些发现的普遍适用性和临床推广价值。

Original paper: ClinicRealm: Re-evaluating large language models with conventional machine learning for non-generative clinical prediction tasks. — NPJ digital medicine. 10.1038/s41746-026-02539-z

🎧 收听播客