Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
最新研究表明,先进的大语言模型在临床预测任务中的表现已经能够与专门构建的医学模型相当甚至超越,这对临床AI工具的选择策略带来了重要启示。
长期以来,医学领域普遍认为专门为临床任务设计的模型(如基于BERT的医学模型)优于通用大语言模型(LLMs)。这种认知影响了医疗机构在选择预测工具时的决策。最新发表在《NPJ数字医学》的ClinicRealm研究对这一广泛假设进行了全面的重新评估。研究团队系统比较了15个GPT风格的大模型、5个BERT风格模型和11个传统机器学习/深度学习模型在临床预测中的实际表现。
该研究以MIMIC-III和MIMIC-IV数据库的临床记录为主要数据源,在死亡率预测、再入院预测和住院时间预测三个关键临床任务中进行了全面基准测试,涵盖零样本学习、小样本学习、微调和多模态融合等多种应用场景,并由5名临床医生对模型推理的质量进行了人工评估。
这项研究为临床决策和技术选型提供了重要参考。现代大语言模型已经成为临床预测的可靠工具,特别是在处理非结构化数据和零样本应用场景时优势明显。医疗机构应该转变传统认知——LLMs不再是”不适合临床应用”的工具,而是具有实际竞争力的选择。
对于资源受限的医疗机构,开源LLMs提供了经济且有效的解决方案。但这并不意味着传统专门模型已经过时——当医疗机构拥有充足的结构化EHR数据时,专门设计的深度学习模型仍能提供最优性能。模型选择应根据具体场景而定:数据充足用专门模型,数据稀缺用先进LLMs,非结构化数据优先考虑LLMs。
值得关注的是,提示工程在这里表现出了双重价值:既能提升模型可靠性,也能作为偏差缓解工具。精心设计的输入提示可以在一定程度上减少LLM的幻觉现象和公平性问题。这意味着即使采用LLMs,通过系统的提示优化也能显著改善临床应用的质量。在任何临床部署前,对模型推理过程、错误模式和公平性进行严格评估是必不可少的。
虽然研究的证据强度很高,但仍需注意其局限性。研究主要使用MIMIC系列数据库,这些数据来自特定的医疗系统,可能不完全代表所有临床环境。三个预测任务虽然临床常见,但不能涵盖所有可能的临床预测应用场景,如诊断预测、治疗反应预测等。
此外,人工评估由5名临床医生完成,规模相对较小,可能受到评估者背景和经验的影响。未来研究应在更多样化的数据源、更广泛的临床任务和更大规模的人工评估中进行验证,以确保这些发现的普遍适用性和临床推广价值。
Original paper: ClinicRealm: Re-evaluating large language models with conventional machine learning for non-generative clinical prediction tasks. — NPJ digital medicine. 10.1038/s41746-026-02539-z