We also have X and podcasts
AI赋能医学编码:大语言模型在现实医疗环境中的应用检验
研究人员在台湾两家医院进行了为期13周的现实试验,评估了大语言模型辅助ICD-10编码的效果。结果显示,AI辅助工作流程能显著减少编码时间,但成功采用需要多层面的支持,包括系统实施、部门协调和针对性的用户培训。
背景
医学编码是医疗信息管理的基石。ICD-10编码系统对疾病、健康状况和医疗服务进行标准化分类,是医院数据管理、质量评估和医保支付的根基。然而,ICD-10编码涉及数千个诊断代码、复杂的层级关系和众多排除规则,编码过程耗时且需要专业认证,对编码人员的工作负担巨大。在全球范围内,医学编码人员短缺现象日益突出,自动化编码的需求迫切。
大语言模型的快速发展为自动化编码开启了新的可能。然而,从实验室原型到医院实际应用面临多重挑战:如何在众多模型中做出最优选择、如何充分利用医院结构化临床数据、如何与现有工作流程无缝融合、以及一线编码人员是否能接受这样的新工具。这项研究通过严格的实验设计,在现实医疗环境中系统性地回答了这些问题。
主要发现
- 模型选择方法创新:研究采用”LLM作为评判者”的新颖方法,通过Plackett-Luce排序评估不同模型的内在语义对齐度。BioMistral获得最高的选择概率(44.1%),并在下游任务中表现最优,在完整代码上的F1评分达0.780,在前50个常见代码上达0.906。
- 编码时间显著减少:所有三种AI辅助工作流程(BioMistral、PubMedGPT-2、HAN)相比手动编码都显著减少了编码时间(p < 0.001)。更为关键的是,工作流程的采用率在13周内从37.3%跃升至90.6%,表明编码人员在实际使用中逐步增强了对工具的认可度。
- 用户满意度呈现差异性:不同编码人员对各模型的满意度存在显著差异,其中BioMistral获得最高满意度。深层分析揭示,满意度与编码人员的专业认证状态、工作经验(≥10年经验者满意度更高)以及年龄代际(X代和Z代编码人员满意度显著高于Y代)均存在关联,提示实施策略应考虑团队特征的异质性。
- 模型架构的内在优势:与多种基线模型的对比显示,纯Decoder架构的LLM(如BioMistral)在内部和外部测试集上一致地优于Encoder-based模型和传统深度学习方法(如BiGRU、HAN、BERT等),提示某些模型架构天然适合医学编码任务。
- 跨机构推广的可行性:BioMistral在第二家医院的部署中保持了稳健表现,尽管该医院的临床文档风格和章节组成完全不同。这验证了该方法在异质医疗环境中的泛化能力,为多机构推广奠定了实证基础。
- 数据处理策略的优化效果:冗余感知采样使F1评分提升,训练时间减少10.2%。纳入HL7-CDAR2标准的多个临床文档章节进一步增强性能,全章节纳入时F1评分达0.798。
临床意义
本研究的核心价值在于突破单纯的模型性能评估,从医疗工作流程的完整视角揭示了AI编码工具实际应用成功的必要条件。研究明确指出:模型精度虽然重要,但远非充分条件。
AI辅助编码的成功部署需要三个层面的协同支撑。第一,文档标准化层面:采用HL7-CDA结构化临床文档标准,确保医院系统能提供符合规范的结构化输入。第二,工作流程整合层面:AI工具必须与编码人员日常工作无缝融合,而非增加额外负担。第三,人员接纳层面:部门领导支持、差异化的用户培训、以及考虑编码人员的专业背景和年龄特征进行针对性的实施策略,都直接影响最终的采用效果。
对国内医院的启示在于:ICD-10编码自动化不是简单的”引进工具、安装系统、培训上线”。成功案例提示应采取以下措施:建立跨科室实施小组取得多部门共识;充分调研本地编码规范和系统现状,选择兼容方案;在试点阶段充分听取编码人员反馈,根据人员特征进行培训优化;建立长期监测机制,及时应对模型漂移和编码标准变化。
局限性
虽然这项研究在现实条件下进行了严格评估,但仍存在局限。其一,数据来自台湾医院,该地医疗信息系统的成熟度和文档实践可能与其他地区存在差异。其二,研究规模相对有限,仅10位编码人员参与,虽符合现实医院规模,但难以完全排除个体差异的影响。其三,13周的观察期相对较短,无法充分评估长期使用中的模型漂移、编码标准演变和用户疲劳等问题。其四,研究主要聚焦ICD-10-CM编码(临床修饰词),而医学编码还包括程序编码等方面,该方法在其他编码类型中的效果仍需验证。
Original paper: Evaluating real-world deployment of an HL7-CDA-aligned LLM for ICD-10-CM coding. — NPJ digital medicine. 10.1038/s41746-026-02541-5




