AI赋能医学编码：大语言模型在现实医疗环境中的应用检验

研究人员在台湾两家医院进行了为期13周的现实试验，评估了大语言模型辅助ICD-10编码的效果。结果显示，AI辅助工作流程能显著减少编码时间，但成功采用需要多层面的支持，包括系统实施、部门协调和针对性的用户培训。

背景

医学编码是医疗信息管理的基石。ICD-10编码系统对疾病、健康状况和医疗服务进行标准化分类，是医院数据管理、质量评估和医保支付的根基。然而，ICD-10编码涉及数千个诊断代码、复杂的层级关系和众多排除规则，编码过程耗时且需要专业认证，对编码人员的工作负担巨大。在全球范围内，医学编码人员短缺现象日益突出，自动化编码的需求迫切。

大语言模型的快速发展为自动化编码开启了新的可能。然而，从实验室原型到医院实际应用面临多重挑战：如何在众多模型中做出最优选择、如何充分利用医院结构化临床数据、如何与现有工作流程无缝融合、以及一线编码人员是否能接受这样的新工具。这项研究通过严格的实验设计，在现实医疗环境中系统性地回答了这些问题。

主要发现

模型选择方法创新：研究采用”LLM作为评判者”的新颖方法，通过Plackett-Luce排序评估不同模型的内在语义对齐度。BioMistral获得最高的选择概率（44.1%），并在下游任务中表现最优，在完整代码上的F1评分达0.780，在前50个常见代码上达0.906。
编码时间显著减少：所有三种AI辅助工作流程（BioMistral、PubMedGPT-2、HAN）相比手动编码都显著减少了编码时间（p < 0.001）。更为关键的是，工作流程的采用率在13周内从37.3%跃升至90.6%，表明编码人员在实际使用中逐步增强了对工具的认可度。
用户满意度呈现差异性：不同编码人员对各模型的满意度存在显著差异，其中BioMistral获得最高满意度。深层分析揭示，满意度与编码人员的专业认证状态、工作经验（≥10年经验者满意度更高）以及年龄代际（X代和Z代编码人员满意度显著高于Y代）均存在关联，提示实施策略应考虑团队特征的异质性。
模型架构的内在优势：与多种基线模型的对比显示，纯Decoder架构的LLM（如BioMistral）在内部和外部测试集上一致地优于Encoder-based模型和传统深度学习方法（如BiGRU、HAN、BERT等），提示某些模型架构天然适合医学编码任务。
跨机构推广的可行性：BioMistral在第二家医院的部署中保持了稳健表现，尽管该医院的临床文档风格和章节组成完全不同。这验证了该方法在异质医疗环境中的泛化能力，为多机构推广奠定了实证基础。
数据处理策略的优化效果：冗余感知采样使F1评分提升，训练时间减少10.2%。纳入HL7-CDAR2标准的多个临床文档章节进一步增强性能，全章节纳入时F1评分达0.798。

临床意义

本研究的核心价值在于突破单纯的模型性能评估，从医疗工作流程的完整视角揭示了AI编码工具实际应用成功的必要条件。研究明确指出：模型精度虽然重要，但远非充分条件。

AI辅助编码的成功部署需要三个层面的协同支撑。第一，文档标准化层面：采用HL7-CDA结构化临床文档标准，确保医院系统能提供符合规范的结构化输入。第二，工作流程整合层面：AI工具必须与编码人员日常工作无缝融合，而非增加额外负担。第三，人员接纳层面：部门领导支持、差异化的用户培训、以及考虑编码人员的专业背景和年龄特征进行针对性的实施策略，都直接影响最终的采用效果。

对国内医院的启示在于：ICD-10编码自动化不是简单的”引进工具、安装系统、培训上线”。成功案例提示应采取以下措施：建立跨科室实施小组取得多部门共识；充分调研本地编码规范和系统现状，选择兼容方案；在试点阶段充分听取编码人员反馈，根据人员特征进行培训优化；建立长期监测机制，及时应对模型漂移和编码标准变化。

局限性

虽然这项研究在现实条件下进行了严格评估，但仍存在局限。其一，数据来自台湾医院，该地医疗信息系统的成熟度和文档实践可能与其他地区存在差异。其二，研究规模相对有限，仅10位编码人员参与，虽符合现实医院规模，但难以完全排除个体差异的影响。其三，13周的观察期相对较短，无法充分评估长期使用中的模型漂移、编码标准演变和用户疲劳等问题。其四，研究主要聚焦ICD-10-CM编码（临床修饰词），而医学编码还包括程序编码等方面，该方法在其他编码类型中的效果仍需验证。

Original paper: Evaluating real-world deployment of an HL7-CDA-aligned LLM for ICD-10-CM coding. — NPJ digital medicine. 10.1038/s41746-026-02541-5

🎧 收听播客