机器学习模型如何改善房颤患者的中风风险预测——比传统评分更精准

一项来自台湾的多中心研究开发了基于机器学习的中风风险预测模型，在新诊断房颤患者的风险分层中显著优于现有的CHA₂DS₂-VASc评分，有望改进临床决策和个体化抗凝血治疗策略。

背景

房颤（atrial fibrillation, AF）患者面临的重要临床挑战是如何准确识别中风风险，从而合理指导直接口服抗凝血药物（DOAC）的使用。长期以来，医疗工作者依靠CHA₂DS₂-VASc评分来评估房颤患者的血栓栓塞风险。该评分基于临床特征（充血性心力衰竭、高血压、年龄≥75岁、糖尿病、卒中/短暂性脑缺血发作病史、血管疾病、年龄65-74岁和女性性别）进行计算，简单易行，已被广泛应用于临床实践。

然而，CHA₂DS₂-VASc评分存在明显局限：其识别中风高风险患者的能力有限，在临床应用中会导致大量患者被过度评估或评估不足。随着机器学习技术在医学领域的不断发展，利用现有的临床数据开发更精准的风险预测模型成为可能。本研究的核心目标是开发和验证可临床解释的机器学习模型，用仅包含年龄、合并症和用药信息的简化变量集，来预测新诊断房颤患者的1年中风风险，并与CHA₂DS₂-VASc评分进行直接对比。

主要发现

研究队列庞大且具有代表性：使用了台湾大学医院9511名新诊断房颤患者作为推导队列，另外两个独立队列（分别为1300和1242名患者）进行外部验证，确保了模型的可推广性。
机器学习模型显著优于传统评分：两种算法——逻辑回归（LR）和Platt校准的极端梯度提升（XGB）——的内部曲线下面积（AUC）分别为0.915和0.914，相比之下CHA₂DS₂-VASc评分仅为0.614-0.621，差异有统计学意义（p<0.001）。在外部验证中，ML模型的AUC为0.877-0.886，仍明显优于CHA₂DS₂-VASc评分（0.614-0.621）。
模型校准性能优良：两个ML模型在所有验证数据集中都表现出强大的校准性，Brier分数为0.054-0.065，说明预测概率与实际发生率高度契合，可信度高。
临床实用性明显改善：当采用风险阈值0.2时，ML模型相比CHA₂DS₂-VASc评分，在每1000名患者中能额外正确识别超过100名高风险患者，且不增加假阳性率，这对于确定谁应该接受DOAC治疗具有重要意义。
长期随访验证了预测效能：在3-5年的随访期间，由LR模型定义为高风险的患者在接受DOAC治疗后，中风发生率显著降低。相比之下，CHA₂DS₂-VASc评分出现了矛盾的关联（paradoxical associations），提示该传统评分在指导长期用药决策中的局限性。
模型性别中立性：研究对两个外部队列（共2542名患者）进行了性别分层分析，发现男性和女性患者中模型的性能无显著差异，证实了该模型能够提供具有公平性和包容性的风险评估。

临床意义

这项研究具有重要的临床转化价值。首先，它清晰地证明了机器学习方法在个体化医学中的实际应用潜力。与传统的静态评分不同，ML模型能够更准确地捕捉多个临床变量之间的复杂关系，从而为每位患者提供更贴切的风险估计。这种更高的准确性直接转化为更科学的临床决策——对真正高风险的患者及时启动抗凝血治疗，避免不必要的药物相关风险；对低风险患者则避免过度治疗。

其次，本研究所建立的模型具有可解释性，这对于临床接受度至关重要。逻辑回归和XGBoost这两种算法都能够清晰地说明各个因素对风险的影响程度，医生可以理解模型”为什么”做出这样的预测，而不是简单地信任一个黑箱。这种透明度有助于医疗团队与患者进行更有深度的沟通，制定共同的治疗决策。

第三，这项研究开发了基于网页的实施工具，使得这些模型可以在真实的医院临床环境中便捷部署。医生无需掌握复杂的统计学或编程知识，即可在电子病历系统中集成这些模型，快速生成风险预测结果，支持日常的临床决策。这种易于使用的决策支持工具，特别是在资源有限的地区，有望显著改善房颤患者的卒中预防策略。

局限性

尽管这项研究具有多个优势，但仍需指出其局限性。首先，外部验证队列虽然来自独立医疗机构，但仍主要基于亚洲（台湾）人口，其结果能否推广到其他种族和地理区域的患者，有待进一步研究证实。其次，模型所使用的变量仅限于年龄、合并症和用药信息，并未纳入其他可能重要的临床因素，如心脏成像指标、生物标志物或生活方式因素，这些因素在未来可能进一步提升预测性能。

此外，本研究的主要结局为1年中风风险，对于更长期的风险预测（如5年或10年）的适用性有待验证。最后，虽然研究进行了性别分层分析，但并未深入探讨其他可能的亚群体差异，例如不同年龄段或特定合并症患者群体的模型表现。未来的研究应进一步拓展模型的外部验证范围和人群多样性，并在实际临床环境中进行前瞻性的应用评估。

Original paper: Interpretable machine learning models for stroke risk prediction in patients with newly diagnosed atrial fibrillation. — NPJ digital medicine. 10.1038/s41746-026-02470-3

🎧 收听播客