用AI加速罕见癌症诊断:PathPT框架如何解决数据稀缺难题

近期发表在《自然通讯》上的研究展示了一个名为PathPT的新框架,通过少量提示调优技术,显著改进了罕见癌症亚型的诊断准确率,在仅有少量注释数据的情况下实现了可与传统方法媲美甚至超越的诊断性能。

背景:罕见癌症诊断的核心困境

对于临床病理医生而言,罕见癌症的诊断是一项艰巨挑战。罕见癌症患者数量少,导致病理医生缺乏充分的病例接触经验;某些罕见的肿瘤亚型可能只在大型医学中心才有少量收集的标本;许多发展中国家和资源匮乏地区,既缺少充足的医学影像数据,也缺少具备诊断这些罕见疾病的病理专家。这些因素共同导致罕见癌症患者的诊断延迟和误诊率较高,严重影响患者的治疗时机和预后。

近年来,深度学习方法在医学影像分析中取得重要进展,但这些方法通常需要大量标注数据进行训练,这对罕见病诊断而言成为了实际的障碍。因此,开发能够在数据极其有限的情况下仍能进行准确诊断的AI系统,成为推进医学AI民主化的关键课题。

主要发现

  • 在EBRAINS脑肿瘤数据集上(包含30个亚型、采用10样本学习设置),PathPT-KEEP框架达到了0.679的平衡准确率,相比零样本基线提升0.271,且全面超越了包括ABMIL、CLAM、TransMIL和DGRMIL在内的四种多实例学习方法。
  • 在儿科罕见癌症诊断中展现了显著优势,包括肾母细胞瘤、肝母细胞瘤、髓母细胞瘤和神经母细胞瘤等多种肿瘤类型,准确度提升均超过20个百分点。
  • 跨医疗中心泛化能力强:以新华医院数据训练、绍兴儿童医院数据测试,在未进行微调的情况下,相比零样本基线仍获得0.09的平衡准确率提升,表明该方法可顺利适应不同医疗机构的数据分布差异。
  • 在肿瘤区域分割任务上表现突出,5样本学习时DICE系数达0.618,远优于零样本基线的0.239,意味着AI不仅能准确分类肿瘤亚型,还能精确定位病变组织。
  • 在8个罕见癌症数据集(覆盖56个肿瘤亚型、3958例全切片影像来自TCGA、EBRAINS、新华医院和绍兴儿童医院)和3个常见癌症数据集上均表现一致优异,评估了4种不同的基础视觉-语言模型。

这项研究的临床意义

PathPT框架的核心创新在于其高效性和实用性。该框架采用”冻结”的视觉-语言基础模型和可学习的文本提示调优,无需大规模参数微调,大大降低了计算资源和存储需求。这意味着,即使在资源受限的医疗机构——例如发展中国家的中小型医院——也可以快速部署该系统。

与许多”黑箱”AI诊断系统不同,PathPT提供了细粒度的瓷砖级预测和空间定位能力,使病理医生能够直观地看到AI的决策依据。医生可以验证AI指出的肿瘤特征是否与其病理学知识相符,大大增强了对AI诊断的信心和信任度。这种可解释性对临床采纳至关重要,因为病理医生需要理解而非盲目接受AI的建议。

该框架的参数效率特别适合应对医学AI的”长尾”问题。当新的罕见癌症亚型出现,或医疗机构需要适应本地病例特点时,仅需少量(1-10例)新的标注数据就能快速调整系统,而无需从零开始重新训练。这为罕见病诊断的规范化和标准化提供了实际可行的技术方案,有助于缩小不同医疗机构之间的诊断能力差距。

研究的局限性

尽管成果显著,该研究仍存在需要认识的局限。首先,评估主要基于来自已建立医疗体系(如美国TCGA、欧洲EBRAINS)和中国三家医疗机构的数据集,这些机构通常拥有相对规范的样本采集和存储流程。在医疗条件更为资源匮乏或样本制备规程差异更大的地区,系统的表现仍需进一步验证。

其次,少样本学习虽然在实验设置中表现出色,但在1-5样本极端稀缺的真实临床场景中的表现还需更多实证支持。此外,尽管框架减少了标注需求,但仍然需要高质量的专家标注,这对于确实缺乏病理专家的地区可能仍是瓶颈。

最后,该研究聚焦于组织切片的图像分析,尚未涉及临床信息、患者病史等多模态数据的整合,在实际临床应用中可能需要考虑这些因素的联合作用。

Original paper: Boosting pathology foundation models via few-shot prompt-tuning for rare cancer subtyping. — Nature communications. 10.1038/s41467-026-71715-2