深度学习赋能孕期超声筛查:胎儿脑部异常检测系统发展成果

一项国际多中心研究开发了基于人工智能的两阶段深度学习管道,用于自动检测妊娠中期常规超声中的胎儿脑部异常,在独立测试集上实现了0.96的诊断价值,显示出作为临床筛查辅助工具的潜力。

背景

胎儿脑部异常是产前诊断中的重要课题。通过妊娠19-24周的标准化二维超声扫描,医疗团队可以早期发现多种中枢神经系统异常,包括脑积水、颅骨裂、小脑发育不全等。及时的产前诊断对于孕产妇的临床决策、新生儿管理准备和家庭咨询具有重要意义。

然而,胎儿脑部超声的诊断存在明显的地域和操作者依赖特性。在资源有限的地区或非专科医疗中心,经验丰富的胎儿医学医生数量有限,这导致某些异常漏诊率较高。即使在发达国家,异常检出率也因操作者水平而产生显著差异。这种诊断能力的不均一性推动了人工智能辅助诊断工具的研发需求。

深度学习在医学影像分析中的成功应用已有充分证据支持。然而,将这些技术应用于胎儿脑部超声面临独特挑战:胎儿体位变异大、组织边界识别困难、图像质量波动、需要识别多个特定解剖结构。该研究正是在这一背景下,开发了一套考虑解剖学特征的两阶段端到端深度学习管道。

主要发现

  • 研究纳入来自9个国际胎儿医学中心的319张胎儿脑部超声图像(218张正常、101张异常),影像采集时间跨越2010-2022年,孕周范围为19+0至23+6周
  • 两阶段深度学习管道包括:YOLOv5物体检测模型识别六个脑部感兴趣解剖区域,以及HexaNet分类网络(采用Mini-ResNet特征提取器)进行二分类判别
  • 物体检测模型在测试集上的平均精度(mAP@0.5)达到0.93(95% CI 0.90–0.96)
  • 分类模型诊断价值达到0.96(95% CI 0.90–1.00),灵敏度为87%(95% CI 67–100),特异度为91%(95% CI 79–100),F1评分0.84
  • 交叉验证与独立测试间性能表现一致,灵敏度差异为−5%,特异度差异为−4.2%,表明模型泛化能力良好
  • 单张图像平均推理时间约50毫秒,满足临床实时应用需求
  • 在人群筛查患病率为0.1%时重新计算的负预测值高达99.99%,这意味着该工具用于排除异常具有很高的可靠性

临床意义

这项研究的核心价值在于为资源不均衡地区的胎儿脑部异常筛查提供了新的解决方案。诊断价值0.96的表现在医学影像AI领域属于高水平,提示该系统具备作为临床筛查辅助工具的可行性。

从操作者体验角度看,AI系统的优势特别明显。超声诊断高度依赖于操作者的经验和技能,而该深度学习系统能够在标准化的二维超声图像上提供客观、一致的分析。对于资源匮乏的医疗机构或未有专科培训的超声医学医生,这个系统可以作为第一道防线,帮助识别可能的异常,随后转诊给专科医疗中心进行专业评估。

从公共卫生视角看,这种辅助工具的推广应用可能显著提升胎儿脑部异常的整体检出率,尤其是在中等收入和低收入国家。论文中提到的99.99%负预测值数据特别重要——这意味着当系统判断为正常时,几乎可以确信该胎儿不存在所检测范围内的脑部异常。这种高效的筛查能力对于降低出生缺陷、改善围产期结局具有重要意义。

此外,该系统的50毫秒推理时间允许在临床工作流中顺利集成,不会显著增加检查时间。这使得大规模筛查部署成为可能。

局限性

尽管研究成果令人鼓舞,但存在需要谨慎考虑的局限。首先,319张图像的样本量相对较小,尤其是异常组只有101张。虽然来自9个国际中心增强了多样性,但样本量仍可能限制模型在某些特定异常类型上的可靠性。论文并未详细说明异常的具体类型分布,无法评估该系统对各类异常的检测能力是否均衡。

其次,模型开发采用了回顾性数据,这些数据来自过去十多年的不同超声设备和成像协议。虽然这种异质性可能增强泛化能力,但也引入了固有的不确定性。新型超声设备或不同的扫描协议可能改变图像特征,进而影响系统性能。

第三,研究将诊断简化为二分类问题(正常vs.异常),但临床实际情况更加复杂。不同类型的脑部异常具有不同的严重程度和预后,系统无法区分这些差异。此外,某些轻微异常的临床意义可能存在争议,模型的判断界限设定会直接影响假阳性和假阴性率。

最后,该系统的实际临床应用需要在实际工作流中进行前瞻性验证。目前研究的是离线图像分析,而在实际超声操作中,图像采集本身的质量和标准化程度对系统性能也有影响。在缺乏专科培训的操作者获取的图像上,系统性能是否能维持在同样水平,尚需进一步证实。

Original paper: Development of an Integrated Deep Learning Approach for Detecting Fetal Brain Abnormalities in Routine Second Trimester Ultrasound Scan: A Multicenter Study. — Radiology. Artificial intelligence. 10.1148/ryai.250737