仅用肿瘤样本也能精准诊断——深度学习模型VarNet-T改革肿瘤突变检测

VarNet-T是一种新型深度学习框架，能够在仅有肿瘤样本的情况下准确识别体细胞变异并估计肿瘤突变负荷（TMB），相比现有方法性能提升20-33%，有望改善癌症患者的免疫疗法精准筛选。

背景

肿瘤突变负荷（TMB）已成为癌症免疫疗法反应的重要预测指标之一。TMB高的患者通常更容易产生新抗原，对免疫检查点抑制剂（如PD-1/PD-L1抑制剂）的反应更好。因此，准确估计TMB对于优化患者选择、指导个体化治疗方案至关重要。

然而，当前的体细胞变异识别技术面临一个重大临床困境：标准方法需要同时拥有患者的肿瘤样本和配对的正常组织样本来区分真实的肿瘤特有突变和遗传背景中的正常变异。但在临床实践中，这种配对样本往往难以获得。许多医疗机构、生物库和病理档案中只保存了肿瘤样本，没有相应的正常组织。这导致在这些常见的临床场景中，TMB无法被准确计算，患者因此失去接受精准免疫疗法的机会。

为了克服这一瓶颈，一种新的方法论应运而生——利用深度学习算法，从仅有的肿瘤样本数据中学习识别体细胞变异的特征，进而实现不需要正常样本就能进行准确变异检测和TMB估计。VarNet-T就是在这一背景下开发的突破性框架。

主要发现

显著的变异检测性能提升：VarNet-T在SEQC2基准数据集上实现了曲线下面积（AUPRC）为0.773，相比现有最好的肿瘤-仅变异检测方法（0.577）提升了33%，展现出卓越的单核苷酸变异（SNV）和插入缺失（indel）检测能力。
TMB分类准确率的重大突破：VarNet-T在TMB-高患者识别中实现了88%的F1分数，相比现有方法的43-55%提升了超过3倍，同时在所有癌症类型中的误分类率仅为5%，这个指标对于临床决策至关重要。
与配对样本结果的高度一致：当与传统的肿瘤-正常配对样本方法相比，VarNet-T估计的TMB与标准值的Pearson相关系数达到0.82，而同类深度学习方法DeepSomatic仅为0.57，传统Mutect2方法仅为0.21。这表明VarNet-T的估计结果具有临床可信度。
泛癌症适用性优于专病模型：研究团队开发了一个统一的泛癌症模型，在包括7种癌症类型的356个肿瘤-正常全基因组样本对的训练数据上进行训练（包含125万个高可信度SNVs和105万个indels）。该泛癌症模型的性能不仅超过了针对特定癌症类型的专病模型，而且对训练数据中未包含的癌症类型也表现出良好的泛化能力，这在临床应用中意味着更强的通用性。
多数据集的独立验证：VarNet-T的性能在COLO829细胞系参考数据、10个PCAWG全基因组肿瘤样本和来自10种癌症类型的1000个TCGA全外显子组测序样本上都得到了一致验证，表明其结果的稳健性和可复现性。

临床意义

VarNet-T的开发解决了精准肿瘤学中的一个关键瓶颈。在许多现实的临床环境中——包括诊疗中心的日常工作流程、生物样本库的档案资源，以及使用历史病理样本的回顾性研究——研究者和临床医生往往只能获取肿瘤组织样本。VarNet-T使得在这些常见情景下也能进行准确的TMB估计成为可能。

对于免疫疗法的患者筛选而言，这尤其重要。TMB高的患者被认为更有可能从免疫检查点抑制剂治疗中获益。准确的TMB估计可以帮助临床医生识别适合接受这类治疗的患者，避免不必要的治疗，并为无法获取配对正常样本的患者群体提供精准治疗选择。此外，VarNet-T所实现的高准确率和低误分类率使其有潜力直接应用于临床检测流程中，成为辅助诊断和治疗决策的可信工具。

局限性

尽管VarNet-T展现出令人印象深刻的性能，但作为一种深度学习方法，其应用仍存在一些需要关注的方面。首先，该模型基于特定的测序技术和数据预处理流程进行训练，这意味着在应用于不同的测序平台或数据处理管线时，其性能表现可能会有所差异。其次，虽然模型在已测试的10种癌症类型上表现良好，但对于罕见癌症类型或分子特征差异显著的肿瘤，其准确性仍需进一步验证。此外，与所有AI模型一样，VarNet-T的决策过程具有”黑盒”特性，这在临床应用中需要与传统的可解释性强的方法相结合，以确保诊断结果的临床可接受性。

Original paper: Improved tumor-only variant calling and mutation burden estimation with VarNet-T. — Nature communications. 10.1038/s41467-026-71705-4

🎧 收听播客