多智能体大语言模型在肝脏移植候选人选择中的应用:AI如何提升公平性和准确性

一项新发表于《柳叶刀·数字健康》的研究表明,由多个大语言模型组成的AI医学委员会能够以高准确率和公平性评估肝脏移植候选人,这为使用人工智能改进器官移植选择决策提供了重要证据。

背景

肝脏移植是终末期肝病患者的救命治疗,但可用的肝脏数量有限。传统的移植候选人选择流程由多学科医学委员会进行,包括肝脏移植医生、外科医生、心脏病医生等专家。这一过程涉及复杂的临床判断,面临着两个主要挑战:首先,不同医疗中心和医生之间的决策标准可能存在变异;其次,隐性偏见可能影响候选人的选择,导致某些人口群体获得器官移植的机会不公等。

随着大语言模型(LLM)技术的发展,研究人员开始探索如何利用多智能体AI系统来模拟多学科临床决策过程。这项研究将这一概念应用于肝脏移植候选人的选择,以验证AI系统是否能提供更加客观、数据驱动的决策支持,同时减少偏见。

主要发现

  • 高准确率的生存预测:AI委员会在1年生存预测上达到92.00%的准确率(95% CI 91.43–92.58),灵敏度完美(100%),特异性为66%;在6个月生存预测上达到94.88%的准确率(95% CI 94.37–95.29),灵敏度为100%,特异性为75%。
  • 准确识别禁忌症:AI系统在识别绝对禁忌症方面表现优异,准确率达到98.19%(95% CI 97.90–98.44),灵敏度为100%,特异性为91%。
  • 分析假阴性和假阳性:研究详细分析了AI系统的失误情况。最常见的假阴性(本应入选但被拒绝)原因是肝细胞癌不符合米兰标准,占假阴性病例的61%至62%。在假阳性病例(被选中但不应该)中,1年内死亡的最常见原因是恶性肿瘤,占481例假阳性患者的28%。
  • 出色的公平性表现:AI委员会在不同人口统计学群体(包括不同种族、性别、年龄等)间表现出良好的集体公平性,不公平影响评分在0.960及以上。这意味着各个人口群体获得器官移植机会的差异最小。

临床意义

这项研究的发现具有多方面的临床和政策意义。首先,多智能体AI系统能够通过让不同专科的LLM智能体扮演特定角色(肝脏移植医生、外科医生、心脏病医生、社会工作者)来模拟真实的多学科委员会讨论,这种方法在保留临床决策复杂性的同时,提供了更加标准化和客观的评估框架。

其次,AI系统在保持高灵敏度(即很少遗漏应该入选的候选人)的同时,能够进行较为准确的生存预测。这对器官移植至关重要,因为遗漏真正受益于移植的患者所带来的临床损失远大于不必要地拒绝某个患者。

最重要的是,AI系统展现出的公平性优势可能有助于解决移植医学中长期存在的健康差异问题。通过消除或减少人为的主观判断,基于数据驱动的AI决策有望为所有患者提供更加公平的器官分配机会,这对医疗公正具有深远意义。

这套框架不仅可以应用于肝脏移植的标准化,还可能推广到其他复杂的多学科临床决策场景,如肿瘤病房讨论、危重症临床查房等,为整个医疗决策系统的现代化提供新的思路。

局限性

尽管这项研究的成果显著,但仍存在需要认识的局限性。首先,研究使用的是来自美国器官移植登记库(SRTR)的历史数据以及合成生成的数据,这些数据可能不完全反映其他地区或医疗系统的真实情况。其次,AI系统的输入数据基于结构化的临床信息,但实际的移植决策往往还需要考虑患者和家属的意愿、社会因素等定性信息,这些信息可能难以完全数字化。

此外,尽管灵敏度达到100%,但特异性相对较低(1年预测为66%,6个月为75%),这意味着AI系统可能会推荐一些不应该进行移植的患者。虽然研究分析了导致此情况的主要原因(如恶性肿瘤风险),但在实际临床应用中,如何权衡这一风险仍需进一步研究。

最后,目前的研究仅展示了AI系统在病例级决策上的表现,但未涉及实际的临床工作流程整合。在真实的医疗环境中,AI建议如何与现有的医学知识和临床经验相结合,需要进一步的验证和调整。

Original paper: A multiagent large language model-based system to simulate the liver transplant selection committee: a retrospective cohort study. — The Lancet. Digital health. 10.1016/j.landig.2025.100966