医療予測の未来：LLMは従来型AIに勝つのか？

NPJ digital medicineに掲載された最新研究から、臨床予測タスクにおいて最新のLLMが従来の機械学習やBERTベースモデルを大幅に上回る性能を示していることが明らかになりました。今後の医療機関のAI選択戦略に大きな影響を与えるこの知見を、詳しく解説します。

背景：医療予測に適したAIモデルはどれか

臨床予測タスク（患者の死亡リスク、再入院確率、入院期間の予測など）では、これまで専門領域で学習したBERTベースモデル（ClinicalBERTやGatorTronなど）や従来の機械学習が主流でした。一方、ChatGPTなどの大規模言語モデル（LLM）は「汎用」であり、医療分野には不向きだと考えられてきました。しかし、2025年以降のLLMの急速な進化に伴い、この仮説は再検討を迫られています。

主な発見

未学習データでのLLMの優位性： 最新LLMのDeepSeek-R1（AUROC 90.75%）とGPT-5（89.75%）は、調整なしの状態（ゼロショット）で、微調整したBERT系モデル（GatorTron 87.97%）を実質的に上回りました。
データが少ない場合はLLMが有利： 構造化された患者データ（EHR）でも、学習用データが限定的な場合（10サンプルのみの学習）には、最新のLLMがGPT-5やDeepSeek-R1で優れた性能を発揮しました。
オープンソースLLMの実力： DeepSeekなどのオープンソースLLMは、商用製品（GPT-5、GPT-4o）と同等以上の性能を達成し、医療機関が低コストで高精度のツールにアクセス可能になる見込みが示されました。
複数データ型の組み合わせは限定的： 臨床テキストと数値データを組み合わせても、臨床テキスト単独と同程度か、むしろ性能が低下するケースが見られました。
推論の品質と失敗パターン： 臨床医5名による評価では、LLMの推論は概ね高品質でしたが、根拠のない推定（幻覚）と不正確な臨床判断の2つの失敗パターンが特定されました。
公平性の優位性： 年齢、性別、人種などの属性別に分析すると、ゼロショットLLMは従来の学習済みモデルより公平な予測を行いました。

臨床的意義

この研究結果は、医療機関のAI導入戦略に根本的な転換をもたらす可能性があります。データが乏しい小規模な医療機関や、新しい臨床課題に素早く対応したい組織にとって、最新のLLMは「誰でも使える」高精度な選択肢になりました。一方、構造化データが豊富にあり、安定した予測が求められる大規模機関では、従来の専門モデルが依然として選択肢の一つです。ただし、プロンプトエンジニアリング（入力データの工夫）は、モデルの信頼性向上とバイアス軽減の両面で有効なツールとなり得ます。

研究の限界

本研究は米国のICUデータを中心に実施されており、日本の医療環境への直接的な適用には注意が必要です。また、ゼロショット学習は便利ですが、医療機関固有の患者特性やドキュメント形式への適応には限界があるかもしれません。さらに、LLMの「幻覚」問題は研究で指摘されていますが、それを現場でどう検出・管理するかは明確ではなく、実装前の十分な検証が不可欠です。

Original paper: ClinicRealm: Re-evaluating large language models with conventional machine learning for non-generative clinical prediction tasks. — NPJ digital medicine. 10.1038/s41746-026-02539-z

🎧 ポッドキャストを聴く