臨床推論AI、完全性はまだ遠い：21のLLMの実力を検証

新たなベンチマークテストにより、最先端のLLMでさえ臨床的意思決定には十分な能力を備えていないこと、特に鑑別診断において著しい弱点があることが明らかになりました。

背景

大規模言語モデル（LLM）の医療応用への期待が高まる中、これらのモデルが実際にどの程度の臨床推論能力を持つかは十分に検証されていません。本研究では、新たに開発されたPrIME-LLMという多次元ベンチマークを用いて、21種類の最先端LLMの臨床推論能力を系統的に評価しました。この評価には、GPT-5、Claude 4.5 Opus、Gemini 3.0、Grok 4など、現在利用可能な最新モデルが含まれています。評価対象となった臨床事例は、医学教科書として広く知られるMSD Manualから選択された29個の標準化された事例で、医学生が5つの臨床推論領域（鑑別診断、診断検査、確定診断、治療管理、その他の臨床推論）にわたってモデルの応答を採点しました。

主な発見

PrIME-LLMスコアは0.64から0.78の範囲で変動し、推論最適化モデルが非推論モデルを有意に上回りました（平均0.76 vs 0.67、p<0.001）。これは、推論能力に特化した設計がLLMの臨床性能に大きな影響を与えることを示しています
鑑別診断は全モデルで最も性能が低く、失敗率が0.80を超えていたのに対し、確定診断は最も精度が高く、失敗率は0.40未満でした。この差は、確定診断がより構造化された問題であることと関連していると考えられます
PrIME-LLMフレームワークは従来の総合精度指標よりも優れたモデル間の差別化を提供し、標準的ベンチマークでは見落とされやすい推論の弱点を明らかにしました。これは、複数の臨床推論領域にわたる均衡の取れた評価の重要性を示唆しています
マルチモーダル入力（画像含む）による性能改善は限定的で不安定であり、18のマルチモーダル対応モデルのうち、有意な改善を示したのは7モデルのみでした。医療画像の統合がAI性能向上に直結しないことが示されました
設問の種類による性能差が顕著で、ほぼすべてのモデルにおいて確定診断が鑑別診断や診断検査項目を上回りました。この傾向は設問の複雑性と構造の違いを反映しています

臨床的意義

これらの結果は、現在のLLMが患者に直接向けた安全で信頼性の高い臨床意思決定支援にはまだ準備ができていないことを明確に示しています。特に、正確な鑑別診断の生成という基本的な課題は、モデルの世代が進んでも依然として解決されていません。診療の第一段階となる鑑別診断における高い失敗率は、多くの患者が正確な診断を受けられないリスクを意味します。

したがって、医療機関がAIシステムを導入する際には、以下の原則に従うべきです。第一に、AIは臨床医の独立した判断を補助する補完的な役割に限定し、AIの判断を唯一の根拠として用いてはいけません。第二に、診断の不確実性が低い限定的な応用、例えば確定診断の確認や標準的な治療プロトコルの提示など、臨床医による監督と検証が容易な領域に限定して使用すべきです。

限界

本研究で使用された29個の臨床事例はMSD Manualから選択されたものであり、実際の臨床診療に見られるさらに複雑で多くの共存症を伴う事例への一般化には限界があります。また、医学生による評価という方法も、臨床経験を積んだ医師による評価とは異なる可能性があり、評価の厳密さや基準に差が生じている可能性があります。さらに、本研究で評価されたモデルは急速に進化し続けており、将来のモデルの性能がどう変わるかについては、この研究からは予測できません。今後は、より多くの臨床事例の検証と、実際の臨床診療環境での性能評価が必要とされています。

Original paper: Large Language Model Performance and Clinical Reasoning Tasks. — JAMA network open. 10.1001/jamanetworkopen.2026.4003

🎧 ポッドキャストを聴く