脊椎圧迫骨折の合併症予測:LLMsと従来の機械学習モデルの比較

大規模言語モデル(LLMs)は骨セメント漏出の予測に有用な可能性を示しましたが、新規椎体骨折の予測では従来の機械学習モデルに劣ることが報告されました。

背景

骨粗鬆症による椎体圧迫骨折に対する経皮的後弯矯正術(kyphoplasty)は、疼痛緩和に有効な低侵襲治療です。しかし、骨セメント漏出(BCL)や新規椎体骨折(NVF)などの合併症が発生する可能性があり、術前の正確な予測は臨床判断の重要な要素となります。

本研究では、GPT-5およびDeepSeek R1といった最新のLLMsと、従来の機械学習モデル、さらには脊椎外科医の判断を比較し、それぞれの予測性能を評価しました。

主な発見

骨セメント漏出(BCL)の予測

  • LLMsはF1スコア0.857~0.871、マシューズ相関係数(MCC)0.164~0.332の性能を示し、従来の機械学習モデルと同等の予測精度を達成しました
  • LLMsの性能は外科医の判断のみよりもわずかに優れていました
  • LLMが提供した説明は、外科医の意思決定を支援する効果がみられました

新規椎体骨折(NVF)の予測

  • Zero-shot学習(事前学習のみ)でのLLMの性能は低く、F1スコア0.309、MCC 0.044にとどまりました
  • Few-shot学習(いくつかの事例を学習に含める)により性能が向上しましたが、従来のモデルほど高くはありませんでした
  • RBF-SVM(動径基底関数サポートベクターマシン)がNVF予測で最良の性能を示しました
  • LLMの説明はNVF予測の医師の意思決定を支援しませんでした

合併症の詳細分類予測

  • LLMsは合併症の詳細な下位分類の予測性能が低かったです

臨床的意義

本研究から、LLMsが後処理の合併症予測に一定の有用性を持つ可能性が示唆されました。特に骨セメント漏出予測では、LLMsが提供する説明が外科医の意思決定を補助する価値がある可能性があります。

しかし同時に、LLMsが臨床実装に向けては成熟度が不十分であることも明らかになりました。予測対象や臨床的文脈によっては、従来の機械学習モデルがより信頼性の高い性能を提供することが示されています。

限界

  • 本研究は単一の三次医療機関での実施であり、外部検証が必要です
  • Reproducibility(再現性)が低いと評価されており、結果の一般化可能性に課題があります
  • 臨床導入に向けては、さらなるモデル開発と多施設での検証が必須です

Original paper: Comparative performance of LLMs and machine learning in predicting complications after percutaneous kyphoplasty for osteoporotic vertebral compression fractures. — NPJ digital medicine. 10.1038/s41746-026-02588-4