AI と人間の協働で臨床試験の効率化へ - 心血管イベント判定の新アルゴリズム

臨床試験では、心血管イベントの判定が専門家の大きな負担になっています。そこで今回、適応型AIアルゴリズム「ADAPT-CEC」という新しいアプローチが、人間並みの精度を保ちながら、AI と人間が手を組むことで試験全体を効率化できる道を開く可能性が報告されました。

背景：臨床試験における課題

臨床試験では、心筋梗塞や脳卒中といった心血管イベントを見落とさないことが非常に重要です。ただ現実は厳しく、患者の医療記録からこれらのイベントを正確に拾い出すには、専門家が膨大な時間を費やす必要があります。さらに複数の試験では定義がまちまちなため、判定の基準を揃えるのが本当に難しい。

ここ数年、生成系AIが医学文献の解析に役立つ可能性が注目されています。とはいえ、ChatGPTのような汎用モデルが本当に医学的な判断の場面で使えるのか、実は誰もはっきりとは知りませんでした。

主な発見

研究チームは ODYSSEY OUTCOMES試験のデータを使って ADAPT-CEC を開発し、別の EUCLID試験で実際に使えるか検証してみました。すると、次のような結果が得られたんです。

ADAPT-CEC の性能： EUCLID試験で試してみると、心血管イベントの 86.4% を正確に判定し、イベントでない症例は 99.4% の確率で正しく除外できました。つまり、人間の専門家と同じレベルの精度を達成したんです。
GPT 4.0 との比較： ちなみに GPT 4.0 をそのまま使うと出血イベント判定が弱く、F1スコアで 0.56 にとどまりました。対する ADAPT-CEC は 0.78 まで向上させることができた。
ハイブリッド方式の優位性： 注目すべきは、AI が自信を持てない症例の上位 30% に限って人間が確認するというハイブリッド方式。この方法を使うと F1スコアが 0.80〜0.94 まで大きく向上し、イベントを見逃さない精度は 95.6%、逆にイベントでない症例を正しく除外できる特異度は 99.6% にまで高まりました。
試験の信頼性維持： 重要なポイントとして、判定方法がどれであっても（従来の人間による判定、ADAPT-CEC 単独、ハイブリッド、GPT 4.0）、EUCLID試験の最終的な治療効果の結論は変わりませんでした。いずれの方法でも有意な治療効果は見られず（ハザード比 0.98〜1.06）、試験全体の信頼性が損なわれることはありませんでした。

臨床的意義

この研究から見えてくるのは、臨床試験の判定作業がどれだけ簡単になる可能性があるかということ。特にハイブリッド方式は、実際に使えそうな利点がいくつかあります。

AI が自信を持てない症例だけを人間がチェックすればいいから、専門家の時間をずっと効率よく使える。
従来の人間判定と同じ精度を保ちながら、コストも処理時間も減らせる。
試験によって定義がバラバラでも、統一した判定基準で扱えるようになります。

要するに、臨床試験を増やしたり、データ分析を早く進めたりできるようになって、結果として患者さんが新しい治療法にたどり着くのが少し早くなるかもしれません。

今後の課題

とはいえ、今回の研究はあくまで出発点に過ぎません。実際の臨床試験で使う前には、前向きな検証研究をもっと重ねる必要があります。がん試験や心臓病試験など、異なる領域でも同じように効くのか、実装するならどうすればいいのか、そういった課題が残っています。品質をきちんと保ち、新しい医学情報に自動で対応していく仕組みも作らなければなりません。

Original paper: Adaptive AI for Cardiovascular Event Adjudication: Cardiovascular Event Adjudication Across Different Definitions in the ODYSSEY OUTCOMES and EUCLID Trials. — Circulation. 10.1161/CIRCULATIONAHA.126.080072

🎧 ポッドキャストを聴く