臨床推論AI、完全性はまだ遠い：21のLLMの実力を検証

MedAI Digest (JA)

MedAI Digest (JA)

臨床推論AI、完全性はまだ遠い：21のLLMの実力を検証

00:00 /

新たなベンチマークテストにより、最先端のLLMでさえ臨床的意思決定には十分な能力を備えていないこと、特に鑑別診断において著しい弱点があることが明らかになりました。

Original paper: Large Language Model Performance and Clinical Reasoning Tasks. — JAMA network open. 10.1001/jamanetworkopen.2026.4003

📄 記事を読む