We also have X and podcasts
臨床推論AI、完全性はまだ遠い:21のLLMの実力を検証
/
RSS Feed
新たなベンチマークテストにより、最先端のLLMでさえ臨床的意思決定には十分な能力を備えていないこと、特に鑑別診断において著しい弱点があることが明らかになりました。
Original paper: Large Language Model Performance and Clinical Reasoning Tasks. — JAMA network open. 10.1001/jamanetworkopen.2026.4003




