AI在臨床決策中表現不佳:正確率低至13%,遠遜人類醫生

以急診科醫生的角色測試大語言模型,探究其在醫療場景中的表現和潛力。評估模型對緊急醫療情況的理解、診斷能力和處置建議的準確性,揭示人工智能在臨床決策支持方面的優勢與局限。

研究發現,目前最先進的大語言模型(LLM)在臨床診斷方面的表現仍明顯不如人類醫生:

  • 醫生的診斷正確率為89%,而LLM的診斷正確率僅為73%。在某些疾病(如膽囊炎)的診斷中,LLM的正確率甚至只有13%。

  • LLM在遵循診斷指南、安排必要檢查、解讀實驗室結果等方面表現不佳,容易遺漏重要資訊或做出草率診斷。

  • LLM在遵循基礎醫學指導方面也存在問題,每2-4個病例就會出現錯誤,每2-5個病例就會虛構不存在的指導。

  • 提供更多病例資訊反而會降低LLM的診斷準確度,表明其無法有效處理複雜資訊。

  • 專業醫學LLM在整體表現上未顯著優於通用LLM。

研究者認為,LLM目前仍需大量臨床監督才能安全應用。未來研究應進一步驗證LLM在真實臨床環境中的有效性,並加強AI專家與臨床醫生的合作,以優化LLM在醫療領域的應用。

儘管如此,AI在醫療領域仍有巨大潛力。例如谷歌的Med-PaLM2模型在某些醫學測試中已達到專家水平。未來AI可能在輔助診斷、醫學研究等方面發揮重要作用,但取代人類醫生還為時尚早。

原文連結