研究發現,目前最先進的大語言模型(LLM)在臨床診斷方面的表現仍明顯不如人類醫生:
-
醫生的診斷正確率為89%,而LLM的診斷正確率僅為73%。在某些疾病(如膽囊炎)的診斷中,LLM的正確率甚至只有13%。
-
LLM在遵循診斷指南、安排必要檢查、解讀實驗室結果等方面表現不佳,容易遺漏重要資訊或做出草率診斷。
-
LLM在遵循基礎醫學指導方面也存在問題,每2-4個病例就會出現錯誤,每2-5個病例就會虛構不存在的指導。
-
提供更多病例資訊反而會降低LLM的診斷準確度,表明其無法有效處理複雜資訊。
-
專業醫學LLM在整體表現上未顯著優於通用LLM。
研究者認為,LLM目前仍需大量臨床監督才能安全應用。未來研究應進一步驗證LLM在真實臨床環境中的有效性,並加強AI專家與臨床醫生的合作,以優化LLM在醫療領域的應用。
儘管如此,AI在醫療領域仍有巨大潛力。例如谷歌的Med-PaLM2模型在某些醫學測試中已達到專家水平。未來AI可能在輔助診斷、醫學研究等方面發揮重要作用,但取代人類醫生還為時尚早。