AI在臨床決策中表現不佳：正確率低至13%，遠遜人類醫生

研究發現，目前最先進的大語言模型（LLM）在臨床診斷方面的表現仍明顯不如人類醫生：

研究者認為，LLM目前仍需大量臨床監督才能安全應用。未來研究應進一步驗證LLM在真實臨床環境中的有效性，並加強AI專家與臨床醫生的合作，以優化LLM在醫療領域的應用。

儘管如此，AI在醫療領域仍有巨大潛力。例如谷歌的Med-PaLM2模型在某些醫學測試中已達到專家水平。未來AI可能在輔助診斷、醫學研究等方面發揮重要作用，但取代人類醫生還為時尚早。

以急診科醫生的角色測試大語言模型，探究其在醫療場景中的表現和潛力。評估模型對緊急醫療情況的理解、診斷能力和處置建議的準確性，揭示人工智能在臨床決策支持方面的優勢與局限。