AI在临床决策中表现不佳：正确率低至13%，远不如人类医生

研究发现，目前最先进的大语言模型（LLM）在临床诊断方面的表现仍明显不如人类医生：

研究者认为，LLM目前仍需大量临床监督才能安全应用。未来研究应进一步验证LLM在真实临床环境中的有效性，并加强AI专家与临床医生的合作，以优化LLM在医疗领域的应用。

尽管如此，AI在医疗领域仍有巨大潜力。例如谷歌的Med-PaLM2模型在某些医学测试中已达到专家水平。未来AI可能在辅助诊断、医学研究等方面发挥重要作用，但取代人类医生还为时尚早。

以急诊科医生的角色测试大语言模型，探究其在医疗场景中的表现和潜力。评估模型对紧急医疗情况的理解、诊断能力和处置建议的准确性，揭示人工智能在临床决策支持方面的优势与局限。