AI在临床决策中表现不佳:正确率低至13%,远不如人类医生

以急诊科医生的角色测试大语言模型,探究其在医疗场景中的表现和潜力。评估模型对紧急医疗情况的理解、诊断能力和处置建议的准确性,揭示人工智能在临床决策支持方面的优势与局限。

研究发现,目前最先进的大语言模型(LLM)在临床诊断方面的表现仍明显不如人类医生:

  • 医生的诊断正确率为89%,而LLM的诊断正确率仅为73%。在某些疾病(如胆囊炎)的诊断中,LLM的正确率甚至只有13%。

  • LLM在遵循诊断指南、安排必要检查、解读实验室结果等方面表现不佳,容易遗漏重要信息或做出草率诊断。

  • LLM在遵循基础医学指导方面也存在问题,每2-4个病例就会出现错误,每2-5个病例就会虚构不存在的指导。

  • 提供更多病例信息反而会降低LLM的诊断准确度,表明其无法有效处理复杂信息。

  • 专业医学LLM在整体表现上未显著优于通用LLM。

研究者认为,LLM目前仍需大量临床监督才能安全应用。未来研究应进一步验证LLM在真实临床环境中的有效性,并加强AI专家与临床医生的合作,以优化LLM在医疗领域的应用。

尽管如此,AI在医疗领域仍有巨大潜力。例如谷歌的Med-PaLM2模型在某些医学测试中已达到专家水平。未来AI可能在辅助诊断、医学研究等方面发挥重要作用,但取代人类医生还为时尚早。

原文链接