研究发现,目前最先进的大语言模型(LLM)在临床诊断方面的表现仍明显不如人类医生:
-
医生的诊断正确率为89%,而LLM的诊断正确率仅为73%。在某些疾病(如胆囊炎)的诊断中,LLM的正确率甚至只有13%。
-
LLM在遵循诊断指南、安排必要检查、解读实验室结果等方面表现不佳,容易遗漏重要信息或做出草率诊断。
-
LLM在遵循基础医学指导方面也存在问题,每2-4个病例就会出现错误,每2-5个病例就会虚构不存在的指导。
-
提供更多病例信息反而会降低LLM的诊断准确度,表明其无法有效处理复杂信息。
-
专业医学LLM在整体表现上未显著优于通用LLM。
研究者认为,LLM目前仍需大量临床监督才能安全应用。未来研究应进一步验证LLM在真实临床环境中的有效性,并加强AI专家与临床医生的合作,以优化LLM在医疗领域的应用。
尽管如此,AI在医疗领域仍有巨大潜力。例如谷歌的Med-PaLM2模型在某些医学测试中已达到专家水平。未来AI可能在辅助诊断、医学研究等方面发挥重要作用,但取代人类医生还为时尚早。