Estudos descobriram que o desempenho dos modelos de linguagem de grande escala (LLMs) mais avançados atualmente ainda é significativamente inferior ao dos médicos humanos em diagnósticos clínicos:
-
A taxa de diagnóstico correto dos médicos é de 89%, enquanto a taxa de diagnóstico correto dos LLMs é de apenas 73%. Para algumas doenças (como colecistite), a taxa de acerto dos LLMs é de apenas 13%.
-
Os LLMs têm um desempenho fraco em seguir diretrizes de diagnóstico, agendar exames necessários e interpretar resultados laboratoriais, tendendo a omitir informações importantes ou fazer diagnósticos apressados.
-
Os LLMs também têm problemas em seguir orientações médicas básicas, cometendo erros a cada 2-4 casos e inventando orientações inexistentes a cada 2-5 casos.
-
Fornecer mais informações sobre os casos na verdade reduz a precisão do diagnóstico dos LLMs, indicando que eles não conseguem processar informações complexas de forma eficaz.
-
LLMs médicos especializados não apresentaram desempenho significativamente melhor que LLMs gerais.
Os pesquisadores acreditam que os LLMs ainda precisam de extensa supervisão clínica para serem aplicados com segurança. Pesquisas futuras devem validar ainda mais a eficácia dos LLMs em ambientes clínicos reais e fortalecer a colaboração entre especialistas em IA e médicos clínicos para otimizar a aplicação de LLMs na área médica.
Apesar disso, a IA ainda tem um enorme potencial na área médica. Por exemplo, o modelo Med-PaLM2 do Google já atingiu o nível de especialista em alguns testes médicos. No futuro, a IA pode desempenhar um papel importante no diagnóstico assistido, pesquisa médica e outras áreas, mas ainda é cedo para substituir os médicos humanos.