AI tiene un mal desempeño en la toma de decisiones clínicas: precisión tan baja como 13%, muy inferior a los médicos humanos

En el papel de médico de urgencias, poner a prueba los modelos de lenguaje de gran escala para explorar su desempeño y potencial en escenarios médicos. Evaluar la comprensión del modelo de situaciones médicas de emergencia, su capacidad de diagnóstico y la precisión de sus recomendaciones de tratamiento, revelando las ventajas y limitaciones de la inteligencia artificial en el apoyo a la toma de decisiones clínicas.

Un estudio ha encontrado que los modelos de lenguaje grande (LLM) más avanzados actuales aún tienen un rendimiento significativamente inferior al de los médicos humanos en el diagnóstico clínico:

  • La precisión diagnóstica de los médicos es del 89%, mientras que la de los LLM es solo del 73%. En el diagnóstico de ciertas enfermedades (como la colecistitis), la precisión de los LLM es de solo el 13%.

  • Los LLM tienen un desempeño deficiente en seguir pautas de diagnóstico, programar exámenes necesarios e interpretar resultados de laboratorio, y tienden a omitir información importante o hacer diagnósticos apresurados.

  • Los LLM también tienen problemas para seguir las pautas médicas básicas, cometiendo errores cada 2-4 casos y fabricando pautas inexistentes cada 2-5 casos.

  • Proporcionar más información sobre los casos en realidad reduce la precisión diagnóstica de los LLM, lo que indica que no pueden manejar eficazmente información compleja.

  • Los LLM médicos especializados no mostraron un rendimiento significativamente mejor que los LLM generales en general.

Los investigadores creen que los LLM aún requieren una supervisión clínica sustancial para una aplicación segura. Las investigaciones futuras deberían validar aún más la efectividad de los LLM en entornos clínicos reales y fortalecer la colaboración entre expertos en IA y médicos clínicos para optimizar la aplicación de LLM en el campo médico.

Sin embargo, la IA aún tiene un enorme potencial en el campo médico. Por ejemplo, el modelo Med-PaLM2 de Google ya ha alcanzado el nivel de experto en algunas pruebas médicas. En el futuro, la IA podría desempeñar un papel importante en el diagnóstico asistido y la investigación médica, pero aún es demasiado pronto para reemplazar a los médicos humanos.

Enlace al artículo original