L'IA a de mauvaises performances dans la prise de décision clinique : un taux de précision aussi bas que 13%, bien inférieur à celui des médecins humains

Dans le rôle d'un médecin urgentiste, tester les grands modèles de langage pour explorer leurs performances et leur potentiel dans les scénarios médicaux. Évaluer la compréhension des situations médicales urgentes par le modèle, sa capacité de diagnostic et l'exactitude de ses recommandations de traitement, afin de révéler les avantages et les limites de l'intelligence artificielle en matière de soutien à la prise de décision clinique.

Des recherches ont montré que les performances des modèles de langage de grande taille (LLM) les plus avancés en matière de diagnostic clinique restent nettement inférieures à celles des médecins humains :

  • Le taux de diagnostic correct des médecins est de 89%, tandis que celui des LLM n'est que de 73%. Pour certaines maladies (comme la cholécystite), le taux de précision des LLM n'est que de 13%.

  • Les LLM ont de mauvaises performances en matière de respect des directives de diagnostic, de planification des examens nécessaires et d'interprétation des résultats de laboratoire, et ont tendance à omettre des informations importantes ou à faire des diagnostics hâtifs.

  • Les LLM ont également des problèmes pour suivre les directives médicales de base, avec des erreurs survenant tous les 2 à 4 cas, et des directives inexistantes inventées tous les 2 à 5 cas.

  • Fournir plus d'informations sur les cas réduit en fait la précision du diagnostic des LLM, indiquant leur incapacité à traiter efficacement des informations complexes.

  • Les LLM médicaux spécialisés n'ont pas montré de performances significativement meilleures que les LLM généraux.

Les chercheurs estiment que les LLM nécessitent encore une surveillance clinique importante pour être appliqués en toute sécurité. Les futures recherches devraient valider davantage l'efficacité des LLM dans des environnements cliniques réels et renforcer la collaboration entre les experts en IA et les médecins cliniciens pour optimiser l'application des LLM dans le domaine médical.

Néanmoins, l'IA a encore un énorme potentiel dans le domaine médical. Par exemple, le modèle Med-PaLM2 de Google a déjà atteint le niveau d'expert dans certains tests médicaux. À l'avenir, l'IA pourrait jouer un rôle important dans le diagnostic assisté, la recherche médicale et d'autres domaines, mais il est encore trop tôt pour remplacer les médecins humains.

Lien vers l'article original