Des recherches ont montré que les performances des modèles de langage de grande taille (LLM) les plus avancés en matière de diagnostic clinique restent nettement inférieures à celles des médecins humains :
-
Le taux de diagnostic correct des médecins est de 89%, tandis que celui des LLM n'est que de 73%. Pour certaines maladies (comme la cholécystite), le taux de précision des LLM n'est que de 13%.
-
Les LLM ont de mauvaises performances en matière de respect des directives de diagnostic, de planification des examens nécessaires et d'interprétation des résultats de laboratoire, et ont tendance à omettre des informations importantes ou à faire des diagnostics hâtifs.
-
Les LLM ont également des problèmes pour suivre les directives médicales de base, avec des erreurs survenant tous les 2 à 4 cas, et des directives inexistantes inventées tous les 2 à 5 cas.
-
Fournir plus d'informations sur les cas réduit en fait la précision du diagnostic des LLM, indiquant leur incapacité à traiter efficacement des informations complexes.
-
Les LLM médicaux spécialisés n'ont pas montré de performances significativement meilleures que les LLM généraux.
Les chercheurs estiment que les LLM nécessitent encore une surveillance clinique importante pour être appliqués en toute sécurité. Les futures recherches devraient valider davantage l'efficacité des LLM dans des environnements cliniques réels et renforcer la collaboration entre les experts en IA et les médecins cliniciens pour optimiser l'application des LLM dans le domaine médical.
Néanmoins, l'IA a encore un énorme potentiel dans le domaine médical. Par exemple, le modèle Med-PaLM2 de Google a déjà atteint le niveau d'expert dans certains tests médicaux. À l'avenir, l'IA pourrait jouer un rôle important dans le diagnostic assisté, la recherche médicale et d'autres domaines, mais il est encore trop tôt pour remplacer les médecins humains.