AIの臨床意思決定における不振:正確率は13%にまで低下し、人間の医師を大きく下回る

救急科医師の役割を用いて大規模言語モデルをテストし、医療シナリオにおけるその性能と可能性を探ります。緊急医療状況に対するモデルの理解、診断能力、および処置提案の正確性を評価し、臨床意思決定支援における人工知能の利点と限界を明らかにします。

研究によると、現在最先端の大規模言語モデル(LLM)は臨床診断において、依然として人間の医師に大きく劣ることが分かりました:

  • 医師の診断正確率は89%であるのに対し、LLMの診断正確率はわずか73%でした。胆嚢炎などの特定の疾患の診断では、LLMの正確率はわずか13%でした。

  • LLMは診断ガイドラインの遵守、必要な検査の手配、検査結果の解釈などにおいて低い性能を示し、重要な情報を見落としたり、性急な診断を下したりする傾向がありました。

  • LLMは基本的な医学的指導の遵守にも問題があり、2〜4症例ごとに誤りを犯し、2〜5症例ごとに存在しない指導を作り出していました。

  • より多くの症例情報を提供すると、むしろLLMの診断精度が低下し、複雑な情報を効果的に処理できないことを示しています。

  • 専門医療LLMは、全体的な性能において汎用LLMより有意に優れているわけではありませんでした。

研究者は、LLMが安全に応用されるためには、現時点では多くの臨床監督が必要だと考えています。今後の研究では、実際の臨床環境でのLLMの有効性をさらに検証し、AIの専門家と臨床医の協力を強化して、医療分野でのLLMの応用を最適化する必要があります。

それにもかかわらず、医療分野におけるAIには依然として大きな可能性があります。例えば、GoogleのMed-PaLM2モデルは、一部の医学テストで専門家レベルに達しています。将来的にAIは診断支援や医学研究などの分野で重要な役割を果たす可能性がありますが、人間の医師に取って代わるにはまだ時期尚早です。

原文リンク