AI показывает плохие результаты в клинических решениях: точность всего 13%, намного хуже, чем у врачей-людей

В роли врача отделения неотложной помощи протестировать большую языковую модель, исследовать ее производительность и потенциал в медицинских сценариях. Оценить понимание моделью неотложных медицинских ситуаций, способность к диагностике и точность рекомендаций по лечению, выявить преимущества и ограничения искусственного интеллекта в поддержке принятия клинических решений.

Исследование показало, что современные крупные языковые модели (LLM) все еще значительно уступают врачам в клинической диагностике:

  • Точность диагностики врачей составляет 89%, в то время как точность LLM - всего 73%. При диагностике некоторых заболеваний (например, холецистита) точность LLM составляет всего 13%.

  • LLM плохо справляются с соблюдением диагностических рекомендаций, назначением необходимых обследований и интерпретацией лабораторных результатов, часто упуская важную информацию или делая поспешные выводы.

  • У LLM также возникают проблемы с соблюдением базовых медицинских рекомендаций, ошибки встречаются в каждом 2-4 случае, а в каждом 2-5 случае они выдумывают несуществующие рекомендации.

  • Предоставление большего количества информации о случаях фактически снижает точность диагностики LLM, что указывает на их неспособность эффективно обрабатывать сложную информацию.

  • Специализированные медицинские LLM не показали значительного превосходства над универсальными LLM в общей производительности.

Исследователи считают, что LLM все еще требуют значительного клинического надзора для безопасного применения. Будущие исследования должны дополнительно проверить эффективность LLM в реальных клинических условиях и усилить сотрудничество между экспертами по ИИ и клиницистами для оптимизации применения LLM в медицинской сфере.

Тем не менее, ИИ все еще имеет огромный потенциал в медицине. Например, модель Med-PaLM2 от Google уже достигла уровня экспертов в некоторых медицинских тестах. В будущем ИИ может играть важную роль в вспомогательной диагностике и медицинских исследованиях, но до замены человека-врача еще далеко.

Ссылка на оригинальную статью