Исследование показало, что современные крупные языковые модели (LLM) все еще значительно уступают врачам в клинической диагностике:
-
Точность диагностики врачей составляет 89%, в то время как точность LLM - всего 73%. При диагностике некоторых заболеваний (например, холецистита) точность LLM составляет всего 13%.
-
LLM плохо справляются с соблюдением диагностических рекомендаций, назначением необходимых обследований и интерпретацией лабораторных результатов, часто упуская важную информацию или делая поспешные выводы.
-
У LLM также возникают проблемы с соблюдением базовых медицинских рекомендаций, ошибки встречаются в каждом 2-4 случае, а в каждом 2-5 случае они выдумывают несуществующие рекомендации.
-
Предоставление большего количества информации о случаях фактически снижает точность диагностики LLM, что указывает на их неспособность эффективно обрабатывать сложную информацию.
-
Специализированные медицинские LLM не показали значительного превосходства над универсальными LLM в общей производительности.
Исследователи считают, что LLM все еще требуют значительного клинического надзора для безопасного применения. Будущие исследования должны дополнительно проверить эффективность LLM в реальных клинических условиях и усилить сотрудничество между экспертами по ИИ и клиницистами для оптимизации применения LLM в медицинской сфере.
Тем не менее, ИИ все еще имеет огромный потенциал в медицине. Например, модель Med-PaLM2 от Google уже достигла уровня экспертов в некоторых медицинских тестах. В будущем ИИ может играть важную роль в вспомогательной диагностике и медицинских исследованиях, но до замены человека-врача еще далеко.