"Цифровой врач" на базе ИИ уступает человеку в определении возможных причин болезни
С финальным диагнозом ИИ справлялись хорошо: если у них была вся нужная информация, правильный ответ они давали более чем в 90% случаев. Однако на более раннем этапе, когда врачу нужно определить круг возможных причин болезни, почти все системы работали значительно хуже.
МОСКВА, 14 апреля. /ТАСС/. Американские исследователи выяснили, что даже самые современные языковые модели искусственного интеллекта пока заметно уступают врачам в клиническом мышлении. Такие системы часто правильно ставят окончательный диагноз, но если им дать полную информацию о пациенте, они плохо справляются с более ранними и ключевыми этапами — прежде всего с построением списка возможных диагнозов. Результаты исследования опубликованы в журнале JAMA Network Open.
Ученые проверили 21 большую языковую модель, включая актуальные на момент работы версии ChatGPT, Claude, Gemini, Grok и DeepSeek. Нейросетям было предложено пройти через 29 реальных клинических случаев, чтобы оценить, как системы ведут себя на разных этапах диагностического процесса.
Для приближения эксперимента к реальной врачебной практике информацию моделям давали постепенно. Сначала — только базовые сведения, например возраст, пол и симптомы пациента. Затем добавляли данные осмотра, лабораторных анализов и визуализации. После каждого этапа медицинские эксперты оценивали, насколько хорошо модель справляется с задачей.
Для этого исследователи разработали специальный показатель PrIME-LLM. Он оценивает не только итоговую точность, но и способность модели выдвигать возможные диагнозы, выбирать нужные обследования, ставить окончательный диагноз и предлагать лечение.
Как показало исследование, с финальным диагнозом модели справлялись хорошо: если у них была вся нужная информация, правильный ответ они давали более чем в 90% случаев. Однако на более раннем этапе, когда врачу нужно определить круг возможных причин болезни, почти все системы работали значительно хуже.
По данным авторов, все протестированные модели ошибались при построении дифференциального диагноза более чем в 80% случаев.
«Эти модели хорошо называют окончательный диагноз, когда данные уже полные. Но они испытывают трудности в самом начале случая, когда информации мало и нужно рассуждать», — пояснил первый автор работы Арья Рао из Гарвардской медицинской школы.
Исследователи подчеркивают, что именно дифференциальный диагноз — то есть список наиболее вероятных объяснений симптомов — лежит в основе клинического мышления врача. От него зависит, какие обследования будут назначены и насколько быстро удастся поставить верный диагноз.
Более новые модели в целом работали лучше старых, а добавление результатов анализов и изображений обычно улучшало точность. Итоговые оценки по шкале PrIME-LLM варьировали от 64% у Gemini 1.5 Flash до 78% у Grok 4 и GPT-5.
По словам авторов, это говорит о постепенном прогрессе, но не отменяет главного вывода: использовать ИИ в медицине как самостоятельного «цифрового врача» пока рано.
Исследователи считают, что сегодня реальная ценность таких систем заключается не в замене врача, а в помощи ему — при условии, что решение остается за человеком и что у системы есть доступ ко всем важным данным, что в реальной практике бывает не всегда.
Авторы надеются, что предложенный ими показатель PrIME-LLM поможет больницам и разработчикам более трезво оценивать качество медицинских ИИ-систем и отделять реальные возможности таких инструментов от завышенных ожиданий.
Ученые проверили 21 большую языковую модель, включая актуальные на момент работы версии ChatGPT, Claude, Gemini, Grok и DeepSeek. Нейросетям было предложено пройти через 29 реальных клинических случаев, чтобы оценить, как системы ведут себя на разных этапах диагностического процесса.
Для приближения эксперимента к реальной врачебной практике информацию моделям давали постепенно. Сначала — только базовые сведения, например возраст, пол и симптомы пациента. Затем добавляли данные осмотра, лабораторных анализов и визуализации. После каждого этапа медицинские эксперты оценивали, насколько хорошо модель справляется с задачей.
Для этого исследователи разработали специальный показатель PrIME-LLM. Он оценивает не только итоговую точность, но и способность модели выдвигать возможные диагнозы, выбирать нужные обследования, ставить окончательный диагноз и предлагать лечение.
Как показало исследование, с финальным диагнозом модели справлялись хорошо: если у них была вся нужная информация, правильный ответ они давали более чем в 90% случаев. Однако на более раннем этапе, когда врачу нужно определить круг возможных причин болезни, почти все системы работали значительно хуже.
По данным авторов, все протестированные модели ошибались при построении дифференциального диагноза более чем в 80% случаев.
«Эти модели хорошо называют окончательный диагноз, когда данные уже полные. Но они испытывают трудности в самом начале случая, когда информации мало и нужно рассуждать», — пояснил первый автор работы Арья Рао из Гарвардской медицинской школы.
Исследователи подчеркивают, что именно дифференциальный диагноз — то есть список наиболее вероятных объяснений симптомов — лежит в основе клинического мышления врача. От него зависит, какие обследования будут назначены и насколько быстро удастся поставить верный диагноз.
Более новые модели в целом работали лучше старых, а добавление результатов анализов и изображений обычно улучшало точность. Итоговые оценки по шкале PrIME-LLM варьировали от 64% у Gemini 1.5 Flash до 78% у Grok 4 и GPT-5.
По словам авторов, это говорит о постепенном прогрессе, но не отменяет главного вывода: использовать ИИ в медицине как самостоятельного «цифрового врача» пока рано.
Исследователи считают, что сегодня реальная ценность таких систем заключается не в замене врача, а в помощи ему — при условии, что решение остается за человеком и что у системы есть доступ ко всем важным данным, что в реальной практике бывает не всегда.
Авторы надеются, что предложенный ими показатель PrIME-LLM поможет больницам и разработчикам более трезво оценивать качество медицинских ИИ-систем и отделять реальные возможности таких инструментов от завышенных ожиданий.