Новое исследование предполагает, что система искусственного интеллекта o1-preview от OpenAI может быть лучше в диагностике сложных медицинских случаев, чем человеческие врачи. Команда исследователей из Гарвардской медицинской школы и Стэнфордского университета провела всесторонние тесты медицинской диагностики для o1-preview. Их результаты показывают, что система AI сделала замечательные успехи по сравнению с предыдущими версиями.
Согласно исследованию, o1-preview правильно диагностировала 78,3% всех обследованных случаев. В прямом сравнении 70 конкретных случаев система показала еще лучшие результаты, правильно диагностировав 88,6% случаев, что значительно превосходит ее предшественника GPT-4, который справился с 72,9%.
Что касается медицинского мышления, производительность o1-preview была еще более впечатляющей. Используя шкалу R-IDEA, стандартную меру для оценки качества медицинского мышления, система ИИ достигла идеальных результатов в 78 из 80 случаев. Для сравнения, опытные врачи достигли идеальных результатов только в 28 случаях, а медицинские резиденты — всего в 16.
Исследователи признают, что некоторые тестовые случаи могли быть включены в обучающие данные o1-preview. Однако, когда они протестировали систему на новых случаях, с которыми она никогда не сталкивалась, ее производительность снизилась лишь незначительно.
Один из авторов исследования, доктор Адам Родман, подчеркивает исключительные результаты в X: «Это первый раз, когда я продвигаю один из наших препринтов (а не полное рецензируемое исследование), так что caveat emptor. Но я действительно считаю, что наши результаты имеют значение для медицинской практики, поэтому я хотел представить их как можно быстрее.»
Система AI действительно проявила себя при решении сложных управленческих случаев, которые 25 специалистов специально разработали, чтобы быть трудными. «Люди, естественно, испытывали трудности. Но o1 — вам не нужны статистические данные, чтобы увидеть, насколько хорошо она справилась,» объясняет Родман.
В этих сложных случаях o1-preview набрала 86% возможных баллов. Это более чем вдвое больше, чем врачи достигли с помощью GPT-4 (41%) или традиционных инструментов (34%).
Система, однако, не идеальна. Она испытывает затруднения с оценкой вероятностей, не показывая реального улучшения по сравнению с более старыми моделями. Например, при оценке вероятности пневмонии o1-preview предположила 70% — значительно выше научного диапазона 25-42%.
Исследователи обнаружили закономерность: в то время как система превосходит в задачах, требующих критического мышления, таких как постановка диагнозов и рекомендации по лечению, она имеет проблемы с более абстрактными вызовами, такими как оценка вероятностей.
Они также отмечают, что o1-preview склонна давать подробные ответы, что могло повысить ее результаты. Кроме того, исследование рассматривало только работу o1-preview в одиночку, но не то, как она может работать вместе с человеческими врачами.
Некоторые критики утверждают, что предложенные диагностические тесты от o1-preview часто слишком дороги и непрактичны для использования в реальном мире.
С тех пор OpenAI выпустила полную версию o1 и ее преемника o3, которые демонстрируют значительно улучшенную производительность в задачах сложного мышления, значительно превосходя возможности o1-preview в тестах, требующих глубокого аналитического мышления. Тем не менее, даже эти более мощные модели не решают основные проблемы, которые критики поднимали в отношении практической реализации и стоимости. Наличие более способной системы AI не автоматически решает задачу ее применения в реальных условиях здравоохранения.
Родман предостерегает от чрезмерного раздувания результатов: «Это исследование бенчмаркинга. Хотя это ‘золотые стандарты’ оценки мышления, которые мы используем для человеческих клиницистов, это, очевидно, не является реальным медицинским обслуживанием. Не избавляйтесь от своего врача в пользу o1.»
Исследователи говорят, что нам нужны лучшие способы оценки медицинских систем AI. Множественный выбор вопросов не может уловить сложность реального медицинского принятия решений.
Они призывают к разработке новых, более практичных методов тестирования, реальных клинических испытаний, улучшенной технической инфраструктуры и улучшенных способов совместной работы людей и AI.
Источник
Источник: habr.com