OpenAI утверждает, что ее последние модели превосходят врачей по медицинским показателям

Компания OpenAI выпустила новый тест для проверки систем искусственного интеллекта в сфере здравоохранения. Он называется HealthBench и предназначен для оценки того, насколько хорошо языковые модели справляются с реалистичными медицинскими беседами. По словам OpenAI, её новейшие модели превосходят врачей в этом тесте.

Компания утверждает, что предыдущие тесты не соответствовали требованиям: они не отражали реального взаимодействия врача и пациента, не учитывали мнение медицинских экспертов и не были достаточно подробными, чтобы оценить прогресс в новых моделях. Чтобы исправить это, OpenAI сотрудничала с 262 врачами из 60 стран. Вместе они создали 5000 реалистичных медицинских сценариев по 26 специальностям и на 49 языках.

HealthBench охватывает семь областей медицины, от неотложной помощи до глобального здравоохранения. Каждое действие ИИ оценивается по пяти категориям: качество коммуникации, следование инструкциям, точность, понимание контекста и полнота. В общей сложности система применяет 48 000 обоснованных с медицинской точки зрения критериев оценки.

Подсчёт баллов выполняет GPT-4.1. Чтобы проверить, насколько это надёжно, OpenAI сравнил оценки модели с оценками врачей-людей. Результаты показали, что суждения GPT-4.1 соответствуют оценкам людей примерно на том же уровне согласованности, который наблюдается между разными врачами.

OpenAI утверждает, что его последние модели — GPT-4.1 и o3 — превзошли ответы врачей в тесте HealthBench. В ходе ранних тестов, проведённых в сентябре 2024 года, врачи могли улучшить результаты более старых моделей, редактируя их, в то время как ответы врачей без посторонней помощи получили самые низкие оценки. Но к апрелю 2025 года результаты изменились: GPT-4.1 и o3 превзошли врачей даже без дополнительного участия или доработки.

Во всех пяти областях оценки GPT-4.1 и o3 соответствуют ответам врачей или превосходят их.

В OpenAI отмечают, что у этого сравнения есть важные ограничения. Врачи обычно не пишут ответы на медицинские вопросы в стиле чата, поэтому этот тест не отражает, как на самом деле работает клиническая помощь. Вместо этого он проверяет, насколько хорошо языковые модели справляются с очень специфическим видом коммуникации, который может быть более эффективным для ИИ, чем для врача.

По необработанным данным, модель o3 достигла 0,60 баллов в тесте, что почти в два раза больше, чем 0,32 балла, которые GPT-4o набрал в августе 2024 года. Лишь несколько конкурирующих моделей приблизились к этому показателю: Grok 3 от xAI набрал 0,54 балла, а Gemini 2.5 от Google — 0,52.

Производительность модели ИИ в HealthBench варьируется в зависимости от медицинской темы.

В сфере здравоохранения один неправильный ответ может перевесить десятки правильных. HealthBench включает в себя стресс-тест для оценки наихудшего сценария: насколько полезен наименее полезный ответ, который даёт модель? OpenAI заявляет, что его последние модели демонстрируют значительные улучшения и в этой области, но признаёт, что ещё многое предстоит сделать.

Показатели ошибок в HealthBench показывают, что новые модели, особенно GPT-4.1, сократили количество ошибок в худшем случае по медицинским темам.

Эффективность — ещё один важный аспект. OpenAI утверждает, что компактная модель GPT-4.1 nano в 25 раз экономичнее, чем более ранняя модель GPT-4o, выпущенная в августе 2024 года, и при этом даёт лучшие результаты. Это может сделать её более доступной в условиях ограниченных ресурсов.

Для поддержки дальнейшего тестирования OpenAI выпустила два дополнительных набора данных: HealthBench Consensus и HealthBench Hard. Набор «Consensus» включает только тщательно проверенные критерии, а набор «Hard» содержит 1000 особенно сложных случаев, в которых большинство моделей всё равно терпят неудачу.

Все тестовые данные и методы оценки доступны на GitHub. OpenAI также опубликовала подробную статью и призывает исследователей опираться на этот эталонный тест. А протестировать все популярные модели без ограничений можно на BotHub — для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”