Google Research и DeepMind выпустили MedGemma — коллекцию моделей искусственного интеллекта с открытым исходным кодом, созданных специально для использования в медицине.
Семейство MedGemma включает в себя модель 4B, которая может работать с текстом, изображениями или с тем и другим одновременно, а также более крупную версию 27B, которая работает только с текстом и поддерживает мультимодальные форматы. Компания Google представила эту коллекцию на конференции I/O в этом году.
MedGemma предназначена для использования в различных областях медицины, включая радиологию, дерматологию, гистопатологию и офтальмологию. По словам представителей Google, эти модели могут служить основой для новых инструментов искусственного интеллекта в здравоохранении и работать как самостоятельно, так и в составе систем на основе агентов.
MedGemma анализирует рентгеновские снимки и фотографии кожи, чтобы предложить варианты диагностики в различных областях медицины MedGemma превосходит стандартные модели
В техническом отчёте указано, что MedGemma обеспечивает значительные улучшения по сравнению с базовыми моделями аналогичного размера. При решении специализированных медицинских задач модели обеспечивают на 10% более высокую точность в мультимодальных вопросах и ответах, на 15,5–18,1% более высокие результаты при классификации рентгеновских снимков и на 10,8% более высокую точность при сложных оценках на основе агентов.
Об этом свидетельствуют результаты тестов. На платформе MedQA, где проверяются вопросы для медицинских экзаменов, модель 4B достигает точности в 64,4% по сравнению с 50,7% у базовой модели. Версия 27B набирает 87,7% по сравнению с 74,9%.
MedGemma стабильно превосходит базовую модель по результатам медицинских тестов
MedGemma также превосходит базовую модель по результатам медицинских тестов. При тестировании на наборе данных MIMIC-CXR, содержащем рентгеновские снимки и отчёты, версия 4B показала макропоказатель F1 88,9 по сравнению с 81,2 у оригинальной модели Gemma 3 4B. Показатель F1 отражает точность при различных заболеваниях.
MedSigLIP: специализированный кодировщик изображений
Для обработки изображений Google представляет MedSigLIP — кодировщик медицинских изображений с 400 миллионами параметров. MedSigLIP основан на SigLIP («Sigmoid Loss for Language Image Pre-training») — системе, предназначенной для связывания изображений с текстом. Медицинская версия расширяет эти возможности, позволяя MedGemma более эффективно интерпретировать медицинские изображения.
MedSigLIP кодирует данные медицинских изображений, а MedGemma 27B обрабатывает клинический текст, создавая мультимодальную систему искусственного интеллекта для здравоохранения
MedSigLIP обрабатывает медицинские изображения, а MedGemma 27B интерпретирует клинический текст, что делает их мощной мультимодальной системой для здравоохранения. Кодер работает с разрешением 448 x 448 пикселей, что более эффективно, чем вариант с более высоким разрешением 896 x 896, используемый в MedGemma.
Модель была обучена на более чем 33 миллионах пар «изображение — текст», включая 635 000 примеров из различных областей медицины и 32,6 миллиона фрагментов гистопатологических исследований. Чтобы сохранить способность SigLIP к распознаванию изображений в целом, мы сохранили исходный набор данных, а медицинские данные составили 2% от общего объёма, что позволило кодировщику обрабатывать как общий, так и медицинский контент.
Тонкая настройка для решения реальных медицинских задач
Исследователи показали, как можно настроить MedGemma для решения конкретных медицинских задач. При автоматической генерации рентгеновских снимков показатель RadGraph F1 улучшился с 29,5 до 30,3, что свидетельствует о более точном отображении важной клинической информации. При выявлении пневмоторакса (спадения лёгкого) точность подскочила с 59,7 до 71,5. При гистопатологическом исследовании взвешенный показатель F1 для классификации тканей вырос с 32,8 до 94,5.
В области анализа электронных медицинских карт произошёл значительный прорыв: благодаря обучению с подкреплением количество ошибок при извлечении данных сократилось вдвое, что обещает повышение эффективности работы с данными пациентов.
MedGemma доступна на Hugging Face. Лицензия позволяет проводить исследования, разработки и использовать ИИ в общих целях, но не для прямой медицинской диагностики или лечения без одобрения регулирующих органов. Коммерческое использование разрешено при условии соблюдения ограничений.
Эталонные показатели отличаются от реальных
В прошлом году компания Google запустила медицинскую модель искусственного интеллекта, созданную на закрытой платформе Gemini. Открытый исходный код MedGemma и возможность настройки могут способствовать более широкому внедрению.
Тем не менее высокие результаты тестирования не всегда применимы в клинической практике. Одно исследование показало, что реальная эффективность может снижаться из-за недопонимания или неправильного взаимодействия с пользователем, что подчёркивает разрыв между результатами тестирования и практическими результатами.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Перевод, источник новости здесь.
Источник: habr.com