Chan Zuckerberg Initiative в четверг объявила о запуске rBio — первой модели ИИ, обученной рассуждать о клеточной биологии с помощью виртуальных симуляций, а не лабораторных опытов. Это прорыв, способный резко ускорить биомедицинские исследования и поиск новых лекарств.
Модель рассуждения, подробно описанная в научной статье, опубликованной на bioRxiv, демонстрирует новый подход — так называемую «мягкую верификацию». Вместо того чтобы опираться исключительно на экспериментальные данные, она использует предсказания виртуальных моделей клеток как обучающие сигналы. Такой сдвиг в парадигме позволяет ученым сначала проверять гипотезы на компьютере, экономя время и средства, прежде чем идти в лабораторию.
«Смысл в том, что у нас теперь есть сверхмощные модели клеток и мы можем прогнозировать результаты, не ставя опытов в пробирке, — объяснила в интервью Ана‑Мария Истрате, ведущий научный сотрудник CZI и главный автор работы. — До сих пор соотношение в биологии было примерно таким: девяносто процентов исследований проходят через лабораторные тесты и только десять — через вычисления. Мы же хотим перевернуть это соотношение».
Как ИИ наконец научился говорить на языке живых клеток
Это объявление стало важной вехой на пути к амбициозной цели CZI — «победить, предотвратить и научиться контролировать все болезни к концу нынешнего столетия». Под руководством педиатра Присциллы Чан и Марка Цукерберга шестимиллиардная филантропическая инициатива все активнее направляет свои ресурсы на стык искусственного интеллекта и биологии.
rBio решает одну из главных проблем при применении ИИ к биологии. Если крупные языковые модели вроде ChatGPT умеют отлично работать с текстом, то биологические модели‑»фундаменты» оперируют сложнейшими молекулярными данными, которые нельзя просто спросить на человеческом языке. Ученым приходилось искать обходные пути, чтобы наладить взаимодействие между мощными вычислительными системами и удобными интерфейсами.
«Фундаментальные биомодели — такие, как GREmLN и TranscriptFormer, — строятся на биологических данных, а значит, напрямую в привычном языке с ними не пообщаешься, — поясняет Истрате. — Нужно придумывать сложные способы обращения к ним».
Новая модель решила эту задачу: она аккумулировала знания из TranscriptFormer — виртуальной модели клетки, обученной на 112 миллионах клеток 12 видов, охватывающих полтора миллиарда лет эволюции, — и превратила их в систему, с которой исследователь может говорить на обычном английском.
Революция «мягкой верификации»: учим ИИ мыслить вероятностями, а не абсолютами
Главное новшество кроется в методике обучения rBio. Традиционные модели рассуждений опираются на вопросы с однозначными ответами — вроде математических уравнений. Но биология устроена иначе: там царит неопределённость, а ответы почти всегда носят вероятностный характер и не укладываются в строгие бинарные рамки.
Команда CZI во главе с директором по ИИ Теофанисом Каралецосом и Истрате справилась с этим, применив обучение с подкреплением, где награды начисляются пропорционально правдоподобию ответа. Вместо жёсткого «да» или «нет» модель получает вознаграждение в зависимости от того, насколько её прогнозы совпадают с реальностью, смоделированной виртуальными клетками.
«Мы использовали новые приёмы в обучении LLM‑моделей, — отмечается в исследовании. — Взяли готовую языковую модель как каркас и доучили rBio через метод обучения с подкреплением. Но вместо серии простых вопросов с ответами „да/нет“ мы настраивали вознаграждения так, чтобы они соответствовали вероятности правильности ответа».
Благодаря этому, учёные теперь могут задавать сложные вопросы вроде: «Если подавить работу гена А, усилится ли активность гена B?» — и получать обоснованные ответы о том, как изменится клеточное состояние, включая переходы от здорового к патологическому.
Превзойдя эталоны: как rBio обошла модели, обученные на реальных лабораторных данных
В испытаниях на бенчмарке PerturbQA — стандартном наборе данных для оценки прогнозов по изменению генов — rBio показала результаты на уровне моделей, обученных на лабораторных экспериментах. Более того, система превзошла базовые языковые модели и вплотную приблизилась к показателям специализированных биомоделей по ключевым метрикам.
Особенно впечатляет то, что rBio продемонстрировала мощные способности к «переносу знаний». Она успешно использовала представления о коэкспрессии генов, полученные из TranscriptFormer, чтобы точно прогнозировать эффекты их изменения — задачу совершенно иного уровня.
«Мы показали, что на наборе PerturbQA модели, обученные с использованием мягких верификаторов, умеют обобщать знания на клеточных линиях, не встречавшихся при обучении. Это потенциально позволяет обойти необходимость в данных, специфичных для каждой отдельной линии клеток», — отмечают исследователи.
При этом, если добавить метод цепочек рассуждений, rBio вышла на уровень state‑of‑the‑art, превзойдя прежнего лидера, модель SUMMER.
От социальной миссии к науке: спорный поворот CZI к чистым исследованиям
Объявление о rBio совпало с глубокими переменами в CZI. Организация сместила акценты: от широкой филантропической миссии, где были и социальная справедливость, и образовательные реформы, — к более узкой, но целенаправленной ставке на научные исследования. Этот поворот вызвал недовольство среди части бывших сотрудников и грантополучателей, которые считали, что CZI отвернулась от прогрессивных инициатив.
Однако для Истрате, проработавшей здесь шесть лет, ставка на биологический ИИ стала скорее логичным продолжением. «Мой опыт и работа почти не изменились. Я всегда была частью научной программы, сколько себя помню в CZI», — говорит она.
Фокус на виртуальных моделях клеток стал результатом почти десятилетней подготовки. Организация инвестировала колоссальные средства в создание клеточных атласов — обширных баз данных, где отмечено, какие гены активны в тех или иных клетках разных организмов, — а также в инфраструктуру, необходимую для обучения масштабных биомоделей.
«Я искренне рада тому, что CZI делает все эти годы, — признаётся Истрате. — Всё это было подготовкой к сегодняшнему дню».
Без перекосов: как CZI формировала «честные» данные для обучения ИИ
Одним из ключевых преимуществ подхода CZI стали годы кропотливой работы с данными. Организация развивает CZ CELLxGENE — один из крупнейших в мире репозиториев одноклеточных биологических данных, где вся информация проходит строгую проверку качества.
«Мы создали одни из первых и самых известных атласов транскриптомики — и делали это с упором на разнообразие, чтобы минимизировать перекосы по типам клеток, происхождению, тканям и донорам», — объясняет Истрате.
Это внимание к качеству данных становится критически важным, когда речь идёт об обучении ИИ, способного влиять на медицинские решения. В отличие от некоторых коммерческих проектов, где используют общедоступные, но потенциально предвзятые наборы, модели CZI учатся на тщательно собранных биологических данных, отражающих разнообразие популяций и клеточных типов.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш телеграм: BotHub AI News.
Источник: habr.com