OpenAI разработала языковую модель, которая создаёт новые белки, способные превращать обычные клетки в стволовые. GPT-4b micro обучили предлагать способы реинжиниринга белковых факторов для повышения их функции.
Проект стартовал год назад, когда компания по исследованию долголетия Retro Biosciences обратилась к OpenAI с предложением о совместной работе. До этого глава OpenAI Сэм Альтман инвестировал в Retro $180 млн.
Цель компании — продлить нормальную продолжительность жизни человека на 10 лет. Для этого она изучает так называемые факторы Яманаки. Это набор белков, которые при добавлении к клетке кожи человека заставят её превратиться в молодую стволовую клетку, способную производить любую другую ткань в организме.
Однако такое «перепрограммирование» клеток пока работает не очень эффективно, так как за несколько недель менее 1% клеток завершают процесс омоложения.
GPT-4b micro предлагает способы реинжиниринга белковых факторов для повышения их функции. Исследователи использовали предложения модели, чтобы изменить два фактора Яманаки, сделав их более чем в 50 раз более эффективными — по крайней мере, по некоторым предварительным данным.
Исследователи OpenAI Джон Холлман и Рико Майнл из Retro выступили ведущими разработчиками модели. Официальные результаты тестирования GPT-4b micro пока не опубликованы, а сама модель недоступна для более широкого использования.
ИИ от OpenAI работает не так, как AlphaFold от Google, которая предсказывает, какую форму примут белки. GPT-4b micro обучалась на примерах последовательностей белков многих видов, а также на информации о том, какие из них, как правило, взаимодействуют друг с другом. Таким образом, её можно рассматривать как пример малой языковой модели, которая работает с целевым набором данных.
Исследователи Retro применили GPT-4b micro с подсказками по методу «нескольких выстрелов», когда пользователь спрашивает что-то у чат-бота, предоставляя ему ряд примеров с ответами.
У генных инженеров на такую работу ушло бы крайне много времени. Даже белок типичной длины можно изменять практически бесконечным количеством способов, поскольку он построен из сотен аминокислот, а каждая из них имеет 20 возможных разновидностей. Однако модель OpenAI выдаёт предложения, где в белке меняется сразу треть аминокислот. Пока неясно, как именно GPT-4b приходит к своим догадкам.
Между тем Google DeepMind открыла исходные коды AlphaFold 3. Модель обучена на коллекции с описанием структур всех известных белков и аминокислотных последовательностей. Инструмент решает проблему фолдинга белка и позволяет прогнозировать трёхмерную структуру новых белков с точностью, как минимум не уступающей лабораторному анализу, а при оценке взаимодействия белков с другими типами молекул значительно превосходящая существующие методы прогнозирования.
Источник: habr.com