Исследователи представили Evo 2 — AI, способный генерировать полные хромосомы и анализировать генетические вариации

Исследовательская группа разработала Evo 2, которую они описывают как самую большую модель AI, когда-либо созданную для биологических применений. Система может генерировать полные хромосомы и понимать сложные генетические вариации в разных формах жизни. Evo 2 построен на обширном атласе генома, содержащем 9,3 триллиона пар оснований ДНК бактерий, архей и эукариот, представляющих более 100 000 видов. Исследователи из Arc Institute, Стэнфордского университета, Калифорнийского университета в Беркли, Калифорнийского университета в Сан-Франциско и Nvidia говорят, что это широкое обучение позволяет модели предсказывать и проектировать биологические последовательности от молекулярного до геномного масштаба для всех форм жизни.

Команда разработала две версии Evo 2, включающие 7 и 40 миллиардов параметров соответственно. Обе могут обрабатывать контексты последовательностей длиной до 1 миллиона пар оснований. По словам исследователей, модель учится точно предсказывать, как генетические варианты влияют на функцию, просто анализируя последовательности ДНК, не требуя дополнительного обучения для решения конкретных задач.

Тестирование показывает, что Evo 2 самостоятельно распознает различные биологические характеристики и может генерировать полные митохондриальные геномы, прокариотические геномы и эукариотические хромосомы, соответствующие длине и сложности естественных. При анализе мутаций в гене рака груди BRCA1 система почти достигла точности лучших существующих моделей ИИ в определении изменений, вызывающих заболевания.

Исследователи обнаружили, что использование поиска по времени вывода — где Evo 2 генерирует несколько возможных последовательностей и фильтрует их через функцию оценки — позволяет точно контролировать сложные эпигеномные структуры, такие как доступность хроматина. Это знаменует собой первую демонстрацию результатов масштабирования для вычисления времени вывода в биологии.

Особенно важна способность контролировать доступность хроматина — насколько плотно ДНК упакована в ядре клетки. Эта упаковка определяет, могут ли гены быть доступны и активированы клеточными белками или оставаться молчащими. Благодаря комбинированному использованию генеративного моделирования и поиска по времени вывода, Evo 2 может проектировать последовательности ДНК с определенными эпигенетическими регуляторными паттернами, точно определяя, какие регионы должны быть доступны или неактивны.

Чтобы способствовать продвижению биологических исследований и разработок, команда сделала Evo 2 полностью открытым исходным кодом, включая параметры модели, код обучения и вывода, а также набор данных OpenGenome2. Это делает ее одной из крупнейших полностью открытых моделей в этой области. Как и ее предшественник Evo 1 , она использует гибридную архитектуру из серии StripedHyena .

Evo 2 представляет собой большой шаг вперед по сравнению с Evo 1. Новая модель обучена на в 30 раз большем количестве данных и охватывает гораздо более широкий спектр форм жизни, включая эукариот. Ее контекст последовательности расширился с 8000 до 1 миллиона пар оснований, что отчасти стало возможным благодаря новой архитектуре «StripedHyena 2». В то время как Evo 1 могла работать только с прокариотами, Evo 2 делает прогнозы по всему геному во всех доменах жизни с улучшенной точностью.

Специалист по вычислительной биологии из Стэнфорда Аншул Кундадже похвалил техническую архитектуру модели, но усомнился в том, что она действительно понимает удаленные некодирующие последовательности, которые регулируют активность генов.

Брайан Хай из Стэнфорда и Arc Institute признает, что, хотя сгенерированные геномы Evo 2 превосходят работу своего предшественника, они, вероятно, пока не будут функционировать в живых клетках. Команда намеренно исключила патогены человека и сложных организмов из данных обучения по этическим и безопасным причинам и гарантировала, что модель не будет давать полезных ответов об этих патогенах.

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии