Google DeepMind презентовала новую модель анализа последовательности ДНК Alpha Genome. Компания надеется, что ИИ поможет разобраться в устройстве генома и в том, какие последствия могут иметь даже незначительные изменения в ДНК.
Геном — это своеобразная инструкция для клеток организма. Небольшие изменения в последовательности ДНК генома могут изменить реакцию организма на окружающую среду или восприимчивость к болезням. Но расшифровка того, как инструкции генома считываются на молекулярном уровне — и что происходит, ДНК меняется — остаётся одной из величайших загадок биологии.
AlphaGenome более полно и точно предсказывает, как отдельные варианты или мутации в последовательностях ДНК человека влияют на широкий спектр биологических процессов, регулирующих гены. Это стало возможным, среди прочего, благодаря техническим достижениям, позволяющим модели обрабатывать длинные последовательности ДНК и выдавать прогнозы с высоким разрешением.
AlphaGenome принимает в качестве входных данных длинную последовательность ДНК — до 1 млн нуклеотидов — и предсказывает тысячи биомолекулярных характеристик, связанных с регуляцией генов. Она также может оценивать эффекты генетических вариантов или мутаций, сравнивая прогнозы мутировавших последовательностей с немутировавшими. Система анализирует, где расположены гены и где они заканчиваются в разных типах тканей, какие участки ДНК открыты для доступа белков, где происходит сплайсинг РНК и насколько активно вырабатываются молекулы РНК.
Данные для обучения были получены из крупных публичных проектов, включая ENCODE, GTEx, 4D Nucleome и FANTOM5, которые экспериментально измерили эти свойства, охватывающие важные модальности регуляции генов в сотнях типов клеток и тканей человека и мыши.
Архитектура AlphaGenome использует свёрточные слои для первоначального обнаружения коротких паттернов в последовательности генома, трансформаторы для передачи информации по всем позициям в последовательности и финальные слои для преобразования обнаруженных паттернов в прогнозы для разных модальностей. Вычисления распределяются по нескольким взаимосвязанным тензорным процессорам (TPU) для одной последовательности.
ИИ основан на предыдущей модели геномики Enformer и дополняет AlphaMissense, которая специализируется на интерпретации мутаций в кодирующих участках ДНК. Эти области охватывают 2% генома. Оставшиеся 98%, называемые некодирующими областями, имеют решающее значение для организации генной активности и включают вариации, связанные с возникновением заболеваний.
AlphaGenome имеет несколько отличительных особенностей по сравнению с существующими моделями:
обрабатывает длинные фрагменты ДНК с сохранением высокой точности на уровне отдельных нуклеотидов. Это позволяет учитывать влияние регуляторных участков, расположенных далеко от изучаемого гена;
предсказывает широкий набор биомолекулярных параметров одновременно, включая сплайсинг РНК, экспрессию генов, взаимодействие белков с ДНК и пространственную организацию молекулы;
оценивает влияние мутаций, сравнивая изменённые участки ДНК с их изначальной версией за секунды и прогнозируя последствия для регуляции генов и работы клеток;
реализует точное моделирование процессов сплайсинга — механизма удаления ненужных фрагментов РНК. Ошибки на этом этапе часто становятся причиной тяжёлых заболеваний, таких как спинальная мышечная атрофия или отдельные формы муковисцидоза.
Производительность в тестах AlphaGenome оказалась высокой. При прогнозировании отдельных последовательностей модель превзошла лучшие аналоги в 22 из 24 задач. А при прогнозировании влияния мутаций на регуляцию генов она была на уровне или лучше самых эффективных моделей в 24 из 26 задач.
Кроме того, AlphaGenome была единственной моделью, которая могла решать различные задачи. Это означает, что учёные могут быстрее генерировать и проверять гипотезы, не используя несколько моделей. После того, как модель будет выпущена, они смогут адаптировать и настроить её на собственных наборах данных, чтобы лучше решать исследовательские задачи.
Сейчас AlphaGenome доступна в предварительном просмотре через API AlphaGenome для некоммерческих исследований.
В DeepMind считают, что ИИ поможет более точно предсказывать генетические нарушения и определить потенциальные причины заболеваний, разрабатывать синтетические ДНК с определёнными регуляторными функциями для целей биомедицины, а также ускорить картирование важнейших участков генома.
AlphaGenome уже применили для исследования потенциального механизма мутации, связанной с раком. Исследователи наблюдали мутации на определённых участках генома у пациентов с Т-клеточным острым лимфобластным лейкозом (T-ALL). Используя ИИ, они предсказали, что мутации активируют соседний ген, называемый TAL1, путём создания дополнительного сайта связывания белка MYB, который воспроизводит известный механизм заболевания.
У AlphaGenome есть и ограничения. Так, модель затрудняется точно учитывать влияние очень удалённых регуляторных элементов, находящихся более чем за 100 тысяч нуклеотидов от интересующего участка. Пока она не предназначена для персонализированных генетических прогнозов и не даёт полного объяснения, как мутации приводят к сложным заболеваниям.
Однако в DeepMind подчёркивают, что архитектура AlphaGenome гибкая и может масштабироваться. В будущем планируется расширение возможностей за счёт увеличения обучающего набора данных, включения других видов биологической информации и адаптации модели для изучения геномов других видов.
Ранее компания представила AlphaFold 3, новую модель искусственного интеллекта, которая точно предсказывая структуру белков, ДНК, РНК, лигандов и других элементов, а также их взаимодействие.
Источник: habr.com