Китайская LLaDa: как зашумленный текст превращается в осмысленный диалог – новая эра диффузионных языковых моделей

Привет, Хабр! В этой статье расскажу о новом подходе — больших языковых диффузионных моделях (LLaDA).

Большие языковые диффузионные модели — альтернатива традиционным большим языковым моделям, которые генерируют текст токен за токеном. Метод диффузии сначала «зашумляет» текст, а затем модель обучается восстанавливать его целиком. Такие модели можно также использовать и для создания новых белков с заданными свойствами. Давайте подробнее разберем, как все это работает.

Большие языковые диффузионные модели: новая альтернатива авторегрессивным LLM

Большинство современных языковых моделей работают по принципу «предскажи следующий токен», то есть генерируют текст поэтапно. Но недавно китайские исследователи предложили другой подход — использовать диффузию в LLM. Вместо пошагового предсказания модель сначала «зашумляет» текст, а затем обучается восстанавливать его целиком.

Концептуальный обзор LLaDA. (a) Предобучение. LLaDA обучается на тексте, где случайные маски применяются независимо ко всем токенам с одинаковым коэффициентом.(b) SFT. Маскированию подлежат только токены ответов.(c) Сэмплинг. LLaDA моделирует процесс диффузии, предсказывая все маски одновременно на каждом шаге с гибкими стратегиями перемаскировки

Процесс обучения: Исходный текст постепенно «маскируется» (заменяется специальными токенами), и модель учится по шагам возвращать исходные слова. Таким образом, она изучает не только прямую последовательность слов, но и взаимосвязи между ними со всех сторон.

Дообучение: После базового обучения модель дообучали на 4,5 млн пар «вопрос–ответ», чтобы она лучше понимала инструкции и могла вести осмысленные диалоги.

Результаты: Модель LLaDA с 8 млрд параметров показывает результаты, сравнимые с лучшими существующими языковыми моделями в «своей весовой категории». Например, на математической задаче GSM8K точность достигала 70,7%, а задачи, где требуется генерировать текст задом наперед («обратное рассуждение»), модель справлялась лучше, чем GPT‑4.

Обученная с нуля LLaDA достигает конкурентоспособной производительности с другими большими языковыми моделями того же размера. Почему это важно?

Диффузионный подход позволяет:

Генерировать текст параллельно, а не по токенам, что может ускорить работу LLM;

Улучшить качество вывода на сложных задачах, например, там, где нужно учитывать контекст с обеих сторон;

Открыть новые возможности для применения ИИ в мультимодальных задачах (например, совмещая текст и изображение).

Исследователи планируют масштабировать модели и добавить методы обучения с подкреплением, чтобы еще больше улучшить точность и соответствие ответов человеческим ожиданиям.

Как большие языковые диффузионные модели уже применяются в прикладных задачах?

Исследователи из MIT использовали большую языковую диффузионную модель для дизайна белков.

Белки — это сложные молекулярные машины, чьи функции зависят не только от их структуры, но и от того, как они двигаются. Традиционные методы дизайна белков обычно работают со статическими структурами, игнорируя их динамику. Ученые решили, что можно создать ИИ, который генерирует новые белковые последовательности с нужными динамическими свойствами. Что им удалось сделать?

Процесс разработки модели генерации белков с динамической сигнатурой включает два компонента: дизайнера белков (PD) и предсказателя белков (PP). Сначала собирается набор данных белков из PDB. Затем, используя диффузионную модель, PD генерирует разнообразные последовательности, а PP проверяет их соответствие целевым динамическим характеристикам. Итоговый анализ включает предсказание атомных структур (OmegaFold, AlphaFold2), оценку вторичных структур и молекулярную динамику для валидации дизайна.

Собрали данные: Сперва исследователи собрали набор из почти 13 тысяч белков из базы PDB и рассчитали для каждого белка «нормалные моды» — вектор амплитуд;

Разрабоали двухкомпонентную систему:

Protein Designer (PD): Этот компонент генерирует варианты белковых последовательностей, исходя из заданного вектора колебаний.

Protein Predictor (PP): Он проверяет, насколько полученная последовательность соответствует требуемой динамике, то есть предсказывает нормальные моды для сгенерированного белка.

Обучение: Модель обучалась на основе протеиновых языковых диффузионных моделей, а затем тестировалась на точность: например, после сглаживания сигналов коэффициент корреляции между заданной и полученной динамикой достигал 0.72, а относительная ошибка L2 снижалась до 0.37.

Проверка новизны: BLAST-анализ показал, что многие сгенерированные белки не похожи на известные, что говорит о том, что ИИ «открывает» новые области в белковом пространстве.

Такой подход позволяет:

Разрабатывать белки, обладающие не только нужной структурой, но и требуемой подвижностью;

Создавать белки, которые не встречаются в природе, расширяя таким образом возможности для создания новых ферментов и биоматериалов;

Совмещать генерацию вариантов (для разнообразия) с их отбором по точности, благодаря системе из двух взаимодополняющих агентов (PD и PP).

Исследователи планируют добавить больше параметров динамики (например, учитывать направления векторов, частоты колебаний) и интегрировать эту систему с другими ИИ-модулями и физическими моделями для создания полноценного решения, способного разрабатывать белки для практических нужд в медицине и биотехнологиях.

Заключение

Современные методы диффузии могут менять подходы как в генерации текста, так и в дизайне белков. Новые модели позволяют создавать более качественный и разнообразный контент, будь то текст или молекулярные последовательности, и открывают большие перспективы для развития ИИ в различных областях. Эти исследования уже сегодня прокладывают путь к будущим прорывам в обработке естественного языка, биоинженерии и смежных сферах.

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии