Сбер представил экспериментальную языковую модель и метод ее обучения

Сбер представил экспериментальную языковую модель и метод ее обучения

Сбер представил в открытом доступе экспериментальную диффузионную языковую модель GFusion, созданную на базе GigaChat, а также набор инструментов для ее обучения. Разработка ориентирована на исследователей и разработчиков, работающих с генеративным искусственным интеллектом, и стала первым российским опенсорс-проектом такого масштаба в области диффузионных языковых моделей.

В отличие от классических больших языковых моделей (LLM), которые генерируют текст последовательно — слово за словом, — GFusion использует диффузионный подход. Модель сначала формирует черновой вариант ответа, а затем постепенно уточняет его, аналогично тому, как современные нейросети создают изображения и видео. Благодаря параллельной генерации текст создается быстрее: по данным Сбера, производительность GFusion до 45% выше по сравнению с GigaChat 3, на базе которого модель обучалась.

Такой подход дает сразу несколько преимуществ. Диффузионные модели способны генерировать сразу группы токенов, самостоятельно определять порядок формирования различных частей текста и эффективнее использовать обучающие данные, многократно извлекая из них полезную информацию.

Автором проекта стал инженер машинного обучения Сбера Даниил Тихонов. Работу над моделью он начал во время стажировки в команде фундаментальных моделей банка, будучи студентом четвертого курса факультета компьютерных наук НИУ ВШЭ. Проект лег в основу его дипломной работы, после чего Тихонов присоединился к команде Сбера уже в качестве штатного специалиста.

Одновременно с релизом GFusion компания опубликовала инструменты, позволяющие ускорить обучение диффузионных моделей и снизить требования к вычислительным ресурсам. Кроме того, разработчики расширили возможности SGLang — одного из наиболее популярных в мире инструментов с открытым исходным кодом для запуска языковых моделей. В него была добавлена поддержка GFusion и нового алгоритма генерации, который способен повысить качество работы диффузионных моделей.

По словам Даниила Тихонова, направление диффузионных языковых моделей пока остается во многом исследовательским и не имеет устоявшихся архитектурных стандартов, что открывает широкие возможности для создания новых решений. Он выразил надежду, что публикация GFusion поможет другим командам быстрее развивать эту технологию.

Источник: hi-tech.mail.ru

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев