Сбер представил экспериментальную языковую модель и метод ее обучения

Разработка находится в открытом доступе.

Сбер представил в открытом доступе экспериментальную диффузионную языковую модель GFusion, созданную на базе GigaChat, а также набор инструментов для ее обучения. Разработка ориентирована на исследователей и разработчиков, работающих с генеративным искусственным интеллектом, и стала первым российским опенсорс-проектом такого масштаба в области диффузионных языковых моделей.

В отличие от классических больших языковых моделей (LLM), которые генерируют текст последовательно — слово за словом, — GFusion использует диффузионный подход. Модель сначала формирует черновой вариант ответа, а затем постепенно уточняет его, аналогично тому, как современные нейросети создают изображения и видео. Благодаря параллельной генерации текст создается быстрее: по данным Сбера, производительность GFusion до 45% выше по сравнению с GigaChat 3, на базе которого модель обучалась.

Такой подход дает сразу несколько преимуществ. Диффузионные модели способны генерировать сразу группы токенов, самостоятельно определять порядок формирования различных частей текста и эффективнее использовать обучающие данные, многократно извлекая из них полезную информацию.

Автором проекта стал инженер машинного обучения Сбера Даниил Тихонов. Работу над моделью он начал во время стажировки в команде фундаментальных моделей банка, будучи студентом четвертого курса факультета компьютерных наук НИУ ВШЭ. Проект лег в основу его дипломной работы, после чего Тихонов присоединился к команде Сбера уже в качестве штатного специалиста.

Источник: hi-tech.mail.ru

0 0 голоса

Рейтинг новости