«Яндекс» выложил в свободный доступ библиотеку, ускоряющую работу больших языковых моделей до 25%

Компания «Яндекс» выложила в свободный доступ свою библиотеку YaFSDP. По словам разработчиков, библиотека до 25% ускоряет обучение больших языковых моделей (БЯМ). Также создатели библиотеки утверждают, что YaFSDP может работать с проприетарными БЯМ и с open source БЯМ.

Библиотека Яндекса рассчитана в первую очередь на большие языковые модели, хотя она подходит и для других нейросетей — например таких, которые генерируют изображения. YaFSDP позволяет сократить расходы на оборудование для обучения моделей — это особенно важно для стартапов и, к примеру, научных проектов.

Одна из сложностей в обучении больших языковых моделей — это недостаточная загрузка каналов коммуникации между графическими процессорами. YaFSDP это решает. Ускорение до 25% — результат зависит от архитектуры и параметров нейросети. Также с помощью YaFSDP можно расходовать до 20% меньше ресурсов графических процессоров (GPU), требуемых для обучения. Библиотека оптимизирует использование ресурсов GPU на всех этапах обучения: pre‑training (предварительное), supervised fine‑tuning (с учителем), alignment (выравнивание модели). Благодаря этому YaFSDP задействует ровно столько графической памяти, сколько нужно для обучения, при этом коммуникацию между GPU ничто не замедляет.

«Яндекс» разработал YaFSDP в процессе обучения генеративной модели YandexGPT 3. Компания протестировала библиотеку на сторонних нейросетях с открытым исходным кодом. Например, если бы YaFSDP использовалась применительно к модели LLaMA 2, этап предварительного обучения на 1024 графических процессорах сократился бы с 66 до 53 дней.

Исходный код YaFSDP выложен на GitHub. Кроме того, посмотреть подробности замеров можно в репозитории GitHub. Почитать про разработку библиотеки можно в отдельной статье на Хабре. Библиотека YaFSDP и другие open source решения «Яндекса» доступны на отдельной странице.

Источник: habr.com

0 0 голоса

Рейтинг новости

28306

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”