Представлена большая языковая модель YandexGPT 5: Pro-версия местами обходит GPT-4o

Сегодня, 25 февраля, представители компании Яндекс официально анонсировали YandexGPT 5 — новое поколение больших языковых моделей собственного «производства», которое работает заметно лучше предыдущего и способно тягаться даже с наиболее продвинутыми иностранными решениями (включая новую модель от OpenAI). Начать стоит с того, что компания опубликовала в свободном доступе (впервые за три года) младшую версию LLM в pretrain-исполнении под названием YandexGPT 5 Lite Pretrain, которая будет интересна разработчикам, желающим взять базовую версию большой языковой модели, а затем дополнительно обучить её под свои нужды и задачи. Технологии, музыка, мемы

Данная версия языковой модели имеет 8 миллиардов параметров с длиной контекста в 32 тысячи токенов — её обучали в два этапа. На первом LLM тренировали на русскоязычных и англоязычных текстах с суммарным объёмом 15 триллионов токенов, после чего в рамках второго этапа специалисты обучали модель на высококачественных данных объёмом 320 миллиардов токенов. В конечном итоге базовая модель способна наравне конкурировать со многими SOTA-моделями (State of the Art или лучшая модель на данный момент в какой-то из областей) в pretrain-версии, а в определённых сценариях даже обходить их.

Старшая версия большой языковой модели YandexGPT 5 Pro уже используется в рамках чата с голосовым помощником Алиса, плюс доступ к LLM нового поколения можно получить в Yandex Cloud посредством API. Примечательно, что для обучения данной модели разработчики из Яндекса задействовали веса общедоступной модели Qwen-2.5-32B-base, что в паре с обычным циклом обучения предоставило команде компании возможность сократить длительность экспериментов по «прокачке» собственной LLM до 20 раз. Кроме того, разработчики сэкономили немало ресурсов, которые обычно уходят на подбор оптимальных параметров конфигурации обучения модели.

Соответственно, исходя из результатов внутреннего тестирования компании (речь идёт про слепое попарное тестирование больших языковых моделей), YandexGPT 5 Pro в 67% обходит YandexGPT 4 Pro и совершенно не уступает GPT-4o от OpenAI.

Кроме того, в традиционных бенчмарках для LLM решение Яндекса не только не уступает лидерам рынка, но и во многих сценариях оставляет их позади.

К примеру, в математическом тесте (ya)GSM8K модель Яндекса набрала на 1,6 балла больше, чем GPT-4o, а в (ya)SchoolMath 10-11 набрала ровно столько же баллов. Это, безусловно, огромное достижение.

Источник: trashbox.ru

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии