Представлена большая языковая модель YandexGPT 5: Pro-версия местами обходит GPT-4o

Сегодня, 25 февраля, представители компании Яндекс официально анонсировали YandexGPT 5 — новое поколение больших языковых моделей собственного «производства», которое работает заметно лучше предыдущего и способно тягаться даже с наиболее продвинутыми иностранными решениями (включая новую модель от OpenAI). Начать стоит с того, что компания опубликовала в свободном доступе (впервые за три года) младшую версию LLM в pretrain-исполнении под названием YandexGPT 5 Lite Pretrain, которая будет интересна разработчикам, желающим взять базовую версию большой языковой модели, а затем дополнительно обучить её под свои нужды и задачи. Технологии, музыка, мемы

Данная версия языковой модели имеет 8 миллиардов параметров с длиной контекста в 32 тысячи токенов — её обучали в два этапа. На первом LLM тренировали на русскоязычных и англоязычных текстах с суммарным объёмом 15 триллионов токенов, после чего в рамках второго этапа специалисты обучали модель на высококачественных данных объёмом 320 миллиардов токенов. В конечном итоге базовая модель способна наравне конкурировать со многими SOTA-моделями (State of the Art или лучшая модель на данный момент в какой-то из областей) в pretrain-версии, а в определённых сценариях даже обходить их.

Старшая версия большой языковой модели YandexGPT 5 Pro уже используется в рамках чата с голосовым помощником Алиса, плюс доступ к LLM нового поколения можно получить в Yandex Cloud посредством API. Примечательно, что для обучения данной модели разработчики из Яндекса задействовали веса общедоступной модели Qwen-2.5-32B-base, что в паре с обычным циклом обучения предоставило команде компании возможность сократить длительность экспериментов по «прокачке» собственной LLM до 20 раз. Кроме того, разработчики сэкономили немало ресурсов, которые обычно уходят на подбор оптимальных параметров конфигурации обучения модели.

Соответственно, исходя из результатов внутреннего тестирования компании (речь идёт про слепое попарное тестирование больших языковых моделей), YandexGPT 5 Pro в 67% обходит YandexGPT 4 Pro и совершенно не уступает GPT-4o от OpenAI.

Кроме того, в традиционных бенчмарках для LLM решение Яндекса не только не уступает лидерам рынка, но и во многих сценариях оставляет их позади.

К примеру, в математическом тесте (ya)GSM8K модель Яндекса набрала на 1,6 балла больше, чем GPT-4o, а в (ya)SchoolMath 10-11 набрала ровно столько же баллов. Это, безусловно, огромное достижение.

Источник: trashbox.ru

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”