Сегодня мы анонсируем линейку нейросетей YandexGPT 3. Первая из них — YandexGPT 3 Pro — уже доступна по API на сайте Yandex Cloud, в том числе в бесплатном демо-режиме. Кроме того, теперь вы сможете дообучить новую нейросеть самостоятельно.
Нейросети нового поколения лучше работают со сложными запросами и точнее следуют заданному формату ответов, благодаря чему будут особенно полезны при решении реальных задач пользователей и компаний.
В ближайшее время нейросети YandexGPT 3 появятся и в сервисах Яндекса для широкой аудитории.
Качество ответов YandexGPT 3
Для оценки качества работы YandexGPT 3 Pro мы провели несколько тестов. Во-первых, оценили модель на локализованной версии международного бенчмарка MMLU. Во-вторых, протестировали модель методом Side-by-Side на реальных запросах пользователей и компаний. В-третьих, создали свой русскоязычный тест на базе бенчмарка IFEval для оценки соответствия ответа заданному в запросе формату. Теперь чуть подробнее о каждом.
YaMMLU_ru
Для оценки качества работы новой нейросети мы создали YaMMLU_ru — русскоязычную версию открытого международного бенчмарка MMLU. Для этого мы перевели оригинальные задания на русский язык с помощью Яндекс Переводчика. Затем эксперты перепроверили тексты, исправили ошибки, а также локализовали запросы (например, привели единицы измерений в соответствие с российскими стандартами). Такая версия позволяет лучше учесть локальный контекст и специфику сформулированных на русском языке запросов.
Результаты тестирования моделей на бенчмарке YaMMLU_ruSide-by-Side на востребованных задачах
Также мы применили метод SBS для того, чтобы оценить, как новая модель справляется с генерацией идей, обобщением информации, задачами классификации, созданием контента и другими востребованными у пользователей и компаний запросами.
Результаты SBS на разных классах задачРезультаты SBS на пользовательских и бизнес-задачах
Количество ситуаций, когда модель не дает ответ на вопрос пользователя, уменьшилось в 5 раз. Кроме того, новая языковая модель значительно реже ошибается. Мы проверили это на специальном наборе особенно сложных запросов. Результаты для этого набора:
Русскоязычный тест на базе бенчмарка IFEval
Для проверки того, насколько хорошо ответы нейросети соответствуют заданному в запросе формату, существует хороший бенчмарк IFEval. Он содержит промты, оценить ответы на которые можно достаточно точно. Например, «напиши текст, который содержит более 400 слов» или «упомяни термин AI не менее трёх раз». Для оценки ответов YandexGPT 3 мы создали русскоязычную версию бенчмарка на базе IFEval. При этом значительно расширили список решаемых задач и усложнили их.
В сравнении с YandexGPT 2 качество ответов YandexGPT 3 улучшилось на 10 процентных пунктов, а их консистентность увеличилась в два раза. Это значит, что нейросеть научилась лучше понимать, какими именно должны быть ответы на одинаковые по сути, но сформулированные по-разному запросы.
Применение и дообучение YandexGPT 3 Pro
YandexGPT 3 Pro можно встроить в продукты через API. Стоимость использования новой нейросети снизилась почти в два раза, но вы можете протестировать её и бесплатно. В демо-режиме новым зарегистрированным пользователям доступно 30 бесплатных запросов в час.
Новая нейросеть хорошо проявляет себя в таких сферах, как клиентская поддержка, онлайн-продажи, цифровые коммуникации, маркетинг, реклама и управление персоналом. Также языковая модель лучше работает с документами: например, составляет договоры, счета, нормативную документацию, должностные инструкции и не только. Задачи, связанные с перечисленными выше отраслями, составили значительную часть набора данных для обучения YandexGPT 3.
Пример, который мы создали через API на сайте Yandex Cloud:
Ещё несколько примеров
Кроме того, теперь вы можете самостоятельно дообучить YandexGPT 3 Pro в сервисе Yandex DataSphere для того, чтобы она ещё лучше соответствовала вашим потребностям. Чтобы запустить процесс дообучения, нужно загрузить в DataSphere файл с примерами запросов и эталонными ответами на них. Дообученная нейросеть будет доступна только вам.
Источник: habr.com