«Яндекс» представила новую версию машинного перевода, обученную с помощью YandexGPT

Компания «Яндекс» заявила, что большая языковая модель YandexGPT подготовила эталонные примеры текстов, на которых обучили нейросеть в «Яндекс Переводчике». Это позволило сервису точнее понимать контекст, распознавать фразеологизмы и ориентироваться в профессиональной лексике.

По словам разработчиков, «Яндекс Переводчик» стал качественнее справляться с длинными и сложными текстами. Благодаря дообучению он лучше определяет взаимосвязи внутри предложений и между ними. Кроме того, выросло качество перевода статей узконаправленной тематики. Например, сервис теперь поймёт по контексту, что речь идёт о языке программирования или фондовом индексе, и оставит их названия без перевода.

«Яндекс» использует технологию машинного перевода на основе нейросетей с 2018 года. Нейросеть обучалась только на парах текстов оригинал и перевод на другой язык. Так,она училась видеть взаимосвязи между текстами и подражать им. Нейросеть, работающая в сервисе, легковесна, что позволяет ей справляться с большим количеством пользовательских запросов в реальном времени.

Как объясняют в «Яндексе», большая языковая модель YandexGPT способна генерировать сложные, лексически и стилистически разнообразные тексты, включая тексты со специфической терминологией. Для генерации эталонных обучающих примеров была разработана специализированная модель семейства YandexGPT, адаптированная под задачи перевода.

Сначала модель во время этапа pretraining проанализировала множество текстов на английском и русском языках и изучила правила лексики, морфологии и синтаксиса. Далее шла тонкая настройка языковой модели (supervised finetuning) под задачи перевода. Затем на этапе reinforcement learning AI-тренеры оценивали качество перевода YandexGPT и ранжировали её ответы от лучших к худшим.

Работу дообученной нейросети в «Переводчике» оценивали методом Side by Side (SbS). Асессоры, владеющие русским и английским языком, сравнивали пары длинных и сложных текстов, переведённых с помощью двух версий технологии, и выбирали лучший вариант. В 57% случаев новая версия справлялась лучше.

Обновлённая технология используется для перевода текстов с английского на русский язык в «Яндекс Переводчике», «Поиске» и в переводе видео в «Браузере».

Источник: habr.com

0 0 голоса
Рейтинг новости
0
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии