Яндекс впервые применил LLM для фотоперевода с учётом контекста

Сегодня хочу поделиться с вами новостью, которую лично я очень ждал. В Переводчике и Браузере заработала новая технология перевода текста на фото и изображениях. Ключевых изменений два. Во-первых, мы впервые используем большую языковую модель, чтобы переводить картинки с учётом контекста. Во-вторых, мы улучшили визуализацию — текст перевода теперь больше похож на оригинальную вёрстку. Это может быть полезно, например, для перевода меню в ресторане, технической документации, дорожных указателей и книг. Под катом расскажу чуть подробнее о новой технологии и покажу несколько примеров новой визуализации.

LLM в фотопереводе

Для перевода текста на изображениях мы создали две новые модели семейства YandexGPT, адаптированные под задачи перевода с английского на русский. Почему две? Современные LLM требуют больших вычислительных ресурсов, поэтому мы провернули трюк с дистилляцией. Сначала мы обучили большую модель на множестве пар оригинальных и переведённых текстов. Модели показывали примеры качественных и плохих переводов, чтобы она училась подражать эталонным, избегала ошибок и не добавляла в свои тексты несуществующие детали. Так мы получили очень умную модель, но слишком тяжеловесную для применения в высоконагруженном сервисе. Затем мы использовали ответы большой модели для обучения маленькой. Так знания «учительской» модели передаются к меньшей «ученической». В результате качество ответов снижается незначительно относительно «учительской» модели, но при этом потребляется существенно меньше вычислительных ресурсов.

Новая модель учитывает стиль оригинального текста и может сохранить игру слов, например, на фотографиях рекламных слоганов или газетных заголовков. Новая технология подбирает более уместные формулировки во фразах с несколькими значениями и тем самым повышает качество перевода тех выражений, которые не стоит переводить дословно. Это актуально как для простых текстов, таких как состав косметической продукции, так и сложных — публицистических статей, энциклопедий и инструкций. На текущий момент новая технология применяется для изображений с текстом на английском.

Новая визуализация

Чтобы пользователю было удобно читать перевод текста на картинках, мы улучшили его визуализацию для нескольких десятков языков. Новая технология стирает оригинальный текст, подбирает шрифт, размер и цвет букв для перевода, а также убирает различные артефакты. Так переведённые изображения выглядят более естественно. Текст получается более контрастным. Кроме того, алгоритмы распознают переносы слов и могут учесть их, даже если в кадр попала только часть.

Несколько примеров:

Обновлённый фотоперевод уже работает в Яндекс Переводчике и Браузере, а позже появится и в Умной камере.

Источник: habr.com

0 0 голоса

Рейтинг новости

17156

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”