Сегодня хочу поделиться с вами новостью, которую лично я очень ждал. В Переводчике и Браузере заработала новая технология перевода текста на фото и изображениях. Ключевых изменений два. Во-первых, мы впервые используем большую языковую модель, чтобы переводить картинки с учётом контекста. Во-вторых, мы улучшили визуализацию — текст перевода теперь больше похож на оригинальную вёрстку. Это может быть полезно, например, для перевода меню в ресторане, технической документации, дорожных указателей и книг. Под катом расскажу чуть подробнее о новой технологии и покажу несколько примеров новой визуализации.
LLM в фотопереводе
Для перевода текста на изображениях мы создали две новые модели семейства YandexGPT, адаптированные под задачи перевода с английского на русский. Почему две? Современные LLM требуют больших вычислительных ресурсов, поэтому мы провернули трюк с дистилляцией. Сначала мы обучили большую модель на множестве пар оригинальных и переведённых текстов. Модели показывали примеры качественных и плохих переводов, чтобы она училась подражать эталонным, избегала ошибок и не добавляла в свои тексты несуществующие детали. Так мы получили очень умную модель, но слишком тяжеловесную для применения в высоконагруженном сервисе. Затем мы использовали ответы большой модели для обучения маленькой. Так знания «учительской» модели передаются к меньшей «ученической». В результате качество ответов снижается незначительно относительно «учительской» модели, но при этом потребляется существенно меньше вычислительных ресурсов.
Новая модель учитывает стиль оригинального текста и может сохранить игру слов, например, на фотографиях рекламных слоганов или газетных заголовков. Новая технология подбирает более уместные формулировки во фразах с несколькими значениями и тем самым повышает качество перевода тех выражений, которые не стоит переводить дословно. Это актуально как для простых текстов, таких как состав косметической продукции, так и сложных — публицистических статей, энциклопедий и инструкций. На текущий момент новая технология применяется для изображений с текстом на английском.
Новая визуализация
Чтобы пользователю было удобно читать перевод текста на картинках, мы улучшили его визуализацию для нескольких десятков языков. Новая технология стирает оригинальный текст, подбирает шрифт, размер и цвет букв для перевода, а также убирает различные артефакты. Так переведённые изображения выглядят более естественно. Текст получается более контрастным. Кроме того, алгоритмы распознают переносы слов и могут учесть их, даже если в кадр попала только часть.
Несколько примеров:
Обновлённый фотоперевод уже работает в Яндекс Переводчике и Браузере, а позже появится и в Умной камере.
Источник: habr.com