Модель читает текст прямо с фотографий.
Google открыла публичный доступ к TranslateGemma — семейству компактных языковых моделей, которые специализируются исключительно на переводе. В отличие от универсальных ассистентов, эта система заточена под одну задачу и делает ее хорошо: 55 языков, работа офлайн, поддержка текста и изображений одновременно.
Публичный Google Translate — это облачный сервис. Каждый запрос уходит на серверы компании, там обрабатывается и возвращается обратно. Для частного использования это нормально. Но для бизнеса, медицины, юриспруденции или госсектора такая схема неприемлема: данные не должны покидать контур компании. TranslateGemma решает эту проблему, так как модель живет целиком на вашем железе. Кроме того, облачные API стоят денег при больших объемах, а локальная модель — это разовая загрузка и никаких лимитов.
В основе лежит архитектура Gemma 3 — та же, что Google использует в своих мультимодальных моделях. TranslateGemma дообучили на 4,3 миллиарда токенов параллельных текстов: это пары «оригинал — перевод» на десятках языковых пар. Дополнительно модель прошла этап обучения с подкреплением на 10,2 миллиона токенов — это улучшает точность и естественность перевода.
Весит модель 4 миллиарда параметров, для сравнения: GPT-4 — это примерно 1,8 триллиона параметров. TranslateGemma в 450 раз меньше, при этом в своей нише показывает результаты, сопоставимые с куда более тяжелыми системами. Контекстное окно — 2000 токенов. Это примерно 1500 слов за один запрос, чего хватит для большинства документов и сообщений.
Источник: hi-tech.mail.ru