X‑Omni хорошо справляется с отрисовкой текста, хотя при длинных абзацах точность падает
Команда Tencent X‑Omni показала, как методы обучения с подкреплением могут исправить типичные слабости гибридных систем искусственного интеллекта для генерации картинок. Модель особенно сильна в отображении длинных текстов в изображениях и временами задаёт новые стандарты качества.
Автогенеративные модели, создающие картинку токен за токеном, сталкиваются с серьёзным ограничением: ошибки накапливаются в процессе и заметно снижают итоговое качество. Чтобы обойти эту проблему, большинство современных систем используют гибридный подход — соединяют автогенеративные модели, отвечающие за семантическое планирование, с диффузионными моделями, которые завершают работу, прорисовывая изображение.
Но и у гибридов хватает слабых мест: токены, выдаваемые автогенеративной частью, нередко не совпадают с тем, чего «ждёт» диффузионный декодер. Исследователи Tencent решили устранить этот разрыв и создали X‑Omni — систему, которая с помощью обучения с подкреплением научилась выстраивать мост между двумя технологиями.
Единое обучение с подкреплением
X‑Omni объединяет автогрессивную модель, создающую семантические токены, с FLUX.1-dev. В отличие от предыдущих гибридов, здесь обе части не обучаются раздельно; обучение с подкреплением заставляет их работать заодно.
Сначала X‑Omni формирует семантические токены, затем диффузионный декодер превращает их в изображения. Система оценки даёт обратную связь о качестве, и автогенеративная модель учится производить такие токены, которые декодер сможет использовать максимально эффективно. В статье отмечается, что качество картинок стабильно растёт на протяжении обучения. Уже через 200 итераций X‑Omni превосходит результаты обычного гибридного подхода.
Вместо работы с пикселями X‑Omni использует семантическую токенизацию. Токенизатор SigLIP‑VQ разбивает изображение на 16 384 токена, где каждый описывает смысловую деталь, а не отдельный пиксель. Система построена на базе открытой модели Qwen2.5-7B от Alibaba, в которую добавлены специальные слои для обработки изображений.
Для обучения с подкреплением команда разработала целую оценочную цепочку: сюда входят человеческая оценка эстетики, модель для анализа качества высоких разрешений и мультимодальная система Qwen2.5-VL-32B, проверяющая соответствие изображения запросу. Для проверки текста применялись OCR‑системы GOT‑OCR-2.0 и PaddleOCR.
Особая гордость X‑Omni — точная работа с текстами внутри изображений. На тестах для английского языка модель достигла результата 0,901, опередив все аналоги. Чтобы проверить систему на длинных текстах, команда создала собственный бенчмарк LongText — и здесь X‑Omni снова вышла в лидеры, особенно по китайскому.
В сравнении с другими моделями X‑Omni точнее справляется с отображением текста, хотя преимущество невелико
В задаче общей генерации изображений X‑Omni показала рекордные 87,65 на тесте DPG — выше всех прочих «унифицированных моделей» и чуть выше GPT-4o. Кроме того, она уверенно справляется с задачами понимания картинок и обгоняет ряд специализированных решений в OCRBench.
Открытость и модульность
Подход с обучением на основе подкрепления выглядит многообещающе, хотя сами исследователи не заявляют о революционном скачке. В большинстве тестов прирост перед конкурентами остаётся умеренным. GPT-4o по‑прежнему силён, а Seedream 3.0 от Bytedance тоже показывает высокие результаты, хотя ограничивается лишь созданием изображений.
Тем не менее выделяется другое: X‑Omni собирает воедино инструменты с открытым исходным кодом от разных команд — порой даже конкурирующих — и превращает их в модель, которая способна достойно противостоять коммерческим продуктам вроде решений OpenAI.
Когда несколько месяцев назад в ChatGPT появилась генерация изображений на GPT-4o, это стало новым рубежом в индустрии. Судя по всему, секрет был в том же сочетании автогенеративной и диффузионной архитектур, которое улучшало понимание запросов и точность текста в картинках.
Tencent выложила X‑Omni в открытый доступ на Hugging Face и GitHub.
Источник: habr.com