Ни для кого не секрет, что даже самые передовые генеративные модели искусственного интеллекта плохо справляются с надписями на изображениях — часто вместо текста ИИ рисует какие-то странные символы, не справляясь с поставленной задачей. Чтобы исправить положение, в прошлом году компания OpenAI выпустила ChatGPT Images, а теперь пришло время версии с индексом «2.0», которая, по словам разработчиков, гораздо лучше справляется со сложными сценами. Изображение: OpenAI «Эта модель представляет собой качественный скачок в точном следовании инструкциям, размещении и сопоставлении объектов, а также рендеринге плотного текстового контента с возможностью генерации изображений с различными соотношениями сторон», — говорится в официальном пресс-релизе компании.
Примечательно, что Images 2.0 — первая модель обработки изображений от OpenAI с аналитическими способностями. В компании объяснили, что модель в процессе генерации контента может искать информацию в интернете в режиме реального времени, а также создавать несколько различных изображений по одному запросу, после чего проверять собственные результаты. Кроме того, новая LLM, по словам разработчиков, обеспечивает лучшую согласованность и визуальную целостность композиции, демонстрирует обширное «понимание» визуального мира, а финальный контент выглядит менее искусственно. Но, конечно, главной фишкой новой модели выступает именно работа с типографией. Изображение: OpenAI
В компании заявили, что Images 2.0 довольно точно обрабатывает мелкий текстовый контент, иконографию, элементы пользовательского интерфейса, плотные композиции, текстовый контент с различными шрифтами на одной сцене и многое другое. Например, в рамках демонстрации компания показала сгенерированную страницу из журнала о волках — с картой, несколькими шрифтами, выделенными блоками под статистику и не только. Безусловно, демонстрационные примеры обычно лучше, чем то, что удаётся сгенерировать пользователю, но прогресс в этом направлении явно имеется. Изображение: OpenAI
И так как посредством API система позволяет генерировать изображения в 2К-разрешении, это действительно может пользоваться спросом — лучшие модели от Google, например, всё ещё испытывают огромные трудности даже с текстом большого размера, не говоря уже о мелком шрифте. Пользователям без платной подписки OpenAI даёт пять бесплатных генераций — неплохой вариант оценить новую LLM.
Источник: trashbox.ru