OpenAI позволяет создавать собственные изображения в ChatGPT

Компания OpenAI интегрировала возможности создания изображений непосредственно в ChatGPT, заменив предыдущую интеграцию с DALL-E. Новая система призвана обеспечивать более стабильные результаты и меньшее количество ограничений по контенту.

Компания OpenAI начала внедрять собственную функцию создания изображений, представленную вместе с GPT-4o в мае 2024 года. По словам компании, эта функция станет стандартным генератором изображений для всех пользователей ChatGPT, от бесплатного уровня до корпоративных клиентов. Доступ к API для разработчиков планируется предоставить в ближайшие недели. DALL-E по-прежнему будет доступен как отдельная опция через специальный GPT.

Новая система обрабатывает текст и изображения одновременно, что позволяет получать более точные результаты. По данным OpenAI, она может обрабатывать до 20 различных объектов одновременно, сохраняя правильные взаимосвязи между ними. Эта возможность делает её особенно эффективной при создании текста на изображениях, например, для инфографики или логотипов.

Система особенно хорошо справляется с нестандартными концепциями. Когда её просят сгенерировать «астронавта верхом на лошади», предыдущие модели обычно по умолчанию генерировали более распространённый сценарий, в котором астронавт едет верхом на лошади.

Однако GPT-4o точно создаёт необычную композицию, что говорит о более глубоком понимании пространственных отношений, а не просто о воспроизведении распространённых шаблонов из обучающих данных. Эта способность может значительно расширить творческие возможности ИИ при создании изображений.

Модель способна к «контекстному обучению», что позволяет ей анализировать загруженные изображения и использовать их детали в новых поколениях. Пользователи могут улучшать свои результаты с помощью естественного диалога, при этом ИИ сохраняет контекст при многократном обмене репликами, что упрощает итеративное совершенствование изображения с помощью диалога.

Предварительное тестирование показывает, что система создаёт более стабильные изображения, чем DALL-E 3, хотя она ещё не идеальна. Пользователи могут заметить небольшие несоответствия между поколениями, например, небольшие изменения в причёске персонажа или деталях одежды.

OpenAI открыто заявляет о текущих ограничениях системы. Модель иногда неправильно обрезает изображения, генерирует галлюцинации, похожие на те, что наблюдаются в текстовых моделях, и испытывает трудности с изображениями, содержащими множество различных понятий.

OpenAI добавляет метаданные C2PA ко всем созданным изображениям, чётко указывая, что они были созданы искусственным интеллектом. Компания также создала внутреннюю систему поиска для отслеживания и идентификации изображений, созданных с помощью новой системы.

В отличие от строгой модерации DALL-E 3, генеральный директор OpenAI Сэм Альтман объявил, что новая система допускает большую творческую свободу, в том числе потенциально оскорбительный контент «в разумных пределах». Однако платформа по-прежнему блокирует запросы на дипфейки, насилие и несанкционированное изображение реальных людей.

Этот запуск следует за недавним выпуском Google аналогичной функции для своей модели Gemini, в которой также подчёркивались такие преимущества, как согласованность между изображениями, редактирование в режиме реального времени и точная передача текста.

В то время как специализированные генераторы изображений, такие как Midjourney или Ideogram, по-прежнему предлагают пользовательские интерфейсы, специально разработанные для создания изображений, они могут не соответствовать точности, обеспечиваемой встроенными мультимодальными моделями, такими как новая функция ChatGPT, аспект, который часто имеет решающее значение для задач по созданию изображений.

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии