OpenAI позволяет создавать собственные изображения в ChatGPT

Компания OpenAI интегрировала возможности создания изображений непосредственно в ChatGPT, заменив предыдущую интеграцию с DALL-E. Новая система призвана обеспечивать более стабильные результаты и меньшее количество ограничений по контенту.

Компания OpenAI начала внедрять собственную функцию создания изображений, представленную вместе с GPT-4o в мае 2024 года. По словам компании, эта функция станет стандартным генератором изображений для всех пользователей ChatGPT, от бесплатного уровня до корпоративных клиентов. Доступ к API для разработчиков планируется предоставить в ближайшие недели. DALL-E по-прежнему будет доступен как отдельная опция через специальный GPT.

Новая система обрабатывает текст и изображения одновременно, что позволяет получать более точные результаты. По данным OpenAI, она может обрабатывать до 20 различных объектов одновременно, сохраняя правильные взаимосвязи между ними. Эта возможность делает её особенно эффективной при создании текста на изображениях, например, для инфографики или логотипов.

Система особенно хорошо справляется с нестандартными концепциями. Когда её просят сгенерировать «астронавта верхом на лошади», предыдущие модели обычно по умолчанию генерировали более распространённый сценарий, в котором астронавт едет верхом на лошади.

Однако GPT-4o точно создаёт необычную композицию, что говорит о более глубоком понимании пространственных отношений, а не просто о воспроизведении распространённых шаблонов из обучающих данных. Эта способность может значительно расширить творческие возможности ИИ при создании изображений.

Модель способна к «контекстному обучению», что позволяет ей анализировать загруженные изображения и использовать их детали в новых поколениях. Пользователи могут улучшать свои результаты с помощью естественного диалога, при этом ИИ сохраняет контекст при многократном обмене репликами, что упрощает итеративное совершенствование изображения с помощью диалога.

Предварительное тестирование показывает, что система создаёт более стабильные изображения, чем DALL-E 3, хотя она ещё не идеальна. Пользователи могут заметить небольшие несоответствия между поколениями, например, небольшие изменения в причёске персонажа или деталях одежды.

OpenAI открыто заявляет о текущих ограничениях системы. Модель иногда неправильно обрезает изображения, генерирует галлюцинации, похожие на те, что наблюдаются в текстовых моделях, и испытывает трудности с изображениями, содержащими множество различных понятий.

OpenAI добавляет метаданные C2PA ко всем созданным изображениям, чётко указывая, что они были созданы искусственным интеллектом. Компания также создала внутреннюю систему поиска для отслеживания и идентификации изображений, созданных с помощью новой системы.

В отличие от строгой модерации DALL-E 3, генеральный директор OpenAI Сэм Альтман объявил, что новая система допускает большую творческую свободу, в том числе потенциально оскорбительный контент «в разумных пределах». Однако платформа по-прежнему блокирует запросы на дипфейки, насилие и несанкционированное изображение реальных людей.

Этот запуск следует за недавним выпуском Google аналогичной функции для своей модели Gemini, в которой также подчёркивались такие преимущества, как согласованность между изображениями, редактирование в режиме реального времени и точная передача текста.

В то время как специализированные генераторы изображений, такие как Midjourney или Ideogram, по-прежнему предлагают пользовательские интерфейсы, специально разработанные для создания изображений, они могут не соответствовать точности, обеспечиваемой встроенными мультимодальными моделями, такими как новая функция ChatGPT, аспект, который часто имеет решающее значение для задач по созданию изображений.

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”