OpenAI добавляет модель изображения ChatGPT «GPT-Image-1» в API для разработчиков

OpenAI сделала свою модель генерации мультимодальных изображений GPT-Image-1 доступной разработчикам через API. Ранее ограниченная ChatGPT, эта модель теперь принимается такими компаниями, как Adobe и Figma. По данным OpenAI, модель сгенерировала более 700 миллионов изображений для более чем 130 миллионов пользователей за первую неделю в ChatGPT. С более широкой доступностью через API это число, вероятно, будет расти.

Если отбросить шумиху вокруг Ghibli, модель OpenAI известна своим высокоточным отслеживанием подсказок, которое намного точнее, чем другие доступные модели изображений. В прямом сравнении новая Midjourney-v7 показала значительно более слабую производительность.

Обработка изображений с помощью gpt-image-1 оплачивается токенами. Структура ценообразования API различает текстовые токены, токены ввода изображений и токены вывода изображений. Текстовые токены оцениваются в 5 долларов за миллион, токены ввода изображений — в 10 долларов за миллион, а токены вывода изображений — в 40 долларов за миллион. В зависимости от выбранного качества изображения стоимость обычно составляет от 0,02 до 0,19 долларов за изображение.

Для GPT-4.1 и GPT-4o использование токенов зависит как от размера изображения, так и от выбранного уровня детализации. Фиксированная ставка в 85 токенов взимается за «детализацию: низкую». Для «детализации: высокую» изображение делится на плитки по 512 пикселей, каждая из которых добавляет 170 токенов к базовой ставке. Например, изображение 1024×1024 с высокой детализацией требует 765 токенов (четыре плитки плюс 85 токенов).

Другие модели, такие как GPT-4.1-mini, используют расчет на основе 32×32 пиксельных патчей с максимальным количеством токенов изображений 1536. Более крупные изображения, такие как 1800×2400 пикселей, масштабируются перед обработкой, чтобы соответствовать лимиту токенов.

Качество

Квадрат (1024×1024)

Портрет (1024×1536)

Пейзаж (1536×1024)

Низкий

272 жетона

408 токенов

400 жетонов

Середина

1056 токенов

1584 жетона

1568 токенов

Высокий

4160 токенов

6240 токенов

6208 токенов

Изображения могут быть предоставлены через прямые URL или как данные в кодировке Base64. API принимает форматы PNG, JPEG, WEBP и неанимированные GIF размером до 20 МБ. При высокой детализации изображения масштабируются до максимального разрешения 768×2000 пикселей.

Модель может интерпретировать визуальный контент, такой как объекты, цвета, формы и встроенный текст. Однако существуют ограничения с мелким текстом, нелатинскими шрифтами, повернутыми изображениями или сложными диаграммами, согласно OpenAI. Технология не подходит для медицинских изображений, CAPTCHA или задач, требующих высокой пространственной точности. Интерпретации, как правило, приблизительны, например, при подсчете объектов или определении положений. Изображения, содержащие водяные знаки, текст или контент NSFW, не принимаются. Параметр «detail» управляет уровнем анализа с вариантами «low», «high» или «auto».

Помимо генерации изображений через API изображений , модель также может анализировать изображения. API завершения чата и API ответов могут обрабатывать изображения в качестве входных данных и генерировать текстовый вывод. Планируется поддержка генерации изображений через API ответов.

Организациям может потребоваться пройти проверку для активации модели. Подробная информация об управлении доступом доступна в настройках организации . Разработчики могут протестировать модель с помощью Playground или ознакомиться с официальным Руководством по генерации изображений.

Модель использует те же механизмы безопасности, что и генерация изображений ChatGPT-4o, включая фильтры контента и метаданные C2PA для проверки происхождения. Сила фильтра регулируется с помощью параметра «moderation». OpenAI заявляет, что никакие данные клиентов из API не используются для обучения. Все использование подчиняется рекомендациям по использованию API OpenAI .

По данным OpenAI, такие компании, как Adobe (Creative Cloud), Figma (платформа дизайна), Airtable (автоматизация рабочего процесса), Wix (дизайн веб-сайтов) и Photoroom (визуальные элементы электронной коммерции) уже используют API в производстве. Adobe внедряет генерацию изображений в свои приложения Firefly и Express, чтобы расширить возможности креативного стиля.

Другие компании, включая Gamma, HeyGen, OpusClip и Quora, используют эту модель для таких приложений, как презентационная графика, создание аватаров, миниатюры YouTube и как общий генератор изображений. Instacart экспериментирует с изображениями рецептов, а Invideo тестирует технологию для редактирования видео.

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”