OpenAI сделала свою модель генерации мультимодальных изображений GPT-Image-1 доступной разработчикам через API. Ранее ограниченная ChatGPT, эта модель теперь принимается такими компаниями, как Adobe и Figma. По данным OpenAI, модель сгенерировала более 700 миллионов изображений для более чем 130 миллионов пользователей за первую неделю в ChatGPT. С более широкой доступностью через API это число, вероятно, будет расти.
Если отбросить шумиху вокруг Ghibli, модель OpenAI известна своим высокоточным отслеживанием подсказок, которое намного точнее, чем другие доступные модели изображений. В прямом сравнении новая Midjourney-v7 показала значительно более слабую производительность.
Обработка изображений с помощью gpt-image-1 оплачивается токенами. Структура ценообразования API различает текстовые токены, токены ввода изображений и токены вывода изображений. Текстовые токены оцениваются в 5 долларов за миллион, токены ввода изображений — в 10 долларов за миллион, а токены вывода изображений — в 40 долларов за миллион. В зависимости от выбранного качества изображения стоимость обычно составляет от 0,02 до 0,19 долларов за изображение.
Для GPT-4.1 и GPT-4o использование токенов зависит как от размера изображения, так и от выбранного уровня детализации. Фиксированная ставка в 85 токенов взимается за «детализацию: низкую». Для «детализации: высокую» изображение делится на плитки по 512 пикселей, каждая из которых добавляет 170 токенов к базовой ставке. Например, изображение 1024×1024 с высокой детализацией требует 765 токенов (четыре плитки плюс 85 токенов).
Другие модели, такие как GPT-4.1-mini, используют расчет на основе 32×32 пиксельных патчей с максимальным количеством токенов изображений 1536. Более крупные изображения, такие как 1800×2400 пикселей, масштабируются перед обработкой, чтобы соответствовать лимиту токенов.
Качество
Квадрат (1024×1024)
Портрет (1024×1536)
Пейзаж (1536×1024)
Низкий
272 жетона
408 токенов
400 жетонов
Середина
1056 токенов
1584 жетона
1568 токенов
Высокий
4160 токенов
6240 токенов
6208 токенов
Изображения могут быть предоставлены через прямые URL или как данные в кодировке Base64. API принимает форматы PNG, JPEG, WEBP и неанимированные GIF размером до 20 МБ. При высокой детализации изображения масштабируются до максимального разрешения 768×2000 пикселей.
Модель может интерпретировать визуальный контент, такой как объекты, цвета, формы и встроенный текст. Однако существуют ограничения с мелким текстом, нелатинскими шрифтами, повернутыми изображениями или сложными диаграммами, согласно OpenAI. Технология не подходит для медицинских изображений, CAPTCHA или задач, требующих высокой пространственной точности. Интерпретации, как правило, приблизительны, например, при подсчете объектов или определении положений. Изображения, содержащие водяные знаки, текст или контент NSFW, не принимаются. Параметр «detail» управляет уровнем анализа с вариантами «low», «high» или «auto».
Помимо генерации изображений через API изображений , модель также может анализировать изображения. API завершения чата и API ответов могут обрабатывать изображения в качестве входных данных и генерировать текстовый вывод. Планируется поддержка генерации изображений через API ответов.
Организациям может потребоваться пройти проверку для активации модели. Подробная информация об управлении доступом доступна в настройках организации . Разработчики могут протестировать модель с помощью Playground или ознакомиться с официальным Руководством по генерации изображений.
Модель использует те же механизмы безопасности, что и генерация изображений ChatGPT-4o, включая фильтры контента и метаданные C2PA для проверки происхождения. Сила фильтра регулируется с помощью параметра «moderation». OpenAI заявляет, что никакие данные клиентов из API не используются для обучения. Все использование подчиняется рекомендациям по использованию API OpenAI .
По данным OpenAI, такие компании, как Adobe (Creative Cloud), Figma (платформа дизайна), Airtable (автоматизация рабочего процесса), Wix (дизайн веб-сайтов) и Photoroom (визуальные элементы электронной коммерции) уже используют API в производстве. Adobe внедряет генерацию изображений в свои приложения Firefly и Express, чтобы расширить возможности креативного стиля.
Другие компании, включая Gamma, HeyGen, OpusClip и Quora, используют эту модель для таких приложений, как презентационная графика, создание аватаров, миниатюры YouTube и как общий генератор изображений. Instacart экспериментирует с изображениями рецептов, а Invideo тестирует технологию для редактирования видео.
Источник
Источник: habr.com