Google добавляет собственную генерацию изображений в языковые модели Gemini

Мультимодальное обучение Gemini обеспечивает прямую генерацию изображений, потенциально предлагая более точные результаты по сравнению с традиционными моделями изображений.Google включила собственные возможности генерации изображений в своей языковой модели Gemini 2.0 Flash для разработчиков.

Согласно сообщению в блоге компании, разработчики теперь могут тестировать эту функцию через Google AI Studio и API Gemini во всех поддерживаемых регионах. Процесс интеграции требует минимального кода, а Google предоставляет экспериментальную версию Gemini 2.0 Flash (gemini-2.0-flash-exp) для тестирования.

Генерация изображений Gemini отличается своей мультимодальной основой. Большая мультимодальная модель (LML) объединяет понимание текста, улучшенное рассуждение и мультимодальную обработку входных данных для генерации более точных изображений, чем традиционные модели генерации изображений.

Google утверждает, что модель может создавать последовательные визуальные повествования, объединяя текст и изображения, сохраняя согласованность персонажей и настроек на нескольких изображениях. Она также позволяет редактировать изображения в режиме разговора с помощью нескольких шагов диалога, что делает ее особенно полезной для итеративных улучшений, сохраняя контекст на протяжении всего разговора.

Встроенные в модель знания мира помогают создавать реалистичные и точные изображения, хотя Google отмечает, что эти знания, хотя и обширные, не абсолютны. Система также отлично справляется с включением текста в изображения, внутренние тесты показывают превосходную интеграцию текста по сравнению с ведущими моделями конкурентов.

OpenAI уже продемонстрировала возможности в этой области с помощью своей модели GPT-4o еще в мае 2024 года. Как и Gemini, GPT-4o создана как собственная мультимодальная система AI, которая может обрабатывать текст, аудио, изображения и видео, а также генерировать различные выходные данные, включая текст, аудио и изображения.

Компания продемонстрировала ряд возможностей: от визуального повествования и детального дизайна персонажей до креативной типографики и реалистичного 3D-рендеринга. Хотя эти функции еще не были представлены публике, отраслевые источники предполагают, что OpenAI запустит их в марте 2025 года — время, которое кажется еще более вероятным после объявления Google. Сотрудники OpenAI также намекнули на будущие функции генерации изображений.

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии