Мультимодальное обучение Gemini обеспечивает прямую генерацию изображений, потенциально предлагая более точные результаты по сравнению с традиционными моделями изображений.Google включила собственные возможности генерации изображений в своей языковой модели Gemini 2.0 Flash для разработчиков.
Согласно сообщению в блоге компании, разработчики теперь могут тестировать эту функцию через Google AI Studio и API Gemini во всех поддерживаемых регионах. Процесс интеграции требует минимального кода, а Google предоставляет экспериментальную версию Gemini 2.0 Flash (gemini-2.0-flash-exp) для тестирования.
Генерация изображений Gemini отличается своей мультимодальной основой. Большая мультимодальная модель (LML) объединяет понимание текста, улучшенное рассуждение и мультимодальную обработку входных данных для генерации более точных изображений, чем традиционные модели генерации изображений.
Google утверждает, что модель может создавать последовательные визуальные повествования, объединяя текст и изображения, сохраняя согласованность персонажей и настроек на нескольких изображениях. Она также позволяет редактировать изображения в режиме разговора с помощью нескольких шагов диалога, что делает ее особенно полезной для итеративных улучшений, сохраняя контекст на протяжении всего разговора.
Встроенные в модель знания мира помогают создавать реалистичные и точные изображения, хотя Google отмечает, что эти знания, хотя и обширные, не абсолютны. Система также отлично справляется с включением текста в изображения, внутренние тесты показывают превосходную интеграцию текста по сравнению с ведущими моделями конкурентов.
OpenAI уже продемонстрировала возможности в этой области с помощью своей модели GPT-4o еще в мае 2024 года. Как и Gemini, GPT-4o создана как собственная мультимодальная система AI, которая может обрабатывать текст, аудио, изображения и видео, а также генерировать различные выходные данные, включая текст, аудио и изображения.
Компания продемонстрировала ряд возможностей: от визуального повествования и детального дизайна персонажей до креативной типографики и реалистичного 3D-рендеринга. Хотя эти функции еще не были представлены публике, отраслевые источники предполагают, что OpenAI запустит их в марте 2025 года — время, которое кажется еще более вероятным после объявления Google. Сотрудники OpenAI также намекнули на будущие функции генерации изображений.
Источник
Источник: habr.com