Google добавляет собственную генерацию изображений в языковые модели Gemini

Мультимодальное обучение Gemini обеспечивает прямую генерацию изображений, потенциально предлагая более точные результаты по сравнению с традиционными моделями изображений.Google включила собственные возможности генерации изображений в своей языковой модели Gemini 2.0 Flash для разработчиков.

Согласно сообщению в блоге компании, разработчики теперь могут тестировать эту функцию через Google AI Studio и API Gemini во всех поддерживаемых регионах. Процесс интеграции требует минимального кода, а Google предоставляет экспериментальную версию Gemini 2.0 Flash (gemini-2.0-flash-exp) для тестирования.

Генерация изображений Gemini отличается своей мультимодальной основой. Большая мультимодальная модель (LML) объединяет понимание текста, улучшенное рассуждение и мультимодальную обработку входных данных для генерации более точных изображений, чем традиционные модели генерации изображений.

Google утверждает, что модель может создавать последовательные визуальные повествования, объединяя текст и изображения, сохраняя согласованность персонажей и настроек на нескольких изображениях. Она также позволяет редактировать изображения в режиме разговора с помощью нескольких шагов диалога, что делает ее особенно полезной для итеративных улучшений, сохраняя контекст на протяжении всего разговора.

Встроенные в модель знания мира помогают создавать реалистичные и точные изображения, хотя Google отмечает, что эти знания, хотя и обширные, не абсолютны. Система также отлично справляется с включением текста в изображения, внутренние тесты показывают превосходную интеграцию текста по сравнению с ведущими моделями конкурентов.

OpenAI уже продемонстрировала возможности в этой области с помощью своей модели GPT-4o еще в мае 2024 года. Как и Gemini, GPT-4o создана как собственная мультимодальная система AI, которая может обрабатывать текст, аудио, изображения и видео, а также генерировать различные выходные данные, включая текст, аудио и изображения.

Компания продемонстрировала ряд возможностей: от визуального повествования и детального дизайна персонажей до креативной типографики и реалистичного 3D-рендеринга. Хотя эти функции еще не были представлены публике, отраслевые источники предполагают, что OpenAI запустит их в марте 2025 года — время, которое кажется еще более вероятным после объявления Google. Сотрудники OpenAI также намекнули на будущие функции генерации изображений.

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”