Стартап Luma представил умный генератор картинок Uni-1: бесплатный убийца Nano Banana

150 человек из Сан-Франциско сделали то, что не смогли тысячи инженеров Google и OpenAI: научили нейросеть сначала думать над картинкой, и только потом ее рисовать.

Компания Luma AI, которую раньше знали по видеогенератору Dream Machine, выпустила модель Uni-1. Она анализирует задачу, строит план сцены и только после этого берется за пиксели.

Почти все известные генераторы, например Midjourney, Stable Diffusion, Google Imagen, работают диффузионным методом: берут случайный шум и постепенно «вычищают» из него картинку. Он дает красивые результаты, но не умеет рассуждать. Модель не понимает, что рисует, потому что она просто следует статистическим паттернам.

Uni-1 устроен иначе, он авторегрессионный — генерирует изображение токен за токеном, точно так же, как языковые модели пишут текст. Текст и картинка существуют внутри одного потока данных, без передачи между двумя разными системами. Это убирает «шов» между пониманием и созданием, то самое место, где обычно теряется смысл сложного запроса.

Google и OpenAI тоже пробовали сшить понимание с генерацией, но через костыли: GPT-4 переписывает промпт перед тем, как DALL-E его нарисует, а Luma убрал посредника.

Модель берет несколько отдельных фотографий питомцев и собирает из них единую сцену — с академическими мантиями, доской с формулами и логотипом Luma. Или берет один детский снимок пианиста и генерирует серию кадров, где он взрослеет — с одинаковым углом камеры и освещением на каждом этапе. Это задачи, которые раньше требовали ручного монтажа.

Источник: hi-tech.mail.ru

0 0 голоса

Рейтинг новости