В популярной нейросети появился музыкальный инструмент, который превращает случайную фразу в полноценный трек с вокалом.
Компания Google DeepMind представила Lyria 3 — третье поколение своей генеративной музыкальной модели. С сегодняшнего дня она работает в бета-режиме прямо внутри Gemini App: никаких отдельных сервисов, никаких плагинов.
Первые две версии Lyria требовали от пользователя готовых текстов, а модель лишь «одевала» их в музыку. Lyria 3 пишет слова сама, достаточно задать настроение, жанр или ситуацию, и система сгенерирует и мелодию. Вдобавок теперь можно управлять темпом, стилем и типом вокала — раньше такой гибкости не было. Треки стали сложнее, аранжировка глубже и реалистичнее по звуку.
Схема работы простая: вводишь запрос или загружаешь фото и видео. Например, просишь создать весёлый афробит про совместные прогулки с мамой и её фирменное блюдо — Gemini анализирует запрос, подбирает стиль, генерирует текст и накладывает всё на музыку. Результат — 30-секундный клип с автоматически нарисованной обложкой от нейросети Nano Banana. Готовую композицию можно скачать или отправить другу по ссылке прямо из интерфейса.
Если загрузить фотографию или видео, модель «читает» настроение кадра и сочиняет трек под него. Снимок собаки на горной тропе — и через несколько секунд звучит что-то между фолком и эмбиентом с соответствующими строчками. Намеренно скопировать чей-то стиль до деталей не получится. Если вписать в запрос имя конкретного артиста, Gemini использует его как общий ориентир по настроению, но не воспроизводит готовый звук. Все сделанные треки маркируются невидимым водяным знаком SynthID: он не слышен на слух, но позволяет идентифицировать происхождение файла. Тот же Gemini умеет проверять загруженные аудиофайлы и отвечать, создан ли трек с помощью Google ИИ.
Источник: hi-tech.mail.ru