Что произошло
Компания Meta* разработала генератор музыки MusicGen. Модель может генерировать треки как по описанию, так и с учетом уже существующих песен.
Действующие лица
Большинство ИИ-сервисов пока не могут генерировать музыку по текстовому описанию. Конкуренцию Meta* в этом сегменте составляют Google, разработавший MusicLM, и OpenAI, запустившая Jukebox.
Как это работает
Нейросети умеют генерировать музыку по текстовому описанию, по вокалу, а также создавать звуковые эффекты.
Что послушать
Певица Граймс с помощью нейросети создала колыбельную для сына, а организация Over the Bridge «возродила» Курта Кобейна песней Drowned in The Sun.
Что произошло
Компания Meta* разработала генератор музыки по текстовому описанию MusicGen. Сервис находится в открытом доступе на хостинге Hugging Face, там его можно протестировать.
- С помощью текстовых подсказок нейросеть создает записи длительностью до 12 секунд. Она может генерировать треки как по описанию, так и с учетом уже существующих песен.
- Нейросеть обучали на 10 тыс. лицензированных песен, а также 390 тыс. композиций из медиабиблиотек ShutterStock и Pond5.
- В отличие от подобных разработок конкурентов, музыкальный генератор Meta* не может исполнять вокал.
Действующие лица
Большинство ИИ-сервисов пока не могут генерировать музыку по текстовому описанию. Прямую конкуренцию Meta* в этом сегменте составляют Google и OpenAI. Журналисты TechCrunch пишут, что генератор от Meta* «даже немного лучше» алгоритма от Google, но работает «недостаточно хорошо, чтобы лишать музыкантов работы». Преимущества MusicGen отметили и в The Decoder.
- Google представил свой генератор музыки MusicLM в январе 2023 года. Нейросеть создает треки в любом жанре по текстовому описанию, уловив такие нюансы запроса, как
инструментальные риффы , мелодии и настроение. MusicLM может генерировать вокал, включая хоровые гармонии. Но, как пишут СМИ, алгоритм пока не может генерировать «сложные» композиции. MusicLM обучали на наборе данных из 280 тыс. часов музыки. При этом исследователи компании обнаружили, что 1% музыки, сгенерированной нейросетью, было отрывками из песен, на которых она обучалась.
- OpenAI представила модель Jukebox в 2020 году. Нейросеть может генерировать полноценные песни с музыкой, осмысленными текстами и вокалом, имитируя определенный жанр музыки или даже воссоздавая стиль конкретного исполнителя. Jukebox обучали на 1,2 млн композиций. Журналисты отметили, что нейросеть «идеально сочиняет «новые» песни Синатры и Элвиса», но не может воспроизвести стандартную песню с припевами и повторяющимся мотивом.
- Нейросеть Riffusion, представленная в декабре 2022 года, создает музыку на основе текстового запроса, на основе которого генерируется спектрограмма, а потом она конвертируется в аудио. Но «сгенерировать что-то пригодное для использования не получится», отмечали обозреватели.
- Аудиосервис «Звук» (принадлежит «Сберу») представил в апреле 2022 года модель Mubert, которая специализируется на генерации фоновой музыки, например для работы или для роликов на YouTube. Технология создает бесконечный музыкальный поток на основе готовых семплов. В марте 2023-го в России запустили радиостанцию с треками, сгенерированными этой нейросетью.
Как это работает
Ранее технологии позволяли проводить лишь некоторые операции с композициями, чтобы облегчить жизнь музыкантам. Например, нейросети могли разделять дорожки, например чтобы удалить вокал или переместить бас из одной песни в другую. Теперь же нейросети умеют генерировать музыку по текстовому описанию (как MusicLM и Jukebox), по вокалу, а также создавать звуковые эффекты.
- Генерация на основе вокала работает как «караоке наоборот»: от человека требуется спеть мелодию, а нейросеть продолжит ее создание. Так работает, например, сервис SingSong.
- Создание звуковых эффектов работает следующим образом: текстовый запрос кодируется предварительно обученной языковой моделью; затем ИИ генерирует сигнал с помощью диффузионного генератора, который затем преобразуется в звуковую волну. Такие нейросети могут выдавать голос человека под водой, звуки проезжающего мимо автомобиля или нарезки картошки на деревянной доске.
Что касается обучения на композициях, эксперты отмечают, что предстоит решить основные этические и юридические вопросы, связанные с генерацией музыки. Нейросети обучаются на уже существующих композициях, и этот факт устраивает не всех артистов или пользователей генеративного ИИ. Ранее художники начали подавать иски против разработчиков и платформ, запустивших генераторы картин, в связи с «незаконным использованием произведений, защищенных авторским правом». Эксперты ожидают, что музыканты также будут выступать против разработок корпораций.
Что послушать
Канадская певица Граймс в 2020 году создала с помощью нейросети бесконечную колыбельную для своего сына. Композиция всегда звучит по-разному и «подстраивается» под время суток и погоду. «В этом есть что-то магическое. Может прозвучать странно, но мы будто взламываем божественный код», — сказала Граймс.
Организация Over the Bridge, которая помогает музыкантам бороться с психическими заболеваниями, запустила проект Lost Tapes of the 27 Club. В его рамках ИИ «придумывает», какие песни сейчас могли бы написать известные музыканты, умершие в 27 лет, например Курт Кобейн или Эми Уайнхаус. Например, Over the Bridge использовала нейросеть, чтобы сгенерировать трек в стиле Nirvana. Для этого в программу загрузили 30 песен группы. Модель создала лишь музыку и слова, а текст спел вокалист трибьют-группы Nirvana Эрик Хоган. В результате получился трек Drowned in The Sun.
Также нейросети могут создать виртуальных певцов. Например, Yona самостоятельно пишет музыку и сочиняет текст. Автор идеи Эш Куш, который создал «певицу», отметил, что большинство ее текстов «расплывчаты и бессмысленны», но некоторые поразили его эмоциональностью и точностью.
Другой цифровой композитор — Miquela — в 2017 году выпустила свой первый сингл Not Mine. У «певицы» есть свой YouTube-канал, на который подписаны 280 тыс. подписчиков. Там она не только выкладывает новые песни, но и ведет блог, например рассказывает о лучших моментах года.
*Компания Meta признана в России экстремистской организацией.
Фото обложки: The Decoder