Кодированный творец

«Вау, нужно было использовать этот трейлер. Это пугающе красиво и не выдает весь сюжет», — отметил один из комментаторов трейлера к фильму ужасов «Морган».

Трейлер действительно отличается от других. Дело в том, что его создал не человек, а Ватсон — искусственный интеллект, разработанный IBM. Алгоритмы обучались на других трейлерах и фильмах ужасов, чтобы найти самые пугающие сцены.

Удачный маркетинговый прием не обошелся без преувеличений. На самом деле ИИ не монтировал трейлер. Алгоритмы просто определили критерии подходящих сцен, а затем представили подходящие эпизоды людям-монтажерам.

Этот случай хорошо иллюстрирует любую «творческую» работу ИИ. Технически алгоритмы могут писать истории, создавать музыку и картины. Но фактически они лишь симулируют самые простые части творчества и не могут работать без помощи человека.Ограниченность ИИ в творческих задачах мешает технологии развиваться дальше. Над решением проблемы работают исследователи по всему миру.

Почему искусственному интеллекту сложно творить?

Искусственный интеллект отлично анализирует и обрабатывает большие объемы однотипной информации и распознает паттерны. Это позволяет ИИ находить новые объекты в космосе, точно диагностировать заболевания по рентгеновским снимкам и даже создавать новые лекарства.

Еще ИИ может точно рассчитывать вероятности и предсказывать развитие событий в сценариях с точно заданными правилами. Поэтому алгоритмы легко обыгрывают людей и в шахматах, и в го, где число возможных вариантов расстановки фигур превышает количество атомов во Вселенной.

Но у машин все еще нет интуиции и образного мышления. В задачах, где невозможно описать все переменные, алгоритмы безнадежно отстают от человека.

Эту проблему еще в 1988 году описал Ханс Моравек — американский исследователь робототехники. Он отметил, что «сравнительно легко заставить компьютер играть в шашки на уровне взрослого человека, но сложно или невозможно дать ему навыки восприятия и мобильности и восприятия, которые есть у годовалых детей».

Ханс Моравек
Фото: Carnegie Mellon University

Сейчас, 30 лет спустя, положение ИИ изменилось, но только частично. Новые мощные процессоры позволяют быстро обрабатывать огромные массивы данных.

Развитие компьютерного зрения помогает алгоритмам различать объекты и людей. Роботы могут автономно передвигаться по пересеченной местности. Но ИИ все еще не может понимать абстрактные концепты вроде иронии, юмора или красоты. Эти понятия сложно выразить в цифрах и четких критериях.

Творчество тесно связано с самостоятельным ИИ — последней и самой важной стадией развития технологии, которую в своей теории выделил Ли Кайфу. Тайваньский предприниматель и автор книги «Сверхдержавы искусственного интеллекта» отмечает, что самостоятельный искусственный интеллект сможет сам выбирать пути исполнения поставленной задачи и полностью трансформировать целые рынки и сферы деятельности. Возможность создавать новые решения позволит машинам менять мир.

Однако если в сборе и анализе данных современные ИИ развиваются быстро, то до самостоятельности им еще далеко.

Это мешает алгоритмам не только творить, но и выполнять другие важные задачи. К примеру, человек-водитель может догадаться, что внезапно появившийся на дороге странный полупрозрачный объект — просто голограмма. Но беспилотные автомобили не знают, что ожидать на дороге. Поэтому, как показал эксперимент израильских ученых, машины принимают голограммы за настоящие предметы.

Техники обучения

Понять сложные и абстрактные идеи алгоритмам помогают новые техники обучения нейросетей. Одна из самых перспективных методик — это обучение с подкреплением. Технику разработали еще в 1960-е, но современные мощные процессоры делают ее особенно эффективной в тренировке ИИ.

Обучение с подкреплением похоже на дрессировку. «Агент» — тренируемый алгоритм — помещается в специальную тестовую среду и получает задачу, например заставить 3D-модель человека пройти из одного конца комнаты в другую. Алгоритм начинает пробовать разные версии решения.

Человек-наблюдатель утверждает верные действия и отвергает неверные. То есть если алгоритм заставляет модель человека делать шаг ногой — он получает подтверждение, а если модель начинает идти на руках — алгоритм получает указание на ошибку.

Алгоритм записывает полученные сигналы и корректирует свои действия. Задача обучения: поэтапно указать ИИ оптимальный путь решения задачи.

Такой метод обучения все еще не позволяет ИИ понять, что такое «красота». Зато алгоритмы можно научить копировать то, что считается красивым. В пример можно привести проект Magenta от Google. С помощью обучения с подкреплением разработчики смогли натренировать ИИ для генерации изображений и даже для создания простой музыки.

Решать творческие задачи помогают и новые нейросети. Яркий пример — система BERT от Google.

BERT — это нейронная сеть с transformer-архитектурой, направленная на работу с текстами. По сути, это означает, что она анализирует не только слова по отдельности, но и их связи, и контекст самого предложения. Таким образом, сеть может «понимать» не только прямые, но и переносные значения слов, а также сложные предложения.

В первую очередь BERT используют для улучшения работы поисковика. Сеть позволяет сделать выдачу точнее.

Сами разработчики приводят в пример запрос «2019 путешествие из Бразилии в США нужна виза». В этом запросе особенно важна связь между словами, а также предлоги «из» и «в». Стандартные поисковые алгоритмы могут не понять этого и показать ненужные ссылки: например, лучшие отели в США за 2019 год или визы для американцев в Бразилию. BERT же учтет эти детали и покажет нужные результаты, то есть правила оформления визы в США для путешественников из Бразилии.

Помимо поиска, BERT и схожие алгоритмы могут использоваться и в любой другой работе с текстами (естественный язык). В сочетании с техникой обучения с подкреплением BERT может выйти и за рамки текста. К примеру, в 2020 году исследователи из Microsoft натренировали одну из версий сети, чтобы та смогла играть в Zork — текстовую компьютерную игру с достаточно сложными правилами.

Причем процесс были приближен к обычному человеческому обучению: алгоритмы пробовали выполнить задачу, потом задавали уточняющие вопросы и записывали ответы. После обучения сеть смогла уверенно играть в игру без человеческого вмешательства и даже развивать свои навыки.

Ближе всего к настоящему творчеству алгоритмы подошли с помощью генеративно-состязательных сетей (ГСС). Их в 2014 изобрел студент Университета Монреаля Иэн Гудфеллоу — идея пришла к нему во время спора с другими студентами в баре.

ГСС состоят из двух частей. Первая часть — генеративная сеть — анализирует образцы изображений или других объектов и создает новый объект. Вторая часть — дискриминативная сеть — тренируется для различения подлинных и сгенерированных объектов, а затем передает данные генеративной сети.

То есть одна часть сети учится обманывать другую. Метод сравнивают с тестом Тьюринга, в котором участвуют только машины. Сам Гудфеллоу использовал другую метафору: «Это можно сравнить с отношением художника и критика. Генеративная сеть хочет обмануть критика, заставить его думать, что сгенерированные изображения — настоящие».

В процессе проверок генеративная сеть создает и уточняет латентное пространство объектов, которое помогает ей точнее определять и использовать данные. В идеальном сценарии после обучения дискриминативная сеть уже не может отличить поддельные объекты от настоящих.

ГСС часто используют в создании дипфейков. Самый известный пример — сайт thispersondoesnotexist.com, который может бесконечно генерировать реалистичные изображения людей. За исключением редких ошибок, их почти невозможно отличить от настоящих фотографий.

Но на этом возможности ГСС не заканчиваются. К примеру, они могут генерировать звуки и даже музыку. Впрочем, пока ГСС могут только перекладывать композиции на другие инструменты.

Что могут творческие ИИ

Эти и другие технологии все еще не делают ИИ по-настоящему творческим. Зато они позволяют автоматизировать связанную с творчеством работу.

Сервисы Clipchamp и Speechelo предлагают пользователям сгенерированную искусственным интеллектом озвучку видео. Искусственный голос может прочитать любой текст, правильно расставляя ударения и делая акценты на нужных словах.

Сотрудники британской студии Synthesia пошли еще дальше — они создают видео с искусственными спикерами. С их технологией быстрой генерации дипфейков заказчик даже может персонализировать видео, меняя голос и внешность моделей, а также текст в зависимости от того, кто смотрит видео.

Искусственный спикер
Фото: Dogtown Media

Такие «искусственные спикеры» стали особенно востребованы во время карантина, когда записывать видео с живыми людьми стало сложно. В июле международный рекламный гигант WPP разослал своим сотрудникам обучающее видео о пользе искусственного интеллекта. В каждом ролике к зрителю обратились по имени и на его родном языке. Спикеры меняли внешность в зависимости от страны проживания сотрудника.

Компания Flawless сосредоточилась на другом аспекте переводов видео и фильмов. Разработчики создали ИИ TRueSync, который меняет мимику актеров таким образом, чтобы она соответствовала дубляжу. Алгоритмы знают, как люди произносят звуки и слова на разных языках. Еще они могут анализировать мимику и изменять ее так, чтобы не искажать эмоции актеров. В результате кажется, что в фильме изначально говорили на языке дубляжа.

В то же время такие творческие применения ИИ создают и новые проблемы. Первая и самая очевидная — возможный рост безработицы. Точно предсказать влияние алгоритмов на занятость в творческих профессиях невозможно. Но те же сервисы автоматической сгенерированной озвучки предлагают клиентам «прекратить платить актерам».

Также творческий ИИ могут использовать преступники. Особенно опасными могут стать дипфейки.

В 2020 году исследователи из Университетского колледжа Лондона признали их самой серьезной угрозой закону из всех связанных с ИИ технологий. Преступники могут использовать сгенерированные изображения для финансового мошенничества, подделки улик и шантажа.

Еще дипфейки могут использовать, чтобы распространять дезинформацию о важных темах. Эксперты не раз высказывали опасения, что так можно создать опасные поддельные видео с политиками. Во время предвыборной гонки в США в 2020 году компрометирующе смонтированные видео с кандидатами набирали миллионы просмотров, с дипфейками ситуация может стать еще хуже.

Проблемой серьезно обеспокоено Министерство обороны США. Ведомство даже провело конкурс самых точных поддельных видео, чтобы усовершенствовать методы борьбы с подделками. Однако, как отмечают разработчики, в те же ГСС можно добавить критерии оценки, которые помогут сетям обходить детекторы и сделают подделки еще лучше.

А исследователи из Университета Вашингтона предупреждают, что дипфейки можно использовать и для публикации поддельных спутниковых снимков, на которых можно изобразить что угодно, от зданий до ракетных шахт. Такие поддельные снимки могут спровоцировать серьезный международный конфликт. Распознать такие подделки сложно, а иногда и невозможно.

ГСС уже фигурировали в шпионском скандале. В сентябре 2020 года Facebook раскрыла пропагандистскую сеть, связанную с китайскими властями. Сеть фальшивых аккаунтов пыталась манипулировать общественным мнением о Тайване. Чтобы сделать аккаунты похожими на настоящие, агенты использовали сгенерированные ГСС фотографии.

Риски неправильного использования технологии — не повод отказываться от этой технологии. К тому же самостоятельные ИИ и новые способы их тренировки слишком важны для экономики и политики, чтобы их развитие заморозили.

Но раньше область исследований ИИ была сравнительно свободной, без жестких правил. Теперь, как отмечают эксперты HBR, ее все чаще регулируют новые законы. И в ближайшем будущем их может стать намного больше.

ИИ-творцы в Москве

Несмотря на ограничения, искусственный интеллект все же можно использовать не только в коммерческих целях, но и для настоящего искусства.

Убедиться в этом можно на фестивале «Эстетика синтеза», организованном Центром профессионального мастерства «Медиаискусство» и Московской музыкальной школой имени А. К. Лядова при участии дирекции образовательных программ в сфере культуры и искусства департамента культуры города Москвы. Пройдет он с 18 по 20 июня.

На фестивале будут как обсуждать машины в искусстве, так и показывать настоящие примеры. Там сыграют музыку, написанную ИИ после анализа русской классики XIX века, и покажут написанный алгоритмами «Манифест манифестов», составленный из 250 манифестов художников. А в рамках Zoom-перформанса пройдет чтение фрагментов машинного текста о «новом взгляде на автономность технологий в современном мире».

Куратор фестиваля и руководитель методического центра «Медиаискусство» Наталья Фукс считает, что это только начало использования ИИ в искусстве.

Я уверена, что репрезентация таких художественных инициатив и участие в них дает новый взгляд на автономность технологий в современном мире и позволяет говорить о взаимоотношениях человека и машины более осмысленно.
Куратор фестиваля «Эстетика синтеза» и руководитель методического центра «Медиаискусство» Наталья Фукс

Также Наталья полагает, что машины не смогут заменить человека в искусстве, ведь алгоритмам не хватает самостоятельности.

«Но машина может быть соавтором и помогать нам увидеть себя со стороны. Сейчас поднимается большое количество этических вопросов, связанных с использованием тех или иных технологий, связанных с искусственным интеллектом в частности, и художественные проекты, использующие технологии машинного обучения, компьютерного зрения и т.п., зачастую более ясно формируют для зрителя новую перспективу, способствуют появлению критического взгляда на инновации. На мой взгляд, это самый главный смысл медиаискусства».