Искусственный интеллект говорит: дикторы просят «спасти» их голоса от нейросетей. Какие угрозы несут технологии синтеза речи

Что произошло

Союз дикторов России попросил Госдуму начать регулировать отрасль синтеза человеческого голоса с помощью искусственного интеллекта (ИИ).

Почему это произошло

Дикторы опасаются, что развитие таких технологий лишит их доходов и создаст угрозу безопасности персональных данных. ИИ-инструменты начали активно внедрять для озвучивания аудиокниг и ТВ-шоу.

Что говорят

Компании, занимающиеся синтезом аудио, утверждают, что заботятся о легитимности технологии. А юристы отмечают, что за использование синтезированной речи без преступного умысла законодательством ответственности не предусмотрено.

Действующие лица

Количество стартапов, занимающихся синтезом, растет с каждым годом, например Sonatic и Murf привлекли миллионы долларов инвестиций. Крупные корпорации также разрабатывают подобные технологии, например Microsoft запустил Vall-E, а «Яндекс» — SpeechKit.

Что произошло

Союз дикторов России попросил Госдуму принять законы, регулирующие синтез голоса с помощью технологий искусственного интеллекта (ИИ), сообщил «Коммерсант».

Речь о технологиях, которые копируют человеческий голос на основе аудиозаписи и позволяют применять его в голосовых помощниках, онлайн-синтезаторах и других сервисах.
В письме к главе комитета Госдумы по информполитике Александру Хинштейну дикторы указали на участившиеся случаи кражи голосов искусственным интеллектом. «Нет ни норм, ни практики, ни понимания, как писать претензию. Заказчики ссылаются на договор, в котором есть пункты про отчуждение прав, право на переработку и право передачи третьим лицам», — отметили в Союзе.
Дикторы предлагают установить запрет на отчуждение прав исполнителей при использовании аудиосинтеза и перейти на лицензионные договоры «с четко определенным сроком действия». Также в Союзе дикторов предлагают закрепить норму, чтобы запись синтезированного голоса можно было использовать только в заранее оговоренных проектах.
Кроме того, по их мнению, необходимо организовать рабочую группу, которая будет заниматься вопросом использования синтезированных голосов. В нее предлагают включить представителей профильных министерств и Союза дикторов для обсуждения этических вопросов и норм регулирования.

Почему это произошло

В Союзе опасаются, что в результате развития таких технологий использование синтезированной речи будет стоить дешевле, чем услуги диктора, и тогда многие из них лишатся работы.
Также опасения вызывают «размытие устных норм русского языка» и угроза безопасности персональных данных, поскольку голос может использоваться при идентификации личности.
Также в Союзе подняли вопрос этичности использования синтезированных голосов людей после их смерти.

В Союзе дикторов России обратили внимание на то, что «кражи» голосов участились. «Один из примеров: диктор 18 лет назад записал свой голос для научной работы на кафедре фонетики учебного заведения в Санкт-Петербурге, а пару лет назад обнаружил, что теперь его голос продают на нескольких платформах в виде синтеза. Ни о чем подобном при записи речи не шло», — сообщили в организации.

Синтезированные голоса используют в самых разных отраслях.

ИИ-инструменты начали активно использовать для озвучивания аудиокниг. В 2022 году «ЛитРес» — лидер отрасли в России — записал и выпустил около 6 тыс. книг, озвученных «живыми» голосами, в то время как технологии ИИ позволили озвучить 3 тыс. книг за 2 месяца. Себестоимость озвучки одной книги с помощью ИИ составляет 400–700 рублей, уточнили в компании. Чтецы же в «ЛитРес» получают роялти — 10% от выручки с продаж аудиокниги. Начинающим дикторам компании предлагают зарплату от 750 рублей за час работы.
К технологии синтеза голосов присматриваются и игроки кинорынка, а также ТВ. Ее можно использовать для исправления речи актеров — и не переснимать даже те дубли, где они оговорились или ошиблись. В SAG-AFTRA, профсоюзе актеров озвучивания США, заявили, что опасаются снижения оплаты труда или потери контроля над своими голосами, которые составляют их образ и репутацию.

Что говорят

Компании, занимающиеся синтезом аудио, утверждают, что заботятся о легитимности технологии «и в целом об этике (использования. — Прим. ред.) ИИ». Об этом заявили в Центре речевых технологий.
В VS Robotics (занимается решениями на базе речевых технологий) отметили, что в теории синтезировать речь определенного человека можно и без многочасовой записи, однако зачастую компании все же отбирают дикторов и записывают их голоса как минимум 5 часов.
Компании, которые пользуются такими технологиями, считают, что опасения дикторов «не в полной мере оправданы». Как заявили в издательской группе «Эксмо-АСТ», без личного участия диктора добиться качества автоматического озвучивания невозможно.
А в Alpina Digital считают, что у владельца или разработчика технологии должен быть договор на использование голоса, однако от прямого пиратства никто не застрахован.
При этом юристы отмечают, что голос невозможно защитить от «копирования». Если синтезированная речь использована без преступного умысла, то такое использование не предусматривает ответственности.

Понять дикторов можно, но с точки зрения закона реализация их инициативы невозможна просто в силу того, что законом защищается не голос, а фонограмма, созданная с его применением.
Юрий Федюкин
управляющий партнер Enterprise Legal Solutions

Также юристы считают, что менять законодательство в этой области не имеет смысла, поскольку фонограммы можно без особых усилий обрабатывать в других странах.

Действующие лица

Рынок технологий, создающих синтезированные голоса, уверенно растет. Согласно прогнозам, только в России к 2025 году сегмент разговорного ИИ достигнет $561 млн.

Sonantic. Британский стартап разработал алгоритм, который синтезирует речь с выражением сложных эмоций: гнева, страха, кокетства, застенчивости, поддразнивания. Компания считает, что совершила прорыв в создании «звуковых дипфейков» и описывает свою платформу как «Photoshop для голоса». Руководство стартапа называет целевой аудиторией разработчиков видеоигр и компании, специализирующихся на создании мультимедиа-контента. Sonantic уже заключил контракт с Mercedes и займется цифровым помощником для «умных» авто. В июне 2022 года Spotify объявил о приобретении Sonantic после того, как стартап привлек $3 млн инвестиций.

Murf. Американский стартап занимается разработкой инструмента для синтеза речи. Murf собрал библиотеку из сотни сгенерированных ИИ голосов на 20 языках. В сентябре 2022 года компания привлекла $10 млн инвестиций. По словам основателей, платформа собрала обширную клиентскую базу, в которую вошли как индивидуальные создатели контента, так и малые и средние предприятия, работающие в секторах образования, здравоохранения, СМИ и индустрии развлечений.

Vall-E. Это новая технология от Microsoft, которая, как заявляет компания, может воспроизвести голос на основе секундных аудиозаписей. Microsoft обучил Vall-E на звуковой библиотеке, содержащей 60 тыс. часов англоязычной речи от более чем 7 тыс. носителей, в основном они взяты из общедоступных аудиокниг LibriVox.

SpeechKit. Этот сервис «Яндекса» к концу июня 2022 года использовали более 1 тыс. клиентов, в том числе X5 Retail Group и «Додо Пицца». Технология позволяет, например, создавать под ключ виртуальных операторов для контакт-центров, голосовых ассистентов для бизнеса.