КиберпанкДеталиТехнологии

Искусственный интеллект говорит: дикторы просят «спасти» их голоса от нейросетей. Какие угрозы несут технологии синтеза речи

Речь о технологиях, которые копируют человеческий голос на основе аудиозаписи и позволяют применять его в голосовых помощниках, онлайн-синтезаторах и других сервисах.

Согласно прогнозам, только в России к 2025 году сегмент разговорного ИИ достигнет $561 млн. 

Что произошло

Союз дикторов России попросил Госдуму начать регулировать отрасль синтеза человеческого голоса с помощью искусственного интеллекта (ИИ). 

Почему это произошло

Дикторы опасаются, что развитие таких технологий лишит их доходов и создаст угрозу безопасности персональных данных. ИИ-инструменты начали активно внедрять для озвучивания аудиокниг и ТВ-шоу.

Что говорят

Компании, занимающиеся синтезом аудио, утверждают, что заботятся о легитимности технологии. А юристы отмечают, что за использование синтезированной речи без преступного умысла законодательством ответственности не предусмотрено. 

Действующие лица

Количество стартапов, занимающихся синтезом, растет с каждым годом, например Sonatic и Murf привлекли миллионы долларов инвестиций. Крупные корпорации также разрабатывают подобные технологии, например Microsoft запустил Vall-E, а «Яндекс» — SpeechKit.

Что произошло

Союз дикторов России попросил Госдуму принять законы, регулирующие синтез голоса с помощью технологий искусственного интеллекта (ИИ), сообщил «Коммерсант».

  • Речь о технологиях, которые копируют человеческий голос на основе аудиозаписи и позволяют применять его в голосовых помощниках, онлайн-синтезаторах и других сервисах.
  • В письме к главе комитета Госдумы по информполитике Александру Хинштейну дикторы указали на участившиеся случаи кражи голосов искусственным интеллектом. «Нет ни норм, ни практики, ни понимания, как писать претензию. Заказчики ссылаются на договор, в котором есть пункты про отчуждение прав, право на переработку и право передачи третьим лицам», — отметили в Союзе. 
  • Дикторы предлагают установить запрет на отчуждение прав исполнителей при использовании аудиосинтеза и перейти на лицензионные договоры «с четко определенным сроком действия». Также в Союзе дикторов предлагают закрепить норму, чтобы запись синтезированного голоса можно было использовать только в заранее оговоренных проектах.
  • Кроме того, по их мнению, необходимо организовать рабочую группу, которая будет заниматься вопросом использования синтезированных голосов. В нее предлагают включить представителей профильных министерств и Союза дикторов для обсуждения этических вопросов и норм регулирования.

Почему это произошло

  • В Союзе опасаются, что в результате развития таких технологий использование синтезированной речи будет стоить дешевле, чем услуги диктора, и тогда многие из них лишатся работы. 
  • Также опасения вызывают «размытие устных норм русского языка» и угроза безопасности персональных данных, поскольку голос может использоваться при идентификации личности. 
  • Также в Союзе подняли вопрос этичности использования синтезированных голосов людей после их смерти.

В Союзе дикторов России обратили внимание на то, что «кражи» голосов участились. «Один из примеров: диктор 18 лет назад записал свой голос для научной работы на кафедре фонетики учебного заведения в Санкт-Петербурге, а пару лет назад обнаружил, что теперь его голос продают на нескольких платформах в виде синтеза. Ни о чем подобном при записи речи не шло», — сообщили в организации. 

Синтезированные голоса используют в самых разных отраслях.

  • ИИ-инструменты начали активно использовать для озвучивания аудиокниг. В 2022 году «ЛитРес» — лидер отрасли в России — записал и выпустил около 6 тыс. книг, озвученных «живыми» голосами, в то время как технологии ИИ позволили озвучить 3 тыс. книг за 2 месяца. Себестоимость озвучки одной книги с помощью ИИ составляет 400–700 рублей, уточнили в компании. Чтецы же в «ЛитРес» получают роялти — 10% от выручки с продаж аудиокниги. Начинающим дикторам компании предлагают зарплату от 750 рублей за час работы.
  • К технологии синтеза голосов присматриваются и игроки кинорынка, а также ТВ. Ее можно использовать для исправления речи актеров — и не переснимать даже те дубли, где они оговорились или ошиблись. В SAG-AFTRA, профсоюзе актеров озвучивания США, заявили, что опасаются снижения оплаты труда или потери контроля над своими голосами, которые составляют их образ и репутацию.

Что говорят 

  • Компании, занимающиеся синтезом аудио, утверждают, что заботятся о легитимности технологии «и в целом об этике (использования. — Прим. ред.) ИИ». Об этом заявили в Центре речевых технологий. 
  • В VS Robotics (занимается решениями на базе речевых технологий) отметили, что в теории синтезировать речь определенного человека можно и без многочасовой записи, однако зачастую компании все же отбирают дикторов и записывают их голоса как минимум 5 часов.
  • Компании, которые пользуются такими технологиями, считают, что опасения дикторов «не в полной мере оправданы». Как заявили в издательской группе «Эксмо-АСТ», без личного участия диктора добиться качества автоматического озвучивания невозможно. 
  • А в Alpina Digital считают, что у владельца или разработчика технологии должен быть договор на использование голоса, однако от прямого пиратства никто не застрахован. 
  • При этом юристы отмечают, что голос невозможно защитить от «копирования». Если синтезированная речь использована без преступного умысла, то такое использование не предусматривает ответственности. 

Понять дикторов можно, но с точки зрения закона реализация их инициативы невозможна просто в силу того, что законом защищается не голос, а фонограмма, созданная с его применением.

Юрий Федюкин
управляющий партнер Enterprise Legal Solutions
  • Также юристы считают, что менять законодательство в этой области не имеет смысла, поскольку фонограммы можно без особых усилий обрабатывать в других странах. 

Действующие лица 

Рынок технологий, создающих синтезированные голоса, уверенно растет. Согласно прогнозам, только в России к 2025 году сегмент разговорного ИИ достигнет $561 млн. 

Sonantic. Британский стартап разработал алгоритм, который синтезирует речь с выражением сложных эмоций: гнева, страха, кокетства, застенчивости, поддразнивания. Компания считает, что совершила прорыв в создании «звуковых дипфейков» и описывает свою платформу как «Photoshop для голоса». Руководство стартапа называет целевой аудиторией разработчиков видеоигр и компании, специализирующихся на создании мультимедиа-контента. Sonantic уже заключил контракт с Mercedes и займется цифровым помощником для «умных» авто. В июне 2022 года Spotify объявил о приобретении Sonantic после того, как стартап привлек $3 млн инвестиций. 

Murf. Американский стартап занимается разработкой инструмента для синтеза речи. Murf собрал библиотеку из сотни сгенерированных ИИ голосов на 20 языках. В сентябре 2022 года компания привлекла $10 млн инвестиций. По словам основателей, платформа собрала обширную клиентскую базу, в которую вошли как индивидуальные создатели контента, так и малые и средние предприятия, работающие в секторах образования, здравоохранения, СМИ и индустрии развлечений.

Vall-E. Это новая технология от Microsoft, которая, как заявляет компания, может воспроизвести голос на основе секундных аудиозаписей. Microsoft обучил Vall-E на звуковой библиотеке, содержащей 60 тыс. часов англоязычной речи от более чем 7 тыс. носителей, в основном они взяты из общедоступных аудиокниг LibriVox. 

SpeechKit. Этот сервис «Яндекса» к концу июня 2022 года использовали более 1 тыс. клиентов, в том числе X5 Retail Group и «Додо Пицца». Технология позволяет, например, создавать под ключ виртуальных операторов для контакт-центров, голосовых ассистентов для бизнеса.

Копировать ссылкуСкопировано