Что произошло
Союз дикторов России попросил Госдуму начать регулировать отрасль синтеза человеческого голоса с помощью искусственного интеллекта (ИИ).
Почему это произошло
Дикторы опасаются, что развитие таких технологий лишит их доходов и создаст угрозу безопасности персональных данных. ИИ-инструменты начали активно внедрять для озвучивания аудиокниг и ТВ-шоу.
Что говорят
Компании, занимающиеся синтезом аудио, утверждают, что заботятся о легитимности технологии. А юристы отмечают, что за использование синтезированной речи без преступного умысла законодательством ответственности не предусмотрено.
Действующие лица
Количество стартапов, занимающихся синтезом, растет с каждым годом, например Sonatic и Murf привлекли миллионы долларов инвестиций. Крупные корпорации также разрабатывают подобные технологии, например Microsoft запустил Vall-E, а «Яндекс» — SpeechKit.
Что произошло
Союз дикторов России попросил Госдуму принять законы, регулирующие синтез голоса с помощью технологий искусственного интеллекта (ИИ), сообщил «Коммерсант».
- Речь о технологиях, которые копируют человеческий голос на основе аудиозаписи и позволяют применять его в голосовых помощниках, онлайн-синтезаторах и других сервисах.
- В письме к главе комитета Госдумы по информполитике Александру Хинштейну дикторы указали на участившиеся случаи кражи голосов искусственным интеллектом. «Нет ни норм, ни практики, ни понимания, как писать претензию. Заказчики ссылаются на договор, в котором есть пункты про отчуждение прав, право на переработку и право передачи третьим лицам», — отметили в Союзе.
- Дикторы предлагают установить запрет на отчуждение прав исполнителей при использовании аудиосинтеза и перейти на лицензионные договоры «с четко определенным сроком действия». Также в Союзе дикторов предлагают закрепить норму, чтобы запись синтезированного голоса можно было использовать только в заранее оговоренных проектах.
- Кроме того, по их мнению, необходимо организовать рабочую группу, которая будет заниматься вопросом использования синтезированных голосов. В нее предлагают включить представителей профильных министерств и Союза дикторов для обсуждения этических вопросов и норм регулирования.
Почему это произошло
- В Союзе опасаются, что в результате развития таких технологий использование синтезированной речи будет стоить дешевле, чем услуги диктора, и тогда многие из них лишатся работы.
- Также опасения вызывают «размытие устных норм русского языка» и угроза безопасности персональных данных, поскольку голос может использоваться при идентификации личности.
- Также в Союзе подняли вопрос этичности использования синтезированных голосов людей после их смерти.
В Союзе дикторов России обратили внимание на то, что «кражи» голосов участились. «Один из примеров: диктор 18 лет назад записал свой голос для научной работы на кафедре фонетики учебного заведения в Санкт-Петербурге, а пару лет назад обнаружил, что теперь его голос продают на нескольких платформах в виде синтеза. Ни о чем подобном при записи речи не шло», — сообщили в организации.
Синтезированные голоса используют в самых разных отраслях.
- ИИ-инструменты начали активно использовать для озвучивания аудиокниг. В 2022 году «ЛитРес» — лидер отрасли в России — записал и выпустил около 6 тыс. книг, озвученных «живыми» голосами, в то время как технологии ИИ позволили озвучить 3 тыс. книг за 2 месяца. Себестоимость озвучки одной книги с помощью ИИ составляет 400–700 рублей, уточнили в компании. Чтецы же в «ЛитРес» получают роялти — 10% от выручки с продаж аудиокниги. Начинающим дикторам компании предлагают зарплату от 750 рублей за час работы.
- К технологии синтеза голосов присматриваются и игроки кинорынка, а также ТВ. Ее можно использовать для исправления речи актеров — и не переснимать даже те дубли, где они оговорились или ошиблись. В SAG-AFTRA, профсоюзе актеров озвучивания США, заявили, что опасаются снижения оплаты труда или потери контроля над своими голосами, которые составляют их образ и репутацию.
Что говорят
- Компании, занимающиеся синтезом аудио, утверждают, что заботятся о легитимности технологии «и в целом об этике (использования. — Прим. ред.) ИИ». Об этом заявили в Центре речевых технологий.
- В VS Robotics (занимается решениями на базе речевых технологий) отметили, что в теории синтезировать речь определенного человека можно и без многочасовой записи, однако зачастую компании все же отбирают дикторов и записывают их голоса как минимум 5 часов.
- Компании, которые пользуются такими технологиями, считают, что опасения дикторов «не в полной мере оправданы». Как заявили в издательской группе «Эксмо-АСТ», без личного участия диктора добиться качества автоматического озвучивания невозможно.
- А в Alpina Digital считают, что у владельца или разработчика технологии должен быть договор на использование голоса, однако от прямого пиратства никто не застрахован.
- При этом юристы отмечают, что голос невозможно защитить от «копирования». Если синтезированная речь использована без преступного умысла, то такое использование не предусматривает ответственности.
Понять дикторов можно, но с точки зрения закона реализация их инициативы невозможна просто в силу того, что законом защищается не голос, а фонограмма, созданная с его применением.
Юрий Федюкин
управляющий партнер Enterprise Legal Solutions
- Также юристы считают, что менять законодательство в этой области не имеет смысла, поскольку фонограммы можно без особых усилий обрабатывать в других странах.
Действующие лица
Рынок технологий, создающих синтезированные голоса, уверенно растет. Согласно прогнозам, только в России к 2025 году сегмент разговорного ИИ достигнет $561 млн.
Sonantic. Британский стартап разработал алгоритм, который синтезирует речь с выражением сложных эмоций: гнева, страха, кокетства, застенчивости, поддразнивания. Компания считает, что совершила прорыв в создании «звуковых дипфейков» и описывает свою платформу как «Photoshop для голоса». Руководство стартапа называет целевой аудиторией разработчиков видеоигр и компании, специализирующихся на создании мультимедиа-контента. Sonantic уже заключил контракт с Mercedes и займется цифровым помощником для «умных» авто. В июне 2022 года Spotify объявил о приобретении Sonantic после того, как стартап привлек $3 млн инвестиций.
Murf. Американский стартап занимается разработкой инструмента для синтеза речи. Murf собрал библиотеку из сотни сгенерированных ИИ голосов на 20 языках. В сентябре 2022 года компания привлекла $10 млн инвестиций. По словам основателей, платформа собрала обширную клиентскую базу, в которую вошли как индивидуальные создатели контента, так и малые и средние предприятия, работающие в секторах образования, здравоохранения, СМИ и индустрии развлечений.
Vall-E. Это новая технология от Microsoft, которая, как заявляет компания, может воспроизвести голос на основе секундных аудиозаписей. Microsoft обучил Vall-E на звуковой библиотеке, содержащей 60 тыс. часов англоязычной речи от более чем 7 тыс. носителей, в основном они взяты из общедоступных аудиокниг LibriVox.
SpeechKit. Этот сервис «Яндекса» к концу июня 2022 года использовали более 1 тыс. клиентов, в том числе X5 Retail Group и «Додо Пицца». Технология позволяет, например, создавать под ключ виртуальных операторов для контакт-центров, голосовых ассистентов для бизнеса.