Возможно ли расшифровать языки всех живых существ Земли

В чем разница между воображением и реальностью? Если вам довелось посмотреть в детстве трогательный фильм «Бэйб: Четвероногий малыш», то вы помните уникальную способность поросенка Бэйба — он мог понимать не только речь всех животных на ферме, но и человеческую речь. Универсальный переводчик, без усилий наводящий мосты между любыми живыми существами — звучит как утопическая мечта.

Однако отличие этого сюжета от реальности не в том, что такой переводчик невозможен в принципе, а в том, что для его создания вместо строк бумажной книги Дика Кинг-Смита вам потребуется куда больше строк сложно структурированного компьютерного кода.

В марте 2022 года человечество впервые попробовало в деле алгоритм, переводящий с поросячьего.

Нет, они не открыли у свиней какую-то скрытую крипто-грамматику: скорее, в качестве основы исследователи попытались составить «словарь эмоций». Команда ученых из Дании, Швейцарии и Франции записала свыше 7 тыс. звуков от нескольких сотен свиней, которых помещали в различные повседневные сценарии. Как звучит радость? Когда поросята сосут молоко или снова оказываются вместе со своим выводком. Как звучит горе? Когда их разлучают, кастрируют или в стойле вспыхивает драка.

Исследователи попытались также распознать и более тонкие эмоции: например, когда поросенка выпускали на арену с игрушками или едой — в сравнении с совершенно пустой ареной или с ареной с новыми, незнакомыми объектами.

Выводы ученых частично пересекаются с нашей интуицией: свиньи кричат на высокой частоте (визг) в ситуации острого стресса. Частично же — ставят нашу интуицию под вопрос: звуки поросенка на низкой частоте (лай, хрюканье) сопутствуют как радостным, так и тревожным состояниям. Другие же звуки раньше не исследовались в принципе, и их еще предстоит классифицировать. Да, пока наш человеко-поросячий эмоциональный словарь не очень обширен, но дело не заканчивается свиньями.

Свиньи — только повод обратиться к проекту поистине эпического масштаба: попытке расшифровать языки всех живых существ Земли. Встречайте, ESP — Earth Species Project.

Наш проект не зависит от вида животных. Разрабатываемые нами инструменты смогут работать во всех областях биологии, от червей до китов. Да, хотя мы не знаем, как животные воспринимают мир, но есть эмоции, например горе и радость, которые некоторые из них вроде бы разделяют с нами и по поводу которых могут общаться с другими представителями своего же вида. <…> Парадокс в том, что способность ИИ заговорить на этом языке еще не будет означать, что мы, люди, поймем его значения.
Аза Раскин
соучредитель и президент Earth Species Project

Некоммерческая организация ESP была основана в 2017 году в Калифорнии. Не секрет, что уже более полувека различные группы биологов, этологов, лингвистов пытались изучать и расшифровывать на человеческий язык коммуникацию у живых организмов: муравьев, приматов, дельфинов. Хотя сама эта цель не нова, новыми являются средства, используемые в ESP. Хотя за последнее десятилетие отдельные группы ученых уже использовали алгоритмы ИИ для анализа сигналов (свиней, кашалотов, воронов и так далее), еще никто не пробовал замахиваться сразу на создание межвидового переводчика. Как это вообще возможно?

По словам Аза Раскина, президента организации ESP, для него и его коллег «мотивирующей интуицией» начать работу стали недавние данные, что машинное обучение можно использовать для перевода между различными (иногда едва соприкасающимися) человеческими языками — причем без предварительного их изучения.

Представьте, что вам нужно разместить тысячи слов в виртуальном пространстве. Оперируя ими в своем сознании, вы полагаетесь на ассоциации, на сходства и различия по смыслу. Но если мы помещаем значения слов в виде точек в аналог физического пространства, там, грубо говоря, нет такой координаты, как «смысл». Единственным способом, каким вы можете показать смысловую близость слов, будет их близость или удаленность в пространстве (а также направления между ними) — так мы изобразим схему их семантических отношений. Например: точка-слово «король» имела бы то же расстояние и тот же вектор в сторону точки-слова «мужчина», что и в случае «женщины» и «королевы».

Обратите внимание: мы, читатели этого текста, судим о королях и королевах, потому что нам известны значения самих слов. Но для лингвистического ИИ достаточно лишь того, к примеру, как часто они встречаются рядом друг с другом.

Исследователи алгоритмического перевода заметили, что такие «семантические схемы» по форме похожи даже у разных языков: в 2017 году две независимые группы ученых разработали способ, как осуществлять перевод, выравнивая эти схемы относительно друг друга. Для перевода с французского на суахили сначала выровняйте их семантические схемы, а потом найдите точку-слово в суахили, ближайшую к точке-слову во французском. Voilà!

Инновация проекта ESP именно в том, чтобы создать такого рода схемы-наложения не только между двумя конкретными видами животных (например, сурками и сурикатами), но между многими видами одновременно, после чего уже можно будет переходить к сравнениям со схемами человеческих языков. Если в первые пару лет существования ESP другие ученые и могли счесть его маргинальным сообществом энтузиастов, то в 2021 году ситуация принципиальным образом изменилась: первые отчеты о результатах распознавания языков животных были опубликованы в Nature.

Да, замысел этого проекта колоссален, поэтому дорожная карта ESP подразумевает в первую очередь решение ряда мелких проблем: это должно привести к разработке общих инструментов, которыми смогут пользоваться и другие ученые, применяющие ИИ для расшифровки конкретных видов.

Например, ESP недавно опубликовала статью о так называемой «проблеме коктейльной вечеринки»: речь идет об акустически нагруженной среде, в которой трудно различить, какая конкретная особь в группе животных издает звуки (вы наверняка сталкивались с подобным, пытаясь докричаться до кого-то на вечеринке). Модель на основе ИИ, которую обучали на свистках дельфинов, криках макак и вокализациях летучих мышей, работала лучше всего для тех же видов животных, на которых тренировалась, однако в случае больших наборов данных ИИ смог вычленять отдельные сигналы в шуме других видов животных, которых раньше никогда не слышал.

Остановимся на секунду. Мы говорим «язык животных» — но ведь это отнюдь не то же самое, что язык человека. В чем же различие?

В конце XIX века логик и философ Готлоб Фреге предложил проанализировать язык, на котором мы говорим, с помощью так называемого «знакового треугольника»: смысл – знак – референт. Например, посмотрите в зеркало. Референт — то, на что язык указывает в реальном мире: сам объект, висящий в прихожей (зеркало). Смысл — то, что вы думаете: ментальный образ зеркала в вашей голове. Он может быть смутным, недооформленным, не обязательно оформленным в слова. Знак же — напротив, обязательно оформлен: слова и есть знаки. Вы можете сказать: «пойду полюбуюсь на свое отражение» или (если вы физик) «светоотражающая поверхность в коридоре», или (если вы ребенок) «эта большая блестяшка». Вы можете даже послать кому-то эмодзи зеркала — это тоже будет знаком.

Здесь и начинается основное различие. Мы, люди, такие существа, что можем произвольно менять используемые знаки — так меняются нравы, мода, литературные стили. Например: «О Сиятельный Владыка, не обессудь принять раба своего» — сегодня мы вряд ли используем именно эти слова, но нам по-прежнему понятен смысл сообщения, сформулированного в столь архаичной манере.

По мере того как в ХХ веке достигли своей зрелости лингвистика и семиотика (наука о знаках), большой прогресс произошел и в области биологии.

Зоопсихология, изучающая мышление животных, а также этология, изучающая их поведение и восприятие окружающего мира, привели к формированию биосемиотики — науки о знаках, вплетенных в саму ткань живых организмов. Биосемиотика помогает нам, людям, увидеть нечто более сложное, чем слепые физико-химические процессы: например, хотя амеба всецело им подчиняется, вместе с тем она различает сахар в растворе, отличает свет от тьмы — и эти различия являются для нее «осмысленными». Так же, как солнце для подсолнуха или как феромоны для собаки.

Вполне ожидаемо, что вдохновленные биосемиотикой проекты выходят далеко за пределы лабораторных исследований и анализа данных. Так, например, на выставке «Да живет иное во мне» (Новая Третьяковка, 2021) биохимическая инсталляция One Tree ID Агнес Майер-Брандис давала возможность вступить в диалог с деревом на его языке. В природе деревья коммуницируют между собой с помощью запахов, поэтому художница совместно с учеными изучала аэрозольные вещества, производимые конкретным деревом, и создала на их основе состав, который зритель мог нанести на себя, чтобы предстать для дерева в качестве «общающегося» с ним сородича.

В отличие от нас живой организм не может произвольно поменять один знак на другой, потому что знаки эволюционно сформировались для определенной природной ниши и помогают выживать именно в ней. Змея видит инфракрасный свет — для нее это знак тепла, теплокровного животного, пищи, добычи. При этом для взаимодействия друг с другом животные одного вида также могут использовать знаки: приматы издают сигналы тревоги, которые различаются в зависимости от хищника; дельфины обращаются друг к другу с характерными посвистываниями; некоторые певчие птицы могут брать элементы своих криков и перестраивать их для передачи разных сообщений. (для заинтересовавшихся читателей — обратите внимание на книгу Карен Баккер из Университета Британской Колумбии «Звуки жизни: как цифровые технологии приближают нас к мирам животных и растений»).

Так как же искусственный интеллект расшифровывает подобный язык? Как мы, исследователи, можем убедиться, что полученная нами модель звуков вообще является осмысленной для животных данного вида?

Обратимся к мудрым кашалотам. Еще одна инициатива — Project CETI («Инициатива по переводу [языка] китообразных», Cetacean Translation Initiative) — планирует использовать машинное обучение для перевода коммуникации кашалотов. Команда сделала прекрасный обзор своей работы за последние годы, который изобилует деталями о том, как подобный проект воплощается на практике.

Проанализировав миллионы «кликов», издаваемых сообществами кашалотов (каждое имеет свои диалекты!), ученые оказались способны генерировать новые «сообщения»: они делаются за счет разделения вокализации на микрофонемы (отдельные единицы звука продолжительностью в сотую долю секунды) и использования языковой модели. Так, звуковой паттерн, «произносящий» что-то похожее на звуки кита, затем может быть воспроизведен перед животными, чтобы увидеть их реакцию. Если наблюдение за этой ситуацией позволит определить, в чем отличие случайного изменения по сравнению с семантически значимым, мы становимся на шаг ближе к тому, чтобы вступить в подлинный диалог с морскими гигантами.

Понимание того, что говорят животные, является первым шагом к тому, чтобы дать другим видам на планете «голос» в разговорах об окружающей среде. Например, следует ли просить китов нырять с пути лодок, когда это коренным образом меняет их питание, — или лодки должны изменить курс? Впрочем, мы не совсем уверены, как это повлияет на животных и захотят ли они вообще участвовать в каких-то разговорах. Может быть, если бы они смогли заговорить с нами, они просто сказали бы нам уйти.
Кей Ферт-Баттерфилд
глава Всемирного экономического форума по искусственному интеллекту и машинному обучению

Если замысел ESP окажется воплощен, значимость этого контакта будет сопоставима со встречей с инопланетянами — только здесь, на нашей Земле. Это поможет увидеть в животных тех, с кем мы сможем говорить на равных: великая цепь жизни будет связана речью.