Если вы до сих пор считаете, что понятия “клонирование голоса” и “дипфейк” новы, то ошибаетесь. Первые опыты по имитации человеческого голоса проводились уже в 1779 году в России. Профессор Кристиан Кратценштейн соорудил в своей петербургской лаборатории акустические резонаторы, выполнявшие роль синтезаторов речи. Механизм приводился в действие за счет вибрирующих язычков. Совсем как в духовом музыкальном инструменте!

В 1838 году было сделано еще одно революционное открытие. Английский ученый Роберт Уиллис обнаружил связь между отдельными гласными звуками и строением речевого тракта человека. Это озарение вдохновило других исследователей на изобретение устройств голосового ответа. Одно из них было создано Александром Грэхемом Беллом и его отцом в конце XIX века.

На Всемирной выставке 1939 года в Нью-Йорке Гомер Дадли представил первый в мире электрический синтезатор речи VODER (Voice Operating Demonstrator). VODER работал по тому же принципу, что и современные девайсы на основе модели речи “источник — фильтр”. Правда, качество устройства и четкость генерируемого им голосового потока оставляли желать лучшего.

Затем было время формантных синтезаторов, таких как PAT (Parametric Artificial Talker), OVE (Orator Verbis Electris) и элементарных артикуляционных синтезаторов, например, DAVO (динамического аналога речевого тракта). Следующей ступенью стало создание Норико Умедой и его коллегами первой в мире полноценной системы преобразования текста в речь для английского языка. Произошло это в Японии в 1968 году.

С тех пор специальным устройствам стало под силу генерировать разборчивую речь. В 80-х и 90-х годах для синтеза речевого потока широко использовались нейронные сети и скрытые марковские модели. С помощью этих инструментов исследователи стремились получить более сложные звуки, которые были бы максимально схожи с голосом человека.

Как обстоят дела сегодня?

Современные технологии синтеза голоса развиваются за счет методов, основанных на глубинном обучении или генеративно-состязательных сетях (GAN). Экономический эффект искусственного воспроизведения речи очевиден (например, при производстве видеоигр или аудиокниг). Однако сейчас основной упор делается на том, чтобы упростить использование нескольких голосов, звучащих по-разному. Некоторые виртуальные помощники, например, Alexa и Siri, требуют огромных пакетов данных для создания индивидуального голоса.

Клонирование голосов и его применение в бизнесе

Давайте ближе познакомимся с технологией Respeech и узнаем, как она работает. Respeech использует глубокие нейронные сети, классические способы обработки цифрового сигнала и методы глубинного обучения для преобразования речевого потока. С помощью этого инструмента можно “заимствовать” голоса других людей, например, знаменитостей, моделировать и изменять их. А специальный механизм нейтрализации позволяет нивелировать акценты, чтобы речь было легче воспринимать на слух.

Сегодня клонирование речи активно используется при производстве и локализации фильмов, телепередач и видеоигр, изготовлении подкастов, аудиокниг и т.п. Многие контент-мейкеры и ведущие голливудские киностудии уже используют искусственные голоса.

Благодаря разрабатываемой нами системе преобразования речи в речь, спектр областей применения этой технологии будет расширяться. Преобразование голоса пригодится в колл-центрах, а в видеоиграх позволит игрокам разнообразить манеру речи при общении в чатах. Помимо этих коммерческих направлений, клонирование голоса можно будет также с успехом использовать в криптографии и медицине.

Система Respeecher состоит из двух компонентов: спектрального преобразователя и нейронной вокодерной сети. В обеих этих структурах задействованы нейросети, ориентирующиеся на параллельные данные от источника голоса и целевого диктора.

Сначала преобразователь конвертирует содержимое и индивидуальные характеристики сегмента речи (“сырую” спектральную репрезентацию исходной речи), превращая их в репрезентацию синтезированной речи. Нейронный вокодер отвечает за т.н. очистку “сырой” подачи преобразованной речи, проводя ее детальную обработку. В конце концов, вокодер выдает результирующую форму сигнала, которая и позволяет источнику говорить голосом целевого диктора.

Respeecher в действии: проект ”Никсон”

Специалисты Respeecher вместе с командой исследователей, журналистов и художников разработали в Массачусетском технологическом институте альтернативную историю первого полета человека на Луну. По легенде, астронавты Нил Армстронг и Базз Олдрин не должны были вернуться из этой миссии. Было даже записано альтернативное видеообращение президента Никсона, в котором он сообщал нации о трагическом результате полета на Луну.

Это видео было включено в художественную инсталляцию “В случае катастрофы на Луне”, отмеченную почетной наградой. Руководили выставкой Франческа Панетта и Хэлси Берганд.

“Мы работали со специалистами Respeecher над фильмом “В случае катастрофы на Луне”, который впервые был показан на Фестивале документального кино в Амстердаме в 2019 году. Они помогли нам создать синтезированный голос Ричарда Никсона, чтобы он озвучил никогда не произносившуюся им речь, заготовленную на случай провала миссии “Аполлона-11”. Мы создали очень правдоподобный фильм во многом благодаря их помощи.

Лента “В случае катастрофы на Луне” показала творческий потенциал технологии замены голоса, а также то, насколько реалистичным может быть дипфейк, выступающий как средство привлечения общественного внимания наряду с контекстуальными и образовательными ресурсами”.

Франческа Панетта, креативный директор Центра продвинутой реальности Массачусетского технологического института

Этические нормы клонирования голоса

В основе миссии Respeecher — использование нашей технологии клонирования голоса в нравственных целях. Мы стараемся предвидеть и предотвращать потенциально опасные применения нашего продукта. Особенно неприемлемо в этом отношении создание фейковых новостей или приписывание кому-либо слов, которые он никогда не говорил.

Мы используем технологию Respeecher исключительно для контент-приложений, не вводящих людей в заблуждение. Если вам интересно узнать больше о нашей миссии по клонированию голоса в этических целях, вы можете прочитать об этом на нашей странице, посвященной проблемам этики.

Примеры использования голосового клонирования в бизнесе

#1. Репликация голоса

Под репликацией голоса подразумевается создание речи, которую невозможно отличить от той, которую произносит диктор в оригинале. В цифровом реплицированном голосе можно уловить даже тонкие нюансы голоса и его эмоциональную окраску. Эту технологию можно использовать в киноиндустрии, играх, при создании разного рода контента и т. д.

#2. Дубляж и автоматическая замена диалога

Клонирование голоса — более эффективная альтернатива традиционному дубляжу, поскольку позволяет задействовать меньшее количество актеров. Это также позволяет накладывать закадровую речь актера даже тогда, когда он физически не может присутствовать на озвучке.

#3. Аудиокниги

Содержание книг уже можно озвучивать голосами людей, которых либо невозможно, либо чрезвычайно трудно записать. Представьте себе, что вы слушаете “Миссис Дэллоуэй” в исполнении самой Вирджинии Вулф! Вам больше не нужно об этом мечтать, ведь теперь вы действительно можете наслаждаться аудиокнигой, прочитанной голосом Вулф.

#4. Колл-центры

Голосовое клонирование можно использовать в колл-центрах для выработки более однообразной манеры ответа на звонки. Можно даже “поставить” всему колл-центру единый голос. Кроме того, появится возможность обращаться к клиенту в индивидуальном порядке определенным тоном, в зависимости от его настроения в данный момент.

#5. Сфера развлечений

Будьте уверены: вы точно победите в конкурсе караоке, если споете песню голосом известного человека, являющегося ее автором. А когда вы играете в видеоигры, вы можете озвучить своего персонажа с помощью голосового клонирования. Эти примеры показывают, что Respeecher предлагает вам то, что можно было бы назвать “аудиально продвинутым развлечением”.

#6. Исправление проблем с речью

Технология Respeecher даст вам возможность снова обрести голос и возобновить общение с окружающими, если из-за несчастного случая, инсульта или проблем со слухом вы испытываете трудности с этим.

Заключение

Наша миссия — предлагать контент-мейкерам в будущем такие ресурсы, которые еще совсем недавно были недоступны. Мы стремимся предоставить нашим клиентам качественную синтетическую речь для преодоления всех типов проблем, связанных с голосовой передачей информации.

Технология преобразования речи в речь пришла на смену конвертации текста в голос. Ее использование для обработки произведенного человеком контента — это то, что может придать чувство причастности к динамическому ритму и эмоциям, свойственным XXI веку.

То, что делает Respeecher, можно справедливо назвать клонированием голоса в этических целях. Мы всегда стремимся к ответственному использованию новейших технологий с моральной и юридической точек зрения.

Читайте также:

Читайте нас в Telegram, VK и Яндекс.Дзен


Перевод статьи Respeecher: Ethical Voice Cloning: What Is It and How Can Companies Use It?

Предыдущая статьяКак получить все неуникальные значения в массиве JavaScript?
Следующая статьяСвойства CSS, которые вы должны начать использовать прямо сейчас