подкаст

>

Синтез речи и клонирование голосов: тренды, кейсы, как повторить

Подкаст
CONVERSATIONS WITH

Синтез речи и клонирование голосов: тренды, кейсы, как повторить

Гости – Кирилл Петров (Just AI), Павел Капля (Яндекс.Диалоги), Алексей Фивинцев (VK), Федор Минькин (SmartSpeech, SberDevices), Дарима Мылзенова (Just AI), Никита Ткачев (Yandex.Cloud), Роман Доронин (EORA)

Этот эпизод подкаста мы сняли на конференции Conversations, которая прошла 3 декабря в Москве. Вместе с экспертами поговорили про одну из главных тем зимней конференции – синтез речи и клонирование голосов. Обсудили, кому нужны клонированные голоса, как устроен синтез речи, можно ли синтезировать эмоции, какие платформы ASR/TTS выиграют битву за пользователя и многое другое.

Для чего нужен синтез

Елена Ефимова, Just AI: Кирилл, в своем выступлении ты говорил о тренде на синтез речи. Расскажи, кому и зачем нужны синтезированные голоса?

Кирилл Петров: Синтезированные голоса — это, мне кажется, очень востребованная история. Сейчас быстро растет и развивается роль креаторов — людей, которые создают свой контент. Например, я заметил, что дети часто используют синтезированные голоса в своих роликах, а вариантов таких голосов очень мало. Для многих задач — интересной озвучки, сюжетного построения подкастов и блогов — синтез будет очень полезен.

С помощью синтеза можно озвучить текстовые новости и слушать их в машине, пока заняты руки и нет возможности читать. Причем слушать в исполнении живых голосов.

Еще один пример — я знаю много игровых студий, которые делают свои нарративные игры с огромным количеством текста. Они озвучивают свои игры, но обычно на один-два языка максимум. В потенциале с помощью технологий синтеза у них появится возможность создавать разный нарратив от разных персонажей и на разных языках, что очень упростит, удешевит и ускорит процесс подготовки подобных игр для разных рынков.

Традиционная история — это умный IVR — общение роботов с людьми в контакт-центрах. Там тоже хочется слышать какие-то живые и интересные голоса.

Павел Капля: Все давно привыкли к тому, что голос так или иначе связан с сервисом, которым мы пользуемся: будь то голоса ассистентов или телефонных секретарей, голоса персонажей и актеров, которые озвучивают героев из фильма в фильм, из сериала в сериал. Мы привыкли ассоциировать конкретного персонажа с голосом. Голос нужен для того, чтобы узнавать.

Синтез речи пригодится везде, где нужно вести диалог с пользователем. В процессе разговора мы не можем заранее знать вопрос, который он нам задаст, и что мы будем ему отвечать, и тогда нам по-настоящему нужен синтез речи, а не просто предзаписанный голос. Часто используются гибридные схемы, но в конечном счете, чем выше мы хотим качество, тем более real-time синтез нам нужен. В общем, синтез – это всё, что связано с взаимодействием пользователя с какой-то «железкой», будь то телефон, колонка – любое место, где пользователь будет с нами разговаривать.

Отдельная область применения синтеза – начитка аудиокниг и длинное вещание, длинное говорение. Это совершенно особенная область со своими специфичными проблемами, подходами, техниками, требованиями и ожиданиями пользователей.

Качество синтеза точно становится лучше, вся индустрия развивается, везде появляются новые статьи и новые подходы. На меня сегодня большое впечатление произвел продукт, который показал Just AI – Aimyvoice.

Качество синтеза прежде всего определяется количеством данных, которое у вас есть. На сегодняшний день именно это становится краеугольным камнем, потому что всё остальное – алгоритмы, сети и подходы, которые используются, – все достаточно публично. И в России, и на международной арене все открыто говорят о том, как они делают свой синтез, и в значительной степени всё определяется доступом к объему данных, на которых эти сети учатся.

Е.Е: Как ты думаешь, как новое качество синтеза поменяет отношение пользователей к чат-ботам, к ассистентам, к аудиокнигам?

П.К.: Мне кажется, что здесь есть интересный момент. Самим голосом никого не удивить, все люди привыкли. На мой взгляд, некачественный синтез вызывает у людей не такое сильное отторжение, как мы бы хотели – они понимают, что это синтез. Как профессионалы индустрии мы хотим добиться перехода в ощущение, что пользователь говорит не с ботом, а с человеком. Но определяется это далеко не только синтезом, а тем, как всё устроено внутри, как мы друг друга слышим, как мы перебиваем и так далее.

Это комплекс всех технологий, которые существуют вокруг голосового интерфейса. Поэтому качество синтеза сейчас будет определять не этот отталкивающий фактор – мы в любом случае будем звонить в банки, в сервисы, в службы, где нас будут встречать голосовые роботы, и нам будет нормально, ведь мы понимаем, зачем мы это делаем.  Мне кажется, что качество синтеза будет определять позитивный выбор: я выбираю эту экосистему или я выбираю этот сервис, потому что мне нравится, как он звучит. И, конечно же, за счет роста числа различных голосов, синтезов, которые используются повсеместно с привлечением персонажей, с озвучиванием от имени кого-то или чего-то.

О платформах синтеза речи

Е.Е.: А как ты думаешь, какие голоса окажутся более востребованными – женские, мужские, детские, каких-то необычных персонажей, анимационных персонажей?

Кирилл Петров: Чего не хватает на рынке, на что точно будет спрос, особенно среди тех самых креаторов – это разные необычные и интересные голоса: голоса стереотипных или мультяшных персонажей, голоса, которые могут сделать проект ярче, которые в жизни не найти и в домашних условиях не воссоздать. Поэтому в Aimyvoice мы делаем отдельный акцент на разнообразные необычные голоса. Например, голос Ленина.

Е.Е.: И в этом будет фишка платформы?

К.П.: Таких проектов на рынке платформ нет. Более того, и в мире именно таких платформ нет. Маркетплейс голосов – это не только платформа синтеза речи. Там можно создать свою собственную модель речи, то есть ваш уникальный голос. Это может сделать любой человек, потратив от пяти часов на запись. Правда важно, чтобы запись была сделана в хороших условиях.

Помимо создания голоса, мы предоставляем возможность участникам маркетплейса, то есть студиям или актерам озвучки, зарабатывать на своих голосах. Если раньше модель была такая – за какое-то количество синтезированных символов или за минуту синтеза платформа синтеза речи забирала деньги себе – то мы хотим разделить эти деньги с теми, чьи голоса там используются. Мы соединяем людей, которые хотят использовать голос, с теми, у кого есть эти голоса или образы. Именно в этом и есть основная фишка нашего проекта Aimyvoice.

Е.Е.: VK недавно тоже сделали свою платформу синтеза речи. Расскажешь о ней?

Алексей Фивинцев: У нас уже и так были синтез речи и распознавание. У нас действительно хорошие технологии, и мы ищем точки монетизации и хотим зарабатывать на этом. Особенностями этого решения я бы назвал следующее: комплекс ASR/TTS – в общем ключе есть и то, и другое; простой API – можно подключиться к телефонии, можно легко интегрировать в разные решения, в разные поверхности. У нас есть также В2В-направление, которое решает крупные задачи для бизнеса в чат-ботах. У них свое решение, свой конструктор, всё связано с NLP, с построением правильных диалогов, вычислением интента пользователя и правильным ответом.

Е.Е.: Но ведь платформ синтеза речи становится всё больше. Как ты думаешь, кто выиграет битву за клиента?

А.Ф.: Всё очень зависит от сегмента. Если мы говорим про small and medium business, то для них обычно хорошо работают шаблоны. Если мы говорим про более крупные бизнесы, более серьезные задачи, то здесь победит команда и продукт, у которого есть комплексное решение как по распознаванию, так и по синтезу речи, причем синтез должен быть различный – различные интонации, различные голоса, возможность их комбинировать, использовать разметку. Если мы говорим про распознавание речи, то здесь обязательно хорошее распознавание различных тематик. Например, мы отдельно дообучали наши модели для распознавания адресов.

Я живу недалеко от Яковоапостольского переулка – достаточно сложное название, и «Маруся» какое-то время не могла его распознать, потому что такого слова – Яковоапостольский – нет. И нам потребовались время и, естественно, база данных, чтобы дообучить модель, чтобы это можно было использовать в продакшене.

Поэтому качество распознавания должно быть на разных сегментах: оно должно быть на сегменте поддержки, на сегменте доставки, на сегменте образования. Это всё – огромное количество данных, которые просто так собрать тоже довольно сложно.

И еще, если мы хотим выйти на крупный бизнес, то нужен хороший консалтинг и хорошая команда, которая сможет разработать сложные проекты, связанные именно с NLP, с пониманием интента пользователя, и готовые интегрироваться с внутренними системами крупного клиента. Многие очень крупные бизнесы просят именно ботовую систему, чат-бота для размещения в on-premise режиме – внутри контура продукта. Многие запрашивают такое и для синтеза, но сейчас мы наблюдаем тренд, что это не всегда необходимо. Часто соглашаются на гибридную модель, когда, например, наш Cloud Voice может находится в облаке, в то время как диалоговая система, которая уже интегрирована с какими-то внутренними базами данных и с данными о клиенте, находится on-premise.

Как устроен синтез речи с точки зрения технологий

Федор Минькин: Некоторые слова зависят от контекста. Например, «дорóгой» или «дорогóй». Разные части речи, разные ударения и так далее. Первый модуль в синтезе обычно разрешает эти проблемы: он ставит ударения, раскрывает числа в буквы, например, «третий» или «три». Этот модуль работает только с текстом.

После того, как этот модуль отработал, задача передается следующему модулю. Это обычно называется акустической моделью. Акустическая модель моделирует интонации и выдает такую вещь, как спектрограмма. В спектрограмме заложено почти всё о голосе: то, как человек говорит, то, что он говорит, его интонация, скорость и т. д. Это одна из самых сложных частей синтеза, потому что интонаций очень много, и есть хотелки бизнеса и вообще всего научного сообщества сделать контролируемый синтез: чтобы было так – когда я хочу сказать «злой», чтобы синтез сказал злобно, когда я хочу какую-то радостную фразу – радостно. Но это эмоции, а есть интонация – просто повышения контура, повышение интонации какого-то слова. Когда мы задаем вопрос «Что сегодня с погодой?», я могу сделать акцент на «что?» – «Чтó сегодня с погодой?», и смысл меняется, всё меняется. Хочется сделать контролируемый в таком плане синтез, но также передать артистичность, то есть голос должен быть не сухим, а выражать эмоции и быть живым, отличным от робота. Самая большая проблема сейчас почти у всех синтезов речи – что ты сразу чувствуешь, что это робот.

А после этого – заключительная компонента из спектрограммы. Спектрограмма – это не звук, это представление звука. Чтобы получить именно звук (а спектрограмма выглядит как сигнал периодически), сигнал нужно засинтезировать.

Последняя система отвечает за то, чтобы из спектрограммы синтезировать реальный голос. Челлендж в том, чтобы не было никаких шумов, никаких потрескиваний, потому что всей этой информации нет в спектрограмме. Спектрограмма – она, скорее, то, что говорят и как говорят, а именно технические особенности и бархатное звучание – это всё про последнюю компоненту.

Что такое просодия и как ей управлять при синтезе речи?

Дарима Мылзенова: Просодией можно назвать всё, что не относится к тексту, к спикеру, то есть к его тембру, и к микрофону, особенностям записи. Всё, что относится к интонации, к стилю, к громкости и манере речи, – это именно просодия. И в частности стиль голосового ассистента тоже имеет определенную просодию. Стиль ребенка, который что-то спрашивает, – это тоже совершенно другая просодия. Мы провели много экспериментов, чтобы наш синтез получился живым и похожим на человека, чтобы он говорил не монотонно, а разнообразно.

Почему это очень важно – потому что в целом задача синтеза речи не совсем корректно поставлена для математической модели. Это задача one-to-many, когда одному тексту может соответствовать несколько ответов, потому что один и тот же текст «Привет, как дела?» мы можем произнести как «Привет, как делá?», можем произнести «Привéт. Как делá?» – это совершенно разная интонация, то есть разная просодия. И если никак не управлять ею, то модель склонна усреднять результаты, и у нас будет монотонное роботическое «Привет, как дела». Мы приделываем к нейронной сети несколько «рычажков», управляя которыми, мы можем управлять и тем, какая интонация в итоге получится.

Голос как у Альфа: об официальном голосе Альфа-Банка

Е.Е.: Никита, когда разрабатывали голос ассистента Альфа, как вы действовали?

Никита Ткачев: Задача была не просто в том, чтобы получить какой-то хороший голос конкретно для Альфа, но сделать такую систему, которая гарантировала бы хорошее качество при любом допустимом дикторе. Поэтому, во-первых, мы довольно много времени потратили на то, чтобы выстроить более жесткие и строгие взаимоотношения со студиями, которые генерят весь материал, а во-вторых, мы довольно сильно вложились в лингвистику – с точки зрения войс-коучей мы сильно расширили команду, которая с нами работает, сильно вложились в инструменты валидации данных. Мы хорошо умеем делать модели, которые обучаются делать синтез речи, а вот всё остальное было довольно сложно.

С Альфом мы много экспериментировали с разными данными, и поэтому Всеволоду (Всеволод Кузнецов, актер озвучки, официальный голос Альфа) большое спасибо, что он это пережил.

Всеволод Кузнецов: От простейшей фразы, знакомой каждому с детства – «Мама мыла раму», до фразы типа «Идентификация оплодотворением прошла согласно диффузии верификации полномасштабного объема регуляции правого колена согласно сложносочиненному предложению», которую нужно сказать в характере.

Всеволод Кузнецов на Conversations

Н.Т.: Я потом по комментариям от войс-коучей читал реальный текст, который мы сгенерировали, и ужасался, как он вообще с нами продолжает работать. Но мы это исправили и адаптировались под диктора, поняли, какие проблемы можно собрать и как их отработать. Мы много чего выбросили, это было ожидаемо, мы к этому были готовы. После того как мы подготовили данные, у нас появилось огромное количество разных прототипов моделей, и мы вместе с командой Альфа их валидировали, смотрели, чем они отличаются. Это и помогало нам подобрать итоговую архитектуру, которую мы будем использовать дальше для других проектов.

В процессе, когда мы делали сам продукт SpeechKit Brand Voice, мы поняли, что есть два совсем разных сегмента, которые захотят его использовать.

Первый сегмент – это стандартные модели привычных синтезов речи типа Альфа, которому ты просто даешь произвольный текст, и он его красиво и аккуратно озвучивает в виде аудиодорожки.

А вторая часть – это компании, которые в свое время разочаровались в синтезе речи, потому что он долгое время был роботным, недооформленным, и они пошли по пути типа «а давайте мы просто запишем какие-то реплики диктора и будем их аккуратно друг в друга вставлять, и у нас получится вроде как диалог». Это можно использовать в сценариях, когда важно, чтобы человек чувствовал, что он разговаривает с другим человеком, и при должном мастерстве он даже никогда не узнает, что он говорил с роботом. Но там есть определенные ограничения в том, что нельзя персонализировать такие реплики.

Это все полностью ломало сценарий, потому что приходилось вставлять кусочки синтеза, очень похожие на предыдущие записи диктора, к нам приходили с запросами типа «А можете нам дать диктора, который записывал этот синтез речи? Мы с ним дозапишемся, чтобы нам такой сценарий склеить». Тут мы сделали модель адаптированного брендвойса, Adaptive Brand Voice, которая делает примерно то же самое, что делают и наши полные модели, но на вход можно подавать предзаписанный ролик. Этот предзаписанный ролик является шаблоном для интонации, и благодаря тому, что модели синтеза не нужно предсказывать и угадывать натуральную интонацию – она ее просто берет из живой речи – мы почти сразу сломали метрику похожести на реального человека, это действительно было очень похоже. И если даже заменять в этой исходной фразе какие-то кусочки текста – например, вставлять вместо «5 января» «20 декабря» или вместо Лены вставлять Никиту, или что-то еще, всё равно уровень похожести остается очень высоким.

О виртуальных персонажах и смешанной реальности

Е.Е.: Логично, что в мире, где можно синтезировать голос Ленина, есть и виртуальные персонажи. Так, китайское информационное агентство «Синьхуа» уже не первый год экспериментирует с виртуальными ведущими новостных телепрограмм.

Роман Доронин: Если смотреть исторически, то виртуальные персонажи, по сути, и породили то, что сейчас мы называем искусственным интеллектом. Эта часть с персонажами идет через всю историю фантастики, кинематографа, опасения людей относительно искусственного интеллекта – это первое. Второе, что сейчас является очень горячим пирожком – это Metaverse, Omniverse – каждый ее как хочет, так и называет.

Если раньше всё было просто – был оффлайн и внутри него были какие-то миры и сообщества, потом появился онлайн, а сейчас по многим причинам это всё очень сильно перемешивается, и даже год назад или два уже были разные каналы – Instagram, мессенджеры. Коммуникация была чуть-чуть разной, разные модальности – где-то тексты и эмоджи, где-то видеообщение. А сейчас миры еще больше смешиваются, и эта линия, например, между офлайном и геймингом теряется. Я не исключаю того, что в игре будет персонаж – представитель банка. Во многих онлайн-играх есть банк, но это будет банк брендированный. Или, наоборот, вживую терминал условного МакДональдса выдаст тебе задание в игровом мире.

И возвращаясь к цифровым персонажам, для чего они и кому они нужны, мне кажется, сейчас это запрос очень общественный. С одной стороны, человек хочет свой аватар. Например, уже есть стримеры, которые стримят в костюмах с motion capture, и люди это видят условно как девочку из аниме, которая стримит. А есть персонажи диджитального характера, именно AI-персонажи, цифровые аватары. Это есть и в России – представили на NVidia GTC. И на это тоже есть запрос. Кому они нужны? Если говорить в контексте брендов и бизнеса, то что есть у бизнеса сейчас? Логотип и какое-то название бренда. А чтобы выделяться, нужно что-то еще – например, персонаж с уникальными манерами, голосом, который воплотит в себе tone of voice и какие-то характеристики бренда.

Е.Е.: А какой синтез речи нужен виртуальным персонажам? Какие-то необычные голоса или интонации?

Р.Д: Сейчас синтез уже на том уровне, когда он хотя бы не раздражает. Особенно если мы используем гибридный синтез. Но сейчас стоят два челленджа, оба из которых находятся в пространстве эмпатии. Например, сейчас синтез не должен быть идеальным, но он должен быть приятным. Есть условные «э-э», «а-а», что естественно для человеческой речи, и их тоже нужно будет как-то воплощать – голосовой ассистент должен экать и акать в какой-то пропорции, чтобы быть более близким. А второе, еще более сложное, потому что у разных культур разное восприятие всего этого, – голос должен соответствовать персонажу.

Новогодние пожелания про речевые технологии и не только

Е.Е.: Что бы ты пожелал тем, кто работает в нашей сфере, в новом году?

Н.Т.: Что может пожелать человек, который занимается технологиями синтеза и распознавания речи? Чтобы все близкие хорошо вас понимали, распознавали с высокой точностью, нигде не ошибались и при этом коммуникация не ломалась. Ну и чтобы в зимний вечер встречи Нового Года эти голоса близких приятно радовали вас своей натуралистичностью и теплотой.

Р.Д.: Большим компаниям я бы рекомендовал работать с какими-то небольшими, но креативными командами, особенно из других индустрий, потому что они мыслят не как все и могут привнести что-то новое. А маленьким командам я бы посоветовал быть смелее. Смелее в тех решениях, которые они делают. Не стремиться к идеальности, а стремиться к эмоциональной отдаче. То, что вы делаете, должно вызывать эмоцию, не обязательно положительную – вовлечение будет в любом случае. И лавировать, чтобы еще и никого не обидеть при этом – это сложная задача, и я желаю в ней преуспевать.

П.К.: Гораздо больше заниматься NLU и куда больше и непопулистски думать и делать в НЛГ, и под этими двумя терминами я подразумеваю в целом довольно широкий класс задач, где синтез – одна из, и распознавание речи – одна из. Нам всем есть куда стремиться в том, как мы понимаем то, что к нам обращает пользователь.

К.П.: Я хочу всем пожелать, во-первых, вдохновения – находить новые идеи, новые идеи продуктов, реализовывать творческие замыслы, в том числе на этом нашем рынке, в этой области разговорного искусственного интеллекта, и во-вторых, делать это с наслаждением, с удовольствием, с радостью, потому что когда есть попутный ветер, волна, которая тебя несет, это большое удовольствие.

А.Ф.: Я бы пожелал достигать целей, улучшать качество своего продукта и выполнения всех KPI в новом году, и получения премии, если она у вас есть, конечно.

Смотреть все интервью

Хочешь больше крутых историй об AI-проектах?

Conversations — главная конференция по разговорному AI для бизнеса и разработчиков: кейсы, аналитика, мастер-классы, нетворкинг

Перейти
Спасибо за заявку!

Наш менеджер скоро свяжется с вами.

Отлично!

Вы подписались на видеоподкаст «Conversations with…». Теперь вы первым узнаете о выходе нового эпизода!