Разработчики Mail.ru, Яндекса, Сбера отвечают на вопросы про голосовых ассистентов | Умные чат-боты и голосовые ассистенты для сложных бизнес-задач

Разработчики Mail.ru, Яндекса, Сбера отвечают на вопросы про голосовых ассистентов

На июньской конференции по разговорному ИИ Conversations прошла Q&A-сессия, на которой главные игроки российского рынка голосовых ассистентов обсудили борьбу за разработчиков, тренды голосовых экосистем и будущее отечественной индустрии Voice Tech.

 

 

Участники дискуссии (на фотографии — слева направо):

директор по развитию платформы технологий SmartMarket Ирина Совик,
лидер NLP platform и SmartMarket в SberDevices Иван Смирнов,
руководитель сервиса Яндекс.Диалоги Павел Капля,
менеджер продукта в Mail.ru Group Алексей Фивинцев

Ведущий Q&A-сессии — Глеб Обломский, директор по продукту Just AI.

 

В этом материале — самые интересные ответы на вопросы разработчиков голосовых интерфейсов, участников комьюнити Voice Tech, зрителей трансляции и гостей конференции.  

К содержанию ↑

Про конкуренцию среди ассистентов и про реальную пользу

Глеб Обломский: Могут ли кастомные ассистенты, такие как Альф в Альфа-банке или Олег в Тинькофф, в перспективе составить конкуренцию Алисе, Марусе или семейству ассистентов Салют? Или вы видите какие-то сценарии синергии, дружбы между ассистентами? 

 

Иван Смирнов: Мне нравится, что индустрия развивается. Мы все время друг друга догоняем. Где-то мы впереди, где-то впереди ребята из Маруси, Алисы. Вот здорово, что Яндекс тоже сделал монетизацию. Мы монетизацию в ассистентов встроили в ноябре и так начали качать рынок, что в ассистентах появилась возможность зарабатывать. Мы в SberDevices видим много кейсов, где монетизация работает. Поэтому я за то, чтобы ассистентов, голосовых технологий было больше, и все-таки нужно учить не только Москву, но и регионы, чтобы они к голосовым интерфейсам тоже привыкали. Причем не только гики, но и широкая аудитория.

 

Если говорить про мобильные приложения, там любой стартап может выпустить свое приложение и сделать для него своего ассистента. В голосовых технологиях, как мы видим, все ниже и ниже порог вхождения.

 

Если же говорить про умные девайсы, здесь ситуация интереснее. Пока никто чужих ассистентов в свои девайсы не пускает. Поэтому, мне кажется, основная конкуренция среди ассистентов будет разворачиваться именно в области умных устройств. И я говорю не только про колонку. Например, мы недавно показывали свою плату с микрочипом SberDevices. Ее можно встраивать в любой гаджет, в любое устройство —  например, добавить «Салют» в кофеварку.

 

Алексей Фивинцев: По опыту, разработка ассистента – это очень долго и безумно дорого. Mail.Ru Group инвестирует огромные деньги в разработку Маруси. Есть основная метрика: и мы, и коллеги оцениваем качество ответа, насколько хорошо ассистент отвечает на те или иные вопросы. 

 

Локальному ассистенту, например, банковскому, пользователи задают еще миллион вопросов, помимо финансовых. И скорее всего, ассистент банка на них не может ответить. У пользователя возникает ощущение, что помощник не справляется. Именно в этом и состоит сложность кастомных ассистентов — для хорошего качества нужны хорошие инвестиции.

 

Я бы не сказал, что мы сильно боимся конкуренции. Мы рады новым игрокам, но нужно понимать, что разработка ассистентов — это очень сложно.

 

Павел Капля: Мне кажется, что создание нишевых ассистентов – это вообще очень правильное направление. В будущем мир будет устроен примерно таким образом: у больших компаний будут свои ассистенты, которые будут жить внутри их доменной области, например, финансовые, телеком-ассистенты.

 

И на самом деле это будут не столько ассистенты, сколько именно голосовые интерфейсы в понятном пользователю сервисе. Он знает, куда приходит — в банк или в телеком. Он задает вопросы, нужные ему именно от этого сервиса. Мы же не будем звонить в «Альфа-Банк» и спрашивать про погоду. Если мы так сделаем, то, на мой взгляд, совершенно нормально, если на той стороне скажут: «Я финансовый ассистент, я не умею отвечать на этот вопрос». Ведь с людьми это работает. Если кто-нибудь занимается физикой, а его начинают спрашивать про область, про которую он ничего не знает, нормально, когда человек говорит: «Я не компетентен, мне нечего здесь сказать». Хуже, если он начинает врать и делать из себя умного. И для ассистентов, мне кажется, это совершенно так же справедливо.

 

Другое дело, что когда мы строим для себя доменного ассистента, телеком, финансовый или любой другой сервис, нам важно продумать то, как этот сервис будет представлен в general purpose ассистентах. Будет удивительно, если еще один general purpose ассистент появится, правда? Тогда нам совсем не будет равных в нашей стране (смеется — прим. Just AI)

 

Иван Смирнов: Но мы еще пару моделей откроем на портале Developers (раздел на сайте SmartMarket для разработчиков — прим. Just AI). В принципе, их тоже можно делать быстро.

 

Но я согласен, инвестиции с нашей стороны тоже идут именно в базового ассистента. Внутри ассистента мы выделяем именно эту доменную область, которую называем «собеседник». Всё, что связано с собеседником, с его развитием, той самой «болталкой» — это очень сложная история. Вряд ли это интересно даже обычному бизнесу или каким-то IT-компаниям. Им это не нужно.

 

Ирина Совик: Я хотела про эмоциональный интеллект сказать. Что, в принципе, отличает всех ассистентов — их персонаж, эмоциональный окрас, tone of voice. Важно в это вкладываться. И каждый человек находит для себя то, что ему подходит.

 

Сейчас поднимались вопросы полезности в определенных направлениях бизнеса. Но мы смотрим за нашими пользователями – и очень большой процент аудитории пользуется ассистентом, чтобы поболтать, поговорить, закрыть потребность в общении. Это правда жизни. Поэтому мы вкладываемся в эмоциональный интеллект, в наших трех персонажей, где каждый отвечает по-своему. И еще даем нашим разработчикам возможность управлять эмоциями внутри приложений. То есть вы можете при разработке навыков для своего бизнеса задать эмоциональный окрас, чтобы реагировать более правильно.

 

Глеб Обломский: Это значит, что скоро ассистенты будут понимать сарказм?

 

Ирина Совик: Да. Скоро – понятие растяжимое. Пока позитив, негатив, нейтрально.

 

Глеб Обломский: Понятно. То есть еще не скоро я буду с сарказмом отвечать: «Ну конечно, наконец-то, я так и знал, какая завтра будет погода»?

 

Ирина Совик: Если мы конкретно для тебя обучим, то все возможно.

 

Павел Капля: Это скорее продуктовая задача. Нужно понять, зачем это нужно делать. Технологически точно можно такие вещи решить. Вопрос – зачем.

 

Глеб Обломский: Здесь вопрос персонификации общения. Когда ты понимаешь, что ассистент может распознать твой сарказм и соответствующе среагировать, это уже другой уровень взаимодействия.

 

Алексей Фивинцев: Мне кажется, в принципе есть такой запрос на рынке. Я часто сталкиваюсь с ожиданием людей, что ассистент будет запоминать твою персоналию, как ты общаешься, как нужно к тебе относиться. Есть такой запрос. Мне кажется, в эту сторону тоже будут все двигаться.

 

Иван Смирнов: Я бы еще добавил. Мне кажется, что сейчас рынок, не только наш, но и международный, в целом немножко наигрался именно с этой болталочной частью. Все, кто хотел показать мускулы и поэкспериментировать, уже это сделали, в том числе и мы в SberDevices. Теперь тенденция к тому, что ассистент – это действительно то, что тебе ассистирует и делает твою жизнь легче

 

Чтобы что-то сделать, сейчас людям нужно взять телефон или открыть ноутбук и поискать, нажать, разобраться в этих сложных интерфейсах. У нас сейчас много дизайнеров интерфейсов, много мобильных разработчиков в стране, и каждый придумывает что-то свое уникальное. В этом очень трудно разобраться. У меня у самого десятки приложений, и я забываю, как в них залогиниться, почему у них меню справа, слева, сверху, снизу.

 

Надо идти в новую эру интернета. Если хочешь сварить кофе, у тебя не должно возникать этого барьера, не должна появляться старая кнопка. Ассистент должен быть, но не как личность, а как максимально useful сценарий, удобный везде. Весь дом через 10 лет будет именно таким.

 

К содержанию ↑

Про популярные навыки и мультимодальность 

Глеб Обломский: Мы действительно привыкли, что топ-3 навыков во всех ассистентах – это развлечения, игры, музыка. Вы в своих экосистемах наблюдаете изменение этого расклада? Появляются какие-то новые категории навыков, набирающие популярность? 

 

Ирина Совик: У нас много поверхностей и, например, в «Сбербанк Онлайне» очень популярный навык «Салют, переведи». Это к разговору о полезности. У нас в зависимости от поверхности популярны разные категории. В «Сбербанк Онлайне» это банковские сценарии, в SberBox это музыка, видео, в портале – e-com. На умных устройствах в топе, конечно же, развлечения, еще популярен лайфстайл. И мне кажется, что приложениям в этой категории еще есть куда развиваться.

 

Павел Капля: Мы тут заговорили о мультимодальности. Алиса тоже присутствует на совершенно разных поверхностях. И, очевидно, на разных поверхностях паттерны ее использования совершенно разные. В мобильном приложении Яндекса это, конечно же, в основном поиск. И я не могу не напомнить, что у нас есть офигеннейший поиск по картинке. Говоришь: «Алиса, что здесь?», она включает камеру и рассказывает. Недавно научилась сочинять стихи в реал-тайме про то, на что вы наводите камеру — поразительно, как быстро и круто она это делает! И это один из важных больших сценариев внутри мобильного приложения.

 

Колонки, телевизоры, в которых Алиса появилась с недавних пор — тоже сильное изменение. Навык «ЛитРес» заметен на приборах, он очень востребованный, понятный, люди часто нему возвращаются, у него высокий retention. 

 

Алексей Фивинцев: Еще про мультимодальность. В почте у нас популярен почтовый скилл, который помогает, например, прочитать последнее письмо. «ВКонтакте» мы наблюдаем все фичи, связанные с соцсетью: «Отправить сообщение», «Совместный плейлист» и другое. Если говорим про Капсулу, то это, конечно, и развлечения, и музыка, и детские скиллы.

К содержанию ↑

Про accessibility в голосовых интерфейсах

Глеб Обломский: Как насчет ассистентов, которые помогают, например, пожилым или людям с ограниченными возможностями? Есть в road map у кого-нибудь из вас в ближайшее время? Может быть, уже есть какая-то функция? Что думаете, как быстро мы к этому придем?

 

Ирина Совик: У нас активное сообщество, и на одном из митапов поднимался этот вопрос. Решили провести UX-исследование. Хотим взять себе в бэклог какие-то важные фичи, улучшить клиентский опыт либо для малозрячих, либо для хуже слышащих.

 

Иван Смирнов: Добавлю, что у нас сейчас внештатно работает человек с ограниченными возможностями, он через себя все навыки пропускает.  

 

Часто есть такие кейсы: «Посмотрите на экран», при этом некоторые люди физически не могут посмотреть на экран. Apple и Google предлагают озвучку, но это не всегда срабатывает. Поэтому за такими кейсами как раз нужно внимательно смотреть. Сейчас у нас такой эксперимент идет. Мы начнем с базовых навыков, а дальше будем делать это с самыми популярными смартапами.

 

Павел Капля: Это, безусловно, важная тема, но к этой теме нужно очень трезво подходить. Голосовой ассистент – лишь один из способов помощи таким людям. И, мне кажется, само появление голосового ассистента как штуки, в которую можно говорить и которая будет говорить тебе в ответ, дает неповторимое другими поверхностями свойство, открывает возможности для таких людей. У нас изначально были Станции и мы были суперсильно сфокусированы на том, чтобы все наши сценарии идеально работали голосом.

 

Алексей Фивинцев: Капсула тоже позволяет задавать вопросы голосом и отвечает голосом. Мне кажется, это и есть девайс, который помогает, например, слабовидящим людям. Конечно, мы думаем в эту сторону, и я понимаю, что accessibility – это в целом хороший тренд, который сейчас поднимается на рынке. Мы будем дальше развивать именно голосовые навыки, чтобы пользователи могли легко и без преград ими пользоваться.

 

Иван Смирнов: Я надеюсь, что настанет время, когда кроме вот этого тренда по общей доступности, будет еще один тренд — мы начнем думать, как производить колонки из специальных материалов, чтобы они были максимально экологичными и очень быстро уничтожались.

 

Глеб Обломский: Планируется ли полноценная (с устройства и на устройство) поддержка голосовых звонков на устройства экосистемы «Алисы», «Маруси» и «Салюта»? Например, я хочу позвонить человеку с ограниченными возможностями и узнать, все ли у него хорошо. Он, может быть, телефон где-то потерял, забыл, не может найти. Я могу позвонить ему на колонку и поговорить с ним голосом, независимо от того, где он находится в доме?

 

Павел Капля: Давайте я начну. Прямо сейчас в продакшене доступны звонки на Яндекс.Станцию со своего телефона. К сожалению, в данный момент возможности звонков через голосового ассистента в «Алису» этим ограничены. Мы в этом направлении смотрим, но пока планами поделиться не можем.

 

Алексей Фивинцев: «Маруся» поддерживает функцию звонков «ВКонтакте». Вы можете позвонить любому пользователю «ВКонтакте» через социальную сеть и узнать, как у него дела.

 

Иван Смирнов: У нас во многих девайсах есть камеры, логично, что там будут и звонки. Мы сейчас как раз запускаем новую технологию Jazz — нашу собственную технологию видеозвонков. И, естественно, Jazz будет встроен не только в мобильное приложение, но и в наши девайсы.

 

К содержанию ↑

Про платежи, заработок разработчиков и модерацию навыков

Глеб Обломский: Как вы считаете, сейчас для разработчиков какие кейсы приема платежей в первую очередь будут доступны и актуальны? С чего бы вы рекомендовали разработчикам начать — продажа товаров, продажа услуг, продажа digital goods? Какие вы видите основные кейсы применения сейчас?

 

Ирина Совик: Начать нужно с идеи. У нас есть сервис SmartPay, где можно продавать контент, товар, услугу или получать донаты. Умный сервис доступен в шаблоне, то есть у нас есть очень-очень удобный пример с уже подключенной монетизацией, который вы можете взять на нашем сайте. Самое главное – чтобы была хорошая идея и было что продавать. Но даже если нет идеи, возможны донаты, благодарность разработчику.

 

Куда бы я рекомендовала смотреть. Сейчас самое важное это кейсы для конкретных отраслей. Поэтому когда вы что-то хотите продавать, нужно выбрать нишу, которой будет интересен ваш смартап, ваша идея, ваш товар или услуга. Продумать клиентский путь и очертить себе примерную целевую аудиторию. Если вы этого не сделаете, то может не выстрелить.

 

Иван Смирнов: По направлениям. Первое – это, конечно же, развлекательный контент. На девайсах активно продается подписка на Okko, на «СберЗвук». И отдельные фильмы продаются, и подписки. Это всё очень большие объемы с точки зрения монетизации.

 

На второе место я поставил бы e-com. Он сейчас хорошо набирает обороты внутри ассистентов. Например, у нас с «Самокатом» совместный проект, и там тоже обороты очень быстро растут. 

 

И, наверное, на третье место поставил бы что-то, связанное с играми. Особенно в случаях, когда надо очень правильно встраивать платежи. У нас один разработчик просто сделал платную игру — она не взлетела, никто не захотел покупать. Но когда он сделал несколько первых уровней бесплатных, а с пятого уровня уже под замочком можно покупать, все — тогда началось. То есть пользователь вовлекается, и дальше ему уже известен опыт покупки благодаря большим мобильным платформам. 

 

Еще один из примеров навыка, который монетизируется. У нас внешний разработчик сделал навык по голосовым поздравлениям. То есть ты набираешь несложный диалог, и дальше в конце платишь, по-моему, 20 рублей. У него хороший показатель, хотя 20 рублей – небольшая сумма. 

 

Павел Капля: Я здесь соглашусь с Иваном. С моей точки зрения, сейчас транзакционные сценарии наиболее эффективны в контентных провайдерах. Мы это видим точно так же в своих сценариях, в музыке, в фильмах. Мы это видим в «ЛитРесе». Потому что пользователю очень понятно, какую конкретно ценность он получает за свои деньги. Он может экстраполировать, предсказать, как-то прикинуть, какой опыт он получит, соотнести это со стоимостью, которую ему предлагают заплатить. 

 

А когда мы говорим про внешние навыки, довольно быстро на ум приходит история «А давайте я уровни начну внутри себя продавать». И, на мой взгляд, на сегодняшний день в ассистентах есть фундаментальная проблема как у нас, так и у «Сбербанка». Самые большие аудитории, конечно же, в самых больших приложениях. В нашем случае это поисковое приложение «Яндекса», у коллег это СБОЛ (СберБанк Онлайн — прим. Just AI). И как только мы встраиваем digital goods туда, мы тут же попадаем на in-app purchase. Как только мы попадаем на in-app purchase в основных приложениях компаний, начинается куча всяких вопросов legal’а, потому что тут же риски в случае каких-то не очень хороших действий со стороны разработчиков. Эти риски на самом деле ложатся на эти приложения. И я думаю, что ровно поэтому у вас все эти ограничения и аккуратность в рамках digital goods в навыках в СБОЛе.

 

Иван Смирнов: К модерации мы очень внимательно к ней относимся. Мы хотим много навыков в каталоге, но качественных. Мы еще внутри запустили программу «Апгрейд» — приходим к разработчику и говорим: «Парень, а хочешь, мы тебе поможем сделать лучше навык? Вот у нас профессионалы дизайна, UX и т. д. Мы тебе здесь подскажем, там подскажем». В мае и июне мы провели несколько сессий, очень позитивных на самом деле. Понятно, что это не для всех, но для топовых разработчиков это очень полезно. Они свои навыки апгрейдят и таким образом тоже делают их качественными.

 

Павел Капля: В больших приложениях есть вот этот риск in-app purchase, поэтому с ним все супераккуратны. Тогда все это переходит к тому, что «а давайте сделаем внутриигровые digital goods на других поверхностях». А на других поверхностях, особенно в безэкранных или в умных колонках очень сложно дать пользователю понимание, что же он получит за эти деньги, чтобы он принял решение о покупке. Поэтому, на мой взгляд, для таких приложений рекламная модель – это самый безопасный и точно гораздо более эффективный вариант монетизации, чем была бы транзакционная.

 

Алексей Фивинцев: Про рекламную модель. Я просто не знаю, насколько у вас она популярна, насколько много разработчик может на ней заработать. Но у меня есть ощущение, что зарабатывать на рекламной модели — это не очень большие деньги, несущественные для разработчика. Тем более с учетом того, что она есть только на девайсах с экранами.

 

Я соглашусь касательно покупки digital goods — это самая большая проблема на наших устройствах. Если в покупке каких-то реальных товаров есть оплата голосом – это вполне реально, с этим проблем нет. А в digital, когда мы говорим про in-app purchase, покупку контента и т. д., все достаточно остро. У нас есть несколько идей, я надеюсь, что некоторые выгорят. Расскажу, как будет понятно.

 

Глеб Обломский: А как вы считаете, подписочная модель будет иметь место в голосовых системах?

 

Павел Капля: Да.

 

Алексей Фивинцев: Да. Подписочная модель прекрасно работает сейчас в обычных приложениях. Если мы берем пример «ЛитРеса», то есть похожие сервисы – Bookmate и т. д., которые предлагают подписку. Лично мне больше симпатизирует, когда ты платишь регулярно и получаешь доступ к контенту. С аудиокнигами хороший кейс, когда ты можешь слушать анлим количество книг и платить всего лишь раз в месяц.

 

Павел Капля: И потом мы знаем, что в онлайн-кинотеатрах сейчас подписочная модель является доминирующей, а TVOD-ная и транзакционные модели стагнируют. Так что, безусловно, да.

 

Иван Смирнов: Да, я добавлю тоже, что у нас подписочная модель сейчас активно развивается не только в ассистентах. Это востребованная история, доминирующая там, где продается контент. Но та же самая подписочная модель есть еще и в банковской сфере, например, «СберПрайм». Скорее всего, она и в другие услуги тоже придет и займет достойную нишу.

 

К содержанию ↑

Про развитие экосистем, про voice-only и voice-first 

Глеб Обломский: Как дальше будут развиваться экосистемы: больше в voice-only или в voice-first? И где сейчас больше пользователей?

 

Алексей Фивинцев: Больше пользователей там, где больше всего приложений. Если мы берем в нашем случае «ВКонтакте», то, конечно, там будет больше всего пользователей, чем в других приложениях. Я думаю, у коллег примерно так же в «Сбербанк Онлайне» или в приложении «Яндекса».

 

Если мы говорим про voice-only, то всё зависит от паттерна потребления. Конечно, будет какая-то фрагментация рынка. Некоторые пользователи будут в первую очередь фокусироваться на voice-only, например, на колонках, на Капсуле, на Станции и т. д. Кто-то будет использовать приложение.

 

Ирина Совик: Я хотела напомнить про мультимодальность. Мы это часто рассказываем: «Придите, создайте одно предложение, оно выйдет на всех поверхностях». И в идеале, конечно же, чтобы оно одинаково работало на всех поверхностях. Безусловно, какие-то из них требуют кастомизации. Но важно сделать это с минимальным трудозатратами, чтобы пользователь получал тот же клиентский опыт на любой поверхности.

 

Павел Капля: Мне кажется, у нас на рынке есть один тип устройства voice-only — он называется «колонка». Все остальные не voice-only, может быть, voice-first. Например, первая Станция была без пульта — она совсем voice-first. И, наверное, это единственный такой пример. А во всех остальных поверхностях голос является дополнительным, он максимизирует эффективность использования конкретной поверхности.

 

Я кстати, не согласен, что «написал один раз и должно работать везде одинаково». Мне кажется, что правильное развитие голосового ассистента и навыков, как внутренних, так и внешних, – это именно такая максимизация утилизации. То есть на каждой поверхности голос должен быть максимально эффективен именно для нее.

 

У меня есть хороший пример. «Яндекс.Станция Макс» с пультом — это все равно voice-first устройство. И все сценарии там адаптированы так, чтобы в основном был голос, но иногда использовался пульт. Казалось бы, рядом есть «Яндекс.Телевизор», и у него тоже есть пульт. Но это совершенно другое устройство с точки зрения характера использования. Однако в нем еще живет «Алиса», и все, что связано с голосовым поиском фильмов, с фактами и т. д. – всё работает через «Алису». Но при этом такое устройство как бы пульт-first. Однако голос там должен быть хорошо представлен.



Эксперты Conversations V — про тренды, кейсы и технологии разговорного AI

Перейти

Исследование. Рынок разговорного ИИ в России 2020-2025

Перейти

Разговорный ИИ на службе общества: как некоммерческие организации используют новые технологии

Перейти
Спасибо за заявку!

Наш менеджер скоро свяжется с вами.

Спасибо за заявку!

Ждите тестовый звонок

Отлично!

Вы подписались на видеоподкаст «Conversations with…». Теперь вы первым узнаете о выходе нового эпизода!