Виртуальные ассистенты Сбера и где они обитают

подкаст

>

Виртуальные ассистенты Сбера и где они обитают

Подкаст
CONVERSATIONS WITH

Виртуальные ассистенты Сбера и где они обитают

Гость – Макс Балян, CPO Семейства виртуальных ассистентов Салют, SberDevices

Джой, Афина и Сбер: предпосылки, прототипы, характер

Глеб Обломский, Just AI: Макс, до того, как ты стал работать над ассистентами профессионально, каким был твой личный опыт взаимодействия с ними – чем пользовался?

Макс Балян: Ну я, конечно, не совсем обычный пользователь. До Сбера я занимался ассистентами в Яндексе, работал над Алисой. Это серьезно повлияло на мой опыт. Но если идти по хронологии, то началось всё с того, что я изучал кейсы голосового поиска и ввода в 14-15 году.

Г.О.: А когда и как в Сбере взялся за виртуальных ассистентов?

М.Б.: Тут история такая: до нашего проекта, до B2C-ассистента, в Сбере было много разных наработок, посвященных голосовым технологиям и NLP. Все началось с автоматизации КЦ, где применялось распознавание речи. Тогда и появились первые ростки, это было достаточно давно. Потом был виток развития, связанный с чат-ботами как неким альтернативным интерфейсом, который должен был помогать людям с их проблемами и вопросами через другой канал. Пожалуй, так эта концепция и развивалась: чат-боты плюс голос в конечном счете технологически эволюционировали до голосовых ассистентов.

Если говорить о проекте семейства виртуальных ассистентов Салют – то этот этап напрямую связан с тем, что Сбербанк становится Сбером, растет экосистема, мы начинаем оказывать любые услуги, не только банковские. Это дало буст проекту. Одна из задач, которые перед нами стоят сейчас, – через новый интерфейс, который обладает классными плюшками, дать человеку возможность этой экосистемой пользоваться, делать это удобно и через новые каналы. Мы же не просто в чат банковского приложения поселили ассистента – у нас это история про general помощь. Мы параллельно зашли в эти сегменты.

Г.О.: Зашли круто, потому что таких кейсов нет не только в России, но и в мире – я имею в виду семейство ассистентов. Расскажи, как пришли к идее, что нужно именно семейство? Почему три персонажа и как вы решали, кто будет входить в это семейство?

М.Б.: Конечно, мы не думали так прямолинейно: мол, вот у всех один ассистент, а мы сделаем три – такие мы красавчики. Изначально за baseline мы взяли, что это будет гендерно нейтральный персонаж по типу Siri, и у пользователя просто будет возможность менять голос с мужского на женский без потери смысла и без странностей – вроде как, когда ассистент по имени Алекса говорит голосом Энтони Хопкинса. Предполагалось, что ассистент будет один, но его можно будет настраивать по пожелания пользователей. Стали думать, как ассистента можно звать, исходя из технологических ограничений вроде команды активации, и в какой-то момент поняли, что за ассистентом может прятаться много всего разного. Мы решили отказаться от концепции одного персонажа, озвученного одним диктором, с одной легендой – поняли, что хотим охватить более широкую аудиторию, дать людям пощупать разное, дать выбор, основанный на разных критериях. У нас больше свободы – мы можем персонажей независимо развивать, у каждого свой вижуал, своя легенда, но при этом они остаются какой-то целостной историей, с общей графической айдентикой, с общими устройствами, в которых ассистенты живут.

Потом мы стали думать, что в таком случае могло бы быть названием продукта и активационной фразой. И в итоге выбрали вариант «Салют» – это не имя собственное, это приветствие, но в парадигме русского языка это все же не тот странный случай, когда ты здороваешься с устройством по 20 раз на дню – вроде «Hi Google».

Г.О.: А были у Афины, Джой и Сбера какие-то прототипы – киношные, литературные?

М.Б.: Мы не опирались на конкретных персонажей фильмов или сериалов. Это, скорее, про архетипы героев, которые можно встретить в любых художественных произведениях – любую личность можно описать набором характеристик и тем самым покрыть большую часть того, что встречается в жизни. Здесь похожая история – вдохновляясь разными произведениями, мы хотели создать три контрастных персонажа, чтоб они отличались друг от друга и это сразу чувствовалось.

Г.О.: А вы подстраивали легенду персонажа под портрет пользователя? Кажется, например, что Джой – для молодежи…

М.Б.: Мы смотрели в эту сторону. Очевидно, если ты делаешь персонажа, чтобы одинаково угодить всем, то он одинаково ни у кого не вызовет эмоций, будет средним по всем параметрам. Мы не позиционировали, что Джой будет для детей, а Афина подойдет взрослым. Просто есть вероятность, что веселый персонаж, который на позитиве и даже может подерзить, зайдет более молодой аудитории, а персонаж, который обращается на «вы», говорит более строго и держит уважительную дистанцию, подойдет людям постарше.

Еще интересная штука – ассистенты способны выражать эмоции. И речь не только о том, что есть какие-то реплики, которые записаны более эмоционально, или редакторские ответы. Мы пошли дальше – вижуал ассистента, то, что человек видит в интерфейсе и в коммуникациях, там есть эмоциональные состояния. Некие микроролики, которые классно обыгрывают символ ассистента и выражают эмоции. Что-то вроде лампы Pixar.

Г.О.: Читал в вашем блоге на Хабре интересную статью про русскую GPT-3 модель. И там упомянуто, что Джой как самый эмоциональный ассистент во многом использует генеративную модель на GPT-3. В Сбере и Афине генеравтики меньше, они более сдержанные – там задействована больше ретривал-модель (retrieval model, модель на основе поиска)…

М.Б.: Мы подумали, что в рамках использования генеративки ассистент может выдавать больше неожиданных вещей, и круто, если они будут исходить от того персонажа, легенда которого больше отвечает такой подаче. И это Джой.

Г.О.: Есть ли вероятность, что в семействе ассистентов Салют будет пополнение?

М.Б.: Ну, то, как сконструирован наш продукт, позволит нам это сделать, если это покажется нам классной идеей.

Как отстроиться от конкурентов

Г.О.: К вопросу о конкурентах. У вас новаторский продукт, но российский рынок насыщен – есть Алиса, есть Маруся, анонсирован Марвин. Как вы планируете дифференцироваться от конкурентов и за счет чего завоевывать своего пользователя?

М.Б.: Наверное, мой ответ будет таким облаком тегов, которые в сумме и дадут понимание. Первое преимущество – в том, как устроены наши персонажи. Сама идея, что персонажей несколько и между ними можно переключаться, означает, что пользователь с большей вероятностью найдет персонажа, с которым ему будет комфортно. Ребятам, коллегам по рынку, будет тяжелее в рамках текущих структур их продуктов сделать что-то подобное

Вторая история – про то, через какой UX мы пытаемся донести возможности наших ассистентов до аудитории.  Есть мысль, которая мне очень нравится – надо делать не голосом, а делать удобно. Удобно – это когда ты какую-то вещь можешь сделать быстро голосом, не отвлекаясь от дел. Но если речь идет о более сложном многошаговом сценарии, когда тебе нужно, например, собрать корзину с товарами или увидеть много графической информации, чтобы сравнить что-то, это гораздо удобнее сделать, когда у тебя есть интерактивный, а не чатовый интерфейс. Интерфейс, с которым ты можешь взаимодействовать разными способами: что-то увидеть и тыкнуть, не будучи запертым в чате. Наши Canvas Apps помогают это классно воплощать.

У всей нашей линейки устройств есть либо экраны, либо возможность к ним подключиться, на мобилке мы тоже идем в эту сторону. И в сумме это дает классный опыт. Ассистент виртуальный, и обращаться к нему ты можешь по-разному – и за этим лежит наша идея мультимодальности. Ты взаимодействуешь с ассистентом разными способами ввода: голос, тач-интерфейс, жест. И пульт – это, кстати, очень удобно. Если у тебя на экране список фильмов, конечно, проще кликнуть, нежели говорить: дальше, дальше, дальше. По-хорошему ассистент должен уметь все, но по пути к цели не стоит терять здравый смысл. То есть нужно делать не голос, а удобно.

Кроме того, наши ассистенты работают не на одной поверхности – например, когда есть просто консьюмерское устройство или чисто банковское приложение. У нас есть и то, и другое. И с одной стороны нам больше вещей надо делать, с другой – у нас есть больше точек контакта с человекм и сведений, работая с которыми, можно делать прикольные штуки. Например, круто, зная, что пользователь по понедельникам покупает молоко, взять и в какой-то момент напомнить ему, что молоко уже в корзине – хочешь, подтверди заказ.  Или показывать товар, который пользователь любит и часто покупает, выше в фудтех-приложении, чтобы ему было удобно. Хочется такие возможности использовать, у нас есть для этого и данные, и желание этим заниматься.

Мультимодальность – новый вызов для разработчиков

Г.О.: На сентябрьской конференции было озвучено, что экосистема семейства Салют открыта для сторонних разработчиков. Интересно вот что – к слову о мультимодальности: любой навык для Салюта должен быть мультимодальным или можно создавать и навыки voice only?

М.Б.: Мы понимаем, что мультимодальность – новая тема для российского рынка. При этом есть сообщество людей, которые умеют делать ботов или навыки для других ассистентов, и мы заинтересованы в том, чтоб они могли легко мигрировать на нашу платформу. Поэтому у нас не только Canvas App – у нас есть и Chat Apps, можно создавать смартапы по-разному. Но мне кажется, что условный e-commerce навык или какая-нибудь игра за счет мультимодальной реализации будет гораздо удобнее для пользователя.

Г.О.: Как вы планируете решать остро стоящую перед всеми разработчиками ассистентов проблему дискавери навыков? У той же Алексы уже десятки тысяч скиллов, но многие из них никогда не находят своего пользователя, потому что донести до конечной аудитории активационное слово – это целая история. Мультимодальность, наверное, в этом смысле дает больше возможностей?

М.Б.: За счет того, что у нас есть GUI (graphical user interface) на всех наших устройствах, да и просто благодаря наличию стартового экрана, у нас есть возможность что-то выводить перед пользователем – показывать как собственные умения ассистента, так и смартапы, которые размещены в SmartMarket. Есть и такая сущность, как скринсейвер на устройстве – там можно показывать видео. Есть и каталог навыков – там пользователи могут посмотреть ассортимент смартапов или просто спросить у ассистента, что он умеет. Но эта штука требует активности со стороны человека – он должен попасть в каталог.

А еще есть более сложная история, когда человек формулирует свой интент, намерение, было бы классно запускать приложение не по названию, но и по неявным фразам. И здесь хотелось бы поэкспериментировать с созданием базовых интентов, на которые можно было бы навыки «сажать». Это околопоисковая механика, когда навык предлагается пользователю в контексте вопроса.

Г.О.: А продвигать свои навыки можно будет?

М.Б.: Конечно, можно будет пойти по подобию аукционной модели, но должна сохраняться возможность получать органический трафик. В эту механику можно играть, когда есть конкуренция. Возможно, будем и с ней экспериментировать. Но сейчас задача – чтобы люди находили скиллы первой волны. Думаю, аукционная модель хороша, когда уже понятно, за что сражаться и есть некая конкуренция между скиллами в рамках платформы. Ну и еще есть понятие нативной рекламы…

Г.О.: Ты говорил как раз, что на одну инвокацию можно «вешать» разные скиллы – это, по сути, нативка и есть?

М.Б.: Смотри, персонажи поддерживают осмысленно разговор на определенные темы. И здесь можно тоже поэкспериментировать: чтобы пользователю предлагался интересный бренд или скилл, который уместен в контексте конкретного разговора. Не думаю, что эта история может быть поставлена на поток, но это пространство для интересных коллабораций.

SberBox: онбординг в голосового ассистента для телезрителей

Г.О.: Вы анонсировали два устройства – ТВ-приставка SberBox и умный экран SberPortal. SberBox уже в свободной продаже. Почему начали с телевизора и как вы видите онбординг телезрителя в голосового ассистента?

М.Б.: Мы проанализировали рынок, посмотрели, какие ниши менее заняты, на стоимость девайсов.  Девайс в нашей ценовой категории и с возможностью использовать ассистента вместе с телеком, со всеми преимуществами мультимодальности – это клевая тема. И такого устройства на российском рынке нет.

Другая сторона дела – это приложения для SmartTV и всяческие ТВ-приставки, которыми люди уже давно пользуются и в которых, на мой взгляд, всегда что-то да криво сделано. Кривой лончер телевизора, неудобный ввод пультом или с облачным голосом и тому подобное. И мы подумали, что если вобрать от этого форм-фактора лучшее – что какие-то вещи ты делаешь пультом, а какие-то экономишь за счет голосового распознавания, которое специально прокачивается под медиаконтент, то из этого что-то интересное обязательно собирается.

Теперь про онбординг. Даже если человек первый раз пользуется таким устройством, у него все равно есть пульт с понятным паттерном поведения, поэтому какие-то ключевые штуки он может делать сразу, например, навигировать по функционалу SberBox. Новой важной возможностью, которой как раз надо обучать, является то, что зритель может в любой момент позвать ассистента и попросить выполнить сложную команду. Такой элемент онбординга у нас есть. В том числе это решается тем, что символ ассистента нанесен на пульт.

Первичный онбординг именно навигационный – он про то, что есть голос, который можно «вызвать» в любой момент и в любой момент вернуться, если потерялся. А онбординг функциональный – это про то, «что эта штука умеет». И он начинается с коробки с устройством, продолжается через медиаматериалы во время апдейта прошивки. Еще есть главный экран, где мы тизерим возможности, которые зритель может попробовать.

2021: важные тренды, важные планы и немного космоса

Г.О.: Макс, какие тренды в области conversational UI и UX ты считаешь важными, в том числе для ассистентов Салют?

М.Б.: Первое – это то, что теперь нужен не просто голос, но комбинация. Как говорилось на одной из отраслевых конференций: voice in  image out. Мне это близко. Этот тренд обязательно будет развиваться.

С другой стороны, хочется, чтобы голосовые и виртуальные помощники давали не просто альтернативный способ ввода, когда ты экономишь время, клики за счет голоса – хочется, чтобы наступил этап, когда ассистент будет проактивно тебе помогать, первым предлагать что-то. Это классная тема, и мы будем в нее вкладываться.

Ну и третье – это уже немного космос – было бы классно делегировать ассистенту свои дела, чтобы он иногда мог сделать что-то сам, не привлекая тебя. Фича, которая у нас называется «Дуэт», – попытка ступить на эту почву: когда ты своему личному ассистенту делегируешь задачу выполнить за тебя что-то, что обычно отнимает у тебя больше времени.

Г.О.: Ну и напоследок – поделись планами команды Салюта на 2021 год?

М.Б.: Есть ожидания по завоеванию аудитории и доли рынка, которые я раскрывать не буду. Но для меня лично важно то, что мы запускаемся и заявляем о себе. Есть некий скелет, который должен обрастать мясом, чтоб ассистент становился более полезным и функциональным, чтобы на платформу SmartMarket приходили разработчики, которые и делают ассистента умным. И это один из главных вызовов на следующий год!

 

Смотреть все интервью

Хочешь больше крутых историй об AI-проектах?

Conversations — главная конференция по разговорному AI для бизнеса и разработчиков: кейсы, аналитика, мастер-классы, нетворкинг

Перейти
Спасибо за заявку!

Наш менеджер скоро свяжется с вами.

Спасибо за заявку!

Ждите тестовый звонок

Отлично!

Вы подписались на видеоподкаст «Conversations with…». Теперь вы первым узнаете о выходе нового эпизода!