Хардвер + софтвер: как создавать умные устройства?

Подкаст
CONVERSATIONS WITH

Хардвер + софтвер: как создавать умные устройства?

Гости – Игорь Михненко, сооснователь и директор дизайн-хауса NotAnotherOne, и Роман Доронин, CEO EORA

Почему одни устройства умные, а другие – не очень

Екатерина Мошкина, Just AI: Всем привет! Тема сегодняшнего подкаста – hardware и software в умных устройствах. Все ли устройства должны быть умными, насколько сложен процесс их производства, какой путь нужно пройти от идеи до реализации? Но начнем, пожалуй, с того, какие смарт-девайсы вообще есть в мире и какие из них вам кажутся перспективными.

Игорь Михненко: Сейчас вся потребительская электроника (за вычетом умной колонки) дружно «переползает» в так называемые умные дисплеи и прочие умные гаджеты. Однако до сих пор самым популярным и самым успешным умным устройством, если судить по пенетрации рынка, остается смартфон, вокруг которого постоянно растет экосистема сервисов. Понятно, что все пытаются придумать и создать что-то новое и собственные технологии распознавания речи, распознавания образа принести в новые форм-факторы.

Роман Доронин: Ну да, сейчас любые устройства, которые перешли от аналога к какой-то более-менее продвинутой технологии, стали называть умными. Добавил в зубную щетку схемку, чтоб она стала вращаться сама, или фичу, которая позволяет научить ребенка правильно чистить зубы, – всё, это умная щетка. Границы «разумности» устройства размываются, ведь в реальности разница между умной зубной щеткой и умной колонкой – как пропасть. Цели разные, но и то, и другое – «умное». Поэтому пока, когда мы говорим «умная электроника», мы подразумеваем, скорее, что она просто стоит дороже.

Е.М.: А из носимых умных устройств можно выделить что-то модное, но при этом объективно необходимое и практичное?

И.М.: Я для себя летом открыл вот такую штуковину – это очки Bose Frames. Их нельзя назвать умными, они всего лишь хорошо подают звук, в них есть встроенные микрофоны. Но разработчики устройства пытаются раскрутить тему под названием аудио AR, т.е. Audio Augmented Reality, которая добавляется и во всю линейку их наушников. В очки встроен акселерометр, гироскоп, и при связке с GPS-локацией в моем телефоне, когда я, например, хожу по городу, они понимают, на что я смотрю, и могут мне рассказывать какие-то определенные истории. Незаменимая вещь летом, потому что в одном форм-факторе удалось объединить наушники и очки.

Е.М.: Вот это уже похоже на правду. Рома, а ты пользуешься чем-то по-настоящему умным из устройств?

Р.Д.: Я фанат умных колонок. Я вижу, насколько быстро они проникают в жизнь после того, как ими начинают пользоваться. У нас колонка с Алисой – это такой микропомощник. Но это устройства, я бы сказал, среднего ума. Следующий шаг интеллектуальности – сложная связка технологии распознавания речи и машинного зрения, очень быстрые вычисления на маленьких платах, которые позволят колонке знать пользователя достаточно хорошо и предугадывать его желания заранее. Ты идешь домой, а она тебе уже начала варить кофе или включила увлажнитель воздуха. Но тут встает проблема приватности данных.

Для того, чтобы устройство стало очень умным и предугадывало бы твои желания, ему нужно очень много данных о тебе. Хочешь умный дом? Поставь кучу камер и датчиков, пусть они следят за твоим распорядком. Люди не готовы этими данными делиться. Вторая часть проблемы – на стороне разработчиков. Как вообще соединить все эти функции, как запроцессить, как сделать так, чтобы все это вычислялось на каких-то маленьких железках. Так что, думаю, мы должны пока радоваться устройствам «среднего ума», назовем это так.

Е.М.: Ну а вообще стоит ли любое устройство, любой гаджет наделять этим умом, средним или большим? И кто отвечает за интеллектуальность устройств? Это больше история про ситуативность использования, адекватный форм-фактор или исключительно про софт?

И.М.: Есть cloud-среда, есть устройство. Сейчас соединение между облаком и устройством ограничено в возможностях. То есть мы до сих пор находимся на этапе – особенно это касается каких-то удаленных вещей – когда среды не всегда хорошо между собой связаны. Основные вычисления должны происходить в облаке. А между облаком и устройством нужен канал.

И тут есть два лагеря. Один считает, что придет 5G и все исправит – покроет нас с ног до головы сенсорами, которые будут заливать данные напрямую в облако, без ограничений по объему и по скорости. Проблема в стоимости такого модуля, интеграции и вообще, в принципе, в вычислительных мощностях, которые потребуются устройству, чтобы такой SoM (System on Module) нормально поддержать.

Второй лагерь говорит: нет, ребята, наш путь – это оптимизация всех элементов, давайте на тонкий клиент (т.е. на маленький девайс) запихнем нейронки и реализуем базовый функционал распознавания голоса и видео прямо на устройстве. Год назад так поступил, например, Google.

Я думаю, будет развиваться две модели одновременно, выстреливая в тех или иных случаях. В городской среде это точно будет 5G. Если мы говорим о более удаленных вещах… Ну представьте, где-нибудь на нефтяной вышке вам нужно делать вычисления или помогать оператору через какой-то дополнительный девайс, а там просто связи нет. Так или иначе придется делать усовершенствование тонкого клиента.

Р.Д.: Я бы еще добавил, что интеллектуальность устройств растет примерно с такой же скоростью, как развиваются технологии. Какие-то умные устройства появляются не потому, что о них раньше не знали, а потому что сейчас стало возможным выпускать такие железки, которые в принципе позволяют этим технологиям работать. Приведу пример из области умных колонок. Еще до появления Алисы и Яндекс.Станции мы с коллегой из Just AI, Димой Чечёткиным, сделали свою умную колонку в форме говорящего карася (его до сих пор можно найти на YouTube). Но тогда мы не могли обеспечить необходимое качество, потому что у нас не было микрофонных решеток. Микрофонная решетка – это устройство, где матрица состоит из нескольких микрофонов (предположим, восьми штук), которые хорошо процессят звук. 5-10 лет назад таких решеток фактически не было в доступе, либо они стоили космических денег. С развитием рынка умных колонок эти решетки стали довольно дешевыми, потому что появился спрос. Сейчас независимым разработчикам создать свою умную железку гораздо проще.

То же самое касается компьютерного зрения. Буквально три года назад появились устройства серии Jetson от NVIDIA, которые позволяют процессить нейронные сети для компьютерного зрения. Раньше делать проект с каким-то серьезным компьютерным зрением было нереально, а Jetson ворвался в эту гонку, и сейчас стало куда проще разрабатывать хотя бы прототипы девайсов. Подключился Intel – они выпустили процессоры Takima Video Stick на процессорах Mirade, которые тоже позволяют гонять нейронки прямо на устройстве. Так что умных устройств будет становиться всё больше с появлением новых и более доступных обществу технологий.

И.М.: Я тут добавлю, что мы упираемся в возможности этих ИТ-монстров. Когда их маркетинг, аналитические отделы скажут: вот, ребята, умный транспорт, он будет работать, смотрите, у Tesla все прекрасно, акции растут, Маск молодец – тогда и будет прорыв. Рома упомянул более классический подход, но те же Qualcomm, MediaTek и прочие компании сейчас выпускают серию выделенных процессоров, которые будут заниматься нейронками. И когда эти технологии перейдут на мобильные платформы, мы, конечно же, увидим большой бум.

И я бы еще добавил по поводу микрофонных матриц. Проблема-то была в том, что Роме нужны были восемь микрофонов, потому что с алгоритмами была беда. А четыре года назад Google на двух микрофонах сделал отличнейшее устройство, потому что голосовой помощник несколько лет тренировался на мобильных телефонах с двумя микрофонами. Т.е. у них настолько отточенные алгоритмы распознавания голоса, что на большинстве устройств им двух микрофонов более чем достаточно. И такие платформенные решения будут доступны все большему количеству людей.

Тренды 2020, или Как Инстаграм-маски изменили AR

Е.М.: Давайте поговорим о трендах в области софтвера, особенно о потребительском сегменте. Какие технологии сейчас двигают рынок – AR, VR, разговорный AI?

Р.Д.: Для разных категорий людей работают разные технологии. Например, за всякие облачные b2b-сервисы типа Asana или Figma мы платим космические суммы, и для нас это тренд. Например, мы сейчас всей компанией переехали на Front – это почтовый клиент, совмещенный с мессенджером: ты одно письмо можешь обсуждать в чате под письмом через любой мессенджер. Это очень удобно. И мне кажется, что это тренд. Другие люди скажут, что тренд – это социальные сети, TikTok и приложения для обработки фотографий. Кстати, на этом рынке чего только не происходит: от больших проектов типа PREQUEL до маленьких вроде Reface App – на основе технологии «Сколтеха» ребята разработали приложение, которое создает дипфейки из фотографий пользователя. Единый тренд определить очень сложно, в каждом сегменте он свой.

И.М.: Да, но на хардовом рынке мы все же наблюдаем тот самый пресловутый тренд на VR и AR, о котором мы говорим уже лет 15. Инстаграм-маски родили огромное количество b2b-решений. Вдруг миллионы людей увидели: воооот, наконец-то, AR существует в удобном виде. Это увидели и клерки обычных компаний, и RnD-отделы ИТ-гигантов, которые и до этого работали с технологией, но не знали, как ее можно применить в таком массовом скейле. Теперь она, например, используется в фитнес-индустрии, где умные зеркала тренируют тебя при помощи AR-двойника. Стартапы в новой отрасли поднимают сотни миллионов долларов. То есть в харде происходит очень интенсивная пенетрация AR-технологий. Пока в таком виде – это не та augmented reality, когда ты надеваешь очки и видишь дополненную реальность, а augmented reality в носителе. У тебя есть телевизор как носитель, у тебя есть полка магазина как носитель, у тебя есть твое зеркало как носитель, у тебя есть твой телефон.

А Apple добавили в айфоны аналог лидара (Light Detection and Ranging), и дополнительный канал появился в обычном консьюмерском устройстве, хотя раньше это было доступно только на Intel-платформах.

Второй тренд подкрался незаметно: VR несколько раз пытался зайти на рынок, пытался, пытался, пытался, а потом Facebook сделал Oculus Quest за 400 долларов – устройство, которое работает и работает офигенно. А все остальные момент профукали. Google, по сути, и начал этот тренд, они были пионерами, они молодцы. Андрей Дороничев руководил этим направлением в Google и внес огромный вклад в развитие VR, но у них не взлетело. Не взлетело, потому что рынок был не готов по одной простой причине – цена устройства и количество разработчиков. Это самое важное в любой технологии: как только количество разработчиков переваливает за 100 тысяч, технология начинает стремительно развиваться, появляется рынок.

Сейчас мы видим огромный тренд под Oculus Quest – хорошая нелинейная прогрессия, которая говорит как о росте приложения и продаж, так и о росте числа разработчиков. А VR сам по себе не то что бы привносит какую-то инновацию в девайсы, он меняет мышление людей. Ты первый раз оказываешься в виртуальной реальности, понимаешь, что границы виртуального и реального мира можно стирать, что здесь тоже есть перспективный маркетплейс, что известные UX-кейсы можно перенести и в AR.

Тебе не хватает того же user experience с телефоном. И вот там сейчас есть вещь, которая называется control. Control’ы очень сильно прогрессируют – мы начинали с пластиковых, а теперь ты спокойно можешь управлять реальностью руками почти в любом устройстве. Но все упирается в голос. Я считаю, что будет большой прорыв, когда все UX-кейсы взаимодействия с AR или VR перетекут в голос при помощи машинного обучения, и тогда мы получим полную иммерсивность контакта с этим миром.

Р.Д.: Действительно, этот тренд с AR, augmented reality, развивается по интересной кривой. Если раньше технологии приходили в светский мир из околовоенных отраслей, то сейчас маски в Инстаграм или TikTok переворачивают мышление людей. Сделать маску в Инстаграме с точки зрения самой технологии очень сложно. Даже приложение типа MSQRD технически очень сложное. Чтобы сопоставить плоскость точек на лице, требуется очень точное распознавание – несколько тысяч точек нужно соотнести с маской в плоскостях, в реальном времени. Это непростая задача. Но есть еще интересный момент. Эти маски надо посчитать. 10 лет назад их просто не на чем было считать. А сейчас телефоны настолько мощные, что их уже можно обсчитывать, да еще и в реальном времени.

Про AR ходят слухи, что Apple представит очки с дополненной реальностью, такая реинкарнация Google Glass, только сложнее. Они надеются на успех, потому что данные будут считаться на iPhone. Игорь, как думаешь, это слухи?

И.М.: Я думаю они очень давно эту тему копают. И несмотря на то, что я в последнее время не особый фанат продукции Apple и их коммерческого подхода, они одни из немногих, кто сохранил возможность не запускать пилоты, а долго-долго инвестировать в технологии, а потом делать paradigm shift – когда ты выводишь на рынок готовый проект, который точно работает и при этом достаточно уникален.

Путь от идеи к изделию (и когда вообще нужно идти в хардвер?)

Е.М.: Интересно, с чего вообще начинается работа над новым девайсом для рынка. Все-таки с маркетинга, с технологии, которая должна быть прокачана достаточно хорошо, чтобы войти в обиход, может быть, с софта? Или с железа? Как начинать этот путь к потребителю, чтобы он был короче и успешнее?

И.М.: Я не очень верю в концепцию идеи как таковой, потому что мы ничего из воздуха придумать не можем, мы все равно берем пережитый опыт и, сравнивая и сопоставляя его, создаем новый форм-фактор. И wireframe для реализации этих идей будет разным. Стартапы часто действуют по принципу «хочу, не могу». В крупных технологичных компаниях есть RnD-отделы, сотрудники которых через wireframe и дизайн-мышление пытаются генерить новые ниши, но у них другая мотивация – и она всегда денежная, рыночная. Хотя есть место и для изобретательства. У Apple, Google и других ИТ-гигантов на порядок больше патентов, чем действительно имплементированных технологий.

В NotAnotherOne мы делаем всегда некий design research. К нам приходят люди с идеей, и ее всегда нужно отскорить. Особенно, если речь идет про новый рынок. А иногда люди приходят с тем, что мы называем «тень идеи»: когда ты вроде уловил что-то, но нужно пару месяцев, чтобы исследовать нишу и рынок, проверить патенты, банально уточнить, есть ли похожие проекты. Да, может оказаться, что уже 1000 человек работает над тем же самым и 10 стартапов до этого провалились, проект заморожен где-нибудь в Samsung, готовые девайсы пылятся на полках. Почему не взлетело – не всегда понятно. Тогда приходится делать pivot – менять концепцию еще до выпуска, до формализации идеи.

В 50% случаев, когда мы делаем комплексную оценку хардвер-проекта, с которым к нам приходят, мы рекомендуем – особенно стартапам – либо не браться вообще, либо делать софт. Есть классный фильтр для всех стартапов: если вы придумали железку, но можете реализовать функционал своего устройства в приложении, интегрировав его в уже существующие девайсы, делайте приложение. Не ходите в хардвер.

Е.М.: Рома, а софт часто является ограничением для реализации идей?

Р.Д.: Я сейчас улыбнулся, потому что буквально месяц назад ко мне обратился друг с идеей. У него родился ребенок, и он придумал девайс для трекинга роста детей: как они растут, как меняется вес и т.д. Я тут же позвонил Игорю, Игорь послушал нас 10 минут и сказал: «Ребят, вам не надо это делать». То есть, если можно воплотить идею в софте, не нужно браться за девайс. С телефона реально трекнуть рост ребенка, используя компьютерное зрение? Конечно. Надо просто подумать, как его закрепить, чтобы решить эту задачку без отдельного девайса.

В мире машинного обучения есть одна фундаментальная проблема, которая сейчас никак не решается. Дело в том, что весь софт для машинного обучения – исследовательский. Поэтому продакшн-решения сложные, долгие, переписываются на С++, выходят довольно кондовые, не очень универсальные. А универсальные – удобные и быстрые, но подходят только для прототипов. Опять же, очень разные уровни вычислений. Если взять какое-нибудь компьютерное зрение и нейросети, то, грубо говоря, нейросети для облачных вычислений одни, для мобильных телефонов другие. Для Apple у нас один фреймворк, для Android – другой, они разные и друг с другом не сочетаются.

Еще есть так называемые эмбеды, железки вроде Jetson от NVIDIA, под них мы используем третий стек. В общем, задача вроде бы на прототипах решается, а выкатить ее в прод очень сложно. Поэтому да, софт накладывает ограничения. Возникают компании, которые пытаются сделать что-то универсальное, но это универсальное опять упирается в ограничения и редко выходит за прототипы.

E.M.: А бывает такое, что идея классная, но софт пока еще не тянет, и нужно подождать, пока технологии придут в равновесие с идеей?

Р.Д.: Да, конечно, причем это не обязательно про технологии. Устройства умнеют вместе с технологиями, а иногда технологии разрабатываются, чтобы воплотить идеи. Игорь приводил пример про лидар. Лидар позволит существенно, опять же если говорить про компьютерное зрение, улучшить точность распознавания сегментации, построения карт глубины. Это будет шаг вперед. Но проблема в том, что лидары сейчас настолько дорогие и настолько большие, что до недавнего момента Apple, например, строил лидар в iPad Pro. Но раньше это было вообще не доступно. Дальше появится еще что-то, какие-то фреймворки, которые позволят, например, совмещать или вместе производить обработку сигнала и с лидара, и с камеры.

И.М.: С хардвером тоже непросто. Нельзя брать прототипный исследовательский хардвер и делать из него продукты. Очень часто эта ошибка встречается в робототехнике. Есть роботы-доставщики, роботы-погрузчики, летающие роботы. Роботы – это тренд, замена дешевой рабочей силы во всех ее аспектах. Приходят к нам разработчики и говорят: вот тут у нас у робота камеры стоят, здесь между ними Arduino, микрокомпьютер Orange Pi валяется и еще четыре Jetson’а внутри. И ты говоришь: ок, классно, а как это в минус 30 будет работать, в дождь, а если кто-то пнул его ногой? В хардвере есть масса технологических ограничений и пока нет идеальных решений – они всегда дорогие, и требуются большие инвестиции, чтобы уменьшить стоимость изделия и чтобы оно вообще работало.

Р.Д.: Я тоже могу привести пример, иллюстрирующий сложность этого процесса. У нас в офисе стоит прототип умного фонаря. В фонарь встроены камеры, внутри и в облаке – большое количество нейросетей, которые адаптируются под окружающий домен – то есть они распознают дорогу, машины и извлекают из этого какую-то информацию: погоду, считают людей, что угодно. И модели можно подгружать. С точки зрения софта это, в целом, решаемо на прототипах. И тут мы залезли в сами фонари. Ну палка и палка, на палке плафон, в плафоне лампочка. Оказалось, что под разные регионы нужны разные фонари, использовать универсальную железку невозможно. В условном Сингапуре будет огромная влажность и жара, в Эмиратах тоже жарко, но там песок – стекло затирается, и компьютерное зрение сразу перестает работать. Универсальная железка терпит крах. Так что между прототипом и производством большая пропасть.

Умный фонарь. Источник: EORA

И.М.: Во всех разработках нужно использовать абсолютно классический подход по реализации продуктов, то есть писать PRD (product recover document), накидывать SRD (software requirements document) и прочие вещи, которые описывают твой путь с самого начала. Когда к нам приходит клиент (даже если он приходит за первичной оценкой), мы даем ему заполнить опросник – по сути, завуалированный PRD. Это позволяет нам понять, куда идем, какие софтовые требования, какие требования к среде, какова ценовая категория, если говорить про хардовую часть. Чем раньше ты поймешь, как в твоем проекте дружат хард, софт, и маркет, тем лучше.

Мы пытаемся всегда закладывать непрототипную архитектуру, заказывать компоненты, которые будут в массовом производстве, да и вообще изначально проектировать устройство под массовое производство. Да это стоит дороже. Можно доказать идею за месяц и 10 тыс. долларов, но мы считаем, лучше потратить на это 3 месяца и 50 тысяч – на половине пути к этой отметке ты уже поймешь, что either it’s not must producible, или у тебя экономика не сходится, или софтвер не дружит – то есть ты не можешь сделать продукт, который удовлетворяет созданию точки ценности. Между производителем и потребителем должна появиться точка ценности. Она может измеряться либо в деньгах, либо в пользе, неважно. Если ты не можешь прийти к этой точке, скорее всего, идти и не стоит.

Эта проблема с прототипированием есть и в софтвере, и в хардвере. Вот ты накидал какой-то стек софтовых штуковин, у тебя вроде все работает, но криво. Мне очень нравится карикатура: красивый дом, все настроено, написано что-то вроде«Наши облачные решения». Но фундамент держится на маленькой штучке: «Опенсорсная часть проекта, которую поддерживает Вася из Сыктывкара». Вот так нельзя делать.

Р.Д.: Можно еще привести пример из понятной области чат-ботов. Они все со стороны выглядят одинаково, отвечают на вопросы и тому подобное. Я, кстати, тут выступаю за платформы – лучше использовать их, чем голый код. И вот банальный бот отвечает на входящие вопросы поддержки, работает классно, его можно собрать в принципе на чем угодно. Но что если в этого бота приходит не 1000 человек, как ожидалось, а 1000 человек в минуту? Что произойдет? Все зависнет. Но на стадии разработки клиент говорит, что такой ситуации не будет. Проблема в том, что чтобы держать трафик в 1000 пользователей в минуту, нужен вообще другой стек технологий. Нужна платформа, которая готова к высоким нагрузкам. Для конечного клиента все выглядит одинаково – чат-бот и чат-бот, трафик не важен, но с точки зрения разработки это совершенно разные вещи.

Производство и ответственность

Е.М.: А что дороже – прототипирование устройства или его производство?

И.М.: Самое дорогое – это разработка на производстве. Тут надо определиться с терминами. Есть три типа производства: ОEM, ODM и EMS. ОЕМ, original electronic manufactory, у нас в России определяют неправильно. Все считают, что ОЕМ – это когда ты берешь white label устройство, наклеиваешь на него свой логотип и продаешь. ОЕМ в классическом понимании – это владелец бренда. Samsung, LG и прочие товарищи – это ОЕМ. У таких ребят есть свой бренд, и они могут сделать для тебя какую-то кастомизацию устройства. Ты можешь к ним прийти как внешний заказчик, и они уберут шильдик Samsung снаружи, разработают для тебя кастомное решение. Логотип будет твой, но снизу будет написано made by Samsung. Такой продукт можно запустить довольно быстро, месяцев за шесть.

NotAnotherOne в основном работает с ODM-моделью (original design manufactory) – это завод с инженерными возможностями, у которого нет своего бренда. По сути, это большой design house со своей сборочной линией. У них много инженеров, они выпускают девайсы миллионами. А еще у них есть такая важная вещь, как своя лицензия на платформу. Когда ты стартап, ты не можешь на каждое устройство покупать лицензии по 50 тыс. долларов, а у ODM они есть, есть и инженеры, которые долго работают с той или иной платформой, умеют ее кастомизировать, имеют хорошие взаимоотношения с самим вендором, например, с Qualcomm.

Лицензии нужны не на всё, конечно. Но я говорю про суперсложные проекты уровня Яндекс.Станции. В таких случаях вам придется идти к ODM, потому что вам будут нужны и инженерные ресурсы – вы никогда не наймете 40 инженеров, которые всю жизнь занимаются tooling’ом, хардвер-электроникой. В данном случае производственный цикл, когда вы уже пришли с концепцией, – 9-12 месяцев ада.

Е.М.: Почему «ада»?

И.М.: Мы занимаемся рыночными, консьюмерскими устройствами – это миллионы устройств у пользователей. Это большая ответственность. В софте ты всегда можешь накатить обновление. А если ты облажался с железом, выпустил 100 тыс. устройств с неправильным компонентом внутри, всё, можешь идти на кладбище стартапов. Ответственность очень большая, и ад заключается в коммуникации, в проблемах, которые возникают, в отсутствии компонентов, налаженных процессов. Работа с ODM – это 9-12 месяцев контроля реализации ваших хотелок.

Но третья модель производства – самая ужасная. Это EMS (electronic manufacturing services). К EMS ты приходишь вообще со всем готовым: дизайн tooling’а, софт, PVC layouts, компоненты должны быть заказаны. Ты объясняешь абсолютно все. ЕМС, по сути, это сборочная линия, а вся инженерная часть на тебе. Мы такие проекты тоже реализовывали, например, выпускали умный датчик качества воздуха. Когда мы работаем с EMS, то весь IP, все знания, алгоритмы – всё держим у себя. Фабрика может быть средней, не топовой, и мы являемся мозгом этой фабрики.

Вот эта часть – самая сложная для нас. Обычно по этой модели работают гиганты вроде Google, Apple, и то стараются избегать этого. Google для своих устройств купил HTC. По сути, мобильное направление Apple огромнейший стек держит в Foxconn и у прочих ODM для оптимизации производственных процессов. То есть когда запускается производство iPhone, 300 инженеров Apple приезжают в Шеньжень и живут на фабрике, в закрытом отеле с охраной. Но все равно это ODM.

Е.М.: Небольшому стартапу сложно, наверное, работать по таким схемам…

И.М.: Для них есть другая категория ODM, ОЕМ и EMS. Есть маленькие производства. Если мы говорим о тысячах устройств, любая средняя фабрика может их потянуть.

Е.М.: Рома, а ты согласен с тем, что разработчикам софта в каком-то смысле проще в работе над проектом, что уровень ответственности, конечно, высокий, но все-таки рисков не так много?

Р.Д.: Есть разный софт, софт пишется под железо. Можно написать такой софт, который железо ушатает. Простой пример. Когда на компьютере запускается емкая по памяти программа, компьютер начинает нагреваться, и всегда есть вероятность, что он перегреется и что-то с ним произойдет. Все компоненты отвечают требованиям, но кто-то написал такой софт, который эти требования проигнорировал, либо что-то не учел. Очень модное направление – overclocking, разгон компьютера, когда воздействуют на центральный процессор, меняют герцовку и частоту ядер и т.д. Все может сгореть, и производитель железа не при чем.

В софтовой части тоже много ответственност. Единственное, электронику нельзя поменять на ходу, и вот это реально страшно. Софт всегда можно переписать. Быстро переделать какое-то устройство невозможно.

Роман Доронин на конференции Conversations

И.М.: Но есть такая прекрасная вещь, которой в устройствах не было еще 10 лет назад, – это удаленное обновление. Это решило кучу проблем. Но иногда ты все же можешь сделать такую дрянь в хардвере, что обновиться не сможешь и придется жить вечно на одной прошивке. Поэтому сейчас гибкость архитектуры и софтовых стеков, которая используется на хардовых решениях, очень важна. Были истории, когда те же bluetooth-протоколы на сотнях тысяч устройств переставали работать. Самый развитый протокол коммуникации сейчас у смартфонов, ну и, возможно, в системах умного дома, но там полный бардак. И самое смешное, что нормальных специалистов по bluetooth найти вообще невозможно.

Р.Д.: Кстати, та же ситуация в мире нейронных сетей. То есть они работают, но, черт, никто до конца не понимает, как. И они тоже очень разные, и архитектуры разные. Опять же, под разные железки. Их объединяет то, что пока это все в основном исследовательский стек, и поэтому так относительно мало решений представлено в мире.

Кто зарабатывает на умных устройствах

Е.М.: Я покупаю умную колонку и могу быть ей недовольна – дизайном, удобством, софтом, голосовым ассистентом, например. Но при этом, я вынуждена платить достаточно существенные суммы за умные девайсы. За счет чего формируется цена на умное устройство сегодня и когда устройства станут доступнее для потребителя?

И.М.: Я тебя не обрадую, но на самом деле ты очень дешево покупаешь умные устройства. Это не секрет, маржинальность умных устройств минимальная. Т.е. ни Google, ни Amazon, ни Яндекс на продаже устройств не зарабатывают. В большинстве случаев это схема субсидирования. Интерес ИТ-гигантов в другом, они должны заполучить пользователя, аккаунт. Попросту говоря, тебя. Ты должен подписаться на их музыку, фильмы, на их сервисы – ты являешься их инструментом монетизации через абсолютно другой канал. Продажа умных устройств – это создание еще одного канала потребления.

Что влияет на стоимость? Хардовая составляющая и количество устройств в продаже. Умная колонка от Amazon стоит 24 доллара, потому что их заказывают миллионами. Яндекс.Станция Мини не может конкурировать по цене, ведь рынок меньше, меньше заказов. Конечно, влияет и удешевление технологий. Компьютеры стоили когда-то сотни тысяч долларов. Сейчас у тебя смартфон за 100 долларов, который будет исполнять абсолютно все твои пользовательские желания. Все, что сверху, это уже про маркетинг и твои возможности тратить деньги.

Умные устройства постоянно дешевеют просто из-за производимого количества девайсов, плюс сейчас на рынке умных колонок играют китайские разработчики и китайские лицензиаты, софтовые и хардовые хаусы, у которых есть огромнейший стек решений, существенно дешевле аналогов. У Amazon с Alexa зоопарк устройств, все стоят 20-30 долларов. Яндекс тоже занялся экосистемой, совместно с Elari и прочими ребятами он начал выпускать более дешевые колонки, которые дают абсолютно тот же функционал, но за меньшие деньги.

Никто в индустрии не ожидает прибыли на горизонте пяти лет. Это инвестиции в рынок, в потребителя. Компании создают новый обширный канал, при помощи которого люди будут взаимодействовать с их экосистемой.

AI-утопия: что ждет умные колонки в будущем

Игорь Михненко на конференции Conversations 2019

Е.М.: Раз уж мы так много говорим о колонках, давайте обсудим, в чем особенности их создания – и с точки зрения железа, и со стороны софта.

И.М.: Если упрощать, то отличие умной колонки от обычной – в микрофонном массиве и в определенном инструментарии, который позволяет вычленять ваш голос из окружающего шума, транслитерировать этот голосовой поток в текст и потом возвращать обратно в ассистента: speech-to-text, text-to-speech. Но я думаю, будет интереснее поговорить о том, куда технология будет двигаться в будущем.

Р.Д.: Сейчас умная колонка (если говорить про софт) – это три глобальных технологии. Распознавание речи – то, как колонка превращает звук вашего голоса в текст. NLU-движок – штука, которая осуществляет тот самый процессинг естественного языка: когда вы говорите «разбуди меня завтра в 9 утра», а ассистент подтверждает, что завел будильник на утро 5 августа. И третье – это синтез речи. Голос Алисы, например, – это очень сложная технология, которая стала возможной в таком классном исполнении, как сейчас, буквально в последние пять лет. До этого способные на такое нейросети можно было увидеть только в научных работах.

И.М.: С эмоциональным окрасом – это вообще отдельная тема.

Р.Д.: О да, эмоции – это сложно. Сейчас не решена задача даже предиктивных интеракций, когда колонка сама что-то спрашивает или предлагает, потому что непонятно, когда это лучше делать. Теперь поговорим о том, куда все это катится.

Будущее колонок – в компьютерном зрении. Когда появится дополнительный канал для обработки видеокартинки, колонка сможет различать, кто к ней обращается, и определять это не только по голосу, но и читать по губам, сможет отличать ребенка от взрослого, если она его видит. Facebook и Amazon уже идeт в эту сторону, у их колонок появились экраны, камеры, там очень много интересных сервисов внутри.

Еще один маленький аспект. Я уже упоминал говорящего карася. Он интересен еще и тем, что он анимирован. У него шевелится рот, поворачивается голова, и эта мимика тоже дает пользователю дополнительный опыт. Карась одушевлен. Помните, когда появилась Алиса, все жаловались, что она их оскорбляет? Когда мы делали карася, он тоже всех оскорблял, но из-за того, что есть мимика (ну это ж тупо карась!), люди не обижались. Они наоборот пытались его спровоцировать, это их веселило. У нас были проблемы с микрофонами, и карась мог ответить: «Рыбы и то выражаются понятнее, че ты там бурчишь – ничего не слышно!». Еще он у нас говорил голосом Левитана. И вот кастомизация голосов, обыгрывание форм-фактора, использование мимики в контексте устройств, тоже станут трендом, который дает другой experience.

И.М.: Игровой тренд действительно мощный. Проблема родительского внимания никуда не девается. И минус традиционных игрушек в том, что они быстро надоедают. У нас уже есть пул требований – какой должна быть умная игрушка. Зачастую создать такое устройство очень дорого. Поэтому игрушки, которые умные хоть чуть-чуть, и при этом с антивандальным эффектом (их ведь надо уберечь от случайной поломки), стоят немало. В разработку такого устройства надо вкладываться. Оказывается, очень выигрышно смотрятся игрушки, которые общаются друг с другом. Есть несколько продуктов, которые буквально взорвали рынок – игрушки общаются между собой, и ребенку очень интересно наблюдать. А представьте, что они будут понимать маму, распознавать голос ребенка, будут помогать учить первые слова, первая коммуникация будет с игрушками. Это огромнейший коммерческий потенциал для компаний.

Я лично верю в то, что в будущем технологии станут невидимыми. Они будут настолько интегрированы в наш интерьер или экстерьер, что мы потеряем принцип владения вещью. Сейчас у нас есть личный телефон, личная колонка. В будущем личные девайсы будут не нужны, потому что, по сути, любая поверхность в ресторане, в лифте и где угодно сможет определят твою личность, автоматом подключать твой аккаунт и давать доступ к твоей среде без личного устройства. В устройствах личности будет все меньше, мне кажется.

Не надо будет покупать колонку, умные экраны. Они будут незаметно погружены в окружающую среду. Конечно, я рисую абсолютно утопичный мир.

Р.Д.: Я, кстати, могу продолжить про невидимый мир. Думаю, ассистенты станут еще более мощными, функциональными и бесшовными, когда наступит эпоха виртуальной и дополненной реальности. Тот, кто играл в виртуальной реальности в игры, понимает, что там нет клавиатуры, там сложно что-то загуглить, например, узнать, как пройти уровень. Единственный интерфейс – это твой голос, потому что в VR вводить что-то руками сложно. А пользоваться голосом естественно.

Если говорить про глобальный тренд на нейросети, то здесь сейчас есть большая проблема с данными. Для всего нужны данные, и в мире машинного обучения отдельное направление – это синтетические данные. Они, кстати, и в голосовых интерфейсах тоже используются. Например, чтобы ассистент лучше понимал вариации вопроса, вопросы можно перевести с английского языка на русский и обратно с русского на английский и на этом дообучить модель. На синтетических данных тренируются беспилотники. Это выглядит, как игра GTA 5, только сложнее с точки зрения физики. Буквально недавно у нас в EORA была задача распознавать глубину в кадре без лишних устройств. И мы первичную модель учили на синтетических данных из игры, а потом уже дообучали на реальных данных, которых, конечно, меньше. А синтетических данных может быть бесконечное количество.

Возвращаясь к трендам в ассистентах: когда наступит эпоха VR, там точно появятся голосовые ассистенты, но так как VR знает твое точное местонахождение и расположение объектов вокруг, уровень взаимодействия с реальностью будет более точным, более удобным.

И.М.: Однозначно реальный мир будет дороже виртуального, и жить в нем будет сложнее. Реализация AI-кейсов внутри игры, внутри VR, на порядок проще, чем в реальности. Возможно, мы увидим обратный тренд, когда ты действительно натренируешь любую модель на GTA, а потом с можешь имплементировать ее на реальных улицах Лос-Анджелеса.

Р.Д.: Если говорить про виртуальный мир, то и колонки, и любую железку в виртуальном мире существенно проще сделать – достаточно нарисовать текстурку.

Е.М.: И там она точно будет идеальной. Ребята, спасибо вам за ваши прогнозы. Это очень впечатляет, хочется дождаться того момента, когда мы сможем провести интервью в VR-очках.

И.М.: Это уже сейчас можно сделать.

Е.М.: Да? Тогда следующее?

Смотреть все интервью

Хочешь больше крутых историй об AI-проектах?

Conversations — главная конференция по разговорному AI для бизнеса и разработчиков: кейсы, аналитика, мастер-классы, нетворкинг

Перейти