10 мин
Анастасия Сахарова
Поговори со мной: чем отличается генеративный искусственный интеллект от разговорного
Разговорный искусственный интеллект (ИИ) подарил нам новый опыт взаимодействия со смарт-устройствами и системами. С активным развитием таких голосовых помощников, как Алиса, Маруся и Салют, а также появлением множества диалоговых ИИ-систем, наши привычные коммуникации изменились. С помощью текстовых или голосовых команд мы можем получать ответы на вопросы, ставить задачи, совершать покупки и управлять системой умного дома. Все это было бы невозможно без развития разговорного ИИ. Но это не единственная форма ИИ для взаимодействия с людьми.
Генеративный ИИ — новый большой технологический тренд. С его помощью люди могут создавать совершенно разный контент. И хотя обе технологии используют обработку естественного языка, между ними есть фундаментальные различия. В этой статье мы изучим их ключевые функции, методы обучения и варианты использования.
Навигация по материалу:
- Что такое разговорный ИИ
- Где мы чаще всего сталкиваемся с разговорным ИИ
- Что такое генеративный ИИ
- Чем отличается разговорный ИИ от генеративного
- Использование генеративного ИИ в разговорных интерфейсах
- Заключение
Что такое разговорный ИИ
Разговорный ИИ — это искусственный интеллект, который помогает людям взаимодействовать с системами ИИ посредством текста или голоса. В приложениях чат-боты подсказывают статус заказа, умные колонки сообщают прогноз погоды, а smart телевизоры запускают любимый фильм. Чтобы все это работало, используется несколько технологий. Рассмотрим, какие компоненты есть у сервисов разговорного ИИ более подробно.
Распознавание речи
Базовая функция разговорного ИИ включает передовые алгоритмы для преобразования речи в текст. Пользователь задает голосовую команду, а система преобразует ее в текст.
Понимание естественного языка (NLU)
Методы NLU помогают системам правильно понять и интерпретировать пользовательские запросы. Технология умеет анализировать контекст, намерение или интонацию собеседника, а затем формулировать соответствующий ответ.
Выстраивание диалога
Разговорный ИИ тут помогает вести последовательный диалог с пользователем. Без этой функции мы бы получали от сервисов отрывочные ответы вне контекста, а не естественное общение, как если бы мы общались с живым человеком.
Генерация естественного языка (NLG)
Системы разговорного ИИ используют методы NLG для создания ответов на пользовательские запросы в режиме реального времени. На этом этапе мы генерим либо просто текст, либо идем дальше — и с помощью технологий синтеза речи получаем его озвучку.
Вопросно-ответные системы (QAS)
Задача таких сервисов — осуществлять информационный поиск по пользовательскому запросу и находить релевантный документ или даже место в документе, где содержится ответ.
Где мы чаще всего сталкиваемся с разговорным ИИ
Голосовые помощники
В России – это Алиса от Яндекса, Маруся от VK, Салют от Сбера, Олег от Тинькоффа и ряд других. Виртуальные ассистенты «живут» в смарт-колонках и телевизорах, наших ПК или телефонах. С ними мы можем одним голосом управлять умным домом, запускать музыку или менять режим обогрева а автомобиле.
Чат-боты
Чаще всего компании развертывают таких цифровых помощников в клиентском сервисе. Автоматическая поддержка помогает брендам быстрее и лучше отвечать на типовые запросы и экономит их ресурсы. Но сфера применения чат-ботов этим не ограничивается. Их используют в рекрутинге, технической поддержке, онбординге и образовании.
Специальный софт для преобразования текста в речь
Его применяют при создании аудиокниг или генерирования голосовых команд.
Программное обеспечение для распознавания речи
Чаще всего используется для расшифровки лекций или телефонных звонков, создания автоматических субтитров для видео.
Отдельно стоит сказать про языковой перевод. Благодаря разговорному ИИ мы легко преодолеваем языковые барьеры и получаем нужную информацию в режиме реального времени.
Что такое генеративный ИИ
Генеративный ИИ использует алгоритмы глубокого машинного обучения для создания оригинального контента — изображений, текста, музыки или кода. Такие модели ИИ анализируют большие наборы данных, изучают закономерности и выдают результат, похожий на тот, что создает человек. Именно так действует ChatGPT — отвечает на наши запросы по различным темам, а DALL-E 2 и Stable Diffusion создавают изображения на основе текстовых подсказок. Кстати, это еще одна особенность генеративного ИИ — его модели отличаются не только по типу получаемых данных, но и вводимых. Например, можно на картинку получить текстовое описание или на текстовый запрос — изображение.
Генеративный ИИ может ежегодно приносить экономическую выгоду в размере от $2,6 трлн до $4,4 трлн в 63 проанализированных вариантах использования. McKinsey
Генеративный ИИ имеет множество вариантов применения в различных областях, таких как творчество, маркетинг, исследования и даже программирование. Сегодня количество генеративных нейросетей исчисляется тысячами. Их принято делить по типу создаваемого контента. Расскажем о некоторых их них.
Генерация текста
GPT-3 — классическая языковая модель, которая может выполнять широкий спектр задач по обработке естественного языка: от создания статей до написания кода.
Создание изображений
Midjourney AI — это, пожалуй, самая популярная модель машинного обучения, которая генерирует картинки по текстовым описаниям.
Написание музыки
MuseNet — это модель может написать музыку в различных жанрах и стилях на основе текстовых подсказок.
Генерация видео
DeepDream Videos — это генеративная модель помогает создавать новые видео на базе нескольких кадров.
Синтез речи
Tacotron 2 — это модель ИИ поможет сгенерировать речь на основе вводимого текста.
Все эти модели используют ту же архитектуру нейронной сети, что и GPT, но обучаются на разных типах входных данных и генерируют разные типы контента.
Чем отличается разговорный ИИ от генеративного
Интерес к технологиям разговорного и генеративного ИИ год от года только усиливается. Разговорный ИИ используется для чат-ботов и голосовых помощников, а генеративный ИИ направлен на создание нового контента — текста, изображений и многого другого. Есть существенные различия между тем, как они работают и как обучаются. Рассмотрим их более подробно.
Обучение
Большинство моделей разговорного ИИ обучается с помощью определенного набора данных с помеченными примерами. Генеративный ИИ учится анализу закономерностей на больших объемах текстовых данных без каких-либо пометок.
Функциональность
Основная функция разговорного ИИ состоит в том, чтобы понимать и реагировать на вводимые пользователем данные, создавая релевантные текстовые ответы. В то время как генеративный ИИ чаще демонстрирует односторонний стиль формирования контента и меньше полагается на диалоговые данные.
Сложность
Алгоритмы разговорного ИИ, как правило, менее сложные, чем у генеративного ИИ, поскольку он фокусируется на понимании естественного языка и реагировании на него. Генеративный ИИ должен создавать новый контент, который не должен быть вторичным и отличаться высокой степенью оригинальности.
Сфера применения
Разговорный ИИ чаще всего используется для чат-ботов, голосовых помощников и других диалоговых интерфейсов, помогая нам получать информацию или выполнять задачи посредством голоса или текста. Генеративный ИИ больше применяется для творческих задач, таких как создание изображений, постов или музыки.
Использование генеративного ИИ в разговорных интерфейсах
Сегодня обе технологии используются не только параллельно, но и вместе, помогая развивать ИИ-приложения.
Генеративный ИИ поможет не только в расширении возможностей ботов, которые есть сейчас, но и упростят и ускорят работу самих дизайнеров разговорных интерфейсов
Ирина Степанова,
ведущий аналитик разговорных интерфейсов Just AI
Один из примеров использования генеративного ИИ в диалоговых интерфейсах — это чат-боты. Такие цифровые помощники не только понимают вопросы пользователей, анализируют контекст и выдают ответы. Они могут подтягивать персонализированную информацию с учетом текущего запроса.
Пример 1. Вы запрашиваете информацию у FAQ-бота компании о текущих ценах на определенный товар. Чат-бот на базе нейросети сканирует актуальный раздел на сайте и формирует живой и персональный ответ. Если бы здесь работал обычный бот, он бы сопоставлял тему запроса с документом и выдавал бы заранее заготовленный ответ.
Количество голосовых помощников в мире к 2024 году достигнет 8,4 млрд единиц. Statista
Другой способ использования генеративного ИИ в диалоговых интерфейсах — это голосовые помощники, такие как Алиса, Маруся или Сбер. Такие виртуальные ассистенты используют NLP и алгоритмы машинного обучения, чтобы анализировать намерения пользователей, понимать контекст разговора и генерировать релевантные и полезные ответы.
Пример 2. Вы попросили голосового помощника придумать поздравление для мамы. Получили стихотворение. На следующий день перечитали и решили сократить. Благодаря встроенной нейросети, цифровой ассистент будет помнить контекст вашего вчерашнего диалога, и быстро сделает редактуру текста.
У Алисы уже есть встроенная нейросеть YandexGPT. Это помогает голосовому помощнику не только выполнять творческие задачи, но и помнить контекст диалога
Заключение
Во всем мире проделана большая работа по внедрению технологий ИИ в нашу повседневную жизнь. И если с разговорным ИИ мы знакомы достаточно давно, то с генеративными нейросетями большинство людей стало массово взаимодействовать только в последний год. Бренды увеличивают скорость обслуживания клиентов, снижают издержки и совершенствуют продукты. Обычные люди получили рабочие инструменты для повышения своей личной эффективности.
И неважно, какая технология за этим стоит – разговорный или генеративный ИИ. Что точно можно сказать, что стоит ждать больших успехов от объединения этих двух типов ИИ.