1 минута
Полина Осипова
CAILA 2.0: рассказываем про второй этап разработки NLP-платформы
С февраля 2022 года Just AI при поддержке Российского фонда развития информационных технологий разрабатывает платформу CAILA 2.0 для создания и эксплуатации решений в области обработки естественного языка.
CAILA 2.0 объединяет задачи обработки естественного языка (NLP, Natural Language Processing), каталог готовых NLP-сервисов, хостинг пользовательских ML-моделей и позволяет удобно внедрять NLP-технологии в диалоговые решения.
Реализация проекта находится в самом разгаре. Мы завершили второй этап, в ходе которого была разработана бета-версия платформы. Делимся промежуточными результатами:
- Разработана подсистема NLU в части реализации NLP-решений по распознаванию намерений пользователей, а также решений «FAQ» (предоставление ответов на вопросы из структурированной базы знаний) и «CDQA» (поиск ответа на вопрос из конкретной области знаний). Данные решения разработаны на основе современных тяжеловесных нейросетевых архитектур.
- Все реализованные решения обучаются на наборах пользовательских данных (датасетах). В ходе разработки Подсистемы NLU была также выполнена оптимизация платформы для обеспечения возможности обрабатывать большие датасеты.
- Реализован пользовательский интерфейс, с помощью которого осуществляется встраивание созданного пользователем сервиса в платформу, загружаются наборы данных для последующего обучения сервисов, а также осуществляется развертывание, тестирование, публикация и удаление сервисов (как собственных, так и представленных в общем каталоге Системы).
- Реализована функция batch-процессинга запросов, с помощью которого множество запросов от разных клиентов агрегируется в один общий запрос, что дает возможность обрабатывать его более эффективно. Данная функция позволяет значительно увеличить пропускную способность многих сервисов и решений, размещаемых на платформе.
- Реализована возможность создания комплексных Сервисов, использующих в своей работе другие Сервисы. Таким комплексным Сервисам доступны все возможности API платформы, они могут обращаться к другим сервисам, могут обучать производные модели и использовать их в своей работе.
- Для унификации и упрощения процессов создания NLP-сервисов и их встраивания в платформу разработана подсистема SDK, представляющая собой программную библиотеку, содержащую инструменты для стандартизации интерфейсов сервисов, системы типов данных, сетевого взаимодействия через GRPC-клиент. Данная библиотека предлагается пользователям для создания новых сервисов и их интеграции в платформу.
Платформа и ее возможности были представлены на прошедшей конференции OpenTalks.AI 6-8 марта. Мурат Апишев, руководитель направления RnD в сфере NLU/NLP Just AI рассказал о том, как команда организовала управление NLP-сервисами и моделями, стандартизировала использование собственных и open-source решений, преодолела проблемы низкого качества обнаружения интентов на сложных данных и обучила управляемую модель перефразирования для помощи пользователям.