Голосовые технологии:
3 перспективных направления, которые постепенно меняют мир
С
истемы, которые способны выполнять рутинные операции вместо человека, помогают поддерживать глобальную экономику и работают на благо цивилизации уже очень давно. Но что насчет систем, которые могут общаться и взаимодействовать с пользователем? Если говорить о полноценном общении, то пока что его нет. И причина здесь одна - наша речь слишком сложная. Каждый, кто пробовал взаимодействовать с цифровыми ассистентами вроде Alexa и Siri, видел и ощущал разницу между «общением» с ними и полноценным разговором с человеком. Но прогресс не стоит на месте. В ближайшем будущем продвинутые «собеседники» обязательно появятся, ведь к этому все и идет. В целом, эта технология способна изменить мир. Разговорный искусственный интеллект для обработки заказов и обращений клиентов Эксперты в области голосового искусственного интеллекта посчитали приоритетными технологии, которые могут облегчить выполнение рутинных задач, освобождая людей для участия в высокоэффективных творческих начинаниях. Пример - общение с клиентами, которые заказывают товар или услугу, обработка их заказов и обращений. Кажется, что все просто: загружаем меню, используем чат-бота - и все. На самом деле, есть много факторов, которые все усложняют. Например, система, которая должна общаться с клиентами при помощи разговора, требует наличия почти идеального модуля распознавания речи, на который не влияет ни шум автомобилей, ни музыка в помещении клиента, ни любые другие звуки, включая речь других людей, которые находятся рядом с клиентом, совершающим заказ. Более того, система должна распознавать речь детей, взрослых, людей с дефектами дикции и т.п. Американской компании Hi auto удалось преодолеть указанные проблемы, и их система способна работать с точностью в 90%. Это, конечно, не идеально, но гораздо лучше среднего показателя. Эксперты предполагают, что примерно через 3 года многие рестораны будут использовать голосовую систему ис-
4
/2/2022
кусственного интеллекта для приема заказов. Речь идет о десятках тысяч предприятий общепита по всему миру. Через несколько лет эта технология станет мейнстримом, ведь она поможет освободить сотрудников ресторанов и кафе от обязанности принимать заказы. Их можно будет задействовать для решения других задач, где требуется интеллект и способности человека. Разговорные системы искусственного интеллекта в облаках для умных машин Вторая перспективная технология, которую выделяют эксперты, - это система, понимающая контекст разговора. Беседа людей обычно ведется в рамках определенного контекста, и одни и те же слова и фразы могут означать разные вещи в разном контексте. Для человека понимать контекст - вполне естественная практика, а вот для цифровых систем - нет. Они понимают речь буквально, не обращая внимания на контекст. Подавляющее большинство цифровых ассистентов на это просто не способно. Хорошая иллюстрация сказанному - юмор. Цифровые ассистенты не способны понять даже простейшие шутки, не говоря уже о шутках с двойным или тройным дном. Собственно, на понимание «сложного» юмора способны даже не все люди, что уж тут говорить о машинах. Но понимание контекста крайне важный элемент действительно эффективной разговорной системы. Сейчас разные компании работают над контекстно-зависимым искусственным интеллектом, который в ходе взаимодействия с собеседником создает модели, которые используют дополнительную информацию, помимо личности говорящего. Потенциальная область применения технологии - чат боты. В идеальной ситуации они должны собирать дополнительную информацию из разных мест, включая профиль пользователя, его предыдущие заказы и т.п. Эти данные можно использовать для формирования высокоинтеллектуальных ответов. Еще один вариант - системы быстрого реагирования. Например, человек застрял в лифте, тут же голосом сообщил об этом встроенной системе искусственного интеллекта, которая мгновенно оповещает службы, причастные к инциденту.
Автоматизация обработки данных Аудио - только одна из форм неструктурированных первичных данных. Есть и другие формы, и все они требуют оперативной обработки, анализа и интерпретации. А уже обработанные структурированные данные могут быть использованы для принятия стратегических решений или предоставления ценной для компаний обратной связи. Один из примеров использования такой технологии - обнаружение ошибок в процессе чтения текста ребенком. Одна из крупных американских образовательных компаний предоставляет сервис чтения вслух. Дети читают текст, а система искусственного интеллекта выявляет ошибки и после прочтения всего текста показывает статистику и подробное описание ошибок. Это только один из примеров. На самом деле, точек приложения возможностей систем гораздо больше. Кроме того, названные выше технологии - не единственные перспективные направления. Есть еще распознавание эмоций, превращение речи в текст и, наоборот, текста в речь, причем с эмоциональным наполнением. Сейчас вся отрасль разговорных систем искусственного интеллекта активно развивается, постепенно меняя различные сферы деятельности и рынки в целом. Многие развивающиеся технологии уже способны заменить человека, избавив его от решения рутинных задач. С течением времени эта тенденция лишь усилится.
Энни Браун (Annie Brown), основатель инклюзивной платформы для обмена творчеством Lips (https://lipsdistro.com)