Обложка статьи

Я вас слушаю

Согласно докладу исследовательской компании Juniper Research, к 2023 году в мире будет насчитываться 8 млрд устройств с активированными голосовыми помощниками. Это один из самых быстрорастущих и перспективных рынков в мире. Впрочем, иногда кажется, что голосовые помощники знают намного больше достоверной информации о нас, чем мы о них. Или не кажется?

Миф 1. История разработки голосовых ассистентов началась с Siri

Хотя Siri, «живущая» в продуктах Apple, действительно первый полноценный голосовой помощник, история их разработки началась задолго до ее появления. Попытки распознать человеческую речь с помощью различных устройств предпринимались еще с конца 1930-х годов. Основными препятствиями для создания ассистента были омонимы и шумовой фон, мешающий системе выделять запрос пользователя. Потребовалось почти 80 лет, чтобы передовые разработки на основе машинного обучения и нейронных сетей позволили претворить идею о технологичном собеседнике в жизнь.

Миф 2. Обучение голосового помощника начинается с алфавита

Разработчики часто говорят, например, об «Алисе» или Google Assistant как о детях, познающих мир. Так же, как и они, голосовые помощники начинают обучение языку задолго до букваря. Тут важно понимать, на чем основан принцип работы голосового помощника. Когда устройство «слышит» фразу, оно различает не отдельно взятые слова, а обычный звуковой сигнал, в котором гласные и согласные плавно перетекают друг в друга. Чтобы понять, что хочет пользователь, голосовой помощник отправляет запись сказанного на «родной» сервер. Там она делится на фреймы (короткие звуковые фрагменты), и в результате математических преобразований над ними выводятся частотные показатели. По ним устанавливается соответствие между каждым фреймом и фонемами, что формирует в «сознании» голосового помощника интент (намерение) пользователя.

Для чего используют голосовые помощники?*

*по результатам опроса, проведенного журналом NewTone

Миф 3. Голосовой ассистент не различает акценты

Звучание фонем сильно отличается в разных диалектах одного и того же языка. Разработчики Siri и Alexa даже предусмотрели в настройках предварительный выбор американского или британского английского для более продуктивного функционирования устройства. Сложнее обстоит дело с русскоговорящими голосовыми помощниками: формально разновидностей нашего языкане существует, но при этом «вологодский» и «краснодарский» русский сильно различаются по звучанию. Именно поэтому «Алису» («Яндекс»), «Марусю» (Mail.ru Group) и «Олега» («Тинькофф») учат самостоятельно распознавать различные говоры. У голосового помощника даже есть особая таблица, в которой указаны вариации фонем. Он может обращаться к ней, чтобы определить все возможные варианты произношения одного и того же слова.

Миф 4. Голосовой помощник просто вбивает запрос пользователя в поисковую строку

После преобразования речи в текст в диалоговой платформе анализируется смысл сказанного пользователем и после этого определяется, какой именно результат необходимо выдать. Чаще всего запросы сопоставляются с содержимым внешних баз и информационных систем. Наиболее подходящий отклик ищут нейронные сети. Получив данные, диалоговая платформа выдает «ответ»: например, сообщает прогноз погоды на завтра, включает сериал или запускает кофемашину.

Миф 5. Голосовой ассистент — умная игрушка

Для чего люди используют голосовые помощники сегодня? На Западе они работают в связке с технологиями интернета вещей: включают свет в помещении, меняют режим кондиционирования, варят кофе. Для России это пока еще редкость, хотя умная колонка «Яндекс.Станция» с «Алисой» внутри уже способна включать музыку, ставить напоминания и советовать фильмы. В исследовании упомянутой Juniper Research утверждается, что голосовые ассистенты быстро меняют привычки хозяев: 39 % респондентов начали реже включать радио, 34 % — реже пользоваться смартфоном, 30 % респондентов стали уделять меньше внимания телевизору, 27 % — планшетам, 26 % — компьютерам, а 23 % — печатным изданиям. Совсем скоро заказывать еду на дом, бронировать билеты и совершать покупки в интернет магазине с помощью голоса станет нормой. Это демонстрирует главную тенденцию развития современных технологий: они настолько естественно и прочно вливаются в нашу жизнь, что многим перестают казаться чем-то удивительным.

 

ВИТАЛЯ ГОРБАЧЕВ
Архитектор решений в Just AI — IT-компании, специализирующейся на технологиях ИИ, машинного обучения и понимания естественного языка

 

В чем отличие обучения голосового помощника ответам на вопросы по существу («какая завтра погода?») от обучения неформальным разговорам?

В случае с погодой навык дискретен в плане ответа — обучить ассистента можно лишь разным формулировкам вопроса: «ожидаются ли осадки 25 ноября в Петербурге?» или «мне брать зонтик?» (этакая проверка ассистента на интеллект). Во втором же случае используют языковые модели, создающие видимость живого общения. То, что «Алиса» способна поболтать на отвлеченные темы, — результат огромной работы, которую выполнила команда «Яндекса», сделав ставку не только на сервисные функции ассистента (что отличает большинство зарубежных голосовых помощников), но и на chit-chat, то есть «болталку».

На каком материале идет обучение?

Зависит от навыков. Часто у них есть эквиваленты в реальной жизни — в таком случае данные для обучения собирают оттуда. Например, чтобы ассистент мог подсказать погоду, нужна интеграция с цифровыми метеосервисами. Языковые модели, о которых я говорил выше, часто обучены вообще на глобальных датасетах: по сути, на всем, что есть в интернете, или на значи- тельной его части. Если навык предполагает какую-то специфику, например отвечает за рекомендации по меню ресторана, то обучение будет происходить на специально собранных данных — пригодится не только меню и описание блюд, но и база отзывов посетителей или подборка рецензий ресторанных критиков.

Как голосового помощника знакомят и учат работать с нежелательным контентом – грубостями, оскорблениями?

Обучение происходит на датасете из этих «грубостей», взятых, как правило, из открытых источников. Натренировавшись на базе примеров нежелательного контента, ассистент может распознавать и вычленять ненормативную лексику — причем в различных формулировках — и при столкновении с ней выдавать ответ, заложенный в систему.

Отличается ли обучение голосового помощника до его запуска и после?

Конечно! Если до запуска вы ориентируетесь в основном на гипотезы, собственное понимание того, как будут задавать вопросы, немногочисленные исследования и небольшую фокус-группу, то после столкновения ассистента с реальными пользователями вы должны обращать внимание на логи взаимодействия с голосовым помощником, то есть диалоговый датасет, историю реальных бесед пользователей.

Иллюстрация на обложке — Анастасия Прокофьева

Материал опубликован в журнале NewTone

18 января 2021

Еще почитать по теме