что такое голосовой ассистент

Голосовой помощник: что это такое и для чего он нужен

Фразы «Алиса» или «Эй, Сири» звучат знакомо? На самом деле они считаются голосовыми помощниками, и десятки миллионов пользователей ежедневно общаются с ними. Если Вам быстро нужно узнать цену СЕО продвижения сайтов, просто скажите «Окей Гугл» и получите тысячи подходящих вариантов.

Что такое голосовой помощник

В то время как текстовые интерфейсы требуют, чтобы машины обрабатывали текст, анализировали его и отображали ответ, голосовые помощники делают это на слух. Проще говоря, вместо нажатия клавиш и набора запроса, например, о том, что такое франшиза, Вы просто проговариваете его вслух. Но, конечно, данная технология является довольно сложной и относительно новой по сравнению с текстовыми интерфейсами.

Что делает голосовой помощник

О том, что делает голосовой помощник всем давно известно, но о том, как он это делает, знают немногие. Некоторые помощники начинают распознавание в ходе проговаривания определённой фразы, например, как «Окей Гугл», после которой Вы озвучиваете желаемый запрос.

После обработки запроса пользователя с помощью распознавания голоса настало время получить информацию, связанную с вопросом. Голосовые помощники делают это, получая доступ к так называемой базе знаний, которая служит центральным хранилищем для извлечения информации.

Для чего нужен голосовой помощник

В заключение скажем о том, для чего нужен голосовой помощник и в каких ситуациях он окажется наиболее полезным. Голосовые помощники стали довольно популярными среди потребителей. Большинство из них просто используют свои устройства для проверки погоды, чтобы узнать, кто выиграл вчерашнюю игру, столицу Японии и для других простых голосовых команд.

В недавнем опросе более 600 высокопоставленных лиц, принимающих решения, 31% из них считают, что голосовые технологии полезны только для повседневной работы. На данный момент, очевидно, что голосовые помощники лучше решают простые, не связанные с бизнесом вопросы для пользователей. Спорно утверждать, что за голосовыми помощниками нет будущего, со временем и их усовершенствованием, станут, бесспорно, открываться новые возможности их использования.

Конечно, вопрос о том, стоит ли пользоваться голосовым помощником или нет, решать только Вам. Всё дело в простоте использования и экономии времени, хоть не такого уж и длительного. Разнообразие таких голосовых технологий поможет подобрать Вам наиболее приятный и удобный вариант.

Источник

Как устроена работа голосовых помощников

От распознавания звуков до человечных ответов на вопросы

Голосовые помощники экономят время пользователей: с их помощью можно мгновенно включить музыку или набрать нужный номер. Однако для того, чтобы правильно отреагировать на запрос человека, голосовому ассистенту нужно выполнить десятки действий: распознать отдельные звуки, представить их в виде чисел, перевести в текст и так далее. Академия Яндекса составила путеводитель по работе голосовых помощников и узнала у разработчиков Алисы, как их речь делают человечной.

Как голосовые помощники распознают речь

Первая стадия в работе голосового ассистента — это обработка звука.

Если сказать помощнику «Лев Толстой», то он услышит не два слова, а звуковой сигнал, в котором гласные и согласные плавно перетекают друг в друга.

Задача системы распознавания речи SpeechKit — восстановить по этому сигналу то, что человек говорил.

Процесс распознавания осложняется тем, что одни и те же фразы, произнесённые разными людьми в разной обстановке (например, в вагоне метро или в безлюдном парке), будут давать непохожие друг на друга сигналы. Поэтому для распознавания речи голосовой помощник делит слова на звуковые фрагменты — фонемы. Носители языка узнают именно их: например, первые гласные в словах «дом» и «домашний» мы воспринимаем одинаково, хотя звуки разные. В Алисе различают всего 48 фонем — в соответствии с подходом Ленинградской фонологической школы.

Для того, чтобы распознавать фонемы, помощник работает с их числовым представлением. Так, когда вы произносите запрос, смартфон записывает его и отправляет на сервер компании, которая разрабатывала голосового помощника. Там запись разделяется на множество маленьких фреймов — фрагментов речи длиной в сотые доли секунды.

Затем каждый фрейм подвергают математическим преобразованиям и в результате получают коэффициенты, описывающие его частотные характеристики. А на основании этих данных ассистент может предположить, к какой фонеме принадлежит фрейм.

Как и человек, голосовой помощник не всегда хорошо распознаёт звуки, и ему приходится достраивать слова исходя из контекста и статистики. У него есть таблица вероятностей переходов, которая указывает, что после «к» с одной вероятностью будет «о», с другой — «т» и так далее. Это позволяет определить варианты последовательности фонем и потом варианты слов, которые вы могли сказать.

Голосовому помощнику нужно учитывать множество акцентов, в которых фонемы звучат по-разному. Например, в Москве чаще будет произноситься гласная «а», а в Архангельске — «о». Причем, если для Siri и Alexa можно выбрать британский или американский английский, а вот вологодского или краснодарского русского нет.

Как голосовые ассистенты понимают и выполняют поручения

После того, как голосовой помощник распознал речь и перевёл её в текст, ему нужно понять, какого ответа ждет пользователь. В Алисе запросы пользователей сначала классифицируются по намерениям, а потом перенаправляются в тематические разделы, например, для прослушивания музыки или неформального разговора.

Задача классификатора намерений — определить, что человек хотел сказать своей фразой. Например, если пользователь спросил: «Будет ли завтра дождь?», то голосовой помощник должен понять, что речь идёт о погоде. В классификаторе намерений запрос дробится на слова и пунктуационные знаки. Для них применяют обученные на больших данных эмбеддинги — представления слов, которые позволяют понять, в каком контексте эти слова обычно используются.

Читайте также: чем полезны осы на даче

Один из самых простых методов эмбеддинга — это контекстные векторы. Сперва для текстового корпуса составляют словарь, из которого выбираются самые распространённые слова. Дальше подсчитывается, сколько раз каждое слово из словаря встречается в контексте выбранных слов, и таким образом получается вектор. Так, если слово «дождь» трижды встречалось рядом со словом «погода», один раз — со словом «прогноз» и ни разу — со словом «радость», то его векторное представление будет выглядеть так: [3;1;0]. Затем смысл (интент) каждого слова определяется по его ближайшим соседям: в приведённом примере это «погода».

Для каждого намерения есть специальная модель, которая выделяет полезную информацию в том, что сказал пользователь, — она называется семантическим теггером. Теггер для погоды по предложению «Будет ли завтра дождь?» понял бы, что завтра — это дата, на которую пользователю нужен прогноз.

Задавая вопросы, люди редко проговаривают всю нужную для ответа информацию, поэтому голосовому помощнику приходится её достраивать. Например, чтобы понять, погоду в каком городе хочет узнать пользователь, ассистент может либо переспросить пользователя, либо получить эту информацию сам, если на смартфоне включено определение геолокации. Только после этого помощник может дать подходящий ответ.

Как голосовых помощников учат быть человечными

Если