Как работает голосовой помощник: от звука до ответа

Ты бросаешь в пустую комнату «Окей, поставь будильник на семь» — и спустя секунду тебе отвечают. Кажется, будто колонка просто услышала тебя, как услышал бы друг. Но за эту секунду внутри произошло целое путешествие: воздух превратился в числа, числа — в буквы, буквы — в смысл, а смысл — в действие. Давай размотаем эту цепочку с самого начала.

Сначала звук становится числами

Когда ты говоришь, твой голос — это всего лишь колебания воздуха. Воздух чуть сжимается и разжимается, и эта волна добегает до микрофона. Микрофон ничего не понимает в словах: он просто чувствует, как давление воздуха толкает его мембрану туда-сюда, и превращает эти толчки в электрический сигнал.

Дальше за дело берётся аналого-цифровой преобразователь. Он много тысяч раз в секунду измеряет, насколько сильна волна прямо сейчас, и записывает каждое измерение числом. Получается длинная вереница чисел — это и есть твой голос, но уже на языке, понятном компьютеру.

Для устройства речь — это не слова, а график громкости, разложенный по времени. Всё остальное оно достраивает само.

Чтобы было удобнее, этот сигнал часто превращают в спектрограмму — картинку, где видно, какие частоты звучат громче в каждый момент. Низкое гудение, высокий свист, шипение «с» — всё это разные узоры на такой картинке. Именно с ними дальше работает программа.

Из звука — в буквы: распознавание речи

Теперь самое интересное. Машине нужно из узора звуков догадаться, какие именно слова ты сказал. Этим занимается распознавание речи (по-английски ASR — automatic speech recognition).

Раньше для этого вручную описывали, как звучит каждый звук языка. Сегодня работают нейросети — программы, которые научились на огромном количестве записей живой речи. Им показали миллионы часов того, как разные люди произносят слова: с акцентом, шёпотом, в шуме улицы, простуженным голосом. Постепенно сеть нащупала закономерности: вот этот узор почти всегда означает звук «а», а такая последовательность — слово «привет».

Но звуков мало — нужно ещё угадать, какое слово имелось в виду. Тут помогает языковая модель: она знает, какие слова обычно идут рядом. Скажешь ты «поставь будильник на семь» — и даже если «семь» прозвучало смазанно, модель понимает, что после «будильник на» куда вероятнее число, чем, скажем, «сэм». Так помощник исправляет сам себя по контексту, ровно как ты додумываешь конец фразы за приятелем.

Микрофон ловит волну и превращает её в числа.
Нейросеть-распознаватель переводит числа в звуки и слова.
Языковая модель выбирает самый осмысленный вариант текста.

Понять, чего ты хочешь

Допустим, помощник распознал фразу: «какая завтра погода». Теперь у него есть текст — но текст это ещё не понимание. Нужно сообразить, что от него хотят. Этот этап называют пониманием естественного языка (NLU).

Помощник раскладывает фразу на части. Он определяет намерение (intent) — «узнать погоду» — и вытаскивает важные детали, так называемые сущности: когда (завтра) и, если бы ты уточнил, где (в твоём городе). По сути он заполняет анкету: что сделать, для какого времени, для какого места.

Представь дежурного на ресепшене большого здания. Ты подходишь и говоришь сбивчиво: «Мне бы это, насчёт завтрашней встречи на третьем этаже». Дежурный мгновенно вычленяет суть: тебе нужна встреча, завтра, третий этаж — и направляет в нужный кабинет. Голосовой помощник делает то же самое, только с твоими словами, и решает, какой «кабинет» внутри себя вызвать: погоду, музыку, таймер или поиск в интернете.

Откуда берётся ответ

Когда помощник понял задачу, он идёт за ответом. И тут возможны разные пути.

Если ты попросил поставить таймер — ему не нужен интернет, он просто запускает встроенную функцию. Если спросил погоду или счёт матча — он отправляет запрос на сервер, то есть на мощный компьютер где-то в дата-центре, и получает свежие данные. А если задал вопрос посложнее — например, «объясни, почему небо голубое» — в дело вступает большая языковая модель, которая умеет складывать осмысленный текст ответа почти на любую тему.

Важная деталь: многое из этого происходит не внутри колонки, а в облаке. Сама колонка довольно простая — основная тяжёлая работа идёт на серверах, потому и нужен интернет. Колонка лишь ловит звук, отправляет его «наверх» и проигрывает то, что пришло обратно.

И снова в звук

Ответ готов, но пока это просто текст: «Завтра в Москве плюс восемнадцать, без осадков». Тебе же нужно его услышать. Последний шаг — синтез речи (TTS, text-to-speech): превращение букв обратно в голос.

Когда-то синтезаторы звучали как роботы из старых фильмов — резко и неживо, потому что просто склеивали заранее записанные кусочки. Сегодня снова работают нейросети: их обучили на голосе живого диктора, и теперь они сами рисуют звуковую волну ответа — с интонацией, паузами, ударениями. Поэтому современные помощники говорят почти как человек.

И вот круг замкнулся. Твой голос прошёл путь: воздух → числа → звуки → слова → смысл → ответ → снова слова → снова числа → снова воздух. Всё это уместилось примерно в одну секунду. Так что в следующий раз, бросая «Окей, какая погода?», знай: за этой коротенькой паузой прячется одно из самых длинных и хитрых путешествий, которые техника совершает ради тебя каждый день.