Давайте не будем создавать башню болтовни с голосовыми интерфейсами

Автор: Селезнев Владимир [email protected].

Публикация: 2025-03-03 20:19.

Последние изменения: 2025-03-03 20:19

Активация голоса выглядит следующей волной пользовательского интерфейса в потребительских устройствах, но это может быть больше шумихи, чем помощь

Ричард Киннелл, главный редактор

За последние несколько месяцев я видел многочисленные анонсы продуктов от нескольких поставщиков, которые стремятся упростить разработку голосового управления для электронных систем. По-видимому, индустрия надеется и полагает, что управление голосом является следующей большой вещью в пользовательских интерфейсах, как для потребителей, так и для промышленности, и все они нацелены на этот большой дизайн, который означает миллионы единиц в год. Отбросив вопрос о правильности веры, я должен задаться вопросом, будет ли голосовое управление благом или бюстом.

Конечно, было много продвижения. Недавно я написал о хоре чипов предварительной обработки голоса, которые получили поддержку в разработке. С тех пор появилось еще больше сообщений, связанных с голосовым управлением. Еще на прошлой неделе Libre Wireless анонсировала беспроводную аппаратную платформу IoT с голосовым управлением, встроенную в нее, которая вызывает MAVID. Еще больше, скорее всего, появятся по мере окончания года.

Легко увидеть призыв. Фанаты «Звездного пути», как и я, давно мечтали о возможности взаимодействовать со своими компьютерами, просто разговаривая. И быть в состоянии сделать все, даже если ваши руки заняты или вы вне досягаемости элементов управления, может быть огромным удобством. Все, что вам нужно сделать, это спросить, а системы голосового управления привязаны к задаче. Но это будет больше, чем причуда?

С середины 1990-х годов я занимаюсь технологией распознавания речи, когда написал статью для EDN под названием «Распознавание речи: больше не мечта, но все еще проблема». Как и следовало ожидать, продвижение технологии затронуло многие проблемы поднятой в этой статье. Теперь у нас есть распознавание речи, которое является контекстно-зависимым, естественным, дружелюбным к динамику, независимым от динамиков и не требует необходимости шумоподавления, микрофоны ближнего поля для захвата звука. Тем не менее, некоторые из оперативных проблем, которые я имел в прошлом, все еще актуальны, что оставляет в ярости голое управление системами.

Я буду первым, кто признает, что я очень люблю удобство современной технологии голосового управления - для некоторых вещей. У меня есть Amazon Echo, три точки и даже Google Home Mini, которые я использую вокруг своего дома. Сейчас такая привычка, когда у нас есть быстрый вопрос, чтобы просто спросить: «Алекса, что

«Что мы с женой хотим сказать, что в нашей машине (которая не имеет таких возможностей), когда в разговоре возникает вопрос. Также приятно иметь возможность активировать наружное освещение, когда гости приходят или просто спрашивают. Аналогично, прикроватные тумбочки на голосовой контроль, поэтому мне не нужно выбраться из-под крышек, чтобы включить или выключить их.

Эхо второго поколения. (Источник: Amazon)

Но есть еще некоторые проблемы. Иногда Echo будет реагировать во время моих разговоров с друзьями, когда он слышит слово, которое смутно напоминает команду пробуждения. В других случаях это неправильно понимает слово, расстраивающее меня, но иногда, по крайней мере, с забавными результатами. И я должен точно помнить, что я назвал различными огнями и группами, которые система контролирует, а также конкретную формулировку, которую требует такой контроль, или я не получаю никакого полезного ответа от Echo. Таким образом, остается немного требования, чтобы пользователь адаптировался к технологии, а не наоборот.

Что еще более важно, однако, мне интересно, будет ли нынешнее волнение в отношении управления голосом оказаться слишком много изредка. Продавцы с нетерпением ждут приложений голосового управления, таких как устранение необходимости пульта телевизора, беспроблемная работа приборов, таких как духовки, и множество других. Проблемы, которые я вижу при таком распространении, в два раза. Во-первых, обучение пользователей, необходимое для работы всех этих систем, становится все более обременительным. Я уже должен быть осторожным в своем выборе слов, чтобы правильно контролировать и избегать непреднамеренного запуска моего эха. Если мой телевизор, духовка, дверные замки, кофеварка и многие другие устройства в моем доме требуют своего собственного слова и синтаксиса, это может быстро стать неуправляемым или привести к неудачным результатам. И жаль бедного гостя в моем доме, который не имеет понятия, как включить свет в ванной, потому что они не знают его имени.

Но что более важно, на мой взгляд, это увеличение вокального шума, которое порождает распространение устройств управления голосом. Если вы работаете в типичной офисной среде, вы можете легко представить, насколько увеличится фоновой болтовня, если все будут разговаривать со своими телефонами, компьютерами, лампами, копировальными машинами и т. П. И когда этот копировальный аппарат слышит, как кто-то говорит о последних спортивных баллах, будет ли он непреднамеренно создавать один экземпляр для каждой точки в команде-победителе?

Некоторые из этих проблем могут быть решены с дальнейшими улучшениями в базовой технологии. Google Home Mini уже включает распознавание динамиков, чтобы он мог определить, кто с ним разговаривает, и может адаптировать свои ответы к человеку. И Echo начинает распознавать, когда несколько устройств собирают один голос и ограничивают ответ на устройство, наиболее близкое к динамику. Таким образом, я могу легко представить, что что-то вроде копировальной машины может после активации ответить после этого только голосу этого оратора на оставшуюся часть команды и, таким образом, игнорировать спортивный счет, обсуждаемый поблизости.

Но увеличение болтовни остается проблемой. Разработчики должны думать о том, где, когда и почему голосовое управление является преимуществом, а не просто шлепнуть его на все, чтобы быть модным. Им также следует подумать о том, как распространение голосового управления будет влиять на удобство использования отдельных устройств, а также изменить звуковую среду и структурировать их проекты, чтобы смягчить некоторые потенциальные негативные последствия. В противном случае голосовой контроль подорвет собственный успех и станет еще одной технологической причудой, которая показала бы большой потенциал, но на самом деле не улавливала.

Ричард Киннелл