Введение в компендирование: сжатие речи для передачи по телефонным системам
В этой статье представлена тема компандирования - оцифровка, передача и преобразование человеческой речи в телефонные системы.
Краткая история
Телефонные системы пользуются большим спросом со времени их изобретения и превратились из коммутируемых телефонных сетей общего пользования (PSTN) в современные беспроводные цифровые мобильные системы. В течение последних шести десятилетий использовались системы импульсно-кодированной модуляции (PCM) на основе аналого-цифрового преобразования. Следует отметить, что независимо от того, какое кодирование используется, все телефонные системы работают, используя основные факты, лежащие в основе механизмов речи и слуха человека.
Человеческий речевой и слуховой механизм
Речь - естественный коммуникационный механизм среди людей. Слова состоят из различных фонем, индивидуальных звуков, которые различаются по амплитуде, причем более спокойные фонемы встречаются чаще, чем громкие фонемы. Как правило, речевой сигнал, генерируемый людьми, попадает в частотный диапазон от 70 Гц до 400 Гц, а частота человеческого слуха колеблется от 20 Гц до 20 кГц. Наш слух является избирательным и обеспечивает самую высокую чувствительность к звукам, производимым в диапазоне от 300 Гц до 10 кГц.
Эти экспериментально подтвержденные факты привели к выводу, что когда речевой сигнал записывается в диапазоне от 0, 3 до 3, 4 кГц, информация, передаваемая динамиком, легко понятна слушателю.

Рисунок 1. «Речь банана» показывает фонемы и их частоты при различных амплитудах, необходимых для распознавания. Изображение предоставлено Clear Value Hearing
Когда способность слуха выражается в виде шкалы дБ, она колеблется от 0 дБ SPL (порог слуха) до 130 дБ SPL (порог боли).
Существует большое соотношение между более низкой и более высокой амплитудами. В общем смысле звуки с более низкой амплитудой воспринимаются как шепоты, в то время как звуки с более высокой амплитудой считаются криками. Однако даже нормальная разговорная речь имеет значительные различия в уровнях амплитуды, поскольку она состоит из разных фонем. Кроме того, видно, что более спокойные фонемы несут больше информации и имеют больше энтропии, чем более громкие.
Телефонная система на основе PCM без компандирования
Телефонные системы сначала стали аналоговыми по своей природе и теперь стали цифровыми. В результате все, что мы говорим, должно быть оцифровано, а затем передано, поэтому фактический аналоговый речевой сигнал требует восстановления на конце приемника. Преобразование любого аналогового сигнала в его цифровую форму состоит из трех важных этапов: выборка, квантование и кодирование.
Выборка речевого сигнала
Сэмплинг - это процесс, посредством которого мы можем преобразовать исходный сигнал, определенный во все моменты времени, в дискретный сигнал, который будет определен только в определенные моменты времени.
Как мы решаем, в каких точках определить сигнал «//www.allaboutcircuits.com/technical-articles/understanding-analog-to-digital-converters-deciphering-resolution-and-sampl/" target = "_ blank"> Nyquist теорема, в которой говорится, что точное восстановление передаваемого сигнала возможно только тогда, когда оно отбирается, по меньшей мере, со скоростью в два раза превышающей самую высокую частоту, содержащуюся в ней.
Таким образом, если самая высокая частота равна f, то частота, с которой нам нужно пробовать сигнал, должна быть больше или равна 2 f. Это, в свою очередь, означает, что нам необходимо определить наши сигналы в моменты времени, которые расположены на расстоянии, меньшем или равном 1/2 f (из-за того, что частота и время обратно пропорциональны друг другу).
Из обсуждения, представленного в предыдущем разделе, мы знаем, что наш интерес к разговорам о телефонии охватывает диапазон частот от 0, 3 до 3, 4 кГц. И любая успешная передача сигналов требует наличия защитных полос, из-за которых общий диапазон становится от 0 до 4 кГц. Таким образом, в нашем случае выборка частотой 8 кГц (= 2 х 4 кГц) является хорошим выбором.
Это указывает на то, что после выборки у нас есть речевой сигнал, дискретизированный вдоль оси времени, где расстояние между соседними выборками будет $$ \ frac {1} {8; \ text {KHz}} = 125; \ text {μs} $$.
Квантование и кодирование речевого сигнала
Обратите внимание, что выборка оцифровывает сигнал только по оси времени (см. Типичный пример, показанный на рисунке 2, в котором красный синусоидальный сигнал преобразуется в синий дискретно-значный сигнал путем выборки). Однако, чтобы сделать речевой сигнал полностью цифровым по своей природе, нам необходимо дискретировать его даже по его оси амплитуды, что рассматривается как квантование.

Рисунок 2. Выборка синусоидальной волны
Теперь наш следующий вопрос будет очень похож на наш выбор в случае выборки - как мы решаем, когда определять наш сигнал по его оси амплитуды? Другими словами, каково должно быть расстояние между точками, по которым мы определяем амплитуду нашего сигнала (это технически называют ступенчатым)?
Даже в этом случае нам нужно выбрать размер шага, имея в виду, что нам нужно иметь минимальный искаженный сигнал на стороне приемника. Подумав об этом, предположим, что мы выбираем очень маленький размер шага для квантования сигнала с низкой амплитудой (синусоидальная волна, изменяющаяся между значениями +1 и -1, показанная розовым цветом на рисунке 3a). Меньшие шаги означают, что мы будем определять наш сигнал с очень близкими интервалами вдоль его оси амплитуды (рис. 3a), из-за чего количество шагов, необходимых для определения нашего сигнала, будет очень большим, что требует большого количества бит для его кодирования, что требует большой пропускной способности.

Рисунок 3. Квантование низкоамплитудной синусоидальной волны с (а) малым размером шага (б) большого размера шага
Сохраняя точку полосы пропускания, предположим, что мы используем слишком мало шагов для определения нашего сигнала. Более низкое число шагов означает большое расстояние между точками, по которым мы определяем сигнал вдоль его оси амплитуды. Это позволяет нам очень грубо определить наш сигнал (рис. 3b), что приводит к проблемам при восстановлении сигнала на стороне приемника, поскольку большая часть информации, присутствующей в процессе квантования, будет потеряна.
Затем мы анализируем влияние изменения размера шага в случае сигналов большой амплитуды. Это важно в настоящем контексте, потому что из обсуждения, представленного в разделе о человеческом речевом и слуховом механизме, мы знаем, что наш сигнал интереса, речи, состоит из широкого диапазона амплитуд.
На рис. 4 исследуется эффект квантования с использованием тех же размеров шагов, что и на рисунке 3, когда амплитуда увеличивается в четыре раза (исходная синусоида на рис. 4 имеет амплитуду от пика до пика, изменяющуюся от +4 до -4). Здесь, на рисунке 4а, снова подчеркивается тот факт, что меньший размер шага всегда лучше, когда нам нужно реплицировать исходный сигнал.

Рисунок 4. Квантование синусоидальной волны большой амплитуды с (а) малым размером шага (б) крупным шагом
Еще один важный момент, который следует отметить, заключается в том, что квантованный сигнал на рисунке 4b не так искажен, как квантованный сигнал, показанный на рисунке 3b. То есть квантование с использованием большого шагового размера все же дает приемлемые результаты, когда амплитуда сигнала выше. Это означает, что размер шага, который оказался «действительно большим» для сигнала с низкой амплитудой, не «настолько велик», когда речь идет о сигнале большой амплитуды. Другими словами, можно сказать, что чем выше амплитуда сигнала, тем больше размер шага будет квантовать его, без чрезмерного искажения.
Companding: Введение
Каждый исследователь считает, что любая система, независимо от того, насколько она хороша, может быть каким-то образом улучшена. Тем не менее, чтобы выяснить, что работает лучше всего (или лучше), концепции и методы, которые в настоящее время развернуты, должны быть тщательно проанализированы и должны быть тщательно изучены с разных точек зрения.
Чтобы добиться этого в нашем случае, давайте проследим наш путь через статью, размышляя над двумя важными моментами.
Во-первых, напомним, что человеческая речь не является изотропной, когда дело касается информации, содержащейся в ней. Более спокойные фонемы речи встречаются чаще и содержат больше информации, чем более громкие фонемы. Во-вторых, обратите внимание, что размер шага, выбранный для квантования сигнала, может быть больше (без влияния на его качество) для сигналов с более высокой амплитудой по сравнению с нижними.
Если это так, почему мы не можем квантовать речевые сигналы с низкой амплитудой, используя более мелкие шаги, используя большие шаги для сигналов с более высокой амплитудой речи? Это может быть сделано. Фактически, этот метод квантования речевого сигнала с использованием неравномерных уровней известен как «компандирование», портмантация сжатия и расширения.
Companding - это процесс, в котором сигнал кодируется с использованием неравных уровней квантования. В этом методе большое количество малых уровней используется для кодирования сигналов с низкой амплитудой, тогда как сигналы с более высокой амплитудой кодируются с использованием небольшого числа больших уровней. Это означает, что, используя компандирование, мы можем квантовать наш речевой сигнал с меньшим количеством уровней, сохраняя при этом требуемое количество верности. Кроме того, меньшее количество уровней означает меньшее количество бит для кодирования, что подразумевает снижение требований к пропускной способности.
Вывод
В этой статье были представлены концепции, связанные с человеческой речью и ее характеристиками в отношении телефонных систем на основе PCM. Надеюсь, вы получили поверхностные знания о компандировании и его важности в области телекоммуникаций.
Подробная информация о методах компандирования и других его преимуществах будет рассмотрена в следующей статье этой серии.