Способ и устройство для кодирования речевых сигналов с расщеплением полосы

Иллюстрации

Показать все

Изобретение относится к обработке широкополосных речевых сигналов. Широкополосный речевой кодер согласно варианту осуществления включает в себя гребенку фильтров, имеющую тракт обработки полосы низких частот и тракт обработки полосы высоких частот. Тракты обработки имеют перекрывающиеся частотные характеристики. Узкополосный речевой кодер выполнен с возможностью кодирования речевого сигнала, сформированного посредством тракта обработки полосы низких частот, согласно первой методологии кодирования. Высокополосный речевой кодер выполнен с возможностью кодирования речевого сигнала, сформированного посредством тракта обработки полосы высоких частот, согласно второй методологии кодирования, которая отличается от первой методологии кодирования. Технический результат - улучшение качества кодирования широкополосных речевых сигналов. 3 н. и 30 з.п. ф-лы, 58 ил.

Реферат

Область техники, к которой относится изобретение

Данное изобретение относится к обработке сигналов.

Уровень техники

Речевая связь по коммутируемой телефонной сети общего пользования (PSTN) традиционно ограничена по полосе пропускания в частотном диапазоне 300-3400 кГц. Новые сети для речевой связи, такие как сотовая телефония и "речь-по-IP" (Интернет-протокол, VoIP) может не иметь такие же ограничения по полосе пропускания, и могут быть предпочтительными для того, чтобы передавать и принимать речевую связь, которая включает в себя широкополосный частотный диапазон, по таким сетям. Например, может быть желательным поддерживать диапазон звуковых частот, который идет вниз до 50 Гц и/или вверх до 7 или 8 кГц. Также может быть желательным поддерживать другие приложения, например высококачественную аудио- или аудио/видеоконференцсвязь, которые могут иметь звуковое речевое содержимое в диапазонах за пределами традиционных ограничений PSTN.

Расширение диапазона, поддерживаемое посредством речевого кодера, до более высоких частот позволяет повысить разборчивость. Например, информация, которая различает фрикативные звуки, такие как "s" и "f", в большей степени представлена в высоких частотах. Высокополосное расширение также позволяет улучшить другие качества речи, такие как эффект присутствия. Например, даже вокализованный гласный звук может иметь спектральную энергию гораздо больше ограничения PSTN.

Один подход к широкополосному кодированию речи влечет за собой масштабирование методики узкополосного кодирования речи (к примеру, сконфигурированной так, чтобы кодировать диапазон 0-4 кГц), чтобы покрывать широкополосный спектр. Например, речевой сигнал может дискретизироваться на более высокой скорости, чтобы включать в себя компоненты на высоких частотах, и методика узкополосного кодирования может быть переконфигурирована, чтобы использовать большее число коэффициентов фильтра, чтобы представлять этот широкополосный сигнал. Методики узкополосного кодирования, такие как CELP (кодирование методом линейного предсказания с кодовым возбуждением) являются вычислительно-емкими, тем не менее, и широкополосный CELP-кодер может потреблять слишком большое число циклов обработки, чтобы быть практичным для большинства мобильных и других вложенных приложений. Кодирование всего спектра широкополосного сигнала до требуемого качества с помощью этой методики также может приводить к недопустимо большому увеличению полосы пропускания. Более того, перекодировка этого закодированного сигнала должна требоваться до того, как даже его узкополосная часть может быть передана и/или декодирована посредством системы, которая поддерживает только узкополосное кодирование.

Другой подход к широкополосному кодированию речи влечет за собой экстраполирование огибающей высокополосного спектра из кодированной огибающей узкополосного спектра. Хотя этот подход может быть реализован без какого-либо увеличения полосы пропускания и без необходимости перекодировки, приблизительная спектральная огибающая или формантная структура высокополосной части речевого сигнала, как правило, не может быть предсказана точно из спектральной огибающей узкополосной части.

Может быть желательным реализовать широкополосное кодирование речи таким образом, что, по меньшей мере, узкополосная часть кодированного сигнала может быть отправлена посредством узкополосного канала (такого как PSTN-канал) без перекодировки или какой-либо другой существенной модификации. Эффективность расширения широкополосного кодирования также может быть желательной, например, чтобы не допустить существенного снижения числа пользователей, которые могут обслуживаться в таких приложениях, как беспроводная сотовая телефонная связь и широковещательная передача по проводным и беспроводным каналам.

Сущность изобретения

В одном варианте осуществления устройство включает в себя первый речевой кодер, выполненный с возможностью кодирования речевого сигнала полосы низких частот (низкополосного речевого сигнала); второй речевой кодер, выполненный с возможностью кодирования речевого сигнала полосы высоких частот (высокополосного речевого сигнала); и гребенку фильтров, имеющую (A) тракт обработки полосы низких частот (тракт низкополосной обработки), выполненный с возможностью приема широкополосного речевого сигнала, имеющего частотный спектр (частотное содержимое), по меньшей мере, между 1000 и 6000 Гц, и формирования речевого сигнала полосы низких частот, и (B) тракт обработки полосы высоких частот (тракт высокополосной обработки), выполненный с возможностью приема широкополосного речевого сигнала и формирования речевого сигнала полосы высоких частот. Речевой сигнал полосы низких частот основан на первой части частотного спектра широкополосного сигнала, причем первая часть включает в себя часть широкополосного сигнала между 1000 и 2000 Гц. Речевой сигнал полосы высоких частот основан на второй части частотного спектра широкополосного сигнала, причем вторая часть включает в себя часть широкополосного сигнала между 5000 и 6000 Гц. Каждый из речевого сигнала полосы низких частот и речевого сигнала полосы высоких частот основан на третьей части частотного спектра широкополосного сигнала, причем третья часть включает в себя часть широкополосного сигнала между 2000 и 5000 Гц, которая имеет ширину, по меньшей мере, 250 Гц.

В другом варианте осуществления устройство включает в себя гребенку фильтров, имеющую (A) тракт обработки полосы низких частот, выполненный с возможностью приема широкополосного речевого сигнала и формирования речевого сигнала полосы низких частот на основе низкочастотной части широкополосного речевого сигнала, и (B) тракт обработки полосы высоких частот, выполненный с возможностью приема широкополосного речевого сигнала и формирования речевого сигнала полосы высоких частот на основе высокочастотной части широкополосного речевого сигнала. Полоса пропускания тракта обработки полосы низких частот перекрывает полосу пропускания тракта обработки полосы высоких частот. Устройство также включает в себя первый речевой кодер, выполненный с возможностью кодирования речевого сигнала полосы низких частот, по меньшей мере, в кодированный сигнал возбуждения полосы низких частот (низкополосный сигнал возбуждения) и множество параметров фильтра полосы низких частот (фильтра нижних частот); и второй речевой кодер, выполненный с возможностью формирования сигнала возбуждения полосы высоких частот (высокополосного сигнала возбуждения) на основе кодированного сигнала возбуждения полосы низких частот и кодирования сигнала полосы высоких частот, согласно сигналу возбуждения полосы высоких частот, по меньшей мере, во множество параметров фильтра полосы высоких частот (фильтра верхних частот).

В другом варианте осуществления способ обработки сигналов включает в себя этапы, на которых формируют речевой сигнал полосы низких частот на основе широкополосного речевого сигнала, имеющего частотный спектр, по меньшей мере, между 1000 и 6000 Гц; кодируют речевой сигнал полосы низких частот; формируют речевой сигнал полосы высоких частот на основе широкополосного речевого сигнала и кодируют речевой сигнал полосы высоких частот. В этом способе этап формирования речевого сигнала полосы низких частот включает в себя этап, на котором формируют речевой сигнал полосы низких частот на основе (A) первой части частотного спектра широкополосного сигнала, при этом первая часть включает в себя часть широкополосного сигнала между 1000 и 2000 Гц, и (B) третьей части частотного спектра широкополосного сигнала, при этом третья часть включает в себя часть широкополосного сигнала между 2000 и 5000 Гц, которая имеет ширину, по меньшей мере, 250 Гц. В этом способе этап формирования речевого сигнала полосы высоких частот включает в себя этап, на котором формируют речевой сигнал полосы высоких частот на основе (C) второй части частотного спектра широкополосного сигнала, при этом вторая часть включает в себя часть широкополосного сигнала между 5000 и 6000 Гц, и (D) третьей части частотного спектра широкополосного сигнала.

Краткое описание чертежей

Фиг.1a иллюстрирует блок-схему широкополосного речевого кодера A100 согласно варианту осуществления.

Фиг.1b иллюстрирует блок-схему реализации A102 широкополосного речевого кодера A100.

Фиг.2a иллюстрирует блок-схему широкополосного речевого декодера B100 согласно варианту осуществления.

Фиг.2b иллюстрирует реализацию B102 широкополосного речевого кодера B100.

Фиг.3a иллюстрирует блок-схему реализации A112 гребенки A110 фильтров.

Фиг.3B иллюстрирует блок-схему реализации B122 гребенки B120 фильтров.

Фиг.4a иллюстрирует охват полосы пропускания по полосам низких и высоких частот для одного примера гребенки A110 фильтров.

Фиг.4b иллюстрирует охват полосы частот по полосам низких и высоких частот для другого примера гребенки A110 фильтров.

Фиг.4c иллюстрирует блок-схему реализации A114 гребенки A112 фильтров.

Фиг.4d иллюстрирует блок-схему реализации B124 гребенки B122 фильтров.

Фиг.5a иллюстрирует пример графика частоты и логарифмической амплитуды для речевого сигнала.

Фиг.5b иллюстрирует блок-схему базовой системы кодирования с линейным предсказанием.

Фиг.6 иллюстрирует блок-схему реализации A122 узкополосного кодера A120.

Фиг.7 иллюстрирует блок-схему реализации B112 узкополосного декодера B110.

Фиг.8a иллюстрирует пример графика частоты и логарифмической амплитуды для остаточного сигнала вокализованной речи.

Фиг.8b иллюстрирует пример графика времени и логарифмической амплитуды для остаточного сигнала вокализованной речи.

Фиг.9 иллюстрирует блок-схему базовой системы кодирования с линейным предсказанием, которая также выполняет долгосрочное предсказание.

Фиг.10 иллюстрирует блок-схему реализации A202 кодера A200 полосы высоких частот (высокополосного кодера A200).

Фиг.11 иллюстрирует блок-схему реализации A302 генератора A300 возбуждения полосы высоких частот (высокополосного генератора A300 возбуждения).

Фиг.12 иллюстрирует блок-схему реализации A402 расширителя A400 спектра.

Фиг.12a иллюстрирует графики спектра сигнала в различных точках в одном примере операции расширения спектра.

Фиг.12b иллюстрирует графики спектра сигнала в различных точках в другом примере операции расширения спектра.

Фиг.13 иллюстрирует блок-схему реализации A304 генератора A302 возбуждения полосы высоких частот (высокополосного генератора A302 возбуждения).

Фиг.14 иллюстрирует блок-схему реализации A306 генератора A302 возбуждения полосы высоких частот (высокополосного генератора A302 возбуждения).

Фиг.15 иллюстрирует блок-схему последовательности операций задачи (программного модуля) T100 вычисления огибающей.

Фиг.16 иллюстрирует блок-схему реализации 492 объединителя 490.

Фиг.17 иллюстрирует подход к вычислению показателя периодичности сигнала S30 полосы высоких частот (высокополосного сигнала S30).

Фиг.18 иллюстрирует блок-схему реализации A312 генератора A302 возбуждения полосы высоких частот (высокополосного генератора A302 возбуждения).

Фиг.19 иллюстрирует блок-схему реализации A314 генератора A302 возбуждения полосы высоких частот (высокополосного генератора A302 возбуждения).

Фиг.20 иллюстрирует блок-схему реализации A316 генератора A302 возбуждения полосы высоких частот (высокополосного генератора A302 возбуждения).

Фиг.21 иллюстрирует блок-схему последовательности операций задачи T200 вычисления усиления.

Фиг.22 иллюстрирует блок-схему последовательности операций для реализации T210 задачи T200 вычисления усиления.

Фиг.23a иллюстрирует схему функции кадрирования.

Фиг.23b иллюстрирует применение функции кадрирования, показанной на фиг. 23a, к субкадрам речевого сигнала.

Фиг.24 иллюстрирует блок-схему реализации B202 декодера B200 полосы высоких частот (высокополосного декодера B200).

Фиг.25 иллюстрирует блок-схему реализации AD10 широкополосного речевого кодера A100.

Фиг.26a иллюстрирует схематичное представление реализации D122 линии D120 задержки.

Фиг.26b иллюстрирует схематичное представление реализации D124 линии D120 задержки.

Фиг.27 иллюстрирует схематичное представление реализации D130 линии D120 задержки.

Фиг.28 иллюстрирует блок-схему реализации AD12 широкополосного речевого кодера AD10.

Фиг.29 иллюстрирует блок-схему последовательности операций способа обработки MD100 сигналов согласно варианту осуществления.

Фиг.30 иллюстрирует блок-схему последовательности операций способа M100 согласно варианту осуществления.

Фиг.31a иллюстрирует блок-схему последовательности операций способа M200 согласно варианту осуществления.

Фиг.31b иллюстрирует блок-схему последовательности операций для реализации M210 способа M200.

Фиг.32 иллюстрирует блок-схему последовательности операций способа M300 согласно варианту осуществления.

Фиг. 33-36b показывают частотную и импульсную характеристики для операций фильтрации, показанных на фиг.4с.

Фиг.37а-39b показывают частотную и импульсную характеристики для операций фильтрации, показанных на фиг.4d.

На чертежах и в прилагаемом описании одинаковые обозначения ссылок ссылаются на те же или аналогичные элементы или сигналы.

Подробное описание

Описанные в данном документе варианты осуществления включают в себя системы, способы и устройства, которые могут быть сконфигурированы так, чтобы предоставлять расширение для узкополосного речевого сигнала, чтобы поддерживать передачу и/или хранения широкополосных речевых сигналов при увеличении пропускной способности только до 800-1000 бит/с (битов в секунду). Потенциальные преимущества этих реализаций включают в себя встроенное кодирование, чтобы поддерживать совместимость с узкополосными системами, относительно простое распределение и перераспределение битов между каналами узкополосного и высокополосного кодирования, исключение вычислительно-емкой операции широкополосного синтеза и поддержание низкой частоты дискретизации для сигналов, которые должны обрабатываться посредством вычислительно-емких процедур кодирования формы сигналов.

Если не ограничен в явной форме контекстом, термин "вычисление" используется в данном документе, чтобы обозначать любое из своих обычных значений, например расчет, формирование и выбор из списка значений. Если термин "содержащий" используется в настоящем описании и формуле изобретения, он не исключает других элементов или операций. Термин "A основан на B" используется для того, чтобы обозначать любое из своих обычных значений, в том числе случаи (i) "A равен B" и (ii) "A основан, по меньшей мере, на B". Термин "Интернет-протокол" включает в себя версию 4, как описано в IETF (Инженерная группа по развитию Интернета) RFC (Рабочие предложения) 791, и последующие версии, такие как версия 6.

Фиг.1a иллюстрирует блок-схему широкополосного речевого кодера A100 согласно варианту осуществления. Гребенка A110 фильтров сконфигурирована таким образом, чтобы фильтровать широкополосный речевой сигнал S10, чтобы формировать узкополосный сигнал S20 и высокополосный сигнал S30. Узкополосный кодер A120 выполнен с возможностью кодировать узкополосный сигнал S20, чтобы формировать параметры S40 узкополосного (NB) фильтра и узкополосный остаточный сигнал S50. Как подробнее описано в данном документе, узкополосный кодер A120 в типичном варианте выполнен с возможностью формировать параметры S40 узкополосного фильтра и кодированный узкополосный сигнал S50 возбуждения в качестве индексов таблицы кодирования или в другой квантованной форме. Высокополосный кодер A200 выполнен с возможностью кодировать высокополосный сигнал S30 согласно информации в кодированном узкополосном сигнале S50 возбуждения, чтобы сформировать параметры S60 высокополосного кодирования. Как подробнее описывается в данном документе, высокополосный кодер A200 в типичном варианте выполнен с возможностью формировать параметры S60 высокополосного кодирования в качестве индексов таблицы кодирования или в другой квантованной форме. Один конкретный пример широкополосного речевого кодера A100 выполнен с возможностью кодировать широкополосный речевой сигнал S10 на скорости примерно 8,55 кбит/с (килобит в секунду), при этом примерно 7,55 кбит/с используются для параметров S40 узкополосного фильтра и кодированного узкополосного сигнала возбуждения S50, а примерно 1 кбит/с используется для параметров S60 высокополосного кодирования.

Может быть желательным комбинировать кодированные узкополосные и высокополосные сигналы в один поток битов. Например, может быть желательным мультиплексировать кодированные сигналы вместе для передачи (к примеру, по проводному, оптическому или беспроводному каналу передачи) либо для хранения в качестве кодированного широкополосного речевого сигнала. Фиг. 1b иллюстрирует блок-схему реализации A102 широкополосного речевого кодера A100, который включает в себя мультиплексор A130, выполненный с возможностью комбинировать параметры S40 узкополосного фильтра, кодированный узкополосный сигнал S50 возбуждения и параметры S60 высокополосного фильтра в мультиплексированный сигнал S70.

Устройство, включающее в себя кодер A102, также может включать в себя схему, сконфигурированную так, чтобы передавать мультиплексированный сигнал S70 в канал передачи, такой как проводной, оптический или беспроводной канал. Это устройство также может быть сконфигурировано так, чтобы выполнять одну или более операций канального кодирования с сигналом, таких как кодирование с коррекцией ошибок (к примеру, согласованное по скорости сверточное кодирование) и/или кодирование с обнаружением ошибок (к примеру, кодирование циклическим избыточным кодом), и/или кодирование одного или более уровней сетевых протоколов (к примеру, Ethernet (Эзернет), TCP/IP, cdma2000).

Может быть желательным сконфигурировать мультиплексор A130 так, чтобы встраивать кодированный узкополосный сигнал (включающий в себя параметры S40 узкополосного фильтра и кодированный узкополосный сигнал S50 возбуждения) в качестве разделяемого субпотока мультиплексированного сигнала S70, с тем чтобы кодированный узкополосный сигнал может быть восстановлен и декодирован независимо от другой части мультиплексированного сигнала S70, такого как высокополосный и/или низкополосный сигнал. Например, мультиплексированный сигнал S70 может быть скомпонован таким образом, что кодированный узкополосный сигнал может быть восстановлен посредством отсечения параметров S60 высокополосного фильтра. Одно потенциальное преимущество такого признака состоит в том, чтобы избегать необходимости перекодировки кодированного широкополосного сигнала до передачи его в систему, которая поддерживает декодирование узкополосного сигнала, но не поддерживает декодирование высокополосной части.

Фиг.2a - это блок-схема широкополосного речевого декодера B100 согласно варианту осуществления. Узкополосный декодер B110 выполнен с возможностью кодировать параметры S40 узкополосного фильтра и декодированный узкополосный сигнал S50 возбуждения, чтобы формировать узкополосный сигнал S90. Высокополосный декодер B200 выполнен с возможностью декодировать параметры S60 высокополосного кодирования согласно узкополосному сигналу S80 возбуждения на основе кодированного узкополосного сигнала S50 возбуждения, чтобы сформировать высокополосный сигнал S100. В этом примере узкополосный декодер B110 выполнен с возможностью предоставлять узкополосный сигнал S80 возбуждения в высокополосный декодер B200. Гребенка B120 фильтров сконфигурирована так, чтобы комбинировать узкополосный сигнал S90 и высокополосный сигнал S100, чтобы формировать широкополосный речевой сигнал S110.

Фиг.2b - это блок-схема реализации B102 широкополосного речевого декодера B100, который включает в себя демультиплексор B130, выполненный с возможностью формировать кодированные сигналы S40, S50 и S60 из мультиплексированного сигнала S70. Устройство, включающее в себя декодер B102, может включать в себя схему, сконфигурированную так, чтобы принимать мультиплексированный сигнал S70 из канала передачи, такого как проводной, оптический или беспроводной канал. Это устройство также может быть сконфигурировано так, чтобы выполнять одну или более операций канального декодирования с сигналом, таких как декодирование с коррекцией ошибок (к примеру, согласованное по скорости сверточное декодирование) и/или декодирование с обнаружением ошибок (к примеру, декодирование циклическим избыточным кодом), и/или декодирование одного или более уровней сетевых протоколов (к примеру, Ethernet, TCP/IP, cdma2000).

Гребенка A110 фильтров сконфигурирована так, чтобы фильтровать входной сигнал согласно схеме расщепления полосы, чтобы формировать низкочастотный поддиапазон и высокочастотный поддиапазон. В зависимости от проектных критериев конкретного приложения выходные поддиапазоны могут иметь равные или неравные полосы пропускания и могут быть перекрывающимися или неперекрывающимися. Конфигурация гребенки A110 фильтров, которая формирует более двух поддиапазонов, также возможна. Например, эта гребенка фильтров может быть сконфигурирована так, чтобы формировать один или более низкополосных сигналов, которые включают в себя компоненты в частотном диапазоне ниже частотного диапазона узкополосного сигнала S20 (например, диапазона 50-300 Гц). Также можно сконфигурировать эту гребенку фильтров таким образом, чтобы формировать один или более дополнительных высокополосных сигналов, которые включают в себя компоненты в частотном диапазоне выше частотного диапазона высокополосного сигнала S30 (например, диапазона 14-20, 16-20 или 16-32 кГц). В этом случае широкополосный речевой кодер A100 может быть реализован таким образом, чтобы кодировать этот сигнал или сигналы отдельно, и мультиплексор A130 может быть выполнен с возможностью включать дополнительный кодированный сигнал или сигналы в мультиплексированный сигнал S70 (к примеру, в качестве разделяемой части).

Фиг.3a иллюстрирует блок-схему реализации A112 гребенки A110 фильтров, которая сконфигурирована так, чтобы формировать сигналы двух поддиапазонов, имеющие меньшие частоты дискретизации. Гребенка A110 фильтров выполнена с возможностью принимать широкополосный речевой сигнал S10, имеющий высокочастотную (или высокополосную) часть и низкочастотную (или низкополосную) часть. Гребенка A112 фильтров включает в себя тракт низкополосной обработки, выполненный с возможностью принимать широкополосный речевой сигнал S10 и формировать узкополосный речевой сигнал S20, и тракт высокополосной обработки, выполненный с возможностью принимать широкополосный речевой сигнал S10 и формировать высокополосный речевой сигнал S30. Низкочастотный фильтр 110 (фильтр нижних частот) фильтрует широкополосный речевой сигнал S10, чтобы пропускать выбранный низкочастотный поддиапазон, а высокочастотный фильтр (фильтр верхних частот) 130 фильтрует широкополосный речевой сигнал S10, чтобы пропускать выбранный высокочастотный поддиапазон. Поскольку сигналы обоих поддиапазов имеют более узкую полосу пропускания, чем широкополосный речевой сигнал S10, их частоты дискретизации могут быть снижены в некоторой степени без потери информации. Понижающий дискретизатор 120 снижает частоту дискретизации низкочастотного сигнала согласно требуемому коэффициенту прореживания (к примеру, посредством удаления выборок сигнала и/или замены выборок средними значениями), а понижающий дискретизатор 140 аналогично снижает частоту дискретизации сигнала верхних частот согласно другому требуемому коэффициенту прореживания.

Фиг.3b иллюстрирует блок-схему соответствующей реализации B122 гребенки B120 фильтров. Повышающий дискретизатор 150 повышает частоту дискретизации узкополосного сигнала S90 (к примеру, посредством заполнения нулями и/или посредством дублирования выборок), и низкочастотный фильтр 160 фильтрует сигнал с повышенной дискретизацией, чтобы пропускать только низкополосную часть (к примеру, чтобы избежать наложения спектров). Аналогично, повышающий дискретизатор 170 увеличивает частоту дискретизации высокополосного сигнала S100, а высокочастотный фильтр 180 фильтрует сигнал с повышенной дискретизацией, чтобы пропускать только высокополосную часть. Сигналы двух полос пропускания затем суммируются, чтобы сформировать широкополосный речевой сигнал S110. В некоторых реализациях декодера B100 гребенка B120 фильтров сконфигурирована так, чтобы формировать взвешенную сумму сигналов двух полос пропускания согласно одному или более весовых коэффициентов, принятых и/или вычисленных посредством высокополосного декодера B200. Конфигурация гребенки B120 фильтров, которая комбинирует сигналы более чем двух полос пропускания, также возможна.

Каждый из фильтров 110, 130, 160, 180 может быть реализован как фильтр с конечной импульсной характеристикой (FIR) или как фильтр с бесконечной импульсной характеристикой (IIR). Частотные характеристики фильтров 110 и 130 кодера могут иметь симметричные переходные области или переходные области непохожей формы между полосой режекции и полосой пропускания. Аналогично, частотные характеристики фильтров 160 и 180 декодера могут иметь симметричные переходные области или переходные области непохожей формы между полосой режекции и полосой пропускания. Может быть желательным, но не обязательным реализовать фильтр 110 низких частот с такой же характеристикой, как и у фильтра 160 низких частот, и реализовать фильтр 130 высоких частот с такой же характеристикой, как и у фильтра 180 высоких частот. В одном примере две пары 110, 130 и 160, 180 фильтров являются гребенками квадратурных зеркальных фильтров (QMF), при этом пара 110, 130 фильтров имеет такие же коэффициенты, что и пара 160, 180 фильтров.

В типичном примере низкочастотный фильтр 110 имеет полосу пропускания, которая включает в себя ограниченный PSTN-диапазон в 300-3400 Гц (к примеру, полосу от 0 до 4 кГц). Фиг.4a и 4b иллюстрируют относительные полосы пропускания широкополосного речевого сигнала S10, узкополосного сигнала S20 и высокополосного сигнала S30 в двух различных примерах реализации. В обоих из этих примеров широкополосный речевой сигнал S10 имеет частоту дискретизации в 16 кГц (представляя частотные компоненты в диапазоне 0-8 кГц), а узкополосный сигнал S20 имеет частоту дискретизации в 8 кГц (представляя частотные компоненты в диапазоне 0-4 кГц).

В примере на фиг.4a нет существенного перекрытия между двумя поддиапазонами. Высокополосный сигнал S30, как показано в данном примере, может быть получен с помощью высокочастотного фильтра 130 с полосой пропускания в 4-8 кГц. В этом случае может быть желательным снизить частоту дискретизации до 8 кГц посредством снижения дискретизации фильтрованного сигнала на коэффициент два. Эта операция, которая, как ожидается, может существенно снизить вычислительную сложность дополнительных операций обработки сигнала, уменьшает энергию полосы пропускания до диапазона в 0-4 кГц без потери информации.

В альтернативном примере по фиг.4b верхние и нижние поддиапазоны имеют заметное перекрытие, так что область 3,5-4 кГц описывается посредством сигналов обоих поддиапазонов. Высокополосный сигнал S30, как показано в данном примере, может быть получен с помощью высокочастотного фильтра 130 с полосой пропускания в 3,5-7 кГц. В этом случае может быть желательным снизить частоту дискретизации до 7 кГц посредством понижающей дискретизации фильтрованного сигнала на коэффициент 16/7. Эта операция, которая, как ожидается, может существенно снизить вычислительную сложность дополнительных операций обработки сигнала, уменьшает энергию полосы пропускания до диапазона 0-3,5 кГц без потери информации.

В типичной телефонной трубке для телефонной связи один или более преобразователей (т.е. микрофон и наушник или динамик) имеет в значительной степени недостаточную характеристику в частотном диапазоне 7-8 кГц. В примере по фиг.4b часть широкополосного речевого сигнала S10 между 7 и 8 кГц не включена в кодированный сигнал. Другие конкретные примеры высокочастотного фильтра 130 имеют полосы пропускания в 3,5-7,5 кГц и 3,5-8 кГц.

В некоторых реализациях обеспечение перекрытия между поддиапазонами, как в примере по фиг.4b, дает возможность использования низкочастотного и/или высокочастотного фильтра, имеющего плавный спад в перекрывающейся области. Эти фильтры в типичном варианте проще проектировать, они менее вычислительно сложные и/или вносят меньшую задержку, чем фильтры с более резкими или "крутыми" характеристиками. Фильтры, имеющие резкие переходные области, зачастую имеют более высокие боковые лепестки (которые могут приводить к наложению спектров), чем фильтры аналогичного порядка, которые имеют плавный спад. Фильтры, имеющие резкие переходные области, также могут иметь импульсные характеристики большой длительности, которые могут приводить к реверберирующим помехам. Для реализаций гребенок фильтров, имеющих один или более IIR-фильтров, предоставляющих плавный спад в перекрывающейся области, можно позволить использование фильтра или фильтров, полюса которых находятся дальше от единичной окружности, что может быть важным для того, чтобы обеспечивать стабильную реализацию с фиксированной запятой.

Перекрытие поддиапазонов предоставляет плавное сопряжение полосы низких частот и полосы высоких частот, что может приводить к меньшим слышимым помехам, снижению наложения спектров и/или менее заметному переходу от одной полосы к другой. Более того, эффективность кодирования узкополосного кодера A120 (например, кодера формы сигналов) может падать с повышением частоты. Например, качество кодирования узкополосного кодера может снижаться при низких скоростях передачи битов, особенно при наличии фонового шума. В этих случаях обеспечение перекрытия поддиапазонов позволяет повышать качество воспроизводимых частотных компонентов в перекрывающейся области.

Кроме того, перекрытие поддиапазонов обеспечивает плавное сопряжение полосы низких частот и полосы высоких частот, что может приводить к меньшим слышимым помехам, снижению наложения спектров и/или менее заметному переходу от одной полосы к другой. Этот признак может быть особенно желательным для реализации, в которой узкополосный кодер A120 и высокополосный кодер A200 функционируют согласно различным методологиям кодирования. Например, различные методики кодирования могут формировать сигналы, которые звучат немного по-разному. Кодер, который кодирует спектральную огибающую в форме индексов таблицы кодирования, может формировать сигнал, имеющий звук, отличающийся от звука кодера, который кодирует вместо этого амплитудный спектр. Кодер временной области (к примеру, кодер по импульсно-кодовой модуляции, PCM) может формировать сигнал, имеющий звук, отличающийся от звука кодера частотной области. Кодер, который кодирует сигнал с представлением спектральной огибающей и соответствующего остаточного сигнала, может формировать сигнал, имеющий звук, отличающийся от звука кодера, который кодирует сигнал только с представлением спектральной огибающей. Кодер, который кодирует сигнал как представление его формы, может формировать вывод, имеющий звук, отличающийся от звука синусоидального кодера. В этих случаях использование фильтров, имеющих резкие переходные области, чтобы задавать неперекрывающиеся поддиапазоны, может приводить к внезапному и перцепционно заметному переходу между поддиапазонами в синтезированном широкополосном сигнале.

Хотя гребенки QMF-фильтров, имеющие дополняющие перекрывающиеся частотные характеристики, зачастую используются в поддиапазонных методиках, такие фильтры не подходят, по меньшей мере, для некоторых реализаций широкополосного кодирования, описанных в данном документе. Гребенка QMF-фильтров в кодере сконфигурирована так, чтобы создавать значительную степень наложения спектров, которое компенсируется в соответствующей гребенке QMF-фильтров в декодере. Такая компоновка может не подходить для варианта применения, в котором сигнал подвергается значительной величине искажения между гребенками фильтров, поскольку искажение может снижать эффективность свойства компенсации наложения спектров. Например, варианты применения, описываемые в данном документе, включают в себя реализации кодирования, сконфигурированные так, чтобы функционировать при очень низких скоростях передачи битов. Как следствие очень низкой скорости передачи битов, декодированный сигнал с большой долей вероятности является в значительной степени искаженным в сравнении с исходным сигналом, так что использование гребенок QMF-фильтров может приводить к некомпенсируемому наложению спектров. Варианты применения, которые используют гребенки QMF-фильтров, в типичном варианте имеют более высокие скорости передачи битов (к примеру, более 12 кбит/с для AMR и 64 кбит/с для G.722).

Дополнительно кодер может быть выполнен с возможностью формировать синтезированный сигнал, который перцепционно аналогичен исходному сигналу, но который фактически значительно отличается от исходного сигнала. Например, кодер, который извлекает высокополосное возбуждение из узкополосного остатка, как описано в данном документе, может формировать такой сигнал, поскольку фактический высокополосный остаток может полностью отсутствовать в декодированном сигнале. Использование гребенок QMF-фильтров в этих приложениях может приводить к значительной степени искажения, вызываемого посредством некомпенсируемого наложения спектров.

Величина искажения, вызываемого посредством QMF-наложения спектров, может быть снижена, если затрагиваемый поддиапазон узкий, поскольку эффект от наложения спектров ограничен полосой пропускания, равной ширине поддиапазона. Например, как описано в данном документе, каждый поддиапазон включает в себя примерно половину широкополосной полосы пропускания, тем не менее, искажение, вызываемое посредством некомпенсируемого наложения спектров, может затрагивать значительную часть сигнала. Качество сигнала может также затрагиваться посредством размещения частотного диапазона, в котором возникает некомпенсируемое наложение спектров. Например, искажение, создаваемое рядом с центром широкополосного речевого сигнала (к примеру, между 3 и 4 кГц), может быть гораздо более нежелательным, чем искажение, которое возникает рядом с краем сигнала (к примеру, выше 6 кГц).

Хотя характеристики фильтров гребенки QMF-фильтров тесно связаны друг с другом, низкополосные и высокополосные тракты и гребенок A110 и B120 фильтров могут быть сконфигурированы так, чтобы иметь спектры, которые полностью не связаны, не считая перекрытия двух поддиапазонов. Мы задаем перекрытие двух поддиапазонов как расстояние от точки, в которой частотная характеристика высокополосного фильтра падает до -20 дБ, до точки, в которой частотная характеристика низкополосного фильтра падает до -20 дБ. В различных примерах гребенки A110 и/или B120 фильтров это перекрытие варьируется от примерно 200 Гц до примерно 1 кГц. Диапазон от примерно 400 до примерно 600 Гц может представлять требуемый компромисс между эффективностью кодирования и перцепционной плавностью. В одном конкретном примере, как упоминалось выше, перекрытие составляет порядка 500 Гц.

Может быть желательным реализовать гребенку A112 и/или B122 фильтров, чтобы выполнить операции, проиллюстрированные на фиг.4a и 4b, в несколько стадий. Например, фиг.4c иллюстрирует блок-схему реализации A114 гребенки A112 фильтров, которая выполняет функциональный эквивалент операций высокочастотной фильтрации и понижающей дискретизации, используя набор из интерполяции, повторной дискретизации и прореживания и других операций. Такую реализацию может быть проще спроектировать, и/или она может предоставлять возможность повторного использования блоков логики и/или кода. Например, один функциональный блок может быть использован для того, чтобы выполнять операции прореживания до 14 кГц и прореживания до 7 кГц, как показано на фиг.4c. Операция обращения спектра может быть реализована посредством умножения сигнала на функцию e jnπ или последовательность (-1)n, значения которой чередуются между +1 и -1. Операция формирования спектра может быть реализована как фильтр нижних ча