Системы, способы и устройства для устраняющей разреженность фильтрации
Иллюстрации
Показать всеИзобретение относится к обработке сигналов. В одном варианте осуществления способ формирования сигнала возбуждения полосы верхних частот включает в себя формирование спектрально расширенного сигнала посредством расширения спектра сигнала, который основан на кодированном сигнале возбуждения полосы нижних частот; и выполнение устраняющей разреженность фильтрации сигнала, который основан на кодированном сигнале возбуждения полосы нижних частот. В этом способе сигнал возбуждения полосы верхних частот основан на спектрально расширенном сигнале, и сигнал возбуждения полосы верхних частот основан на результате выполнения устраняющей разреженность фильтрации. Технический результат - обеспечение расширения узкополосного речевого сигнала для поддержания передачи и/или хранения широкополосных речевых сигналов при увеличении пропускной способности. 8 н. и 42 з.п. ф-лы, 32 ил.
Реферат
Родственная заявка
Данная заявка испрашивает приоритет Предварительной патентной заявки США номер 60/667901, озаглавленной "CODING THE HIGH-FREQUENCY BAND OF WIDEBAND SPEECH", зарегистрированной 1 апреля 2005 года. Данная заявка также испрашивает приоритет Предварительной патентной заявки США номер 60/673965, озаглавленной "PARAMETER CODING IN A HIGH-BAND SPEECH CODER", зарегистрированной 22 апреля 2005 года.
Область техники изобретения
Данное изобретение относится к обработке сигналов.
Уровень техники
Речевая связь по коммутируемой телефонной сети общего пользования (PSTN) традиционно ограничена по полосе пропускания в частотном диапазоне 300-3400 кГц. Новые сети для речевой связи, такие как сотовая телефония и "речь-по-IP" (Интернет-протокол, VoIP) могут не иметь таких же ограничений по полосе пропускания и могут быть предпочтительными для передачи и приема по таким сетям речевых передач, которые включают в себя широкополосный частотный диапазон. Например, может быть желательным поддерживать диапазон аудиочастот, продолжающийся вниз до 50 Гц и/или вверх до 7 или 8 кГц. Также может быть желательным поддерживать другие приложения, например, высококачественную аудио- или аудио/видеоконференц-связь, которые могут иметь речевой контент аудио в диапазонах за пределами традиционных ограничений PSTN.
Расширение диапазона, поддерживаемое посредством речевого кодера, до более высоких частот позволяет повысить разборчивость. Например, информация, которая различает фрикативные звуки, такие как "s" и "f", в большей степени представлена в высоких частотах. Расширение полосы верхних частот также позволяет улучшить другие качества речи, такие как эффект присутствия. Например, даже вокализованный гласный звук может иметь спектральную энергию за пределами ограничения PSTN.
Один подход к широкополосному кодированию речи связан с масштабированием метода узкополосного кодирования речи (к примеру, сконфигурированного для кодирования диапазона 0-4 кГц), чтобы покрывать широкополосный спектр. Например, речевой сигнал может дискретизироваться с более высокой частотой, чтобы включать в себя компоненты на высоких частотах, и метод узкополосного кодирования может быть переконфигурирован для использования большего числа коэффициентов фильтрации, чтобы представлять этот широкополосный сигнал. Методы узкополосного кодирования, такие как CELP (кодирование методом линейного предсказания с кодовым возбуждением) являются вычислительно-емкими, тем не менее, и широкополосный CELP-кодер может потреблять слишком большое число циклов обработки, чтобы быть практичным для большинства мобильных и других вложенных приложений. Кодирование всего спектра широкополосного сигнала до требуемого качества с помощью этого метода также может приводить к недопустимо большому увеличению полосы пропускания. Более того, транскодирование такого кодированного сигнала должно требоваться, прежде чем даже его узкополосная часть может быть передана и/или декодирована посредством системы, которая поддерживает только узкополосное кодирование.
Другой подход к широкополосному кодированию речи связан с экстраполированием огибающей спектра полосы верхних частот из кодированной огибающей узкополосного спектра. Хотя этот подход может быть реализован без какого-либо увеличения полосы пропускания и без необходимости транскодирования, приблизительная спектральная огибающая или формантная структура части полосы верхних частот речевого сигнала, как правило, не может быть предсказана точно из спектральной огибающей узкополосной части.
Может быть желательным реализовать широкополосное кодирование речи таким образом, что, по меньшей мере, узкополосная часть кодированного сигнала может быть передана посредством узкополосного канала (такого как PSTN-канал) без транскодирования или какой-либо другой существенной модификации. Эффективность расширения широкополосного кодирования также может быть желательной, например, чтобы не допустить существенного снижения числа пользователей, которые могут обслуживаться в таких приложениях, как беспроводная сотовая телефонная связь и широковещательная передача по проводным и беспроводным каналам.
Сущность изобретения
В одном варианте осуществления способ формирования сигнала возбуждения полосы верхних частот включает в себя формирование спектрально расширенного сигнала посредством расширения спектра сигнала, который основан на кодированном сигнале возбуждения полосы нижних частот; и выполнение устраняющей разреженность фильтрации сигнала, который основан на кодированном сигнале возбуждения полосы нижних частот. В этом способе сигнал возбуждения полосы верхних частот основан на спектрально расширенном сигнале, и сигнал возбуждения полосы верхних частот основан на результате выполнения устраняющей разреженность фильтрации.
В другом варианте осуществления устройство включает в себя расширитель спектра, выполненный с возможностью формировать спектрально расширенный сигнал посредством расширения спектра сигнала, который основан на кодированном сигнале возбуждения полосы нижних частот; и устраняющий разреженность фильтр, выполненный с возможностью фильтровать сигнал, который основан на кодированном сигнале возбуждения полосы нижних частот. В этом устройстве сигнал возбуждения полосы верхних частот основан на спектрально расширенном сигнале, и сигнал возбуждения полосы верхних частот основан на выходном сигнале устраняющего разреженность фильтра.
В другом варианте осуществления устройство включает в себя средство формирования спектрально расширенного сигнала посредством расширения спектра сигнала, который основан на кодированном сигнале возбуждения полосы нижних частот; и устраняющий разреженность фильтр, выполненный с возможностью фильтровать сигнал, который основан на кодированном сигнале возбуждения полосы нижних частот. В этом устройстве сигнал возбуждения полосы верхних частот основан на спектрально расширенном сигнале, и сигнал возбуждения полосы верхних частот основан на выходном сигнале устраняющего разреженность фильтра.
Краткое описание чертежей
Фиг. 1a иллюстрирует блок-схему широкополосного речевого кодера A100 согласно варианту осуществления.
Фиг 1b иллюстрирует блок-схему реализации A102 широкополосного речевого кодера A100.
Фиг. 2a иллюстрирует блок-схему широкополосного речевого декодера B100 согласно варианту осуществления.
Фиг 2b иллюстрирует реализацию B102 широкополосного речевого кодера B100.
Фиг. 3a иллюстрирует блок-схему реализации A112 гребенки A110 фильтров.
Фиг. 3b иллюстрирует блок-схему реализации B122 гребенки B120 фильтров.
Фиг. 4a иллюстрирует охват полосы пропускания по полосам нижних и верхних частот для одного примера гребенки A110 фильтров.
Фиг. 4b иллюстрирует охват полосы частот по полосам нижних и верхних частот для другого примера гребенки A110 фильтров.
Фиг. 4c иллюстрирует блок-схему реализации A114 гребенки A112 фильтров.
Фиг. 4d иллюстрирует блок-схему реализации B124 гребенки B122 фильтров.
Фиг. 5a иллюстрирует пример графика частоты и логарифмической амплитуды для речевого сигнала.
Фиг. 5b иллюстрирует блок-схему базовой системы кодирования с линейным предсказанием.
Фиг. 6 иллюстрирует блок-схему реализации A122 узкополосного кодера A120.
Фиг. 7 иллюстрирует блок-схему реализации B112 узкополосного декодера B110.
Фиг. 8a иллюстрирует пример графика частоты и логарифмической амплитуды для остаточного сигнала вокализованной речи.
Фиг. 8b иллюстрирует пример графика времени и логарифмической амплитуды для остаточного сигнала вокализованной речи.
Фиг. 9 иллюстрирует блок-схему базовой системы кодирования с линейным предсказанием, которая также выполняет долгосрочное предсказание.
Фиг. 10 иллюстрирует блок-схему реализации A202 кодера A200 полосы верхних частот.
Фиг. 11 иллюстрирует блок-схему реализации A302 генератора A300 возбуждения полосы верхних частот.
Фиг. 12 иллюстрирует блок-схему реализации A402 расширителя A400 спектра.
Фиг. 12a иллюстрирует графики спектра сигнала в различных точках в одном примере операции расширения спектра.
Фиг. 12b иллюстрирует графики спектра сигнала в различных точках в другом примере операции расширения спектра.
Фиг. 13 иллюстрирует блок-схему реализации A304 генератора A302 возбуждения полосы верхних частот.
Фиг. 14 иллюстрирует блок-схему реализации A306 генератора A302 возбуждения полосы верхних частот.
Фиг. 15 иллюстрирует блок-схему последовательности операций задачи T100 вычисления огибающей.
Фиг. 16 иллюстрирует блок-схему реализации 492 объединителя 490.
Фиг. 17 иллюстрирует подход к вычислению показателя периодичности сигнала S30 полосы верхних частот.
Фиг. 18 иллюстрирует блок-схему реализации A312 генератора A302 возбуждения полосы верхних частот.
Фиг. 19 иллюстрирует блок-схему реализации A314 генератора A302 возбуждения полосы верхних частот.
Фиг. 20 иллюстрирует блок-схему реализации A316 генератора A302 возбуждения полосы верхних частот.
Фиг. 21 иллюстрирует блок-схему последовательности операций задачи T200 вычисления усиления.
Фиг. 22 иллюстрирует блок-схему последовательности операций для реализации T210 задачи T200 вычисления усиления.
Фиг. 23a иллюстрирует схему функции оконной обработки.
Фиг. 23b иллюстрирует применение функции оконной обработки, показанной на фиг. 23a, к субкадрам речевого сигнала.
Фиг. 24 иллюстрирует блок-схему реализации B202 декодера B200 полосы верхних частот.
Фиг 25 иллюстрирует блок-схему реализации AD10 широкополосного речевого кодера A100.
Фиг. 26a иллюстрирует схематичное представление реализации D122 линии D120 задержки.
Фиг. 26b иллюстрирует схематичное представление реализации D124 линии D120 задержки.
Фиг. 27 иллюстрирует схематичное представление реализации D130 линии D120 задержки.
Фиг 28 иллюстрирует блок-схему реализации AD12 широкополосного речевого кодера AD10.
Фиг. 29 иллюстрирует блок-схему последовательности операций способа обработки MD100 сигналов согласно варианту осуществления.
Фиг. 30 иллюстрирует блок-схему последовательности операций способа M100 согласно варианту осуществления.
Фиг. 31a иллюстрирует блок-схему последовательности операций способа M200 согласно варианту осуществления.
Фиг. 31b иллюстрирует блок-схему последовательности операций для реализации M210 способа M200.
Фиг. 32 иллюстрирует блок-схему последовательности операций способа M300 согласно варианту осуществления.
На чертежах и в прилагаемом описании одинаковые ссылочные позиции обозначают те же или аналогичные элементы или сигналы.
Подробное описание
Описанные в данном документе варианты осуществления включают в себя системы, способы и устройства, которые могут быть сконфигурированы так, чтобы предоставлять расширение для узкополосного речевого сигнала, чтобы поддерживать передачу и/или хранения широкополосных речевых сигналов при увеличении пропускной способности только до 800-1000 бит/с (битов в секунду). Потенциальные преимущества этих реализаций включают в себя встроенное кодирование, чтобы поддерживать совместимость с узкополосными системами, относительно простое распределение и перераспределение битов между каналами узкополосного кодирования и кодирования в полосе верхних частот, исключение вычислительно-емкой операции широкополосного синтеза и поддержание низкой частоты дискретизации для сигналов, которые должны обрабатываться посредством вычислительно-емких процедур кодирования формы сигналов.
В отсутствие ограничения в явной форме контекстом, термин "вычисление" используется в данном документе, чтобы обозначать любое из своих обычных значений, например, расчет, генерацию и выбор из списка значений. Если термин "содержащий" используется в настоящем описании и формуле изобретения, он не исключает других элементов или операций. Термин "A основан на B" используется для того, чтобы обозначать любое из своих обычных значений, в том числе случаи (i) "A равен B" и (ii) "A основан, по меньшей мере, на B". Термин "Интернет-протокол" включает в себя версию 4, как описано в IETF (Инженерная группа по развитию Интернета) RFC (Рабочие предложения) 791, и последующие версии, такие как версия 6.
Фиг. 1a иллюстрирует блок-схему широкополосного речевого кодера A100 согласно варианту осуществления. Гребенка A110 фильтров сконфигурирована таким образом, чтобы фильтровать широкополосный речевой сигнал S10, чтобы формировать узкополосный сигнал S20 и сигнал S30 полосы верхних частот. Узкополосный кодер A120 выполнен с возможностью кодировать узкополосный сигнал S20, чтобы формировать параметры S40 узкополосной (NB) фильтрации и узкополосный остаточный сигнал S50. Как подробно описано в данном документе, узкополосный кодер A120 в типичном варианте выполнен с возможностью формировать параметры S40 узкополосной фильтрации и кодированный узкополосный сигнал S50 возбуждения в качестве индексов таблицы кодирования или в другой квантованной форме. Кодер A200 полосы верхних частот выполнен с возможностью кодировать сигнал S30 полосы верхних частот согласно информации в кодированном узкополосном сигнале S50 возбуждения, чтобы сформировать параметры S60 кодирования в полосе верхних частот. Как подробнее описывается в данном документе, кодер A200 полосы верхних частот в типичном варианте выполнен с возможностью формировать параметры S60 кодирования в полосе верхних частот в качестве индексов таблицы кодирования или в другой квантованной форме. Один конкретный пример широкополосного речевого кодера A100 обеспечивает возможностью кодирования широкополосного речевого сигнала S10 на скорости примерно 8,55 кбит/с (килобит в секунду), при этом примерно 7,55 кбит/с используются для параметров S40 узкополосной фильтрации и кодированного узкополосного сигнала возбуждения S50, а примерно 1 кбит/с используется для параметров S60 кодирования полосы верхних частот.
Может быть желательным комбинировать кодированные узкополосные сигналы и сигналы полосы верхних частот в один поток битов. Например, может быть желательным мультиплексировать кодированные сигналы вместе для передачи (к примеру, по проводному, оптическому или беспроводному каналу передачи) либо для хранения в качестве кодированного широкополосного речевого сигнала. Фиг 1b иллюстрирует блок-схему реализации A102 широкополосного речевого кодера A100, который включает в себя мультиплексор A130, выполненный с возможностью комбинировать параметры S40 узкополосной фильтрации, кодированный узкополосный сигнал S50 возбуждения и параметры S60 фильтрации полосы верхних частот в мультиплексированный сигнал S70.
Устройство, включающее в себя кодер A102, также может включать в себя схему, сконфигурированную так, чтобы передавать мультиплексированный сигнал S70 в канал передачи, такой как проводной, оптический или беспроводной канал. Это устройство также может быть сконфигурировано так, чтобы выполнять одну или более операций канального кодирования с сигналом, таких как кодирование с коррекцией ошибок (к примеру, согласованное по скорости сверточное кодирование) и/или кодирование с обнаружением ошибок (к примеру, кодирование циклическим избыточным кодом), и/или кодирование одного или более уровней сетевых протоколов (к примеру, Ethernet, TCP/IP, cdma2000).
Может быть желательным сконфигурировать мультиплексор A130 так, чтобы встраивать кодированный узкополосный сигнал (включающий в себя параметры S40 узкополосной фильтрации и кодированный узкополосный сигнал S50 возбуждения) в качестве разделяемого субпотока мультиплексированного сигнала S70, с тем чтобы кодированный узкополосный сигнал мог быть восстановлен и декодирован независимо от другой части мультиплексированного сигнала S70, такого как сигнал полосы верхних частот и/или сигнал полосы нижних частот. Например, мультиплексированный сигнал S70 может быть скомпонован таким образом, что кодированный узкополосный сигнал может быть восстановлен посредством исключения параметров S60 фильтрации полосы верхних частот. Одно потенциальное преимущество такого признака состоит в исключении необходимости транскодирования кодированного широкополосного сигнала до передачи его в систему, которая поддерживает декодирование узкополосного сигнала, но не поддерживает декодирование части сигнала в полосе верхних частот.
Фиг. 2a - это блок-схема широкополосного речевого декодера B100 согласно варианту осуществления. Узкополосный декодер B110 выполнен с возможностью декодировать параметры S40 узкополосной фильтрации и кодированный узкополосный сигнал S50 возбуждения, чтобы формировать узкополосный сигнал S90. Декодер B200 полосы верхних частот выполнен с возможностью декодировать параметры S60 кодирования полосы верхних частот согласно узкополосному сигналу S80 возбуждения на основе кодированного узкополосного сигнала S50 возбуждения, чтобы сформировать сигнал S100 полосы верхних частот. В этом примере узкополосный декодер B110 выполнен с возможностью предоставлять узкополосный сигнал S80 возбуждения в декодер B200 полосы верхних частот. Гребенка B120 фильтров сконфигурирована так, чтобы комбинировать узкополосный сигнал S90 и сигнал S100 полосы верхних частот, чтобы формировать широкополосный речевой сигнал S110.
Фиг. 2b - это блок-схема реализации B102 широкополосного речевого декодера B100, который включает в себя демультиплексор B130, выполненный с возможностью формировать кодированные сигналы S40, S50 и S60 из мультиплексированного сигнала S70. Устройство, включающее в себя декодер B102, может включать в себя схему, сконфигурированную так, чтобы принимать мультиплексированный сигнал S70 из канала передачи, такого как проводной, оптический или беспроводной канал. Это устройство также может быть сконфигурировано так, чтобы выполнять одну или более операций канального декодирования с сигналом, таких как декодирование с коррекцией ошибок (к примеру, согласованное по скорости сверточное декодирование) и/или декодирование с обнаружением ошибок (к примеру, декодирование циклическим избыточным кодом), и/или декодирование одного или более уровней сетевых протоколов (к примеру, Ethernet, TCP/IP, cdma2000).
Гребенка A110 фильтров сконфигурирована так, чтобы фильтровать входной сигнал согласно схеме расщепления полосы, чтобы формировать поддиапазон нижних частот и поддиапазон верхних частот. В зависимости от проектных критериев конкретного приложения, выходные поддиапазоны могут иметь равные или неравные полосы пропускания и могут быть перекрывающимися или неперекрывающимися. Конфигурация гребенки A110 фильтров, которая формирует более двух поддиапазонов, также возможна. Например, эта гребенка фильтров может быть сконфигурирована так, чтобы формировать один или более сигналов полосы нижних частот, которые включают в себя компоненты в частотном диапазоне ниже частотного диапазона узкополосного сигнала S20 (например, диапазона 50-300 Гц). Также можно сконфигурировать эту гребенку фильтров таким образом, чтобы формировать один или более дополнительных сигналов полосы верхних частот, которые включают в себя компоненты в частотном диапазоне выше частотного диапазона сигнала S30 полосы верхних частот (например, диапазона 14-20, 16-20 или 16-32 кГц). В этом случае широкополосный речевой кодер A100 может быть реализован таким образом, чтобы кодировать этот сигнал или сигналы отдельно, и мультиплексор A130 может быть выполнен с возможностью включать дополнительный кодированный сигнал или сигналы в мультиплексированный сигнал S70 (к примеру, в качестве разделяемой части).
Фиг. 3a иллюстрирует блок-схему реализации A112 гребенки A110 фильтров, которая сконфигурирована так, чтобы формировать два поддиапазонных сигнала, имеющих меньшие частоты дискретизации. Гребенка A110 фильтров выполнена с возможностью принимать широкополосный речевой сигнал S10, имеющий высокочастотную (или высокополосную) часть и низкочастотную (или низкополосную) часть. Гребенка A112 фильтров включает в себя тракт обработки полосы нижних частот, выполненный с возможностью принимать широкополосный речевой сигнал S10 и формировать узкополосный речевой сигнал S20, и тракт обработки полосы верхних частот, выполненный с возможностью принимать широкополосный речевой сигнал S10 и формировать речевой сигнал S30 полосы верхних частот. Низкочастотный фильтр 110 фильтрует широкополосный речевой сигнал S10, чтобы пропускать выбранный низкочастотный поддиапазон, а высокочастотный фильтр 130 фильтрует широкополосный речевой сигнал S10, чтобы пропускать выбранный высокочастотный поддиапазон. Поскольку оба поддиапазонных сигнала имеют более узкую полосу пропускания, чем широкополосный речевой сигнал S10, их частоты дискретизации могут быть снижены в некоторой степени без потери информации. Понижающий дискретизатор 120 снижает частоту дискретизации низкочастотного сигнала согласно требуемому коэффициенту прореживания (к примеру, посредством удаления выборок сигнала и/или замены выборок средними значениями), а понижающий дискретизатор 140 аналогично снижает частоту дискретизации сигнала верхних частот согласно другому требуемому коэффициенту прореживания.
Фиг. 3b иллюстрирует блок-схему соответствующей реализации B122 гребенки B120 фильтров. Повышающий дискретизатор 150 повышает частоту дискретизации узкополосного сигнала S90 (к примеру, посредством заполнения нулями и/или посредством дублирования выборок), и низкочастотный фильтр 160 фильтрует сигнал с повышенной дискретизацией, чтобы пропускать только низкополосную часть (к примеру, чтобы избежать наложения спектров). Аналогично, повышающий дискретизатор 170 увеличивает частоту дискретизации сигнала S100 полосы верхних частот, а высокочастотный фильтр 180 фильтрует сигнал с повышенной дискретизацией, чтобы пропускать только часть полосы верхних частот. Сигналы двух полос пропускания затем суммируются, чтобы сформировать широкополосный речевой сигнал S110. В некоторых реализациях декодера B100 гребенка B120 фильтров сконфигурирована так, чтобы формировать взвешенную сумму сигналов двух полос пропускания согласно одному или более весовых коэффициентов, принятых и/или вычисленных посредством декодера B200 полосы верхних частот. Конфигурация гребенки B120 фильтров, которая комбинирует сигналы более чем двух полос пропускания, также возможна.
Каждый из фильтров 110, 130, 160, 180 может быть реализован как фильтр с конечной импульсной характеристикой (FIR) или как фильтр с бесконечной импульсной характеристикой (IIR). Частотные характеристики фильтров 110 и 130 кодера могут иметь симметричные переходные области или переходные области непохожей формы между полосой режекции и полосой пропускания. Аналогично, частотные характеристики фильтров 160 и 180 декодера могут иметь симметричные переходные области или переходные области непохожей формы между полосой режекции и полосой пропускания. Может быть желательным, но не обязательным реализовать низкочастотный фильтр 110 с такой же характеристикой, как и у низкочастотного фильтра 160, и реализовать высокочастотный фильтр 130 с такой же характеристикой, как и у высокочастотного фильтра 180. В одном примере две пары 110, 130 и 160, 180 фильтров являются гребенками квадратурных зеркальных фильтров (QMF), при этом пара 110, 130 фильтров имеет такие же коэффициенты, что и пара 160, 180 фильтров.
В типичном примере низкочастотный фильтр 110 имеет полосу пропускания, которая включает в себя ограниченный PSTN-диапазон в 300-3400 Гц (к примеру, полосу от 0 до 4 кГц). Фиг. 4a и 4b иллюстрируют относительные полосы пропускания широкополосного речевого сигнала S10, узкополосного сигнала S20 и сигнала полосы верхних частот S30 в двух различных примерах реализации. В обоих из этих примеров широкополосный речевой сигнал S10 имеет частоту дискретизации в 16 кГц (представляя частотные компоненты в диапазоне 0-8 кГц), а узкополосный сигнал S20 имеет частоту дискретизации в 8 кГц (представляя частотные компоненты в диапазоне 0-4 кГц).
В примере на фиг. 4a нет существенного перекрытия между двумя поддиапазонами. Сигнал S30 полосы верхних частот, как показано в данном примере, может быть получен с помощью высокочастотного фильтра 130 с полосой пропускания в 4-8 кГц. В этом случае может быть желательным снизить частоту дискретизации до 8 кГц посредством снижения дискретизации фильтрованного сигнала на коэффициент два. Эта операция, которая, как ожидается, может существенно снизить вычислительную сложность дополнительных операций обработки сигнала, уменьшает энергию полосы пропускания до диапазона в 0-4 кГц без потери информации.
В альтернативном примере по фиг. 4b верхние и нижние поддиапазоны имеют заметное перекрытие, так что область 3,5-4 кГц описывается посредством обоих поддиапазонных сигналов. Сигнал S30 полосы верхних частот, как показано в данном примере, может быть получен с помощью высокочастотного фильтра 130 с полосой пропускания в 3,5-7 кГц. В этом случае может быть желательным снизить частоту дискретизации до 7 кГц посредством понижающей дискретизации фильтрованного сигнала на коэффициент 16/7. Эта операция, которая, как ожидается, может существенно снизить вычислительную сложность дополнительных операций обработки сигнала, уменьшает энергию полосы пропускания до диапазона 0-3,5 кГц без потери информации.
В типичной телефонной трубке для телефонной связи один или более преобразователей (т.е. микрофон и наушник или динамик) имеет в значительной степени недостаточную характеристику в частотном диапазоне 7-8 кГц. В примере по фиг. 4b часть широкополосного речевого сигнала S10 между 7 и 8 кГц не включена в кодированный сигнал. Другие конкретные примеры высокочастотного фильтра 130 имеют полосы пропускания в 3,5-7,5 кГц и 3,5-8 кГц.
В некоторых реализациях обеспечение перекрытия между поддиапазонами, как в примере по фиг. 4b, дает возможность использования низкочастотного и/или высокочастотного фильтра, имеющего плавное спадание в перекрывающейся области. Эти фильтры в типичном варианте проще проектировать, они менее вычислительно сложные и/или вносят меньшую задержку, чем фильтры с более резкими или "крутыми" характеристиками. Фильтры, имеющие резкие переходные области, зачастую имеют более высокие боковые лепестки (которые могут приводить к наложению спектров), чем фильтры аналогичного порядка, которые имеют плавное спадание. Фильтры, имеющие резкие переходные области, также могут иметь импульсные характеристики большой длительности, которые могут приводить к реверберирующим помехам. Для реализаций гребенок фильтров, имеющих один или более IIR-фильтров, предоставляющих плавное спадание в перекрывающейся области, можно использовать фильтр или фильтры, полюса которых находятся дальше от единичной окружности, что может быть важным для того, чтобы обеспечивать стабильную реализацию с фиксированной запятой.
Перекрытие поддиапазонов предоставляет плавное сопряжение полосы нижних частот и полосы верхних частот, что может приводить к меньшим слышимым помехам, снижению наложения спектров и/или менее заметному переходу от одной полосы к другой. Более того, эффективность кодирования узкополосного кодера A120 (например, кодера формы сигналов) может падать с повышением частоты. Например, качество кодирования узкополосного кодера может снижаться при низких скоростях передачи битов, особенно при наличии фонового шума. В этих случаях обеспечение перекрытия поддиапазонов позволяет повышать качество воспроизводимых частотных компонентов в перекрывающейся области.
Кроме того, перекрытие поддиапазонов обеспечивает плавное сопряжение полосы нижних частот и полосы верхних частот, что может приводить к меньшим слышимым помехам, снижению наложения спектров и/или менее заметному переходу от одной полосы к другой. Этот признак может быть особенно желательным для реализации, в которой узкополосный кодер A120 и кодер A200 полосы верхних частот функционируют согласно различным методам кодирования. Например, различные методы кодирования могут формировать сигналы, которые звучат немного по-разному. Кодер, который кодирует спектральную огибающую в форме индексов таблицы кодирования, может формировать сигнал, имеющий звук, отличающийся от звука кодера, который кодирует вместо этого амплитудный спектр. Кодер временной области (к примеру, кодер по импульсно-кодовой модуляции, PCM) может формировать сигнал, имеющий звук, отличающийся от звука кодера частотной области. Кодер, который кодирует сигнал с представлением спектральной огибающей и соответствующего остаточного сигнала, может формировать сигнал, имеющий звук, отличающийся от звука кодера, который кодирует сигнал только с представлением спектральной огибающей. Кодер, который кодирует сигнал как представление его формы, может формировать вывод, имеющий звук, отличающийся от звука синусоидального кодера. В этих случаях использование фильтров, имеющих резкие переходные области, чтобы задавать неперекрывающиеся поддиапазоны, может приводить к внезапному и перцепционно заметному переходу между поддиапазонами в синтезированном широкополосном сигнале.
Хотя гребенки QMF-фильтров, имеющие дополняющие перекрывающиеся частотные характеристики, зачастую используются в поддиапазонных методах, такие фильтры не подходят, по меньшей мере, для некоторых реализаций широкополосного кодирования, описанных в данном документе. Гребенка QMF-фильтров в кодере сконфигурирована так, чтобы создавать значительную степень наложения спектров, которое компенсируется в соответствующей гребенке QMF-фильтров в декодере. Такая компоновка может не подходить для варианта применения, в котором сигнал подвергается значительной величине искажения между гребенками фильтров, поскольку искажение может снижать эффективность свойства компенсации наложения спектров. Например, варианты применения, описываемые в данном документе, включают в себя реализации кодирования, сконфигурированные так, чтобы функционировать при очень низких скоростях передачи битов. Как следствие очень низкой скорости передачи битов, декодированный сигнал с большой долей вероятности является в значительной степени искаженным в сравнении с исходным сигналом, так что использование гребенок QMF-фильтров может приводить к некомпенсируемому наложению спектров. Варианты применения, которые используют гребенки QMF-фильтров, в типичном варианте имеют более высокие скорости передачи битов (к примеру, более 12 кбит/с для AMR и 64 кбит/с для G.722).
Дополнительно, кодер может быть выполнен с возможностью формировать синтезированный сигнал, который перцепционно аналогичен исходному сигналу, но который фактически значительно отличается от исходного сигнала. Например, кодер, который извлекает возбуждение полосы верхних частот из узкополосного остатка, как описано в данном документе, может формировать такой сигнал, поскольку фактический остаточный сигнал полосы верхних частот может полностью отсутствовать в декодированном сигнале. Использование гребенок QMF-фильтров в этих приложениях может приводить к значительной степени искажения, вызываемого посредством некомпенсируемого наложения спектров.
Величина искажения, вызываемого посредством QMF-наложения спектров, может быть снижена, если затрагиваемый поддиапазон узкий, поскольку эффект от наложения спектров ограничен полосой пропускания, равной ширине поддиапазона. Например, как описано в данном документе, каждый поддиапазон включает в себя примерно половину широкополосной полосы пропускания, тем не менее, искажение, вызываемое посредством некомпенсируемого наложения спектров, может затрагивать значительную часть сигнала. Качество сигнала может также затрагиваться посредством размещения частотного диапазона, в котором возникает некомпенсируемое наложение спектров. Например, искажение, создаваемое рядом с центром широкополосного речевого сигнала (к примеру, между 3 и 4 кГц), может быть гораздо более нежелательным, чем искажение, которое возникает рядом с краем сигнала (к примеру, выше 6 кГц).
Хотя характеристики фильтров гребенки QMF-фильтров тесно связаны друг с другом, низкополосные тракты и тракты полосы верхних частот гребенок A110 и B120 фильтров могут быть сконфигурированы так, чтобы иметь спектры, которые полностью не связаны, не считая перекрытия двух поддиапазонов. Перекрытие двух поддиапазонов определяется как расстояние от точки, в которой частотная характеристика фильтра полосы верхних частот падает до -20 дБ, до точки, в которой частотная характеристик фильтра полосы нижних частот падает до -20 дБ. В различных примерах гребенки A110 и/или B120 фильтров это перекрытие варьируется от примерно 200 Гц до примерно 1 кГц. Диапазон от примерно 400 до примерно 600 Гц может представлять требуемый компромисс между эффективностью кодирования и перцепционной плавностью. В одном конкретном примере, как упоминалось выше, перекрытие составляет порядка 500 Гц.
Может быть желательным реализовать гребенку A112 и/или B122 фильтров, чтобы выполнить операции, проиллюстрированные на фиг. 4a и 4b, в несколько стадий. Например, фиг. 4c иллюстрирует блок-схему реализации A114 гребенки A112 фильтров, которая выполняет функциональный эквивалент операций высокочастотной фильтрации и понижающей дискретизации, используя набор из интерполяции, повторной дискретизации и прореживания и других операций. Такую реализацию может быть проще спроектировать, и/или она может предоставлять возможность повторного использования блоков логики и/или кода. Например, один функциональный блок может быть использован для того, чтобы выполнять операции прореживания до 14 кГц и прореживания до 7 кГц, как показано на фиг. 4c. Операция обращения спектра может быть реализована посредством умножения сигнала на функцию e jnπ или последовательность (-1)n, значения которой чередуются между +1 и -1. Операция формирования спектра может быть реализована как низкочастотный фильтр, выполненный с возможностью сформировать сигнал, чтобы получать требуемую общую характеристику фильтрации.
Следует отметить, что как следствие операции обращения спектра, спектр сигнала S30 полосы верхних частот меняется на противоположный. Последующие операции в кодере и соответствующем декодере могут быть сконфигурированы надлежащим образом. Например, генератор A300 возбуждения полосы верхних частот, описанный в данном документе, может быть выполнен с возможностью формировать сигнал S120 возбуждения полосы верхних частот, который также имеет спектрально обращенную форму.
Фиг. 4в иллюстрирует блок-схему реализации B124 гребенки B12 фильтров, которая выполняет функциональный эквивалент операций повышающей дискретизации и высокочастотной фильтрации, используя набор из интерполяции, повторной дискретизации и других операций. Гребенка B124 фильтров включает в себя операцию обращения спектра в полосе верхних частот, которая обращает аналогичную операцию, которая выполняется, например, в гребенке фильтров кодера, такой как гребенка A114 фильтров. В этом конкретном примере гребенка B124 фильтров также включает в себя режекторные фильтры в полосе нижних частот и полосе верхних частот, которые ослабляют компонент сигнала при 7100 Гц, хотя эти фильтры являются необязательным и не обязательно должны быть включены. Патентная заявка "SYSTEMS, METHODS, AND APPARATUS FOR SPEECH SIGNAL FILTERING", поданная совместно с настоящей, номер дела поверенного 050551, включает в себя дополнительное описание и чертежи, связанные с характеристиками элементов конкретных реализаций гребенок A110 и B120 фильтров, и этот материал включен в настоящий документ посредством ссылки.
Узкополосный кодер A120 реализован согласно модели входного фильтра, которая кодирует входной речевой сигнал как (A) набор параметров, которые описывают фильтр, и (B) сигнал возбуждения, который приводит в действие описанный фильтр, чтобы сформировать синтезированное воспроизведение входного речевого сигнала. Фиг. 5a иллюстрирует пример спектральной огибающей речевого сигнала. Пики, которые характеризуют эту спектральную огибающую, представляют резонансы речевого тракта и называются формантами. Большинство речевых кодеров кодируют, по меньшей мере, эту приблизительную спектральную структуру как набор параметров, таких как коэффициенты фильтрации.