Способы и устройство кодирования и декодирования части речевого сигнала диапазона высоких частот
Иллюстрации
Показать всеИзобретение относится к обработке речевого сигнала. Широкополосный речевой кодер, согласно одному варианту осуществления, включает в себя кодер диапазона низких частот и кодер диапазона высоких частот. Кодер диапазона низких частот выполнен с возможностью кодирования части широкополосного речевого сигнала диапазона низких частот как набор параметров фильтра и кодированный сигнал возбуждения. Кодер диапазона высоких частот выполнен с возможностью вычисления значений параметров кодирования, которые задают спектральную огибающую и временную огибающую части широкополосного речевого сигнала диапазона высоких частот. Временная огибающая основана на сигнале возбуждения диапазона высоких частот, полученном из кодированного сигнала возбуждения. В одном таком примере временная огибающая основана на разности уровней между частью в диапазоне высоких частот и синтезированным сигналом диапазона высоких частот, причем синтезированный сигнал диапазона высоких частот генерируется согласно сигналу возбуждения диапазона высоких частот и набору параметров фильтра диапазона высоких частот. Технический результат - обеспечение расширения узкополосного речевого кодера для поддержки передачи и/или сохранения широкополосных речевых сигналов при увеличении пропускной способности. 5 н. и 26 з.п. ф-лы, 46 ил.
Реферат
Область техники, к которой относится изобретение
Данное изобретение относится к обработке сигнала.
Уровень техники
Голосовая связь посредством коммутируемой телефонной сети общего пользования (PSTN) традиционно ограничена по пропускной способности частотным диапазоном 300-3400 кГц. Новые сети для голосовой связи, например сети сотовой связи и передачи голоса по IP (Интернет-протокол, VoIP), могут не иметь такие же ограничения по пропускной способности, и может оказаться желательно передавать и принимать по таким сетям голосовые передачи, которые включают в себя широкий частотный диапазон. Например, может оказаться желательно поддерживать частотный диапазон звука с нижней границей до 50 Гц и/или верхней границей до 7 или 8 кГц. Также может оказаться желательно поддерживать другие приложения, например высококачественную аудио- или аудио/видеоконференцсвязь, которая может иметь аудиоречевой контент в диапазонах, выходящих за пределы традиционных ограничений PSTN.
Расширение диапазона, поддерживаемого речевым кодером, на более высокие частоты может повысить разборчивость речи. Например, информация, которая дифференцирует фрикативные звуки, например 'с' и 'ф', увеличивается на высоких частотах. Расширение диапазона высоких частот (ДВЧ) также может повысить другие качества речи, например присутствие. Например, даже вокализованный гласный звук может иметь спектральную энергию значительно выше ограничения PSTN.
Один подход к широкополосному речевому кодированию предусматривает распространение техники узкополосного речевого кодирования (например, способной кодировать диапазон 0-4 кГц) на широкий спектр. Например, речевой сигнал можно дискретизировать на более высокой частоте, чтобы он включал в себя высокочастотные компоненты, и технику узкополосного кодирования можно перестроить для использования большего количества коэффициентов фильтра, представляющих этот широкополосный сигнал. Техники узкополосного кодирования, например CELP (линейное прогнозирование с кодовым возбуждением), требуют большого объема вычислений, однако широкополосный CELP-кодер может требовать слишком много циклов обработки, чтобы иметь практическое применение во многих мобильных и иных встроенных приложениях. Кодирование всего спектра широкополосного сигнала для достижения нужного качества с использованием такой техники также может приводить к неприемлемо большому увеличению ширины полосы. Кроме того, потребовалось бы перекодирование такого кодированного сигнала прежде, чем передать даже его узкополосную часть и/или декодировать посредством системы, которая поддерживает только узкополосное кодирование.
Другой подход к широкополосному речевому кодированию предусматривает экстраполяцию спектральной огибающей диапазона высоких частот из кодированной узкополосной спектральной огибающей. Хотя такой подход можно реализовать без увеличения ширины полосы и без необходимости в перекодировании, грубую спектральную огибающую или формантную структуру части речевого сигнала диапазона высоких частот, в общем случае, невозможно точно прогнозировать на основании спектральной огибающей узкополосной части.
Может оказаться желательно реализовать широкополосное речевое кодирование так, чтобы, по меньшей мере, узкополосную часть кодированного сигнала можно было передавать по узкополосному каналу (например, каналу PSTN) без перекодирования или другого значительного изменения. Эффективность широкополосного расширения кодирования также может быть желательной, например, во избежание значительного сокращения количества пользователей, которые могут обслуживаться в приложениях, например беспроводной сотовой телефонной сети и вещании по беспроводным и проводным каналам.
Сущность изобретения
Согласно одному варианту осуществления, способ кодирования части речевого сигнала диапазона высоких частот, имеющего часть в диапазоне низких частот и часть в диапазоне высоких частот, содержит этапы, на которых вычисляют совокупность параметров фильтра, характеризующих спектральную огибающую части в диапазоне высоких частот; вычисляют спектрально расширенный сигнал путем расширения спектра сигнала, полученного из части в диапазоне низких частот; генерируют синтезированный сигнал диапазона высоких частот согласно (A) сигналу возбуждения диапазона высоких частот, основанному на спектрально расширенном сигнале, и (B) совокупности параметров фильтра; и вычисляют огибающую усиления на основании соотношения между частью в диапазоне высоких частот и сигналом, основанным на части в диапазоне низких частот.
Согласно одному варианту осуществления, способ обработки речи включает в себя этапы, на которых генерируют сигнал возбуждения диапазона высоких частот на основании сигнала возбуждения диапазона низких частот; генерируют синтезированный сигнал диапазона высоких частот на основании речевого сигнала диапазона высоких частот и сигнала возбуждения диапазона высоких частот; и вычисляют совокупность коэффициентов усиления на основании соотношения между речевым сигналом диапазона высоких частот и сигналом, основанным на сигнале возбуждения диапазона низких частот.
Согласно другому варианту осуществления, способ декодирования части речевого сигнала диапазона высоких частот, имеющего часть в диапазоне низких частот и часть в диапазоне высоких частот, содержит этапы, на которых принимают совокупность параметров фильтра, характеризующих спектральную огибающую части в диапазоне высоких частот, и совокупность коэффициентов усиления, характеризующих временную огибающую части в диапазоне высоких частот; вычисляют спектрально расширенный сигнал путем расширения спектра сигнала, который основан на сигнале возбуждения диапазона низких частот; генерируют синтезированный сигнал диапазона высоких частот согласно (A) совокупности параметров фильтра и (B) сигналу возбуждения диапазона высоких частот, основанному на спектрально расширенном сигнале; и модулируют огибающую усиления синтезированного сигнала диапазона высоких частот согласно совокупности коэффициентов усиления.
Согласно еще одному варианту осуществления, устройство, выполненное с возможностью кодирования части речевого сигнала диапазона высоких частот, имеющего часть в диапазоне низких частот и часть в диапазоне высоких частот, содержит модуль анализа, выполненный с возможностью вычисления набора параметров фильтра, характеризующих спектральную огибающую части в диапазоне высоких частот; расширитель спектра, выполненный с возможностью вычисления спектрально расширенного сигнала путем расширения спектра сигнала, полученного из части в диапазоне низких частот; синтезирующий фильтр, выполненный с возможностью генерирования синтезированного сигнала диапазона высоких частот согласно (A) сигналу возбуждения диапазона высоких частот, основанному на спектрально расширенном сигнале, и (B) набору параметров фильтра; и калькулятор коэффициента усиления, выполненный с возможностью вычисления огибающей усиления на основании соотношения, изменяющегося со временем, между частью в диапазоне высоких частот и сигналом, основанным на части в диапазоне низких частот.
Согласно еще одному варианту осуществления, речевой декодер диапазона высоких частот выполнен с возможностью приема (A) совокупности параметров фильтра, характеризующих спектральную огибающую части речевого сигнала диапазона высоких частот, и (B) кодированного сигнала возбуждения диапазона низких частот, основанного на части речевого сигнала диапазона низких частот. Декодер включает в себя расширитель спектра, выполненный с возможностью вычисления спектрально расширенного сигнала путем расширения спектра сигнала, который основан на кодированном сигнале возбуждения диапазона низких частот; синтезирующий фильтр, выполненный с возможностью генерирования синтезированного сигнала диапазона высоких частот согласно (А) совокупности параметров фильтра, характеризующих спектральную огибающую части в диапазоне высоких частот, и (В) сигналу возбуждения диапазона высоких частот, основанному на спектрально расширенном сигнале; и элемент регулировки усиления, выполненный с возможностью модулирования огибающей усиления синтезированного сигнала диапазона высоких частот согласно совокупности коэффициентов усиления, характеризующих временную огибающую часть в диапазоне высоких частот.
Краткое описание чертежей
Фиг.1а - блок-схема речевого кодера А100 диапазона высоких частот согласно варианту осуществления.
Фиг.1b - блок-схема реализации А102 широкополосного речевого кодера А100.
Фиг.2а - блок-схема широкополосного речевого декодера В100 согласно варианту осуществления.
Фиг.2b - блок-схема реализации В102 широкополосного речевого декодера В100.
Фиг.3а - блок-схема реализации А112 блока (гребенки) фильтров А110.
Фиг.3b - блок-схема реализации В122 гребенки фильтров В120.
Фиг.4а - полоса частот диапазонов низких и высоких частот для одного примера гребенки фильтров А110.
Фиг.4b - полоса частот диапазонов низких и высоких частот для другого примера гребенки фильтров А110.
Фиг.4с - блок-схема реализации А114 гребенки фильтров А112.
Фиг.4d - блок-схема реализации В124 гребенки фильтров В122.
Фиг.5а - пример графика зависимости частоты от логарифмической амплитуды для речевого сигнала.
Фиг.5b - блок-схема базовой системы кодирования с линейным прогнозированием.
Фиг.6 - блок-схема реализации А122 узкополосного кодера А120.
Фиг.7 - блок-схема реализации В112 узкополосного декодера В110.
Фиг.8а - пример графика зависимости частоты от логарифмической амплитуды для остаточного сигнала для вокализованной речи.
Фиг.8b - пример графика зависимости времени от логарифмической амплитуды для остаточного сигнала для вокализованной речи.
Фиг.9 - блок-схема базовой системы кодирования с линейным прогнозированием, которая также осуществляет долгосрочное прогнозирование.
Фиг.10 - блок-схема реализации А202 кодера А200 диапазона высоких частот.
Фиг.11 - блок-схема реализации А302 генератора возбуждения А300 диапазона высоких частот.
Фиг.12 - блок-схема реализации А402 расширителя спектра А400.
Фиг. 12a - графики спектров сигнала в различных точках в одном примере операции расширения спектра.
Фиг. 12b - графики спектров сигнала в различных точках в другом примере операции расширения спектра.
Фиг. 13 - блок-схема реализации A304 генератора возбуждения A302 диапазона высоких частот.
Фиг. 14 - блок-схема реализации A306 генератора возбуждения A302 диапазона высоких частот.
Фиг. 15 - логическая блок-схема задачи (программного модуля) T100 вычисления огибающей.
Фиг. 16 - блок-схема реализации 492 объединителя 490.
Фиг. 17 иллюстрирует подход к вычислению показателя периодичности сигнала S30 диапазона высоких частот.
Фиг. 18 - блок-схема реализации A312 генератора возбуждения A302 диапазона высоких частот.
Фиг. 19 - блок-схема реализации A314 генератора возбуждения A302 диапазона высоких частот.
Фиг. 20 - блок-схема реализации A316 генератора возбуждения A302 диапазона высоких частот.
Фиг. 21 - логическая блок-схема задачи T200 вычисления коэффициента усиления.
Фиг. 22 - логическая блок-схема реализации T210 задачи T200 вычисления коэффициента усиления.
Фиг. 23a - диаграмма вырезающей функции.
Фиг. 23b - применение вырезающей функции, показанной на фиг. 23a, к подкадрам речевого сигнала.
Фиг. 24 - блок-схема реализации B202 декодера B200 диапазона высоких частот.
Фиг.25 - блок-схема реализации AD10 широкополосного речевого кодера А100.
Фиг.26а - схема реализации D122 линии задержки D120.
Фиг.26b - схема реализации D124 линии задержки D120.
Фиг.27 - схема реализации D130 линии задержки D120.
Фиг.28 - блок-схема реализации AD12 широкополосного речевого кодера AD10.
Фиг.29 - логическая блок-схема способа обработки сигнала MD100 согласно варианту осуществления.
Фиг.30 - логическая блок-схема способа М100 согласно варианту осуществления.
Фиг.31а - логическая блок-схема способа М200 согласно варианту осуществления.
Фиг.31b - логическая блок-схема для реализации М210 способа М200.
Фиг.32 - логическая блок-схема способа М300 согласно варианту осуществления.
Фиг.33 - блок-схема реализации А204 высокополосного кодера А200.
На чертежах и в прилагаемом описании одинаковые позиции обозначают одинаковые или аналогичные элементы или сигналы.
Подробное описание
Описанные здесь варианты осуществления включают в себя системы, способы и устройство, которые могут быть способны обеспечивать расширение узкополосного речевого кодера для поддержки передачи и/или сохранения широкополосных речевых сигналов при увеличении пропускной способности лишь примерно от 800 до 1000 бит/с (бит в секунду). Потенциальные преимущества таких реализаций включают в себя встроенное кодирование для поддержки совместимости с узкополосными системами, относительно легкое выделение и повторное выделение битов между каналами узкополосного кодирования и кодирования в диапазоне высоких частот, освобождение от операции широкополосного синтеза, требующего большого объема вычислений, и поддержку низкой частоты дискретизации для сигналов, обрабатываемых посредством процедур кодирования формы волны, требующих большого объема вычислений.
Если в явном виде не указано в контексте, термин "вычисление" используется здесь для указания любого из его обычных значений, например расчет, генерация и выбор из списка значений. Термин "содержащий", используемый в настоящем описании и формуле изобретения, не исключает других элементов или операций. Выражение "A основано на B" используется для указания любого из его обычных значений, в том числе случаев (i) "A равно B" и (ii) "A основано на, по меньшей мере, B". Термин "Интернет-протокол" включает в себя версию 4, описанную в IETF (Internet Engineering Task Force) RFC (Request for Comments) 791, и последующие версии, например версию 6.
На фиг. 1a показана блок-схема широкополосного речевого кодера A100 согласно варианту осуществления. Гребенка фильтров A110 способна фильтровать широкополосный речевой сигнал S10 для создания узкополосного сигнала S20 и сигнала S30 диапазона высоких частот. Узкополосный кодер A120 способен кодировать узкополосный сигнал S20 для создания узкополосных (NB) параметров фильтра S40 и узкополосного остаточного сигнала S50. Согласно приведенному здесь более подробному описанию, узкополосный кодер A120 обычно способен создавать узкополосные параметры фильтра S40 и кодированный узкополосный сигнал возбуждения S50 в виде индексов кодовой книги или в другой квантованной форме. Кодер A200 диапазона высоких частот способен кодировать сигнал S30 диапазона высоких частот согласно информации в кодированном узкополосном сигнале возбуждения S50 для создания параметров кодирования S60 диапазона высоких частот. Согласно приведенному здесь более подробному описанию, кодер A200 диапазона высоких частот обычно способен создавать параметры кодирования S60 диапазона высоких частот в виде индексов кодовой книги или в другой квантованной форме. В одном конкретном примере, широкополосный речевой кодер A100 способен кодировать широкополосный речевой сигнал S10 со скоростью около 8,55 кбит/с (килобит в секунду), при этом около 7,55 кбит/с используется для узкополосных параметров фильтра S40 и кодированного узкополосного сигнала возбуждения S50, и около 1 кбит/с используется для параметров кодирования S60 диапазона высоких частот.
Может оказаться желательно объединять кодированные узкополосный сигнал и сигнал диапазона высоких частот в единый битовый поток. Например, может оказаться желательно мультиплексировать кодированные сигналы друг с другом для передачи (например, по проводному, оптическому или беспроводному каналу связи) или для сохранения в виде кодированного широкополосного речевого сигнала. На фиг. 1b показана блок-схема реализации A102 широкополосного речевого кодера A100, который включает в себя мультиплексор A130, способный объединять параметры узкополосного фильтра S40, кодированный узкополосный сигнал возбуждения S50 и параметры фильтра S60 диапазона высоких частот в мультиплексированный сигнал S70.
Устройство, включающее в себя кодер A102, также может включать в себя схему, способную передавать мультиплексированный сигнал S70 в канал связи, например проводной, оптический или беспроводной канал. Такое устройство также может быть способно осуществлять одну или несколько канальных операций кодирования на сигнале, например кодирование с коррекцией ошибок (например, сверточное кодирование, совместимое по скорости) и/или кодирование с обнаружением ошибок (например, кодирование с циклической избыточностью) и/или кодирование на одном или нескольких уровнях сетевого протокола (например, Ethernet, TCP/IP, cdma2000).
Может оказаться желательно, чтобы мультиплексор A130 был способен внедрять кодированный узкополосный сигнал (включающий в себя узкополосные параметры фильтра S40 и кодированный узкополосный сигнал возбуждения S50) в виде разделяемого битового потока мультиплексированного сигнала S70, что позволило бы восстанавливать и декодировать кодированный узкополосный сигнал независимо от другой части мультиплексированного сигнала S70, например сигнала диапазона высоких частот и/или диапазона низких частот. Например, мультиплексированный сигнал S70 может быть построен так, что кодированный узкополосный сигнал можно восстанавливать, отбрасывая параметры фильтра S60 диапазона высоких частот. Еще одно потенциальное преимущество такой особенности в том, что она позволяет избегать необходимости в перекодировании кодированного широкополосного сигнала до передачи его в систему, которая поддерживает декодирование узкополосного сигнала, но не поддерживает декодирование части в диапазоне высоких частот.
На фиг.2a показана блок-схема широкополосного речевого декодера B100 согласно варианту осуществления. Узкополосный декодер B110 способен декодировать узкополосные параметры фильтра S40 и кодированный узкополосный сигнал возбуждения S50 для создания узкополосного сигнала S90. Декодер B200 диапазона высоких частот способен декодировать параметры кодирования S60 диапазона высоких частот согласно узкополосному сигналу возбуждения S80, на основании кодированного узкополосного сигнала возбуждения S50, для создания сигнала S100 диапазона высоких частот. В этом примере, узкополосный декодер B110 способен выдавать узкополосный сигнал возбуждения S80 на декодер B200 диапазона высоких частот. Гребенка фильтров B120 способна объединять узкополосный сигнал S90 и сигнал S100 диапазона высоких частот для создания широкополосного речевого сигнала S110.
На фиг.2b показана блок-схема реализации B102 широкополосного речевого декодера B100, который включает в себя демультиплексор B130, способный создавать кодированные сигналы S40, S50 и S60 из мультиплексированного сигнала S70. Устройство, включающее в себя декодер B102, может включать в себя схему, способную принимать мультиплексированный сигнал S70 из канала связи, например, проводного, оптического или беспроводного канала. Такое устройство также может быть способно осуществлять одну или несколько канальных операций декодирования на сигнале, например декодирование с коррекцией ошибок (например, сверточное декодирование, совместимое по скорости) и/или декодирование с обнаружением ошибок (например, декодирование с циклической избыточностью), и/или декодирование на одном или нескольких слоях сетевого протокола (например, Ethernet, TCP/IP, cdma2000).
Гребенка фильтров A110 способна фильтровать входной сигнал согласно схеме расщепленных диапазонов для создания низкочастотного поддиапазона и высокочастотного поддиапазона. В зависимости от критериев конструкции для конкретного приложения, поддиапазоны выходного сигнала могут иметь полосы равной или неравной ширины и могут быть перекрывающимися или неперекрывающимися. Возможна также конфигурация гребенки фильтров A110, которая создает более двух поддиапазонов. Например, такая гребенка фильтров может быть способна создавать один или несколько сигналов диапазона низких частот, которые включают в себя составляющие в частотном диапазоне с частотой ниже, чем в узкополосном сигнале S20 (например, в диапазоне 50-300 Гц). Такая гребенка фильтров также может быть способна создавать один или несколько дополнительных сигналов диапазона высоких частот, которые включают в себя составляющие в частотном диапазоне с частотой выше, чем в сигнале S30 диапазона высоких частот (например, в диапазоне 14-20, 16-20 или 16-32 кГц). В таком случае, можно реализовать широкополосный речевой кодер A100 для отдельного кодирования этого/их сигнала или сигналов, и мультиплексор A130 может быть способен включать в себя дополнительный/е кодированный/е сигнал или сигналы в мультиплексированном сигнале S70 (например, в качестве отдельной части).
На фиг.3a показана блок-схема реализации A112 гребенки фильтров A110, которая способна создавать сигналы двух поддиапазонов, имеющих сниженные частоты дискретизации. Гребенка фильтров A110 способна принимать широкополосный речевой сигнал S10, имеющий высокочастотную (или диапазона высоких частот) часть и низкочастотную (или диапазона низких частот) часть. Гребенка фильтров A112 включает в себя тракт обработки диапазона низких частот, способный принимать широкополосный речевой сигнал S10 и создавать узкополосный речевой сигнал S20, и тракт обработки диапазона высоких частот, способный принимать широкополосный речевой сигнал S10 и создавать речевой сигнал S30 диапазона высоких частот. Фильтр 110 нижних частот фильтрует широкополосный речевой сигнал S10, пропуская выбранный низкочастотный поддиапазон, и фильтр 130 верхних частот фильтрует широкополосный речевой сигнал S10, пропуская выбранный высокочастотный поддиапазон. Поскольку сигналы обоих поддиапазонов имеют более узкие полосы, чем широкополосный речевой сигнал S10, их частоты дискретизации можно снизить до некоторой степени без потери информации. Блок 120 понижения частоты дискретизации снижает частоту дискретизации низкочастотного сигнала согласно нужному коэффициенту децимации (например, путем удаления выборок сигнала и/или замены выборок средними значениями), и блок 140 понижения частоты дискретизации аналогично снижет частоту дискретизации высокочастотного сигнала согласно другому нужному коэффициенту децимации.
На фиг.3b показана блок-схема соответствующей реализации B122 гребенки фильтров B120. Блок 150 повышения частоты дискретизации повышает частоту дискретизации узкополосного сигнала S90 (например, путем вставки нулей и/или путем дублирования выборок), и фильтр 160 нижних частот фильтрует сигнал, преобразованный с повышением частоты дискретизации, пропуская только часть в диапазоне низких частот (например, для предотвращения помехи дискретизации). Аналогично, блок 170 повышения частоты дискретизации повышает частоту дискретизации сигнала S100 диапазона высоких частот, и фильтр 180 верхних частот фильтрует сигнал, преобразованный с повышением частоты дискретизации, пропуская только часть в диапазоне высоких частот. Затем два полосовых сигнала суммируются для формирования широкополосного речевого сигнала S110. В некоторых реализациях декодера B100, гребенка фильтров B120 способна создавать взвешенную сумму двух полосовых сигналов согласно одному или нескольким весовым коэффициентам, полученным и/или вычисленным декодером B200 диапазона высоких частот. Возможна также конфигурация гребенки фильтров B120, которая объединяет более двух полосовых сигналов.
Каждый из фильтров 110, 130, 160, 180 можно реализовать в виде фильтра с конечной импульсной характеристикой (FIR) или фильтра с бесконечной импульсной характеристикой (IIR). Частотные характеристики фильтров 110 и 130 кодера могут иметь переходные области симметричной или асимметричной формы между полосой заграждения и полосой пропускания. Аналогично, частотные характеристики фильтров 160 и 180 декодера могут иметь переходные области симметричной или асимметричной формы между полосой заграждения и полосой пропускания. Может оказаться желательно, но не строго обязательно, чтобы фильтр 110 нижних частот имел такую же характеристику, как фильтр 160 нижних частот, и чтобы фильтр 130 верхних частот имел такую же характеристику, как фильтр 180 верхних частот. В одном примере, две пары фильтров 110, 130 и 160, 180 образуют гребенку квадратурных зеркальных фильтров (QMF), причем пара фильтров 110, 130 имеют такие же коэффициенты, как пара фильтров 160, 180.
В типичном примере, фильтр 110 нижних частот имеет полосу пропускания, которая включает в себя ограниченный диапазон PSTN 300-3400 Гц (например, полосу от 0 до 4 кГц). На фиг. 4a и 4b показаны относительные ширины полосы широкополосного речевого сигнала S10, узкополосного сигнала S20 и сигнала S30 диапазона высоких частот в двух разных примерах реализации. В этих двух конкретных примерах, широкополосный речевой сигнал S10 имеет частоту дискретизации 16 кГц (представляющую частотные составляющие в диапазоне от 0 до 8 кГц), и узкополосный сигнал S20 имеет частоту дискретизации 8 кГц (представляющую частотные составляющие в диапазоне от 0 до 4 кГц).
В примере, приведенном на фиг. 4a, нет значительного перекрывания между двумя поддиапазонами. Сигнал S30 диапазона высоких частот, как показано в этом примере, можно получить с использованием фильтра 130 верхних частот с полосой пропускания 4-8 кГц. В таком случае, может оказаться желательно снизить частоту дискретизации до 8 кГц посредством преобразования с понижением частоты дискретизации фильтрованного сигнала с коэффициентом два. Такая операция, которая, предположительно, значительно снижает вычислительную сложность дальнейших операций обработка сигнала, смещает энергию полосы пропускания в диапазон от 0 до 4 кГц без потери информации.
В альтернативном примере, показанном на фиг. 4b, верхний и нижний поддиапазоны имеют заметное перекрытие, вследствие чего область от 3,5 до 4 кГц описывается сигналами обоих поддиапазонов. Сигнал S30 диапазона высоких частот, представленный в этом примере, можно получить с использованием фильтра 130 верхних частот с полосой пропускания 3,5-7 кГц. В таком случае, может оказаться желательно снизить частоту дискретизации до 7 кГц путем преобразования с понижением частоты дискретизации фильтрованного сигнала с коэффициентом 16/7. Такая операция, которая, предположительно, значительно снижает вычислительную сложность дальнейших операций обработка сигнала, смещает энергию полосы пропускания в диапазон от 0 до 3,5 кГц без потери информации.
В обычной телефонной трубке для телефонной связи, один или несколько преобразователей (т.е. микрофон и телефон или громкоговоритель) страдает недостатком ощутимой характеристики в частотном диапазоне 7-8 кГц. В примере, приведенном на фиг. 4b, часть широкополосного речевого сигнала S10 от 7 до 8 кГц не включена в кодированный сигнал. Другие конкретные примеры фильтра 130 верхних частот имеют полосы пропускания 3,5-7,5 кГц и 3,5-8 кГц.
В некоторых реализациях, обеспечение перекрытия между поддиапазонами, как в примере, приведенном на фиг. 4b, позволяет использовать фильтр нижних частот и/или верхних частот, имеющий плавный спад характеристики в области перекрытия. Такие фильтры обычно легче проектировать, требуют меньшей сложности вычислений и/или вносят меньшую задержку по сравнению с фильтрами с более резкими или "крутыми" характеристиками. Для фильтров, имеющих резкие переходные области, свойственны более высокие боковые полосы (что может приводить к помехе дискретизации), чем у фильтров аналогичного порядка, которые имеют плавный спад характеристики. Фильтры, имеющие резкие переходные области, могут также иметь длинные импульсные характеристики, которые могут приводить к звенящим искажениям. Для реализаций гребенки фильтров, имеющей один или несколько IIR-фильтров, допускающей плавный спад характеристики в области перекрытия, можно использовать фильтр или фильтры, чьи полюсы удалены от единичной окружности, что может играть важную роль для обеспечения устойчивой реализации с фиксированной точкой.
Перекрытие поддиапазонов допускает плавное смешивание нижнего диапазона и верхнего диапазона, что может приводить к уменьшению количества слышимых искажений, снижению помехи дискретизации и/или менее заметному переходу от одного диапазона к другому. Кроме того, эффективность кодирования узкополосного кодера A120 (например, кодера, воспроизводящего форму сигнала) может снижаться с увеличением частоты. Например, качество кодирование узкополосного кодера может снижаться на малых битовых скоростях, особенно при наличии фонового шума. В таких случаях, обеспечение перекрытия поддиапазонов может повысить качество воспроизводимых частотных составляющих в области перекрытия.
Кроме того, перекрытие поддиапазонов допускает плавное смешивание нижнего диапазона и верхнего диапазона, что может приводить к уменьшению количества слышимых искажений, снижению помехи дискретизации и/или менее заметному переходу от одного диапазона к другому. Такая мера может быть особенно желательной для реализации, в которой узкополосный кодер A120 и кодер A200 диапазона высоких частот действуют согласно разным методологиям кодирования. Например, разные техники кодирования могут создавать сигналы, звучащие совершенно по-разному. Кодер, который кодирует спектральную огибающую в виде индексов кодовой книги, может формировать сигнал, имеющий другое звучание, чем кодер, который кодирует амплитудный спектр. Временной кодер (например, кодер на основе импульсно-кодовой модуляции или ИКМ) может формировать сигнал, имеющий другое звучание, чем частотный кодер. Кодер, который кодирует сигнал посредством представления спектральной огибающей и соответствующего остаточного сигнала, может формировать сигнал, имеющий другое звучание, чем кодер, который кодирует сигнал посредством только представления спектральной огибающей. Кодер, который кодирует сигнал в виде представления его формы волны, может создавать выходной сигнал, имеющий другое звучание, чем от синусоидального кодера. В таких случаях, использование фильтров, имеющих резкие переходные области для задания неперекрывающихся поддиапазонов, может приводить к резкому и легко воспринимаемому переходу между поддиапазонами в синтезированном широкополосном сигнале.
Хотя гребенки фильтров QMF, имеющие взаимодополняющие перекрывающиеся частотные характеристики, часто используются в поддиапазонных методиках, такие фильтры непригодны для, по меньшей мере, некоторых из описанных здесь реализаций широкополосного кодирования. Гребенка фильтров QMF на кодере способна создавать значительную помеху дискретизации, которая подавляется соответствующей гребенкой фильтров QMF на декодере. Такая конфигурация может не подходить для приложения, в котором сигнал подвергается значительному искажению между гребенками фильтров, поскольку искажение может снижать эффективность подавления помехи дискретизации. Например, описанные здесь приложения включают в себя реализации кодирования, способные работать на очень низких битовых скоростях. Вследствие очень низкой битовой скорости, велика вероятность того, что декодированный сигнал окажется значительно искаженным по сравнению с исходным сигналом, поэтому использование гребенок фильтров QMF может приводить к неподавленной помехе дискретизации. Приложения, в которых используются гребенки фильтров QMF, обычно имеют более высокие битовые скорости (например, свыше 12 кбит/с для AMR и 64 кбит/с для G.722).
Дополнительно, кодер может быть способен создавать синтезированный сигнал, который, по восприятию, подобен исходному сигналу, но, в действительности, значительно отличается от исходного сигнала. Например, описанный здесь кодер, который выводит возбуждение диапазона высоких частот из узкополосного остатка, может создавать такой сигнал, поскольку фактический остаток диапазона высоких частот может полностью отсутствовать в декодированном сигнале. Использование гребёнок фильтров QMF в таких приложениях может приводить к значительной степени искажения, обусловленного неподавленной помехой дискретизации.
Величину искажения, обусловленного помехой дискретизации QMF, можно снизить, если поддиапазон, подверженный влиянию, узок, поскольку эффект помехи дискретизации ограничивается шириной полосы, равной ширине поддиапазона. Однако в описанных здесь примерах, где каждый поддиапазон включает в себя около половины полосы широкополосного диапазона, искажение, обусловленное неподавленной помехой дискретизации, может оказывать влияние на значительную часть сигнала. На качество сигнала также может влиять положение полосы частот, в которой имеет место неподавленная помеха дискретизации. Например, искажение, создаваемое вблизи центра широкополосного речевого сигнала (например, между 3 и 4 кГц) может быть гораздо менее желательно, чем искажение, возникающее вблизи края сигнала (например, свыше 6 кГц).
Хотя характеристики фильтров гребенки фильтров QMF строго связаны друг с другом, части диапазонов низких и высоких частот гребёнок фильтров A110 и B120 могут быть способны иметь спектры, которые никак не связаны друг с другом за исключением перекрытия двух поддиапазонов. Мы определяем перекрытие двух поддиапазонов как расстояние от точки, в которой частотная характеристика фильтра диапазона высоких частот падает до -20 дБ, до точки, в которой частотная характеристика фильтра диапазона низких частот падает до -20 дБ. В различных примерах гребенки фильтров A110 и/или B120, это перекрытие занимает диапазон от около 200 Гц до около 1 кГц. Диапазон от около 400 до около 600 Гц может представлять желаемый компромисс между эффективностью кодирования и воспринимаемой гладкостью. В одном конкретном примере, упомянутом выше, перекрытие составляет около 500 Гц.
Может оказаться желательно реализовать гребенку фильтров A112 и/или B122 для осуществления операций, показанных на фиг. 4a и 4b, в виде нескольких каскадов. Например, на фиг. 4c показана блок-схема реализации A114 гребенки фильтров A112, которая осуществляет функциональный эквивалент операций высокочастотной фильтрации и преобразования с понижением частоты дискретизации с использованием ряда операций интерполяции, повторной дискретизации, децимации и других операций. Такая реализация допускает упрощение конструирования и/или позволяет сокращать функциональные блоки логики и/или кода. Например, один и тот же функциональный блок можно использовать для осуществления операций децимации до 14 кГц и децимации до 7 кГц, как показано на фиг. 4c. Операцию обращения спектра можно реализовать посредством умножения сигнала на функцию e jnπ или последовательность (-1)n, которая попеременно принимает значения +1 и -1. Операцию формирования спектра можно реализовать посредством фильтра нижних частот, способного формировать сигнал для получения нужной общей характеристики фильтра.
Заметим, что вследствие операции обращения спектра, спектр сигнала S30 диапазона высоких частот переворачивается.
Последующие операции в кодере и соответствующем декодере могут быть организованы соответственно. Например, описанный здесь генератор возбуждения A300 диапазона высоких частот может быть способен создавать сигнал возбуждения S120 диапазона высоких частот, который также имеет спектрально обращенную форму.
На фиг.4d показана блок-схема реализации В124 гребенки фильтров В122, которая осуществляет функциональный эквивалент операций повышения частоты дискретизации и высокочастотной фильтрации с использованием ряда операций интерполяции, повторной дискретизации и других операций. Гребенка фильтров В124 включает в себя операцию обращения спектра в верхнем диапазоне, которая обращает аналогичную операцию, осуществляемую, например, в гребенке фильтров кодера, например в гребенке фильтров А114. В этом конкретном примере, гребенка фильтров В124 также включает в себя узкополосные режекторные фильтры в диапазоне высоких и низких частот, которые ослабляют составляющую сигнала на 7100 Гц, хотя такие фильтры являются необязательными и не всегда входят в состав устройства. Патентная заявка "SYSTEMS, METHODS, AND APPARATUS FOR SPEECH SIGNAL FILTERING", поданн