Системы, способы и устройство широкополосного речевого кодирования
Иллюстрации
Показать всеИзобретение относится к обработке широкополосных речевых сигналов. Широкополосный речевой кодер согласно одному варианту осуществления включает в себя узкополосный кодер и кодер полосы верхних частот. Узкополосный кодер кодирует узкополосную часть широкополосного речевого сигнала как набор параметров фильтра и соответствующий кодированный сигнал возбуждения. Кодер полосы верхних частот кодирует согласно сигналу возбуждения полосы верхних частот часть полосы верхних частот широкополосного речевого сигнала для получения набора параметров фильтра. Кодер полосы верхних частот генерирует сигнал возбуждения полосы верхних частот путем применения нелинейной функции к сигналу, основанному на кодированном узкополосном сигнале возбуждения, для генерации спектрально расширенного сигнала. Технический результат - обеспечение расширения узкополосного речевого кодера для поддержания передачи и/или сохранения широкополосных речевых сигналов при увеличении пропускной способности. 6 н. и 34 з.п. ф-лы, 32 ил.
Реферат
Связанные заявки
Данная заявка испрашивает приоритет предварительной патентной заявки США № 60/667901 под названием "CODING THE HIGH-FREQUENCY BAND OF WIDEBAND SPEECH", поданной 1 апреля 2005 г. Данная заявка также испрашивает приоритет предварительной патентной заявки США № 60/673965 под названием "PARAMETER CODING IN A HIGH-BAND SPEECH CODER", поданной 22 апреля 2005 г.
Область техники, к которой относится изобретение
Данное изобретение относится к обработке сигнала.
Уровень техники
Голосовая связь посредством телефонной сети общего пользования (PSTN) традиционно ограничена по пропускной способности частотным диапазоном 300-3400 кГц. Новые сети для голосовой связи, например сети сотовой связи и передачи голоса по IP (интернет-протокол, VoIP), могут не иметь такие же ограничения по пропускной способности, и может оказаться желательно передавать и принимать по таким сетям голосовые передачи, которые включают в себя широкий частотный диапазон. Например, может оказаться желательно поддерживать частотный диапазон аудио с нижней границей до 50 Гц и/или верхней границей до 7 или 8 кГц. Также может оказаться желательно поддерживать другие приложения, например высококачественную аудио- или аудио/видео-конференцсвязь, которая может иметь аудио-речевой контент в диапазонах, выходящих за пределы традиционных ограничений PSTN.
Расширение диапазона, поддерживаемого речевым кодером, на более высокие частоты может повысить разборчивость речи. Например, информация, которая дифференцирует фрикативные звуки, например 'с' и 'ф', в основном содержится на высоких частотах. Расширение полосы верхних частот может повысить другие качества речи, например присутствие. Например, даже вокализованный гласный звук может иметь спектральную энергию значительно выше ограничения PSTN.
Один подход к широкополосному речевому кодированию предусматривает распространение метода узкополосного речевого кодирования (например, предназначенного для кодирования диапазона 0-4 кГц) на широкий спектр. Например, речевой сигнал можно дискретизировать на более высокой частоте, чтобы он включал в себя высокочастотные компоненты, и метод узкополосного кодирования можно адаптировать для использования большего количества коэффициентов фильтра для представления этого широкополосного сигнала. Методы узкополосного кодирования, например CELP (линейное прогнозирование с кодовым возбуждением), требуют большого объема вычислений, однако широкополосный CELP-кодер может требовать слишком много циклов обработки, чтобы иметь практическое применение во многих мобильных и иных встроенных приложениях. Кодирование всего спектра широкополосного сигнала для достижения нужного качества с использованием такого метода также может приводить к неприемлемо большому увеличению ширины полосы. Кроме того, потребовалось бы транскодирование такого кодированного сигнала, прежде чем передать даже его узкополосную часть и/или декодировать посредством системы, которая поддерживает только узкополосное кодирование.
Другой подход к широкополосному речевому кодированию предусматривает экстраполяцию спектральной огибающей полосы верхних частот из кодированной узкополосной спектральной огибающей. Хотя такой подход можно реализовать без увеличения ширины полосы и без необходимости в транскодировании, грубую спектральную огибающую или формантную структуру части полосы верхних частот речевого сигнала, в общем случае, невозможно точно прогнозировать на основании спектральной огибающей узкополосной части.
Может оказаться желательно реализовать широкополосное речевое кодирование так, чтобы, по меньшей мере, узкополосную часть кодированного сигнала можно было передавать по узкополосному каналу (например, каналу PSTN) без транскодирования или другого значительного изменения. Эффективность широкополосного расширения кодирования также может быть желательной, например, во избежание значительного сокращения количества пользователей, которые могут обслуживаться в приложениях, например, беспроводной сотовой телефонной сети и вещании по беспроводным и проводным каналам.
Сущность изобретения
Согласно одному варианту осуществления способ обработки сигнала включает в себя этапы, на которых синтезируют узкополосный речевой сигнал согласно, по меньшей мере, узкополосному сигналу возбуждения и совокупности узкополосных параметров фильтра, и генерируют сигнал возбуждения полосы верхних частот на основании узкополосного сигнала возбуждения. Способ также включает в себя этапы, на которых синтезируют речевой сигнал полосы верхних частот согласно, по меньшей мере, сигналу возбуждения полосы верхних частот и совокупности параметров фильтра полосы верхних частот, и объединяют узкополосный речевой сигнал и речевой сигнал полосы верхних частот для получения широкополосного речевого сигнала. Согласно этому способу на этапе генерации сигнала возбуждения полосы верхних частот применяют нелинейную функцию к сигналу, который основан на узкополосном сигнале возбуждения, для генерации спектрально расширенного сигнала, и сигнал возбуждения полосы верхних частот основан на спектрально расширенном сигнале.
Согласно другому варианту осуществления устройство включает в себя узкополосный декодер, способный синтезировать узкополосный речевой сигнал согласно, по меньшей мере, узкополосному сигналу возбуждения и совокупности узкополосных параметров фильтра. Устройство также включает в себя декодер полосы верхних частот, способный генерировать сигнал возбуждения полосы верхних частот на основании узкополосного сигнала возбуждения и синтезировать речевой сигнал полосы верхних частот согласно, по меньшей мере, сигналу возбуждения полосы верхних частот и совокупности параметров фильтра полосы верхних частот. Устройство также включает в себя гребенку фильтров, предназначенную для объединения узкополосного речевого сигнала и речевого сигнала полосы верхних частот для получения широкополосного речевого сигнала. Декодер полосы верхних частот может применять нелинейную функцию к сигналу, который основан на узкополосном сигнале возбуждения, для генерации спектрально расширенного сигнала и для генерации сигнала возбуждения полосы верхних частот на основании спектрально расширенного сигнала.
Согласно еще одному варианту осуществления способ обработки сигнала включает в себя этапы, на которых обрабатывают широкополосный речевой сигнал для получения узкополосного речевого сигнала и речевого сигнала полосы верхних частот, и кодируют узкополосный речевой сигнал для получения, по меньшей мере, кодированного узкополосного сигнала возбуждения и совокупности узкополосных параметров фильтра. Способ также включает в себя этапы, на которых генерируют сигнал возбуждения полосы верхних частот на основании узкополосного сигнала возбуждения, причем узкополосный сигнал возбуждения основан на кодированном узкополосном сигнале возбуждения. Способ включает в себя этапы, на которых кодируют речевой сигнал полосы верхних частот согласно сигналу возбуждения полосы верхних частот для получения, по меньшей мере, совокупности параметров фильтра полосы верхних частот. Согласно этому способу на этапе генерации сигнала возбуждения полосы верхних частот применяют нелинейную функцию к сигналу, который основан на узкополосном сигнале возбуждения, для генерации спектрально расширенного сигнала, и сигнал возбуждения полосы верхних частот основан на спектрально расширенном сигнале.
Согласно еще одному варианту осуществления устройство включает в себя гребенку фильтров, предназначенную для фильтрации широкополосного речевого сигнала для получения узкополосного речевого сигнала и речевого сигнала полосы верхних частот, и узкополосный кодер, предназначенный для кодирования узкополосного речевого сигнала для получения, по меньшей мере, кодированного узкополосного сигнала возбуждения и совокупности узкополосных параметров фильтра. Устройство включает в себя кодер полосы верхних частот, предназначенный для генерации сигнала возбуждения полосы верхних частот на основании кодированного узкополосного сигнала возбуждения, и кодирования речевого сигнала полосы верхних частот согласно сигналу возбуждения полосы верхних частот для получения, по меньшей мере, совокупности параметров фильтра полосы верхних частот. Кодер полосы верхних частот может применять нелинейную функцию к сигналу, который основан на кодированном узкополосном сигнале возбуждения, для генерации спектрально расширенного сигнала, и для генерации сигнала возбуждения полосы верхних частот на основании спектрально расширенного сигнала.
Краткое описание чертежей
Фиг.1a - блок-схема широкополосного речевого кодера A100 согласно варианту осуществления.
Фиг.1b - блок-схема реализации A102 широкополосного речевого кодера A100.
Фиг.2a - блок-схема широкополосного речевого декодера B100 согласно варианту осуществления.
Фиг.2b - блок-схема реализации B102 широкополосного речевого кодера B100.
Фиг.3a - блок-схема реализации A112 гребенки фильтров A110.
Фиг.3b - блок-схема реализации B122 гребенки фильтров B120.
Фиг.4a - полоса частот низкого и высокого диапазонов для одного примера гребенки фильтров A110.
Фиг.4b - полоса частот низкого и высокого диапазонов для другого примера гребенки фильтров A110.
Фиг.4c - блок-схема реализации A114 гребенки фильтров A112.
Фиг.4d - блок-схема реализации B124 гребенки фильтров B122.
Фиг.5a - пример графика зависимости логарифмической амплитуды от частоты для речевого сигнала.
Фиг.5b - блок-схема базовой системы кодирования с линейным прогнозированием.
Фиг.6 - блок-схема реализации A122 узкополосного кодера A120.
Фиг.7 - блок-схема реализации B112 узкополосного декодера B110.
Фиг.8a - пример графика зависимости логарифмической амплитуды от частоты для остаточного сигнала для вокализованной речи.
Фиг.8b - пример графика зависимости логарифмической амплитуды от времени для остаточного сигнала для вокализованной речи.
Фиг.9 - блок-схема базовой системы кодирования с линейным прогнозированием, которая также осуществляет долгосрочное прогнозирование.
Фиг.10 - блок-схема реализации A202 кодера A200 полосы верхних частот.
Фиг.11 - блок-схема реализации A302 генератора возбуждения A300 полосы верхних частот.
Фиг.12 - блок-схема реализации A402 расширителя спектра A400.
Фиг.12a - графики спектров сигнала в различных точках в одном примере операции расширения спектра.
Фиг.12b - графики спектров сигнала в различных точках в другом примере операции расширения спектра.
Фиг.13 - блок-схема реализации A304 генератора возбуждения A302 полосы верхних частот.
Фиг.14 - блок-схема реализации A306 генератора возбуждения A302 полосы верхних частот.
Фиг.15 - логическая блок-схема задачи T100 вычисления огибающей.
Фиг.16 - блок-схема реализации 492 объединителя 490.
Фиг.17 иллюстрирует подход к вычислению меры периодичности сигнала S30 полосы верхних частот.
Фиг.18 - блок-схема реализации A312 генератора возбуждения A302 полосы верхних частот.
Фиг.19 - блок-схема реализации A314 генератора возбуждения A302 полосы верхних частот.
Фиг.20 - блок-схема реализации A316 генератора возбуждения A302 полосы верхних частот.
Фиг.21 - логическая блок-схема задачи T200 вычисления коэффициента усиления.
Фиг.22 - логическая блок-схема реализации T210 задачи T200 вычисления коэффициента усиления.
Фиг.23a - диаграмма функции окна.
Фиг.23b - применение функции окна, показанной на фиг.23a, к подкадрам речевого сигнала.
Фиг.24 - блок-схема реализации B202 декодера B200 полосы верхних частот.
Фиг.25 - блок-схема реализации AD10 широкополосного речевого кодера A100.
Фиг.26a - схема реализации D122 линии задержки D120.
Фиг.26b - схема реализации D124 линии задержки D120.
Фиг.27 - схема реализации D130 линии задержки D120.
Фиг.28 - блок-схема реализации AD12 широкополосного речевого кодера AD10.
Фиг.29 - логическая блок-схема способа обработки сигнала MD100 согласно варианту осуществления.
Фиг.30 - логическая блок-схема способа M100 согласно варианту осуществления.
Фиг.31a - логическая блок-схема способа M200 согласно варианту осуществления.
Фиг.31b - логическая блок-схема для реализации M210 способа M200.
Фиг.32 - логическая блок-схема способа M300 согласно варианту осуществления.
На чертежах и в прилагаемом описании одинаковые ссылочные позиции обозначают одинаковые или аналогичные элементы или сигналы.
Подробное описание
Описанные здесь варианты осуществления включают в себя системы, способы и устройство, которые могут обеспечивать расширение узкополосного речевого кодера для поддержки передачи и/или сохранения широкополосных речевых сигналов при увеличении пропускной способности лишь примерно от 800 до 1000 бит/с (бит в секунду). Потенциальные преимущества таких реализаций включают в себя встроенное кодирование для поддержки совместимости с узкополосными системами, относительно легкое распределение и перераспределение битов между каналами узкополосного кодирования и кодирования полосы верхних частот, исключение операции широкополосного синтеза, требующего большого объема вычислений, и поддержку низкой частоты дискретизации для сигналов, обрабатываемых посредством процедур кодирования формы волны, требующих большого объема вычислений.
Если в явном виде не указано в контексте, термин "вычисление" используется здесь для указания любого из его обычных значений, например расчет, генерацию и выбор из списка значений. Термин "содержащий", используемый в настоящем описании и формуле изобретения, не исключает других элементов или операций. Выражение "A основано на B" используется для указания любого из его обычных значений, в том числе случаев (i) "A равно B" и (ii) "A основано на, по меньшей мере, B". Термин "интернет-протокол" включает в себя версию 4, описанную в IETF (Internet Engineering Task Force) RFC (Request for Comments) 791, и последующие версии, например версию 6.
На фиг.1a показана блок-схема широкополосного речевого кодера A100 согласно варианту осуществления. Гребенка фильтров A110 обеспечивает фильтрацию широкополосного речевого сигнала S10 для создания узкополосного сигнала S20 и сигнала S30 полосы верхних частот. Узкополосный кодер A120 может кодировать узкополосный сигнал S20 для создания узкополосных (NB) параметров фильтра S40 и узкополосного остаточного сигнала S50. Согласно приведенному здесь более подробному описанию узкополосный кодер A120 обычно создает узкополосные параметры фильтра S40 и кодированный узкополосный сигнал возбуждения S50 в виде индексов кодовой книги или в другой квантованной форме. Кодер A200 полосы верхних частот кодирует сигнал S30 полосы верхних частот согласно информации в кодированном узкополосном сигнале возбуждения S50 для создания параметров кодирования S60 полосы верхних частот. Согласно приведенному здесь более подробному описанию кодер A200 полосы верхних частот обычно создает параметры кодирования S60 полосы верхних частот в виде индексов кодовой книги или в другой квантованной форме. В одном конкретном примере широкополосный речевой кодер A100 может кодировать широкополосный речевой сигнал S10 со скоростью около 8,55 кбит/с (килобит в секунду), при этом около 7,55 кбит/с используется для узкополосных параметров фильтра S40 и кодированного узкополосного сигнала возбуждения S50, и около 1 кбит/с используется для параметров кодирования S60 полосы верхних частот.
Может оказаться желательным объединять кодированные узкополосный сигнал и сигналы полосы верхних частот в единый битовый поток. Например, может оказаться желательным мультиплексировать кодированные сигналы друг с другом для передачи (например, по проводному, оптическому или беспроводному каналу связи) или для сохранения в виде кодированного широкополосного речевого сигнала. На фиг.1b показана блок-схема реализации A102 широкополосного речевого кодера A100, который включает в себя a мультиплексор A130, обеспечивающий объединение узкополосных параметров фильтра S40, кодированного узкополосного сигнала возбуждения S50, и параметров фильтра S60 полосы верхних частот в мультиплексированный сигнал S70.
Устройство, включающее в себя кодер A102, также может включать в себя схему, обеспечивающую передачу мультиплексированного сигнала S70 в канал связи, например, проводной, оптический или беспроводной канал. Такое устройство также может осуществлять одну или несколько канальных операций кодирования над сигналом, например кодирование с коррекцией ошибок (например, сверточное кодирование, совместимое по скорости) и/или кодирование с обнаружением ошибок (например, кодирование с циклической избыточностью) и/или кодирование на одном или нескольких уровнях сетевого протокола (например, Ethernet, TCP/IP, cdma2000).
Может оказаться желательным, чтобы мультиплексор A130 встраивал кодированный узкополосный сигнал (включающий в себя узкополосные параметры фильтра S40 и кодированный узкополосный сигнал возбуждения S50) в виде разделяемого битового потока мультиплексированного сигнала S70, что позволило бы восстанавливать и декодировать кодированный узкополосный сигнал независимо от другой части мультиплексированного сигнала S70, например сигнала полосы верхних частот и/или сигнала полосы нижних частот. Например, мультиплексированный сигнал S70 может быть сформирован так, что кодированный узкополосный сигнал можно восстанавливать, отбрасывая параметры фильтра S60 полосы верхних частот. Потенциальное преимущество такой особенности в том, что это позволяет избегать необходимости транскодирования кодированного широкополосного сигнала до передачи его в систему, которая поддерживает декодирование узкополосного сигнала, но не поддерживает декодирование части полосы верхних частот.
На фиг.2a показана блок-схема широкополосного речевого декодера B100 согласно варианту осуществления. Узкополосный декодер B110 способен декодировать узкополосные параметры фильтра S40 и кодированный узкополосный сигнал возбуждения S50 для создания узкополосного сигнала S90. Декодер B200 полосы верхних частот декодирует параметры кодирования S60 полосы верхних частот согласно узкополосному сигналу возбуждения S80 на основании кодированного узкополосного сигнала возбуждения S50 для создания сигнала S100 полосы верхних частот. В этом примере узкополосный декодер B110 выдает узкополосный сигнал возбуждения S80 на декодер B200 полосы верхних частот. Гребенка фильтров B120 объединяет узкополосный сигнал S90 и сигнал S100 полосы верхних частот для создания широкополосного речевого сигнала S110.
На фиг.2b показана блок-схема реализации B102 широкополосного речевого декодера B100, который включает в себя демультиплексор B130 для создания кодированных сигналов S40, S50 и S60 из мультиплексированного сигнала S70. Устройство, включающее в себя декодер B102, содержит схему для приема мультиплексированного сигнала S70 из канала связи, например, проводного, оптического или беспроводного канала. Такое устройство также может осуществлять одну или несколько канальных операций декодирования сигнала, например декодирование с коррекцией ошибок (например, сверточное декодирование, совместимое по скорости), и/или декодирование с обнаружением ошибок (например, декодирование с циклической избыточностью), и/или декодирование на одном или нескольких уровнях сетевого протокола (например, Ethernet, TCP/IP, cdma2000).
Гребенка фильтров A110 фильтрует входной сигнал согласно схеме расщепленных диапазонов для создания низкочастотного поддиапазона и высокочастотного поддиапазона. В зависимости от критериев конструкции для конкретного приложения выходные поддиапазоны могут иметь полосы равной или неравной ширины и могут быть перекрывающимися или неперекрывающимися. Возможна также конфигурация гребенки фильтров A110, которая создает более двух поддиапазонов. Например, такая гребенка фильтров может создавать один или несколько сигналов полосы верхних частот, которые включают в себя составляющие в частотном диапазоне с частотой ниже, чем в узкополосном сигнале S20 (например, в диапазоне 50-300 Гц). Такая гребенка фильтров также может создавать один или несколько дополнительных сигналов полосы верхних частот, которые включают в себя составляющие в частотном диапазоне с частотой выше, чем в сигнале S30 полосы верхних частот (например, в диапазоне 14-20, 16-20 или 16-32 кГц). В таком случае можно реализовать широкополосный речевой кодер A100 для отдельного кодирования этого/их сигнала или сигналов и мультиплексор A130 может включать дополнительный/е кодированный/е сигнал или сигналы в мультиплексированный сигнал S70 (например, в качестве отдельной части).
На фиг.3a показана блок-схема реализации A112 гребенки фильтров A110 для создания сигналов двух поддиапазонов, имеющих сниженные частоты дискретизации. Гребенка фильтров A110 принимает широкополосный речевой сигнал S10, имеющий высокочастотную часть (или полосу верхних частот) и низкочастотную часть (или полосу нижних частот). Гребенка фильтров A112 включает в себя тракт обработки полосы нижних частот для приема широкополосного речевого сигнала S10 и создания узкополосного речевого сигнала S20 и тракт обработки полосы верхних частот для приема широкополосного речевого сигнала S10 и создания речевого сигнала S30 полосы верхних частот. Низкочастотный фильтр 110 фильтрует широкополосный речевой сигнал S10, пропуская выбранный низкочастотный поддиапазон, и высокочастотный фильтр 130 фильтрует широкополосный речевой сигнал S10, пропуская выбранный высокочастотный поддиапазон. Поскольку сигналы обоих поддиапазонов имеют более узкие полосы, чем широкополосный речевой сигнал S10, их частоты дискретизации можно снизить до некоторой степени без потери информации. Блок 120 понижения частоты дискретизации снижает частоту дискретизации низкочастотного сигнала согласно нужному коэффициенту децимации (например, путем удаления выборок сигнала и/или замены выборок средними значениями), и блок 140 понижения частоты дискретизации аналогично снижает частоту дискретизации высокочастотного сигнала согласно другому нужному коэффициенту децимации.
На фиг.3b показана блок-схема соответствующей реализации B122 гребенки фильтров B120. Блок 150 повышения частоты дискретизации повышает частоту дискретизации узкополосного сигнала S90 (например, путем вставки нулей и/или путем дублирования выборок), и низкочастотный фильтр 160 фильтрует сигнал, преобразованный с повышением частоты дискретизации, пропуская только часть полосы нижних частот (например, для предотвращения помехи дискретизации). Аналогично блок 170 повышения частоты дискретизации повышает частоту дискретизации сигнала S100 полосы верхних частот, и высокочастотный фильтр 180 фильтрует сигнал, преобразованный с повышением частоты дискретизации, пропуская только часть полосы верхних частот. Затем два полосовых сигнала суммируются для формирования широкополосного речевого сигнала S110. В некоторых реализациях декодера B100 гребенка фильтров B120 создает взвешенную сумму двух полосовых сигналов согласно одному или нескольким весовым коэффициентам, полученным и/или вычисленным декодером B200 полосы верхних частот. Возможна также конфигурация гребенки фильтров B120, которая объединяет более двух полосовых сигнала.
Каждый из фильтров 110, 130, 160, 180 можно реализовать в виде фильтра с конечной импульсной характеристикой (FIR) или фильтра с бесконечной импульсной характеристикой (IIR). Частотные характеристики фильтров 110 и 130 кодера могут иметь переходные области симметричной или асимметричной формы между полосой заграждения и полосой пропускания. Аналогично частотные характеристики фильтров 160 и 180 декодера могут иметь переходные области симметричной или асимметричной формы между полосой заграждения и полосой пропускания. Может оказаться желательно, но не строго обязательно, чтобы низкочастотный фильтр 110 имел такую же характеристику, как низкочастотный фильтр 160, и чтобы высокочастотный фильтр 130 имел такую же характеристику, как высокочастотный фильтр 180. В одном примере две пары фильтров 110, 130 и 160, 180 образуют гребенку квадратурных зеркальных фильтров (QMF), причем пара фильтров 110, 130 имеют такие же коэффициенты, как пара фильтров 160, 180.
В типичном примере низкочастотный фильтр 110 имеет полосу пропускания, которая включает в себя ограниченный диапазон PSTN 300-3400 Гц (например, полосу от 0 до 4 кГц). На фиг.4a и 4b показаны относительные ширины полосы широкополосного речевого сигнала S10, узкополосного сигнала S20 и сигнала S30 полосы верхних частот в двух разных примерах реализации. В этих двух конкретных примерах широкополосный речевой сигнал S10 имеет частоту дискретизации 16 кГц (представляющую частотные составляющие в диапазоне от 0 до 8 кГц) и узкополосный сигнал S20 имеет частоту дискретизации 8 кГц (представляющую частотные составляющие в диапазоне от 0 до 4 кГц).
В примере, приведенном на фиг.4a, нет значительного перекрытия между двумя поддиапазонами. Сигнал S30 полосы верхних частот, как показано в этом примере, можно получить с использованием высокочастотного фильтра 130 с полосой пропускания 4-8 кГц. В таком случае может оказаться желательно снизить частоту дискретизации до 8 кГц посредством преобразования с понижением частоты дискретизации фильтрованного сигнала с коэффициентом два. Такая операция, которая, предположительно, значительно снижает вычислительную сложность дальнейших операций обработки сигнала, смещает энергию полосы пропускания в диапазон от 0 до 4 кГц без потери информации.
В альтернативном примере, показанном на фиг.4b, верхний и нижний поддиапазоны имеют заметное перекрытие, вследствие чего область от 3,5 до 4 кГц описывается сигналами обоих поддиапазонов. Сигнал S30 полосы верхних частот, представленный в этом примере, можно получить с использованием высокочастотного фильтра 130 с полосой пропускания 3,5-7 кГц. В таком случае может оказаться желательно снизить частоту дискретизации до 7 кГц путем преобразования с понижением частоты дискретизации фильтрованного сигнала с коэффициентом 16/7. Такая операция, которая, предположительно, значительно снижает вычислительную сложность дальнейших операций обработки сигнала, смещает энергию полосы пропускания в диапазон от 0 до 3,5 кГц без потери информации.
В обычной телефонной трубке для телефонной связи, один или несколько преобразователей (т.е. микрофон и телефон или громкоговоритель) имеют недостаточный отклик в частотном диапазоне 7-8 кГц. В примере, приведенном на фиг.4b, часть широкополосного речевого сигнала S10 от 7 до 8 кГц не включена в кодированный сигнал. Другие конкретные примеры высокочастотного фильтра 130 имеют полосы пропускания 3,5-7,5 кГц и 3,5-8 кГц.
В некоторых реализациях обеспечение перекрытия между поддиапазонами, как в примере, приведенном на фиг.4b, позволяет использовать низкочастотный и/или высокочастотный фильтр, имеющий плавный спад характеристики в области перекрытия. Такие фильтры обычно легче проектируются, требуют меньшей сложности вычислений и/или вносят меньшую задержку по сравнению с фильтрами с более резкими или "крутыми" характеристиками. Для фильтров, имеющих резкие переходные области, свойственны более высокие боковые полосы (что может приводить к помехе дискретизации), чем у фильтров аналогичного порядка, которые имеют плавный спад характеристики. Фильтры, имеющие резкие переходные области, могут также иметь длинные импульсные характеристики, которые могут приводить к звенящим искажениям. Для реализаций гребенки фильтров, имеющей один или несколько IIR-фильтров, допускающей плавный спад характеристики в области перекрытия, можно использовать фильтр или фильтры, в которых полюсы удалены от единичной окружности, что может играть важную роль для обеспечения устойчивой реализации с фиксированной точкой.
Перекрытие поддиапазонов допускает плавное смешивание нижнего диапазона и верхнего диапазона, что может приводить к уменьшению количества слышимых искажений, снижению помехи дискретизации и/или менее заметному переходу от одного диапазона к другому. Кроме того, эффективность кодирования узкополосного кодера A120 (например, кодера формы сигнала) может снижаться с увеличением частоты. Например, качество кодирования узкополосного кодера может снижаться на малых битовых скоростях, особенно при наличии фонового шума. В таких случаях обеспечение перекрытия поддиапазонов может повысить качество воспроизводимых частотных составляющих в области перекрытия.
Кроме того, перекрытие поддиапазонов допускает плавное смешивание нижнего диапазона и верхнего диапазона, что может приводить к меньшим слышимым искажениям, снижению помехи дискретизации и/или менее заметному переходу от одного диапазона к другому. Такая мера может быть особенно желательной для реализации, в которой узкополосный кодер A120 и кодер A200 полосы верхних частот действуют согласно разным методам кодирования. Например, разные методы кодирования могут создавать сигналы, звучащие совершенно по-разному. Кодер, который кодирует спектральную огибающую в виде индексов кодовой книги, может формировать сигнал, имеющий другое звучание, чем кодер, который кодирует амплитудный спектр. Временной кодер (например, кодер на основе импульсно-кодовой модуляции (ИКМ) может формировать сигнал, имеющий другое звучание, чем частотный кодер. Кодер, который кодирует сигнал посредством представления спектральной огибающей и соответствующего остаточного сигнала, может формировать сигнал, имеющий другое звучание, чем кодер, который кодирует сигнал посредством только представления спектральной огибающей. Кодер, который кодирует сигнал в виде представления его формы волны, может создавать выходной сигнал, имеющий другое звучание, чем от синусоидального кодера. В таких случаях использованием фильтров, имеющих резкие переходные области для задания неперекрывающихся поддиапазонов, может приводить к резкому и легко воспринимаемому переходу между поддиапазонами в синтезированном широкополосном сигнале.
Хотя гребенки фильтров QMF, имеющие взаимодополняющие перекрывающиеся частотные характеристики, часто используются в методах обработки поддиапазонов, такие фильтры непригодны для, по меньшей мере, некоторых из описанных здесь реализаций широкополосного кодирования. Гребенка фильтров QMF в кодере способна создавать значительную помеху дискретизации, которая подавляется соответствующей гребенкой фильтров QMF в декодере. Такая конфигурация может не подходить для приложения, в котором сигнал подвергается значительному искажению между гребенками фильтров, поскольку искажение может снижать эффективность подавления помехи дискретизации. Например, описанные здесь приложения включают в себя реализации кодирования, предназначенные для работы на очень низких битовых скоростях. Вследствие очень низкой битовой скорости велика вероятность того, что декодированный сигнал окажется значительно искаженным по сравнению с исходным сигналом, поэтому использование гребенок фильтров QMF может приводить к неподавленной помехе дискретизации. Приложения, в которых используются гребенки фильтров QMF, обычно имеют более высокие битовые скорости (например, свыше 12 кбит/с для AMR и 64 кбит/с для G.722).
Дополнительно, кодер может создавать синтезированный сигнал, который по восприятию подобен исходному сигналу, но в действительности значительно отличается от исходного сигнала. Например, описанный здесь кодер, который выводит возбуждение полосы верхних частот из узкополосного остаточного сигнала, может создавать такой сигнал, поскольку фактический остаточный сигнал полосы верхних частот может полностью отсутствовать в декодированном сигнале. Использование гребенок фильтров QMF в таких приложениях может приводить к значительной степени искажения, обусловленного скомпенсированной помехой дискретизации.
Величину искажения, обусловленного помехой дискретизации QMF, можно снизить, если поддиапазон, подверженный влиянию, узок, поскольку эффект помехи дискретизации ограничивается шириной полосы, равной ширине поддиапазона. Однако в описанных здесь примерах, где каждый поддиапазон включает в себя около половины полосы широкополосного диапазона, искажение, обусловленное скомпенсированной помехой дискретизации, может оказывать влияние на значительную часть сигнала. На качество сигнала также может влиять положение полосы частот, в которой имеет место скомпенсированная помеха дискретизации. Например, искажение, создаваемое вблизи центра широкополосного речевого сигнала (например, между 3 и 4 кГц), может быть гораздо менее желательно, чем искажение, возникающее вблизи края сигнала (например, свыше 6 кГц).
Хотя отклики фильтров гребенки фильтров QMF строго связаны друг с другом, части полосы нижних частот и полосы верхних частот гребенок фильтров A110 и B120 могут иметь спектры, которые никак не связаны друг с другом за исключением перекрытия двух поддиапазонов. Перекрытие двух поддиапазонов определяется как расстояние от точки, в которой частотная характеристика фильтра полосы верхних частот спадает до -20 дБ, до точки, в которой частотная характеристика фильтра полосы нижних частот спадает до -20 дБ. В различных примерах гребенки фильтров A110 и/или B120, это перекрытие занимает диапазон от около 200 Гц до около 1 кГц. Диапазон от около 400 до около 600 Гц может представлять желаемый компромисс между эффективностью кодирования и воспринимаемым сглаживанием. В одном конкретном примере, упомянутом выше, перекрытие составляет около 500 Гц.
Может оказаться желательно реализовать гребенку фильтров A112 и/или B122 для осуществления операций, показанных на фиг.4a и 4b, в виде нескольких каскадов. Например, на фиг.4c показана блок-схема реализации A114 гребенки фильтров A112, которая осуществляет функциональный эквивалент операций высокочастотной фильтрации и преобразования с понижением частоты дискретизации с использованием ряда операций интерполяции, повторной дискретизации, децимации и других операций. Такая реализация упрощает конструирования и/или обеспечивает повторное использование функциональных блоков логики и/или кода. Например, один и тот же функциональный блок можно использовать для осуществления операций децимации до 14 кГц и децимации до 7 кГц, как показано на фиг.4c. Операцию обращения спектра можно реализовать посредством умножения сигнала на функцию e jnπ или последовательность (-1)n, которая попеременно принимает значения +1 и -1. Операцию формирования спектра можно реализовать посредством низкочастотного фильтра, предназначенного для формирования сигнала для получения нужной общей характеристики фильтра.
Заметим, что вследствие операции обращения спектра спектр сигнала S30 полосы верхних частот переворачивается. Последующие операции в кодере и соответствующем декодере могут быть конфигурированы соответственно. Например, описанный здесь генератор возбуждения A300 полосы верхних частот может создавать сигнал возбуждения S120 полосы верхних частот, который также имеет спектрально обращенную форму.
На фиг.4d показана блок-схема реализации B124 гребенки фильтров B122, которая осуществляет функциональный эквивалент операций повышения частоты дискретизации и высокочастотной фильтрации с использованием ряда операций интерполяции, повторной дискретизации и других операций. Гребенка фильтров B124 включает в себя операцию обращения спектра в верхнем диапазоне, которая обращает аналогичную операцию, осуществляемую, например, в гребенке фильтров кодера, например в гребенке фильтров A114. В этом конкретном примере гребенка фильтров B124 также включает в себя узкополосные режекторные фильтры в нижнем и верхнем диапазоне, которые ослабляют составляющую сигнала на 7100 Гц, хотя такие фильтры являются необязательными и не всегда входят в состав устройства. Патентная заявка "SYSTEMS, METHODS, AND APPARATUS FOR SPEECH SIGNAL FILTERING" поданная совместно с данной заявкой, номер дела поверенного 050551, включает в себя дополнительное описание и чертежи, относящиеся к характеристикам элементов конкретных реализаций гребенок фильтров A110 и B120, и этот материал включен, таким образом, посредством ссылки.
Узкополосный кодер A120 реализован согласно модели источник-фильтр, которая предусматривает кодир