Устройство и способ для генерирования сигнала с улучшенным спектром, используя операцию ограничения энергии

Иллюстрации

Показать все

Изобретение относится к средствам для генерирования сигнала с использованием операции ограничения энергии. Технический результат заключается в повышении качества фрикативных звуков в аудиосигнале. Устройство для генерирования сигнала с улучшенным спектром содержит: генератор сигнала для генерирования сигнала расширения из основного сигнала, причем сигнал расширения содержит частотный диапазон расширения, не включенный в основной сигнал, в котором временная часть сигнала расширения содержит сигналы поддиапазонов для множества поддиапазонов; банк фильтров синтеза для генерирования сигнала, расширенного по частоте, с использованием сигнала расширения, при этом генератор сигнала конфигурируется для того, чтобы выполнить ограничение энергии, чтобы обеспечить, чтобы сигнал, расширенный по частоте, полученный банком фильтров синтеза, был таким, чтобы энергия более высокого частотного диапазона была самое большее равной энергии в более низком частотном диапазоне или была больше, чем энергия более высокого частотного диапазона, самое большее на заранее заданный порог. 6 н. и 12 з.п. ф-лы, 18 ил.

Реферат

Настоящее изобретение основано на кодировании аудио и, в частности, на процедурах улучшения спектра частот, таких как расширение полосы частот, репликация спектрального диапазона или интеллектуальное заполнение провалов (интервалов).

Настоящее изобретение в частности относится к неуправляемым процедурам улучшения спектра частот, то есть когда сторона декодера работает без побочной информации или только с минимальной величиной побочной информации.

Перцепционные аудио кодеки часто квантуют и кодируют только низкочастотную часть всего воспринимаемого частотного диапазона аудио сигнала, особенно когда работают при (относительно) низких скоростях передачи в битах. Хотя этот подход гарантирует приемлемое качество для закодированного низкочастотного сигнала, большинство слушателей воспринимают отсутствие высокочастотной части как ухудшение качества. Чтобы преодолеть эту проблему, недостающая высокочастотная часть может быть синтезирована в соответствии со схемами расширения полосы частот.

Кодеки, известные из уровня техники, часто используют или сохраняющий форму колебаний кодер, такой как AAC, или параметрический кодер, такой как речевой кодер, чтобы закодировать низкочастотный сигнал. Эти кодеры функционируют вплоть до некоторой конечной частоты. Эту частоту называют частотой разделения. Частотная часть ниже частоты разделения называют низким частотным диапазоном. Сигнал выше частоты разделения, который синтезируется посредством схемы расширения полосы частот, называют высоким частотным диапазоном.

Расширение полосы частот типично синтезирует недостающую полосу частот (высокий частотный диапазон) посредством переданного сигнала (низкого частотного диапазона) и дополнительной побочной информации. Если применяется в области кодирования аудио с низкой скоростью передачи в битах, эта дополнительная информация должна потреблять как можно меньше дополнительной скорости передачи в битах. Таким образом, обычно параметрическое представление выбирают для этой дополнительной информации. Это параметрическое представление или передают от кодера при сравнительно низкой скорости передачи в битах (управляемое расширение полосы частот) или оценивают в декодере на основании конкретных характеристик сигнала (неуправляемое расширение полосы частот). В последнем случае эти параметры вообще не потребляют скорости передачи в битах.

Синтез высокого частотного диапазона типично состоит из двух частей:

1. Генерирование высокочастотного контента. Это может быть выполнено или копированием или переключением (частей) низкочастотного контента на высокий частотный диапазон, или вставкой белого или сформированного шума или других искусственных частей сигнала в высокий частотный диапазон.

2. Регулирование сгенерированного высокочастотного контента согласно параметрической информации. Это включает в себя манипуляцию формой, тональностью/уровнем шума и энергией согласно параметрическому представлению.

Цель процесса синтеза обычно состоит в том, чтобы достичь сигнала, который является перцепционно близким к первоначальному сигналу. Если эта цель не может быть полностью достигнута, синтезируемая часть должна быть наименее тревожащей для слушателя.

В отличие от управляемой схемы BWE, неуправляемое расширение полосы частот не может полагаться на дополнительную информацию для синтеза высокого частотного диапазона. Вместо этого оно типично использует эмпирические правила для использования корреляции между низким частотным диапазоном и высоким частотным диапазоном. Принимая во внимание, что большинство музыкальных частей и высказанных речевых сегментов проявляет высокую корреляцию между высоким и низким частотным диапазоном, обычно это не является случаем для неголосовых или фрикативных речевых сегментов. Фрикативные звуки имеют очень небольшую энергию в диапазоне более низких частот, в то же время имея высокую энергию выше некоторой частоты. Если эта частота близка к частоте разделения, то может быть проблематично генерировать искусственный сигнал выше частоты разделения, так как в этом случае низкий диапазон частот в действительности содержит небольшие релевантные части сигнала. Чтобы справиться с этой проблемой, полезно хорошее обнаружение таких звуков.

HE-AAC является известным кодеком, который состоит из сохраняющего форму колебаний кодека для низкого частотного диапазона (AAC) и параметрического кодека для высокого частотного диапазона (SBR). На стороне декодера сигнал высокого частотного диапазона генерируется посредством преобразования декодированного сигнала AAC в частотную область, используя банк фильтров QMF. Затем поддиапазоны сигнала низкого частотного диапазона копируются в высокий частотный диапазон (генерирование высокочастотного контента). Этот сигнал высокого частотного диапазона затем регулируется по спектральной огибающей, тональности и уровню шума на основании переданной параметрической побочной информации (регулирование сгенерированного высокочастотного контента). Так как этот способ использует управляемый подход BWE, слабая корреляция между высоким и низким частотным диапазоном обычно не является проблематичной и может быть преодолена передачей соответствующих наборов параметров. Однако, это требует дополнительной скорости передачи в битах, которая может не быть приемлемой для заданного сценария приложения.

Стандарт ITU G.722.2 является речевым кодеком, который работает только во временной области, то есть без выполнения вычислений в частотной области. Такой декодер выдает сигнал временной области при частоте дискретизации 12,8 кГц, которая затем подвергается повышающей дискретизации до 16 кГц. Генерирование высокочастотного контента (6,4–7,0 кГц) основано на вставке полосового шума. В большинстве режимов работы спектральное формирование шума выполняется без использования побочной информации, только в режиме работы с информацией с самой высокой скоростью передачи в битах вблизи энергии шума, передаваемой в потоке битов. По причинам простоты, и так как не все сценарии приложений могут позволить передачу наборов дополнительных параметров, ниже описано только генерирование сигнала высокого частотного диапазона без использования побочной информации.

Для генерирования сигнала высокого частотного диапазона сигнал шума масштабируют, чтобы он имел ту же энергию как основной сигнал возбуждения. Чтобы придать больше энергии неголосовым частям сигнала, наклон спектра e вычисляют как:

e=

где s - фильтрованный декодированный основной сигнал высокого частотного диапазона с частотой среза 400 Гц. n - индекс выборки. В случае голосовых сегментов, где в высоких частотах присутствует меньше энергии, e приближается к 1, в то время как для неголосовых сегментов e близко к нулю. Чтобы иметь больше энергии в сигнале высокого частотного диапазона для невокализованной речи энергия шума умножается на (1 - e). Наконец, масштабированный сигнал шума фильтруется фильтром, который выводится из фильтра кодирования с линейным предсказанием (LPC) основной полосы частот посредством экстраполяции в области линейных спектральных частот (LSF).

Неуправляемое расширение полосы частот из G.722.2, которое полностью функционирует во временной области, имеет следующие недостатки:

1. Сгенерированный ВЧ контент основан на шуме. Это создает слышимые артефакты, если ВЧ сигнал объединен с тональным, гармоническим низкочастотным сигналом (например, музыкой). Чтобы избежать таких артефактов, G.722.2 сильно ограничивает энергию сгенерированного ВЧ сигнала, что также ограничивает потенциальные выгоды расширения полосы частот. Таким образом, к сожалению, также максимальное возможное улучшение яркости звука или максимальное получаемое увеличение четкости речевого сигнала ограничивается.

2. Так как это неуправляемое расширение полосы частот работает во временной области, операции фильтра вызывают дополнительную алгоритмическую задержку. Эта дополнительная задержка понижает качество пользовательского опыта (восприятия) в сценариях двунаправленной связи или может быть не разрешена в соответствии с терминами требования заданного стандарта технологии связи.

3. Кроме того, так как эта обработка сигнала выполняется во временной области, операции фильтра являются склонными к нестабильностям. Кроме того, фильтры временной области имеют высокую вычислительную сложность.

4. Так как только полная сумма энергии сигнала высокого частотного диапазона адаптирована к энергии основного сигнала (и далее взвешена наклоном спектра), может быть существенное локальное несоответствие энергии на частоте разделения между верхним частотным диапазоном основного сигнала (сигнал непосредственно ниже частоты разделения) и сигналом высокого частотного диапазона. Например, это будет иметь место особенно для тональных сигналов, которые обнаруживают концентрацию энергии в самом низком частотном диапазоне, но содержат мало энергии в верхнем частотном диапазоне.

5. Кроме того, в вычислительном отношении сложно оценить наклон спектра в представлении во временной области. В частотной области экстраполяция наклона спектра может быть сделана очень эффективно. Так как большая часть энергии, например, фрикативных звуков, сконцентрирована в высоком частотном диапазоне, они могут казаться тусклыми, если применяется консервативная стратегия оценки энергии и наклона спектра, как в G.722.2 (см. 1).

В качестве итога, известные неуправляемые или слепые схемы расширения полосы частот могут требовать существенной вычислительной сложности на стороне декодера и, тем не менее, привести к ограниченному качеству аудио специально для проблематичных речевых звуков, таких как фрикативные звуки. Кроме того, управляемые схемы расширения полосы частот, хотя обеспечивают лучшее качество аудио и иногда требуют меньшей вычислительной сложности на стороне декодера, не могут обеспечить существенное сокращение скорости передачи в битах вследствие того, что дополнительная параметрическая информация относительно высокого частотного диапазона может требовать существенной дополнительной скорости передачи в битах относительно кодированного основного сигнала аудио.

Поэтому задачей настоящего изобретения является обеспечить улучшенную концепцию для обработки аудио в контексте неуправляемых технологий улучшения спектра частот.

Эта задача достигается устройством для генерирования расширенного по частоте сигнала согласно пункту 1 формулы изобретения, способом генерирования расширенного по частоте сигнала согласно пункту 11 формулы изобретения, системой, содержащей кодер и устройство для генерирования расширенного по частоте сигнала согласно пункту 12 формулы изобретения, связанного способа по пункту 13, или компьютерной программой согласно пункту 14 формулы изобретения.

Настоящее изобретение обеспечивает схему улучшения спектра частот, например, схему расширения полосы частот аудио кодеков. Эта схема стремится расширить полосу частот аудио кодека без необходимости в дополнительной побочной информации или с только минимальной величиной, значительно уменьшенной по сравнению с полным параметрическим описанием недостающих частотных диапазонов, как в управляемых схемах расширения полосы частот.

Устройство для генерирования сигнала, расширенного по спектру, содержит вычислитель для вычисления значения, описывающего распределение энергии относительно частоты в основном сигнале. Генератор сигнала для генерирования сигнала расширения, содержащего частотный диапазон расширения, не включенный в основной сигнал, работает с использованием основного сигнала и затем выполняет формирование сигнала расширения или основного сигнала так, чтобы спектральная огибающая сигнала расширения зависела от значения, описывающего распределение энергии.

Таким образом, огибающая сигнала расширения, или сигнал расширения, формируется на основании этого значения, описывающего распределение энергии. Это значение может быть легко вычислено, и это значение затем определяет полную форму огибающей или полную форму сигнала расширения. Таким образом, декодер может работать с низкой сложностью, и в то же самое время получается хорошее качество аудио. В частности, распределение энергии в основном сигнале, когда используется для спектрального формирования сигнала с улучшенным спектром, приводит к хорошему качеству аудио даже при том, что обработка вычисления этого значения в отношении распределения энергии, такого как спектральный центроид, в основном сигнале, и регулировка сигнала расширения на основании этого спектрального центроида является процедурой, которая является прямой и может быть выполнена с низкими вычислительными ресурсами.

Кроме того, эта процедура позволяет, чтобы абсолютная энергия и наклон (спад частотной характеристики) сигнала высокого частотного диапазона были выведены из абсолютной энергии и наклона (спада частотной характеристики) основного сигнала, соответственно. Предпочтительно выполнять эти операции в частотной области, так чтобы они могли быть выполнены в вычислительном отношении эффективным способом, так как формирование спектральной огибающей эквивалентно простому умножению частотного представления с амплитудной характеристикой, и эта амплитудная характеристика выводится из значения, описывающего распределение энергии относительно частоты в основном сигнале.

Кроме того, в вычислительном отношении сложно точно оценить и экстраполировать заданную спектральную форму во временной области. Таким образом, такие операции предпочтительно выполняются в частотной области. Фрикативные звуки, например, имеют типично только низкую величину энергии на низких частотах и высокую величину энергии на высоких частотах. Увеличение энергии зависит от фактического фрикативного звука и может начинаться только немного ниже частоты разделения. Во временной области трудно обнаружить эту ситуацию и в вычислительном отношении сложно получить достоверную экстраполяцию из этого. Для нефрикативных звуков обеспечивается, что энергия искусственного сгенерированного спектра всегда понижается с возрастанием частоты.

В другом аспекте применяется процедура временного сглаживания. Обеспечивается генератор сигнала для генерирования сигнала расширения из основного сигнала. Временная часть сигнала расширения или основного сигнала содержит сигналы поддиапазонов для множества поддиапазонов. Обеспечивается контроллер для того, чтобы вычислить одну и ту же информацию сглаживания для множества сигналов поддиапазонов частотного диапазона расширения, и эта информация сглаживания затем используется генератором сигнала для сглаживания множества сигналов поддиапазонов частотного диапазона расширения, в частности, используя одну и ту же информацию сглаживания или, альтернативно, когда сглаживание выполняется перед генерированием высокой частоты, то множество сигналов поддиапазонов основного сигнала все сглаживаются, используя одну и ту же информацию сглаживания. Это временное сглаживание избегает непрерывности меньших быстрых флуктуаций энергии, которые унаследованы от низкого частотного диапазона, для высокого частотного диапазона, и таким образом приводит к более приятному перцепционному впечатлению. Флуктуации энергии низкого частотного диапазона обычно вызываются ошибками квантования лежащего в основе основного кодера, которые приводят к нестабильностям. Сглаживание является адаптивным к сигналу, так как зависит от (долгосрочной) стационарности сигнала. Кроме того, использование одной и той же информации сглаживания для всех индивидуальных поддиапазонов дает уверенность, что когерентность между поддиапазонами не изменяется временным сглаживанием. Вместо этого все поддиапазоны сглаживаются одинаковым образом, и информация сглаживания выводится из всех поддиапазонов или только из поддиапазонов в частотном диапазоне расширения. Таким образом получают значительно лучшее качество аудио по сравнению с индивидуальным сглаживанием сигнала каждого поддиапазона индивидуально.

Другой аспект относится к выполнению ограничения энергии, предпочтительно в конце всей процедуры для генерирования сигнала расширения. Обеспечивается генератор сигнала для генерирования сигнала расширения из основного сигнала, где сигнал расширения содержит частотный диапазон расширения, не включенный в основной сигнал, где временная часть сигнала расширения содержит сигналы поддиапазонов для одного или множества поддиапазонов. Обеспечивается банк фильтров синтеза для генерирования сигнала с улучшенным спектром, используя сигнал расширения, где генератор сигнала конфигурируется для того, чтобы выполнить ограничение энергии, чтобы обеспечить, что сигнал с улучшенным спектром, полученный банком фильтров синтеза, является таким, что энергия более высокого частотного диапазона была, самое большее, равна энергии в более низком частотном диапазоне или больше чем, самое большее, заранее заданный порог. Это может применяться к единственному частотному диапазону расширения. Затем выполняется сравнение или ограничение энергии, используя энергию самого высокого частотного диапазона основного сигнала. Это может также применяться к множеству частотных диапазонов расширения. Затем самый низкий диапазон расширения ограничивают по энергии с использованием энергии самого высокого частотного диапазона основного сигнала, и самый высокий частотный диапазон расширения ограничивают по энергии относительно второго самого высокого частотного диапазона расширения.

Эта процедура особенно полезна для неуправляемых схем расширения полосы частот, но может также помочь в управляемых схемах расширения полосы частот, так как неуправляемые схемы расширения полосы частот являются склонными к артефактам, вызванным спектральными компонентами, которые противоестественно выступают, особенно в сегментах, которые имеют отрицательный наклон спектра. Эти компоненты могут привести к высокочастотным шумовым всплескам. Чтобы избежать такой ситуации, ограничение энергии предпочтительно применяют в конце обработки, что ограничивает приращение энергии по частоте. В одной реализации энергия в поддиапазоне k QMF (квадратурной зеркальной фильтрации) не должна превысить энергию в поддиапазоне k-1 QMF. Это ограничение энергии может быть выполнено на основе интервала времени или для экономии на сложности, только однократно для каждого кадра. Таким образом, обеспечивают уверенность, чтобы избежать любых неестественных ситуаций в схемах расширения полосы частот, так как очень неестественно, что частотный диапазон более высокой частоты имеет больше энергии, чем частотный диапазон более низкой частоты, или что энергия частотного диапазона более высокой частоты выше на большую величину, чем заранее заданный порог, например, чем порог 3 дБ, чем энергия в более низком частотном диапазоне. Как правило, все сигналы речи/музыки имеют низкочастотную характеристику, то есть имеют более или менее монотонно уменьшающуюся величину энергии по частоте. Это может быть применимо к единственному диапазону расширения. Затем выполняют сравнение или ограничение энергии, используя энергию самого высокого частотного диапазона основного сигнала. Это может также быть применено к множеству частотных диапазонов расширения. Затем самый низкий частотный диапазон расширения ограничивают по энергии, с использованием самого высокого частотного диапазона основного сигнала, и самый высокий частотный диапазон расширения ограничивают по энергии относительно второго самого высокого частотного диапазона расширения.

Хотя технологии формирования сигнала с улучшенным спектром, временного сглаживания сигналов поддиапазонов улучшения спектра частот и ограничения энергии могут быть выполнены индивидуально и отдельно друг от друга, эти процедуры могут также быть выполнены все вместе в рамках предпочтительно неуправляемой схемы улучшения спектра частот.

Кроме того, ссылка делается на зависимые пункты формулы изобретения, которые относятся к конкретным вариантам осуществления. Предпочтительные варианты осуществления настоящего изобретения описаны ниже со ссылками на сопроводительные чертежи, на которых:

Фиг.1 иллюстрирует вариант осуществления, содержащий технологии формирования сигнала с улучшенным спектром, сглаживания сигнала поддиапазона и ограничения энергии;

Фиг.2a-2c иллюстрируют различные реализации генератора сигнала согласно Фиг.1;

Фиг.3 иллюстрирует индивидуальные временные части, где кадр имеет длинную временную часть, и слот имеет короткую временную часть, и каждый кадр содержит множество слотов;

Фиг.4 иллюстрирует спектральную диаграмму, указывающую спектральную позицию основного сигнала и сигнала расширения в реализации приложения расширения полосы частот;

Фиг.5 иллюстрирует устройство для генерирования сигнала, расширенного по частоте, используя спектральное формирование на основании значения, описывающего распределение энергии основного сигнала;

Фиг.6 иллюстрирует реализацию технологии формирования;

Фиг.7 иллюстрирует различные спады частотной характеристики, определенные некоторым спектральным центроидом;

Фиг.8 иллюстрирует устройство для генерирования сигнала, расширенного по частоте, содержащего одну и ту же информацию сглаживания для сглаживания сигналов поддиапазонов основного сигнала или сигнала с улучшенным спектром;

Фиг.9 иллюстрирует предпочтительную процедуру, примененную контроллером и генератором сигнала согласно Фиг.8;

Фиг.10 иллюстрирует дополнительную процедуру, применяемую контроллером и генератором сигнала согласно Фиг.8;

Фиг.11 иллюстрирует устройство для генерирования расширенного по частоте сигнала, которое выполняет процедуру ограничения энергии в сигнале расширения так, чтобы более высокий частотный диапазон сигнала расширения мог, самое большее, иметь ту же энергию смежного более низкого частотного диапазона или был, самое большее, выше по энергии на заранее заданный порог;

Фиг.12a иллюстрирует спектр сигнала расширения перед ограничением;

Фиг.12b иллюстрирует спектр согласно Фиг.12a после ограничения;

Фиг.13 иллюстрирует процесс, выполняемый генератором сигнала в одной реализации;

Фиг.14 иллюстрирует одновременное применение технологий формирования, сглаживания и ограничения энергии в пределах области банка фильтров; и

Фиг.15 иллюстрирует систему, содержащую кодер и декодер неуправляемого улучшения спектра частот.

Фиг.1 иллюстрирует устройство для генерирования сигнала 140, расширенного по частоте, в предпочтительной реализации, в которой технологии формирования, временного сглаживания и ограничения энергии выполняются все вместе. Однако, эти технологии могут также быть индивидуально применены, как описано в контексте Фиг.5-7 для технологии формирования, Фиг.8-10 для технологии сглаживания и Фиг.11-13 для технологии ограничения энергии.

Предпочтительно устройство для генерирования сигнала 140, расширенного по частоте, согласно Фиг.1 содержат банк фильтров анализа или декодер 100 основного сигнала или любое другое устройство для того, чтобы обеспечить основной сигнал в области банка фильтров, например, в области QMF, когда декодер основного сигнала выдает сигналы поддиапазона QMF. Альтернативно, банк 100 фильтров анализа может быть банком фильтров QMF или другим банком фильтров анализа, когда основной сигнал является сигналом временной области или предоставлен в любой области, отличной от спектральной области или области поддиапазонов.

Индивидуальные сигналы поддиапазонов основного сигнала 110, которые доступны в 120, затем вводятся в генератор 200 сигнала, и вывод генератора 200 сигнала является сигналом 130 расширения. Этот сигнал 130 расширения содержит частотный диапазон расширения, который не включен в основной сигнал 110, и генератор сигнала генерирует этот сигнал расширения, например, не (только) формируя шум или подобное, но используя основной сигнал 110 или предпочтительно поддиапазоны 120 основного сигнала. Банк фильтров синтеза затем комбинирует поддиапазоны 120 основного сигнала и сигнал 130 с улучшенным спектром, и банк 300 фильтров синтеза затем выводит сигнал, расширенный по частоте.

В основном, генератор 200 сигнала содержит блок 202 генерирования сигнала, который обозначен как "генерирование ВЧ", где ВЧ обозначает высокую частоту. Однако, расширение по частоте (улучшение спектра) на Фиг.1 не ограничено технологией, в которой генерируется высокая частота. Вместо этого также могут генерироваться низкая частота или промежуточная частота и может даже иметь место регенерация спектрального провала в основном сигнале, то есть когда основной сигнал имеет более высокий частотный диапазон и более низкий частотный диапазон и когда имеется недостающий промежуточный частотный диапазон, как например, известно из интеллектуального заполнения промежутка (IGF). Генерирование сигнала 202 может содержать процедуры копирования, как известно из HE-AAC, или зеркальные процедуры, то есть когда для генерирования высокочастотного диапазона или диапазона улучшения спектра основной сигнал отражают, а не копируют.

Кроме того, генератор сигнала содержит функциональные возможности 204 формирования, который управляется вычислением для того, чтобы вычислить значение, указывающее распределение энергии относительно частоты в основном сигнале 120. Это формирование может быть формированием сигнала, сгенерированного блоком 202, или альтернативно, формированием низкой частоты, когда порядок между функциональными возможностями 202 и 204 инвертируется, как описано в контексте Фиг.2a - Фиг.2c.

Другими функциональными возможностями являются функциональные возможности 206 временного сглаживания, которыми управляет контроллер 800 сглаживания. Ограничение 208 энергии предпочтительно выполняют в конце процедуры, но ограничение энергии может также быть помещено в любую другую позицию в цепи обработки функциональных возможностей 202-208, пока гарантируется, что объединенный сигнал, выведенный банком 300 фильтров синтеза, удовлетворяет критерию ограничения энергии, например, частотный диапазон более высокой частоты не должен иметь больше энергии, чем смежный частотный диапазон более низкой частоты, или что частотный диапазон более высокой частоты не должен иметь большей энергии по сравнению со смежным частотным диапазоном более низкой частоты, где приращение ограничивается, самое большее, заранее заданным порогом, таким как 3 дБ.

Фиг.2a иллюстрирует другой порядок, в котором формирование 204 выполняется вместе с временным сглаживанием 206 и ограничением 208 энергии прежде, чем выполнить генерирование ВЧ 202. Таким образом, основной сигнал формируют/сглаживают/ограничивают, и затем уже окончательный сформированный/сглаженный/ограниченный сигнал копируют или отражают в частотный диапазон расширения. Кроме того, важно понять, что порядок этапов 204, 206, 208 может быть выполнен любым способом, как можно также видеть, когда Фиг.2a сравнивается с порядком соответствующих этапов на Фиг.1.

Фиг.2b иллюстрирует ситуацию, в которой временное сглаживание и формирование выполняются в отношении низкочастотного или основного сигнала, и генерирование ВЧ 202 затем выполняется перед ограничением 208 энергии. Кроме того, Фиг.2c иллюстрирует ситуацию, в которой выполняется формирование сигнала для низкочастотного сигнала и последующее генерирование ВЧ, например, копированием, или выполняется отражение, чтобы получить сигнал для частотного диапазона расширения, и этот сигнал затем сглаживается 206 и ограничивается 208 по энергии.

Кроме того, нужно подчеркнуть, что функциональные возможности формирования, временного сглаживания и ограничения энергии могут все быть выполнены, применяя некоторые коэффициенты к сигналу поддиапазона, как, например, иллюстрировано на Фиг.14. Формирование реализовано умножителями 402a, 1401a и 1400a для индивидуальных частотных диапазонов i, i + 1, i + 2.

Кроме того, временное сглаживание выполняется умножителями 1402b, 1401b и 1400b. Дополнительно, ограничение энергии выполняется коэффициентами 1402c, 1401c и 1400c ограничения для индивидуальных частотных диапазонов i + 2, i + 1 и i. Вследствие того факта, что все эти функциональные возможности реализованы в этом варианте осуществления коэффициентами умножения, нужно отметить, что все эти функциональные возможности могут также быть применены к индивидуальным сигналам поддиапазона посредством единственного коэффициента умножения 1402, 1401, 1400 для каждого индивидуального частотного диапазона, и этот единственный "главный" коэффициент умножения может быть затем произведением индивидуальных коэффициентов 1402a, 1402b и 1402c для частотного диапазона i + 2, и ситуация будет аналогичной в других частотных диапазонах i + 1 и i. Таким образом, вещественные/мнимые значения выборок поддиапазона для этих поддиапазонов затем умножаются на этот единственный "главный" коэффициент умножения, и выходной результат получают как перемноженные вещественные/мнимые значения выборки поддиапазона на выходе блока 1402, 1401 или 1400, которые затем вводят в банк 300 фильтров синтеза согласно Фиг.1. Таким образом, выходной сигнал блоков 1400, 1401, 1402 соответствует сигналу 1300 расширения, типично охватывающему частотный диапазон расширения, не включенный в основной сигнал.

Фиг.3 иллюстрирует диаграмму, указывающую различные временные разрешения, используемые в процессе генерирования сигнала. В основном, сигнал обрабатывается по-кадрово. Это означает, что банк 100 фильтров анализа предпочтительно реализован, чтобы генерировать следующие во времени кадры 320 сигналов поддиапазонов, где каждый кадр 320 сигналов поддиапазонов содержит один или множество слотов или слотов 340 банка фильтров. Хотя Фиг.3 иллюстрирует четыре слота для каждого кадра, может также быть 2, 3 или даже больше, чем четыре слота для каждого кадра. Как иллюстрировано на Фиг.14, формирование сигнала расширения или основного сигнала на основании распределения энергии основного сигнала выполняется однократно для каждого кадра. С другой стороны, временное сглаживание выполняется с высоким временным разрешением, то есть, предпочтительно однократно для каждого слота 340, и ограничение энергии может еще раз быть выполнено однократно для каждого кадра, когда требуется низкая сложность, или однократно для каждого слота, когда более высокая сложность не является проблематичной для конкретной реализации.

Фиг.4 иллюстрирует представление спектра, имеющего пять поддиапазонов 1, 2, 3, 4, 5 в частотном диапазоне основного сигнала. Кроме того, пример на Фиг.4 имеет четыре сигнала поддиапазонов или поддиапазоны 6, 7, 8, 9 в диапазоне сигнала расширения, и диапазон основного сигнала и диапазон сигнала расширения отделены частотой 420 разделения. Кроме того, иллюстрируется начальный диапазон 410 частот, который используется для вычисления значения, описывающего распределение энергии относительно частоты с целью формирования 204, как описано ниже. Эта процедура гарантирует, что самый низкий или множество самых низких поддиапазонов не используются для вычисления значения, описывающего распределение энергии в отношении частоты, чтобы получить лучшее регулирование сигнала расширения.

Затем иллюстрируется реализация генерирования 202 частотного диапазона расширения, не включенного в основной сигнал, используя основной сигнал.

Чтобы генерировать искусственный сигнал выше частоты разделения, типично значения QMF из частотного диапазона ниже частоты разделения копируются ("вставляются") в высокий частотный диапазон. Эта операция копирования может быть выполнена, только перемещая выборки QMF из диапазона более низкой частоты в область выше частоты разделения или дополнительно (зеркально) отражая эти выборки. Преимущество отражения состоит в том, что сигнал непосредственно ниже частоты разделения и искусственный сгенерированный сигнал будут иметь очень схожую структуру энергии и гармоник на частоте разделения. Отражение или копирование могут быть применены к единственному поддиапазону основного сигнала или ко множеству поддиапазонов основного сигнала.

В случае упомянутого банка фильтров QMF зеркальная вставка предпочтительно состоит из отрицательного комплексно сопряженного значения базового частотного диапазона, чтобы минимизировать смещение поддиапазонов в области перехода:

Qr (t, xover +f-1) =-Qr (t, xover-f); f = 1.. nBands,

Qi (t, xover + f-1) = Qi (t, xover-f); f = 1.. nBands.

Здесь Qr (t, f) является вещественным значением QMF при индексе t времени и индексе f поддиапазона, и Qi (t, f) является мнимым значением; xover - поддиапазон QMF, относящийся к частоте разделения; nBands - целое число частотных диапазонов, которые должны быть экстраполированы. Знак минус в вещественной части обозначает отрицательную комплексно сопряженную операцию.

Предпочтительно, генерирование ВЧ 202 или вообще генерирование частотного диапазона расширения полагается на представление поддиапазона, предоставленное блоком 100. Предпочтительно, изобретенное устройство для генерирования сигнала, расширенного по частоте, должно быть декодером множества полос пропускания, который в состоянии повторяющимся образом осуществлять выборки декодированного сигнала 110, чтобы варьировать частоты осуществления выборок, чтобы поддержать, например узкополосный, широкополосный и сверхширокополосный выходной сигнал. Поэтому банк 100 фильтров QMF берет декодированный сигнал временной области в качестве ввода. Посредством заполнения нулями в частотной области, банк фильтров QMF может быть использован для повторения выборки декодированного сигнала, и один и тот же банк фильтров QMF предпочтительно также используется для создания сигнала высокого частотного диапазона.

Предпочтительно, устройство для генерирования сигнала, расширенного по частоте, работает, чтобы выполнять все операции в частотной области. Таким образом, существующая система, уже имеющая внутреннее представление частотной области на стороне декодера, расширяется, как иллюстрируется на Фиг.1, посредством указания блока 100 в качестве "основного декодера", который обеспечивает, например, уже выходной сигнал области банка фильтров QMF.

Это представление просто повторно используется для дополнительных задач, подобных преобразования частоты осуществления выборок и других манипуляций с сигналом, которые предпочтительно выполняются в частотной области (например, вставка сформированного комфортного шума, высокочастотная/низкочастотная фильтрация). Таким образом, никакое дополнительное время–частотное преобразование не должно быть вычислено.

Вместо использования шума для ВЧ контента, сигнал высокого частотного диапазона генерируется на основании сигнала низкого частотного диапазона только в этом варианте осуществления. Это может быть выполнено посредством копирования или «заворачивания» (зеркального отражения) операции в частотной области. Таким образом, устанавливается сигнал высокого частотного диапазона с той же самой гармонической и временной точной структурой как у сигнала низкого частотного диапазона. Это избегает в вычислительном отношении дорогостоящего «заворачивания» сигнала временной области и дополнительной задержки.

Ниже функциональные возможности технологии формирования 204 согласно Фиг.1 описаны в контексте Фиг.5, 6, и 7, где формирование может быть выполнено в контексте Фиг.1, 2a-2c или отдельно и индивидуально вместе с другими функциональными возможностями, известными из других управляемых или неуправляемых технологий улучшения спектра частот.

Фиг.5 иллюстрирует устройство для генерирования сигнала 140, расширенного по частоте, содержащее вычислитель 500 для вычисления значения, описывающего распределение энергии относительно частоты в основном сигнале 120. Кроме того, генератор 200 сигнала конфигурируется для генерирования сигнала расширения, содержащего частотный диапазон расширения, не включенный в основн