2494477 - Устройство и способ генерирования выходных данных расширения полосы пропускания

Устройство и способ генерирования выходных данных расширения полосы пропускания

Иллюстрации

Показать все

Изобретение относится к устройству и способу генерирования выходных данных расширения полосы пропускания (BWE), к звуковому кодирующему устройству и звуковому декодеру. Техническим результатом является обеспечение эффективного кодирования без заметных артефактов, особенно для речевых сигналов. Устройство (100) для генерирования выходных данных расширения полосы пропускания (102) для звукового сигнала (105) включает измеритель минимального уровня шума (ПО), энергетическую характеристику сигнала (120) и процессор (130). Звуковой сигнал (105) включает компоненты в первом частотном диапазоне (105а) и компоненты во втором частотном диапазоне (105b); выходные данные расширения полосы пропускания (102) приспособлены, чтобы управлять синтезом компонентов во втором частотном диапазоне (105b). Измеритель минимального уровня шума (ПО) измеряет данные минимального уровня шума (115) второго частотного диапазона (105b) для временной части (T) звукового сигнала (105). Энергетическая характеристика сигнала (120) получает данные распределения энергии (125); данные распределения энергии (125) характеризуют распределение энергии в спектре временной части (Т) звукового сигнала (105). Процессор (130) объединяет данные минимального уровня шума (115) и данные распределения энергии (125), чтобы получить выходные данные расширения полосы пропускания (102). 8 н. и 8 з.п. ф-лы, 9 ил.

Реферат

Данное изобретение имеет отношение к устройству и способу генерирования выходных данных расширения полосы пропускания (BWE), к звуковому кодирующему устройству и звуковому декодеру.

Естественное звуковое кодирование и речевое кодирование - два основных класса кодер-декодеров для звуковых сигналов. Естественное звуковое кодирование обычно используется для музыкальных или произвольных сигналов при средних скоростях передачи битов (битрейт) и обычно предлагает широкие звуковые полосы пропускания. Речевые кодирующие устройства, в основном, ограничиваются воспроизведением речи и могут использоваться при очень низкой скорости передачи битов (битрейт). Широкополосная речь предлагает основное улучшение субъективного качества по сравнению с узкополосной речью. Далее, вследствие огромного роста мультимедийного пространства, передача музыкальных и других неречевых сигналов, а так же их хранение и, например, передача для радио/телевидения с высоким качеством по телефонным системам является желательным свойством.

Чтобы радикально уменьшить скорость передачи битов (битрейт), исходное кодирование может выполняться посредством использования перцепционных звуковых кодер-декодеров с разделенной полосой. Эти естественные звуковые кодер-декодеры используют перцепционное несоответствие и статистическую избыточность в сигнале. В случае, если использование вышеупомянутого в одиночку оказывается не достаточным относительно данных ограничений скорости передачи битов (битрейта), уменьшается частота дискретизации. Также часто применяется сокращение числа структурных уровней, что допускает случайное слышимое искажение квантования, и использование деградации стерео области посредством объединенного стерео кодирования или параметрического кодирования двух или более каналов. Злоупотребление такими способами приводит к досадной перцепционной деградации. Чтобы улучшить эффективность кодирования, используются способы расширения полосы пропускания, такие как репликация спектрального диапазона (SBR), как эффективный способ генерирования высокочастотных сигналов в основанном на HFR (высокочастотное восстановление) кодер-декодере.

При записи и передаче акустического сигнала всегда присутствует минимальный уровень шума, такой как фоновый шум. Чтобы генерировать подлинный акустический сигнал на стороне декодера, минимальный уровень шума должен или передаваться или генерироваться. В последнем случае должен быть определен минимальный уровень шума в оригинальном звуковом сигнале. В репликации спектрального диапазона это выполняется инструментами SBR, или с SBR зависимыми модулями, которые генерируют параметры, характеризующие (помимо прочего) минимальный уровень шума, и передаваемые декодеру для восстановления минимального уровня шума.

В WO 00/45379, описан инструмент адаптивного минимального уровня шума, который обеспечивает достаточный уровень шума в синтезируемых частотных составляющих высокого диапазона. Однако, беспокоящие артефакты в частотных составляющих высокого диапазона генерируются, если в основном диапазоне происходят кратковременные флуктуации энергии или так называемые помехи (переходные процессы). Эти артефакты перцепционно не приемлемы, и прототипы не обеспечивают приемлемое решение (особенно, если полоса пропускания ограничена).

Задача данного изобретения, поэтому, состоит в том, чтобы обеспечить устройство, которое обеспечивает эффективное кодирование без заметных артефактов, особенно, для речевых сигналов.

Эта задача достигается посредством использования устройства для генерирования SBR выходных данных по п.1, кодирующего устройства по п.7, способа генерирования SBR выходных данных по п.10, декодера по п.13, способа декодирования по п.14 или кодированного звукового сигнала по п.16.

Данное изобретение основывается на обнаружении того, что адаптация измеренного минимального уровня шума, зависящая от распределения энергии звукового сигнала в пределах временной части, может улучшить перцепционное качество синтезированного звукового сигнала на стороне декодера. Хотя с теоретической точки зрения адаптация или обращение с измеренным минимальным уровнем шума не требуется, традиционные техники генерирования минимального уровня шума показывают ряд недостатков. С одной стороны, оценка минимального уровня шума, основанная на мере тональности, выполненная традиционными способами, сложна и не всегда точна. С другой стороны, цель минимального уровня шума состоит в том, чтобы воспроизвести правильное тональное впечатление на сторону декодера. Даже, если субъективное тональное впечатление для оригинального звукового сигнала и декодированного сигнала - то же самое, все еще имеется возможность генерирования артефактов; например, для речевых сигналов.

Экспертые оценки показывают, что различные типы речевых сигналов должны рассматривать по-разному. В вокализованных речевых сигналах понижение вычисленного минимального уровня шума приводит к перцепционно более высокому качеству по сравнению с оригинальным расчетным минимальным уровнем шума. В результате в этом случае получаются менее реверберирующие речевые звуки. В случае, если звуковой сигнал включает шипящие, искусственное увеличение минимального уровня шума может скрыть недостатки способа наложения заплат, относящегося к шипящим звукам. Например, кратковременные флуктуации (помехи (переходные процессы)) приводят к появлению беспокоящих артефактов при смещении или преобразовании в более высокий частотный диапазон, и увеличение минимального уровня шума может также скрыть эти флуктуации энергии.

Упомянутые помехи (переходные процессы) могут быть определены как части в пределах обычных сигналов, где появляется сильное увеличение энергии в пределах короткого промежутка времени, которое может быть или может не быть ограничено на определенной частотной области. Примерами помех (переходных процессов) являются удары кастаньет и ударных музыкальных инструментов, а также и определенные звуки человеческого голоса, такие как, например, буквы: П, Т, К. Обнаружение этого вида помех (переходных процессов) осуществляется всегда одинаково или при помощи того же самого алгоритма (использующего переходный порог), который не зависит от того, классифицируется ли сигнал как речь или он классифицируется как музыка. Кроме того, возможное различие между вокализованной и невокализованной речью не влияет на обычный или классический механизм обнаружения помех (переходных процессов).

Следовательно, осуществления обеспечивают уменьшение минимального уровня шума для сигналов, таких как вокализованная речь, и увеличение минимального уровня шума для сигналов, включающих, например, шипящие звуки.

Чтобы отличить различные сигналы, осуществления используют данные распределения энергии (например, параметр шипения), которые показывают, расположена ли энергия, главным образом, в высоких частотах или в низких частотах, или, другими словами, проявляет ли спектральное представление звукового сигнала увеличение или уменьшение наклона к высоким частотам. Дальнейшие осуществления также используют первый коэффициент LPC (LPC = линейное кодирование с предсказанием), чтобы генерировать параметр шипения.

Существуют две возможности изменить минимальный уровень шума. Первая возможность состоит в том, чтобы передать указанный параметр шипения, так, чтобы декодер мог использовать параметр шипения для регулирования минимального уровня шума (например, чтобы увеличить или уменьшить минимальный уровень шума в дополнение к вычисленному минимальному уровню шума). Этот параметр шипения может быть передан в дополнение к параметру минимального уровня шума, вычисленному обычными способами, или вычисленному на стороне декодера. Вторая возможность состоит в том, чтобы изменить переданный минимальный уровень шума посредством использования параметра шипения (или данных распределения энергии) так, чтобы кодирующее устройство передавало модифицированные данные минимального уровня шума декодеру, и на стороне декодера никакие модификации не требуются - может использоваться тот же самый декодер. Поэтому, манипулирование минимальным уровнем шума может, в принципе, быть выполнено на стороне кодирующего устройства, так же как и на стороне декодера.

Репликация спектрального диапазона, как пример расширения полосы пропускания, полагается на SBR фреймы при определении временной части, в которой звуковой сигнал разделяется на компоненты в первом частотном диапазоне и втором частотном диапазоне. Минимальный уровень шума может быть измерен и/или модифицирован для целого SBR фрейма. Альтернативно, также возможно, что SBR фрейм разделяется на огибающие шума так, чтобы для каждой огибающей шума могло быть выполнено регулирование минимального уровня шума. Другими словами, временное разрешение инструментов минимального уровня шума определяется так называемыми огибающими шума в SBR фреймах. Согласно Стандарту (ISO/IEC 14496-3), каждый SBR фрейм включает максимум две огибающие шума, так чтобы регулирование минимального уровня шума могло быть выполнено на основе частичных SBR фреймов. Для некоторых применений этого может быть достаточно. Однако также можно увеличить число огибающих шума, чтобы улучшить модель временной переменной тональности.

Следовательно, осуществления включают устройство для генерирования BWE выходных данных для звукового сигнала, где звуковой сигнал включает компоненты в первом частотном диапазоне и втором частотном диапазоне, и BWE выходные данные приспосабливаются для управления синтезом компонентов во втором частотном диапазоне. Устройство включает измеритель минимального уровня шума для измерения данных минимального уровня шума второго частотного диапазона для временной части звукового сигнала. Так как измеренный минимальный уровень шума влияет на тональность звукового сигнала, измеритель минимального уровня шума может включать измеритель тональности. Альтернативно, измеритель минимального уровня шума может быть реализован, чтобы измерить зашумленность сигнала, чтобы получить минимальный уровень шума. Устройство далее включает энергетическую характеристику сигнала для получения данных распределения энергии, где данные распределения энергии характеризуют распределение энергии в спектре временной части звукового сигнала и, наконец, устройство включает процессор для объединения данных минимального уровня шума и данных распределения энергии, чтобы получить BWE выходные данные.

В дальнейших осуществлениях энергетическая характеристика сигнала приспосабливается, чтобы использовать параметр шипения в качестве данных распределения энергии; и параметр шипения может, например, быть первым LPC коэффициентом. В дальнейших осуществлениях процессор приспосабливается, чтобы добавить данные распределения энергии к битовому потоку закодированных звуковых данных или, альтернативно, процессор приспосабливается, чтобы отрегулировать параметр минимального уровня шума таким образом, что минимальный уровень шума или увеличивается или уменьшается в зависимости от данных распределения энергии (зависящих от сигнала). В этом осуществлении измеритель минимального уровня шума сначала измеряет минимальный уровень шума, чтобы генерировать данные минимального уровня шума, которые позднее будут приспособлены или модифицированы процессором.

В дальнейших осуществлениях, временная часть - SBR фрейм, и энергетическая характеристика сигнала приспосабливается, чтобы генерировать ряд огибающих минимального уровня шума на SBR фрейм. Как следствие, измеритель минимального уровня шума, так же как энергетическая характеристика сигнала, может быть приспособлен для измерения данных минимального уровня шума, а так же полученных данных распределения энергии для каждой огибающей минимального уровня шума. Число огибающих минимального уровня шума может, например, быть 1, 2, 4… на SBR фрейм.

Дальнейшие осуществления включают также инструмент репликации спектрального диапазона, используемый в декодере, чтобы генерировать компоненты во втором частотном диапазоне звукового сигнала. В этом генерировании используются выходные данные репликации спектрального диапазона и необработанное спектральное представление сигнала для компонентов во втором частотном диапазоне. Инструмент репликации спектрального диапазона включает вычислительный блок минимального уровня шума, который формируется, чтобы вычислить минимальный уровень шума в соответствии с данными распределения энергии, и объединитель для объединения необработанного спектрального представления сигнала с вычисленным минимальным уровнем шума, чтобы генерировать компоненты во втором частотном диапазоне с вычисленным минимальным уровнем шума.

Преимущество осуществлений - объединение внешнего решения (речь/аудио) с внутренним вокализованным речевым детектором или внутренним детектором шипения (энергетическая характеристика сигнала), контролирующим случай, когда декодеру сообщается о дополнительном шуме, или регулирующим вычисленный минимальный уровень шума. Для неречевых сигналов выполняется обычное вычисление минимального уровня шума. Для речевых сигналов (полученных из внешнего переключающего решения) дополнительный речевой анализ выполняется, чтобы определить фактическую вокализацию сигнала. Количество шума, подлежащее добавлению в декодер или кодирующее устройство, измеряется в зависимости от степени шипения (в противоположность вокализации) сигнала. Степень шипения может быть определена, например, посредством измерения спектрального наклона частей короткого сигнала.

Данное изобретение будет теперь описано посредством иллюстрированных примеров. Свойства изобретения будут скорее оценены и лучше поняты с учетом следующего детального описания, которое следует рассматривать со ссылкой на сопровождающие рисунки, в которых:

Фиг.1 показывает блок-схему устройства для генерирования BWE выходных данных согласно осуществлениям данного изобретения;

Фиг.2a иллюстрирует отрицательный спектральный наклон нешипящего сигнала;

Фиг.2b иллюстрирует положительный спектральный наклон для сигнала, подобного шипению;

Фиг.2c объясняет вычисление спектрального наклона т, основанного на параметрах LPC низкого разряда;

Фиг.3 показывает блок-схему кодирующего устройства;

Фиг.4 показывает блок-схемы обработки кодированного звукового потока для производства РСМ сэмплов на стороне декодера;

Фиг.5а, b показывают сравнение традиционного вычисления минимального уровня шума с модифицированным вычислением минимального уровня шума согласно осуществлениям; и

Фиг.6 иллюстрирует разделение SBR сэмпла в предварительно определенном числе временных частей.

Фиг.1 показывает устройство 100 для генерирования выходных данных расширения полосы пропускания (BWE) 102 для звукового сигнала 105. Звуковой сигнал 105 включает компоненты в первом частотном диапазоне 105а и компоненты второго частотного диапазона 105b. BWE выходные данные 102 приспосабливаются, чтобы управлять синтезом компонентов во втором частотном диапазоне 105b. Устройство 100 включает измеритель минимального уровня шума ПО, энергетическую характеристику сигнала 120 и процессор 130. Измеритель минимального уровня шума ПО приспосабливается для измерения или определения данных минимального уровня шума 115 второго частотного диапазона 105b для временной части звукового сигнала 105. Более подробно, минимальный уровень шума может определяться посредством сравнения измеренного шума основного диапазона с измеренным шумом верхнего диапазона, так, чтобы определить количество шума, необходимое, после наложения заплат, для воспроизведения естественного впечатления тональности. Энергетическая характеристика сигнала 120 получает данные распределения энергии 125, характеризующие распределение энергии в спектре временной части звукового сигнала 105. Поэтому, измеритель минимального уровня шума ПО получает, например, первый и/или второй частотный диапазон 105а, b, и энергетическая характеристика сигнала 120 получает, например, первый и/или второй частотный диапазон 105а, b. Процессор 130 получает данные минимального уровня шума 115 и данные распределения энергии 125 и объединяет их, чтобы получить В WE выходные данные 102. Репликация спектрального диапазона включает один пример для расширения полосы пропускания, где BWE выходные данные 102 становятся SBR выходными данными. Следующие осуществления, главным образом, описывают пример SBR, но изобретательное устройство/способ не ограничивается этим примером.

Данные распределения энергии 125 показывают соотношение между энергией, содержащейся во втором частотном диапазоне, и энергией, содержащейся в первом частотном диапазоне. В самом простом случае данные распределения энергии представлены битом, показывающим, сохраняется ли больше энергии в основном диапазоне по сравнению с SBR диапазоном (верхняя полоса) или наоборот.SBR диапазон (верхняя полоса) может, например, определяться как частотные составляющие выше порога, который может быть представлен, например, 4 кГц, и основной диапазон (нижняя полоса) может быть компонентами сигнала, которые ниже этой пороговой частоты (например, ниже 4 кГц или другой частоты). Примерами для этих пороговых частот могут быть 5 кГц или 6 кГц.

Фиг.2а и 2b показывают два распределения энергии в спектре в пределах временной части звукового сигнала 105. Распределения энергии представлены уровнем Р в качестве функции частоты F аналогового сигнала, которая может также быть огибающей сигнала, представленной множеством сэмплов или строк (преобразованных в частотную область). Показанные графики также значительно упрощены, чтобы визуализировать понятие спектрального наклона. Нижний и верхний частотный диапазон может быть определен как частоты ниже или выше пороговой частоты F₀ (частота перехода, например, 500 гц, 1 кГц или 2 кГц).

Фиг.2a показывает распределение энергии, демонстрирующее падающий спектральный наклон (уменьшающийся с повышением частот). Другими словами, в этом случае, больше энергии сохраняется в низкочастотных компонентах, чем в высокочастотных компонентах. Следовательно, уровень Р уменьшается для высоких частот, предполагая отрицательный спектральный наклон (убывающая функция). Следовательно, уровень Р включает отрицательный спектральный наклон, если уровень Р сигнала показывает, что имеется меньше энергии в верхнем диапазоне (F>F₀), чем в нижнем диапазоне (F<F₀). Этот тип сигнала имеет место, например, для звукового сигнала, включающего незначительное количество шипящих звуков или не включающего их совсем.

Фиг.2b показывает случай, когда уровень P увеличивается с частотами F, предполагая положительный спектральный наклон (возрастающая функция уровня Р в зависимости от частот). Следовательно, уровень Р включает положительный спектральный наклон, если уровень Р сигнала показывает, что имеется больше энергии в верхнем диапазоне (F>F₀) по сравнению с низким диапазоном (F<F₀). Такое распределение энергии производится, если звуковой сигнал 105 включает, например, упомянутые шипящие звуки.

Фиг.2а иллюстрирует спектр мощности сигнала, имеющего отрицательный спектральный наклон. Отрицательный спектральный наклон означает падающий наклон спектра. В противоположность этому, фиг.2b иллюстрирует спектр мощности сигнала, имеющего положительный спектральный наклон. Другими словами, этот спектральный наклон имеет возрастающий наклон. Естественно, каждый спектр, такой как спектр, проиллюстрированный на фиг.2а, или спектр, проиллюстрированный на фиг.2b, будет иметь колебания в частном масштабе, имеющем наклоны, отличающиеся от спектрального наклона.

Спектральный наклон может быть получен, когда, например, прямая линия приспособлена к спектру мощности, такому как полученный посредством минимизации квадрата разности между этой прямой линией и фактическим спектром. Приспособление прямой линии к спектру может быть одним из способов вычисления спектрального наклона кратковременного спектра. Однако, предпочтительно вычислять спектральный наклон, используя LPC коэффициенты.

Публикация «Эффективное вычисление спектрального наклона от различных LPC параметров» В. Гончарофф, Э. Фон Коллн и Р. Моррис, Военно-морской командный контролирующий океанографический центр (NCCOSC), РДТ и Подразделение Е, Сан-Диего, Калифорния 92152-52001, 23 мая 1996 г., раскрывает несколько способов вычисления спектрального наклона.

В одном выполнении спектральный наклон определяется как наклон, выявляемый методом линейного подбора наименьших квадратов для логарифмического спектра мощности. Однако, линейный подбор может также применяться для нелогарифмического спектра мощности, для амплитудного спектра, или для любого другого вида спектра. Это, в частности, верно в контексте данного изобретения, где в предпочтительном осуществлении главный интерес представляет знак спектрального наклона, то есть, положителен или отрицателен результат наклона линейного подбора. Фактическое значение спектрального наклона, однако, не имеет большого значения в высокоэффективном осуществлении данного изобретения, но фактическое значение может быть важным в более сложных осуществлениях.

Когда линейное кодирование с предсказанием (LPC) речи используется, чтобы смоделировать его кратковременный спектр, в вычислительном отношении более эффективно вычислить спектральный наклон непосредственно из LPC параметров модели, а не из логарифмического спектра мощности.

Фиг.2с иллюстрирует уравнение для коэффициентов косинусного преобразования Фурье c_k, соответствующих n-ному разряду идеального (полюсного) логарифмического спектра мощности. В этом уравнении k - целочисленный индекс, p_n- n-ный полюс в идеальном (полюсном) представлении передаточной функции z-области Н (z) фильтра LPC. Следующее уравнение на фиг.2с - спектральный наклон в переводе на коэффициенты косинусного преобразования Фурье. В частности, m является спектральным наклоном, k и n - целые числа, и N - полюс самого высокого разряда идеальной (полюсной) модели для Н (z). Следующее уравнение на фиг.2с определяет логарифмический спектр мощности S (ω) N-ного разряда LPC фильтра. G - коэффициент усиления, и α_k- линейные прогнозирующие коэффициенты, и ω равен 2×π×f, где f - частота. Самое нижнее уравнение на фиг.2с непосредственно дает в результате коэффициенты косинусного преобразования Фурье как функцию LPC коэффициентов α_k. Коэффициенты косинусного преобразования Фурье c_k затем используются, чтобы вычислить спектральный наклон. В общем, этот способ будет более эффективен в вычислительном отношении, чем разложение на множители LPC многочлена, чтобы получить полюсные значения, и определение спектрального наклона с использованием полюсного уравнения. Таким образом, после вычисления LPC коэффициентов α_k, можно вычислить коэффициенты косинусного преобразования Фурье c_k посредством использования уравнения в низу фиг.2с и, потом, можно вычислить полюса p_n из коэффициентов косинусного преобразования Фурье, используя первое уравнение на фиг.2с. Затем, основываясь на полюсах, можно вычислить спектральный наклон m, как показано во втором уравнении фиг.2с.

Было обнаружено, что LPC коэффициент α₁ первого разряда достаточен для определения знака спектрального наклона. Поэтому, α₁ - хорошая оценка для c₁. Таким образом, c₁- хорошая оценка для p₁. Когда p₁ вставляется в уравнение для спектрального наклона m, становится ясно, что благодаря знаку минус во втором уравнении на фиг.2c, знак спектрального наклона m является обратным знаку первого LPC коэффициента α₁ в определении LPC коэффициента на фиг.2c.

Предпочтительно, чтобы формировалась энергетическая характеристика сигнала 120 для получения, в качестве данных распределения энергии, указания на знак спектрального наклона звукового сигнала в данной временной части звукового сигнала.

Предпочтительно, чтобы формировалась энергетическая характеристика сигнала 120 для производства, в качестве данных распределения энергии, данных, полученных из LPC анализа временной части звукового сигнала, для оценки одного или более LPC коэффициентов низкого разряда и для получения данных распределения энергии из одного или более LPC коэффициентов низкого разряда.

Предпочтительно, чтобы энергетическая характеристика сигнала 120 формировалась, только чтобы вычислить первый LPC коэффициент, но не вычислять дополнительные LPC коэффициенты, и получить данные распределения энергии из знака первого LPC коэффициента.

Предпочтительно, чтобы энергетическая характеристика сигнала 120 формировалась для определения спектрального наклона как отрицательного спектрального наклона, в котором спектральная энергия уменьшается от более низких частот к более высоким частотам, когда первый LPC коэффициент имеет положительный знак, и для определения спектрального наклона как положительного спектрального наклона, в котором спектральная энергия увеличивается от более низких частот к более высоким частотам, когда первый LPC коэффициент имеет отрицательный знак.

В других осуществлениях, детектор спектрального наклона или энергетическая характеристика сигнала 120 формируется не только для вычисления LPC коэффициентов первого разряда, но и для вычисления нескольких LPC коэффициентов низкого разряда, таких как LPC коэффициенты до 3 или 4 разряда или еще выше. В таком осуществлении спектральный наклон вычисляется с такой высокой точностью, что можно не только показать знак как параметр шипения, но также и значение в зависимости от наклона, который имеет больше двух значений как в осуществлении знака.

Как сказано выше шипение включает большое количество энергии в верхней частотной области, тогда как для частей без или только с небольшим количеством шипения (например, гласные) энергия, главным образом, распределяется в пределах основного диапазона (низкочастотный диапазон). Это наблюдение может использоваться, чтобы определить, включает ли или в каком объеме часть речевого сигнала шипящие или нет.

Следовательно, измеритель минимального уровня шума ПО (детектор) может использовать спектральный наклон для принятия решения о количестве шипения или степени шипения в сигнале. Спектральный наклон может, в основном, быть получен из простого LPC анализа распределения энергии. Этого может, например, быть достаточно, чтобы вычислить первый LPC коэффициент для определения параметра спектрального наклона (параметр шипения), потому что из первого LPC коэффициента может быть выведено поведение спектра (возрастающая или убывающая функция). Этот анализ может быть выполнен в пределах энергетической характеристики сигнала 120. В случае, если звуковое кодирующее устройство использует LPC для декодирования звукового сигнала, может не потребоваться передача параметра шипения, так как первый LPC коэффициент может использоваться как данные распределения энергии на стороне декодера.

В осуществлениях процессор 130 может формироваться, чтобы изменить данные минимального уровня шума 115 в соответствии с данными распределения энергии 125 (спектральный наклон), чтобы получить модифицированные данные минимального уровня шума, и процессор 130 может формироваться, чтобы добавить модифицированные данные минимального уровня шума к битовому потоку, включающему BWE выходные данные 102. Изменение данных минимального уровня шума 115 может быть таким, что модифицированный минимальный уровень шума увеличивается для звукового сигнала 105, включающего больше шипения (фиг.2b) по сравнению со звуковым сигналом 105, включающим меньше шипения (фиг.2a).

Устройство 100 для генерирования выходных данных расширения полосы пропускания (BWE) 102 может быть частью кодирующего устройства 300. Фиг.3 показывает осуществление для кодирующего устройства 300, которое включает BWE зависимые модули 310 (которые могут, например, включать SBR зависимые модули), анализирующий блок QMF 320, фильтр низких частот (LP-фильтр) 330, базовое кодирующее устройство ААС 340 и форматтер полезной нагрузки битового потока 350. Кроме того, кодирующее устройство 300 включает вычислитель данных огибающей 210. Кодирующее устройство 300 включает вход для РСМ сэмплов (звуковой сигнал 105; РСМ = импульсно-кодовая модуляция), который связан с анализирующим блоком QMF 320, и с BWE-зависимыми модулями 310 и с LP-фильтром 330. Анализирующий блок QMF 320 может включать фильтр высоких частот, чтобы отделить второй частотный диапазон 105b, и может соединяться с вычислителем данных огибающей 210, который, в свою очередь, соединяется с форматтером полезной нагрузки битового потока 350. LP-фильтр 330 может включать фильтр низких частот, чтобы отделить первый частотный диапазон 105а, и может соединяться с ААС базовым кодирующим устройством 340, которое, в свою очередь, соедняется с форматтером полезной нагрузки битового потока 350. Наконец, BWE-зависимый модуль 310 соединяется с вычислителем данных огибающей 210 и с ААС базовым кодирующим устройством 340.

Поэтому, кодирующее устройство 300 субдискретизирует звуковой сигнал 105, чтобы генерировать компоненты в основном частотном диапазоне 105а (в LP-фильтре 330), которые вводятся в ААС базовое кодирующее устройство 340, которое кодирует звуковой сигнал в основном частотном диапазоне и пересылает кодированный сигнал 355 форматтеру полезной нагрузки битового потока 350, в котором кодированный звуковой сигнал 355 основного частотного диапазона добавляется к кодированному звуковому потоку 345 (битовый поток). С другой стороны, звуковой сигнал 105 анализируется анализирующим QMF блоком 320, и фильтр высоких частот анализирующего QMF блока извлекает частотные компоненты высокочастотного диапазона 105b и вводит этот сигнал в вычислитель данных огибающей 210, чтобы генерировать В WE данные 375. Например, QMF блок с 64 поддиапазонами 320 выполняет поддиапазонное фильтрование входного сигнала. Выход из гребенки фильтров (то есть, сэмплы поддиапазона) комплекснозначен и, таким образом, супердискретизирован коэффициентом два по сравнению со стандартным QMF блоком.

BWE-зависимый модуль 310 может, например, включать устройство 100 для генерирования В WE выходных данных 102 и управляет вычислителем данных огибающей 210, предоставляя, например, BWE выходные данные 102 (параметр шипения) вычислителю данных огибающей 210. Используя звуковые компоненты 105b, произведенные QMF анализирующим блоком 320, вычислитель данных огибающей 210 вычисляет BWE данные 375 и пересылает BWE данные 375 форматтеру полезной нагрузки битового потока 350, который объединяет BWE данные 375 с компонентами 355, закодированными базовым кодирующим устройством 340 в кодированном звуковом потоке 345. Кроме того, вычислитель данных огибающей 210 может, например, использовать параметр шипения 125, чтобы установить минимальные уровни шума в пределах огибающих шума.

Альтернативно, устройство 100 для генерирования BWE выходных данных 102, может также быть частью вычислителя данных огибающей 210, и процессор также может быть частью форматтера полезной нагрузки битового потока 350. Поэтому, различные компоненты устройства 100 могут быть частью различных компонентов кодирующего устройства фиг.3.

Фиг.4 показывает осуществление для декодера 400, где кодированный звуковой поток 345 вводится в деформаттер полезной нагрузки битового потока 357, который отделяет кодированный звуковой сигнал 355 от BWE данных 375. Кодированный звуковой сигнал 355 вводится, например, в ААС базовый декодер 360, который генерирует декодированный звуковой сигнал 105а в первом частотном диапазоне. Звуковой сигнал 105а (компоненты в первом частотном диапазоне) вводится в анализирующий 32-диапазонный QMF блок 370, генерирующий, например, 32 частотных поддиапазона 105₃₂ из звукового сигнала 105а в первом частотном диапазоне. Звуковой сигнал частотного поддиапазона 105₃₂ вводится в генератор заплат 410, чтобы генерировать спектральное представление необработанного сигнала 425 (заплату), которое вводится в BWE инструмент 430a. BWE инструмент 430a может, например, включать узел вычисления минимального уровня шума, чтобы генерировать минимальный уровень шума. Кроме того, BWE инструмент 430a может восстанавливать недостающие гармоники или выполнять обратный этап фильтрования. BWE инструмент 430a может осуществлять известные способы репликации спектрального диапазона, которые будут использоваться на выходе спектральных данных QMF генератора заплат 410. Алгоритм наложения заплат, используемый в частотной области, может, например, использовать простое зеркальное отражение или копирование спектральных данных в пределах частотной области

С другой стороны, BWE данные 375 (например, включающие BWE выходные данные 102) вводятся в анализатор битового потока 380, который анализирует В WE данные 375, чтобы получить другую подинформацию 385 и ввести ее, например, в узел декодированиия по способу Хаффмана и деквантизации 390, который, например, извлекает управляющую информацию 412 и параметры репликации спектрального диапазона 102. Управляющая информация 412 управляет генератором заплат 430 (например, чтобы использовать определенный алгоритм наложения заплат), и BWE параметр 102 включает, например, также данные распределения энергии 125 (например, параметр шипения). Управляющая информация 412 вводится в BWE инструмент 430a, и параметры репликации спектрального диапазона 102 вводятся в BWE инструмент 430a, так же как в регулятор огибающей 430b. Регулятор огибающей 430b предназначен, чтобы приспосабливать огибающую к генерированной заплате. В результате, регулятор огибающей 430b генерирует скорректированный необработанный сигнал 105b для второго частотного диапазона и вводит его в синтезирующий QMF блок 440, который объединяет компоненты второго частотного диапазона 105b со звуковым сигналом в частотной области 105₃₂. Синтезирующий QMF блок 440 может, например, включать 64 частотных диапазона и генерировать синтезирующий звуковой сигнал 105 (например, выход РСМ сэмплов, РСМ = импульсно-кодовая модуляция) посредством объединения обоих сигналов (компоненты во втором частотном диапазоне 105b и звуковой сигнал частотной области 105₃₂).

Синтезирующий QMF блок 440 может включать объединитель, который объединяет сигнал частотной области 105₃₂со вторым частотным диапазоном 105b прежде, чем он будет преобразован во временную область и прежде, чем он будет выведен как звуковой сигнал 105. Дополнительно, объединитель может производить звуковой сигнал 105 в частотной области.

В WE инструменты 430а могут включать обычный инструмент минимального уровня шума, который добавляет дополнительный шум к спектру с заплатами (спектральное представление необработанного сигнала 425) так, что спектральные компоненты 105а, которые были переданы базовым кодирующим устройством 340 и используются, чтобы синтезировать компоненты второго частотного диапазона 105b, демонстрирующие тональность второго частотного диапазона 105b оригинального сигнала. Особенно в вокализованных речевых каналах, однако, дополнительный шум, добавленный обычным инструментом минимального уровня шума, может испортить качество воспринятия воспроизведенного сигнала.

Согласно осуществлениям может быть модифицирован инструмент минимального уровня шума так, чтобы инструмент минимального уровня шума принимал во внимание данные распределения энергии 125 (часть BWE данных 102), чтобы изменить минимальный уровень шума в соответствии с обнаруженной степенью шипения (см. фиг.2). Альтернативно, как описано выше, декодер может не изменяться, и вместо этого кодирующее устройство может изменять данные минимального уровня шума в соответствии с обнаруженной степенью шипения.

Фиг.5 показывает сравнение обычного инструмента вычисления минимального уровня шума с модифицированным инструментом вычисления минимального уровня шума согласно осуществлениям данного изобретения. Этот модифицированный инструмент вычисления минимального уровня шума может быть частью BWE инструмента 430.

Фиг.5а показывает обычный инструмент вычисления минимального уровня шума, включающий вычислитель 433, который использует параме

Устройство и способ генерирования выходных данных расширения полосы пропускания

Патент 2494477