Расширение полосы частот гармонического аудиосигнала
Иллюстрации
Показать всеИзобретение относится к средствам для управления усилениями в полосах в расширенной области полосы частот на основе информации о положениях пиков. Технический результат заключается в повышении качества расширения полосы частот гармонических аудиосигналов. Принимают множество значений усиления, ассоциированных с полосой b частот, и множество соседних полос частот для полосы b. Определяют, содержит ли реконструированная соответствующая полоса b’ частот спектральный пик. Когда полоса b’ содержит спектральный пик, значение усиления, ассоциированное с полосой b’, устанавливают как первое значение на основе принятого множества значений усиления; и в противном случае, значение усиления устанавливают как второе значение на основе принятого множества значений усиления. 4 н. и 8 з.п. ф-лы, 10 ил.
Реферат
Область техники, к которой относится изобретение
Предлагаемая технология относится к кодированию и декодированию аудиосигналов, в частности к поддержке расширения полосы частот (BWE) гармонических аудиосигналов.
Уровень техники
Кодирование на основе преобразования представляет собой наиболее часто используемую схему в современных системах сжатия/передачи аудиосигнала. Основные этапы в такой схеме состоят в том, что вначале преобразуют короткий блок колебаний сигнала в области частоты, используя соответствующее преобразование, например DFT (дискретное преобразование Фурье), DCT (дискретное косинусное преобразование), или MDCT (модифицированное дискретное косинусное преобразование). Коэффициенты преобразования затем квантуют, передают или сохраняют и затем используют для реконструкции аудиосигнала. Такой подход хорошо работает для общих аудиосигналов, но требуют достаточно большой частоты передачи битов для формирования достаточно хорошего представления коэффициентов преобразования. Ниже будет представлен обзор на высоком уровне таких схем кодирования в области преобразования.
На основе от блока к блоку форму колебаний, которая требуется для кодирования, преобразуют в область частоты. Одно обычно используемое преобразование, применяемое с этой целью, представляет собой так называемое модифицированное дискретное косинусное преобразование (MDCT). Полученный таким образом вектор преобразования области частоты разделяют на огибающую спектра (медленно изменяющаяся энергия) и спектральные остатки. Спектральный остаток получают путем нормализации полученного вектора в области частоты с упомянутой спектральной огибающей. Спектральную огибающую квантуют и показатели квантования передают в декодер. Затем квантованную огибающую спектра используют как входные данные для алгоритма распределения битов и биты для кодирования остаточных векторов распределяют на основе характеристик спектральной огибающей. В качестве результата на этом этапе определенное количество битов назначают для разных частей остатка (остаточные векторы или "подвекторы"). Некоторые остаточные векторы не принимают какие-либо биты и должны быть заполнены шумами или расширены на полосу частот. Как правило, кодирование остаточных векторов представляет собой процедуры, выполняемые в два этапа; вначале кодируют амплитуду элементов векторов и затем кодируют знак (который не должен противоречить "фазе", которая ассоциирована, например, с преобразованиями Фурье) ненулевых элементов. Показатели квантования для остаточной амплитуды и знака передают в декодер, где остаточные данные и спектральную огибающую комбинируют и, в конечном итоге, преобразуют снова в область времени.
Пропускная способность в телекоммуникационных сетях постоянно повышается. Однако, несмотря на увеличение пропускной способности, все еще существует сильное побуждение для ограничения требуемой полосы пропускания для канала передачи данных. В мобильных сетях меньшая полоса пропускания для каждого вызова позволяет обеспечить меньшее потребление энергии как в мобильном устройстве, так и в базовой станции, обслуживающей это устройство. Это можно перевести в экономию энергии и стоимости для оператора мобильной связи, в то время как конечный пользователь получит удлиненный срок службы батареи и увеличенное время на разговоры. Кроме того, чем меньше полоса пропускания, потребляемая каждым пользователем, тем большее количество пользователей может быть обслужено (параллельно) мобильной сетью.
Один из способов улучшения качества аудиосигнала, который требуется передать, используя низкую или умеренную частоту передачи битов, состоит в том, чтобы фокусировать доступные биты для точного представления низких частот в аудиосигнале. Затем технологии BWE могут использоваться для моделирования более высоких частот на основе более низких частот, для которых требуется только малое количество битов. Основа этих технологий состоит в том, что чувствительность слуховой системы человека зависит от частоты. В частности, слуховая система человека, то есть наше слуховое восприятие в меньшей степени является точной для более высоких частот.
В типичной схеме BWE в области частоты коэффициенты преобразования высокой частоты группируют по полосам. Усиление (энергию) для каждой частоты рассчитывают, квантуют и передают (в декодер сигнала). В декодере, перевернутую или транслированную и нормализованную по энергии версию принятых коэффициентов низкой частоты масштабируют с усилением высокой частоты. Таким образом, BWE не является "абсолютно слепым", поскольку, по меньшей мере, спектральная энергия напоминает целевой сигнал в полосе высокой частоты.
Однако BWE определенных аудиосигналов может привести к тому, что аудиосигналы будут содержать дефекты, которые являются раздражающими для слушателя.
Сущность изобретения
Здесь предложена технология для поддержки и улучшения BWE гармонических аудиосигналов.
В соответствии с первым аспектом предложен способ преобразования аудиодекодера. Способ выполнен с возможностью поддержки расширения полосы частот BWE гармонического аудиосигнала. Предложенный способ может содержать прием множества значений усиления, ассоциированных с полосой b частот, и количества соседних полос частот для полосы b. Предложенный способ дополнительно содержит: определяют, содержит ли реконструированная соответствующая полоса bʹ расширенной области частот полосы частот спектральный пик. Кроме того, если полоса частот содержит, по меньшей мере, один спектральный пик, способ содержит: устанавливают значение Gb усиления, ассоциированное с полосой bʹ для первого значения на основе принятого множества значений усиления. Если полоса не содержит какой-либо спектральный пик, способ содержит: устанавливают значение Gb усиления, ассоциированное с полосой bʹ, до второго значения на основе принятого множества значений усиления. Таким образом, обеспечивается возможность сведения значений усиления, в соответствии с положениями пика в расширенной полосе частот спектра.
Кроме того, способ может содержать: принимают параметр или коэффициент α, отражающий взаимоотношения между энергией пика и энергией минимального уровня шума, по меньшей мере, участка для части высокой частоты исходного сигнала. Способ может дополнительно содержать: смешивают коэффициенты преобразования соответствующего реконструированного участка высокой частоты с шумами на основе принятого коэффициента α. Таким образом, обеспечивается возможность реконструкции/эмуляции шумовых характеристик части высокой частоты оригинального сигнала.
В соответствии со вторым аспектом предложен аудиодекодер преобразования или кодек для поддержки расширения полосы пропускания BWE или гармонического аудиосигнала. Аудиокодек преобразования может содержать функциональные модули и выполнен с возможностью выполнения действий, описанных выше. Кроме того, предложен аудиокодер преобразования или кодек, содержащий функциональные блоки и выполненный с возможностью вывода и предоставления одного или больше параметров, обеспечивающих описанное здесь смешивание шумов, когда их предоставляют в аудиодекодер преобразования.
В соответствии с третьим аспектом, предложен терминал пользователя, который содержит аудиокодек преобразования, в соответствии со вторым аспектом. Терминал пользователя может представлять собой устройство, такое как мобильный терминал, планшетный компьютер, компьютер, смартфон и т.п.
Краткое описание чертежей
Предложенная технология будет более подробно описана ниже со ссылкой на примерные варианты осуществления и со ссылкой на приложенные чертежи, на которых:
на фиг. 1 показан гармонический аудиоспектр, то есть спектр гармонического аудиосигнала. Такой тип спектра является типичным для, например, звуков одного инструмента, вокальных звуков и т.д.;
на фиг. 2 показан гармонический аудио спектр с расширенной полосой частот;
на фиг. 3a показан спектр BWE (также представленный на фиг. 2), масштабированный с соответствующими коэффициентами усиления полосы , в том виде, как они были приняты декодером. Часть BWE спектра сильно искажена;
на фиг. 3b показан спектр BWE, масштабированный с модифицированными коэффициентами усиления полосы , как предложено здесь. В этом случае, часть BWE спектра получает требуемую форму;
на фиг. 4а и 4b показаны блок-схемы последовательности операций, иллюстрирующие действия в процедуре аудиодекодера преобразовании, в соответствии с примерными вариантами осуществления;
на фиг. 5 показана блок-схема, иллюстрирующая аудиодекодер преобразования, в соответствии с примерным вариантом осуществления;
на фиг. 6 показана блок-схема последовательности операций, иллюстрирующая действия в процедуре аудиокодера преобразовании, в соответствии с примерным вариантом осуществления;
на фиг. 7 показана блок-схема, иллюстрирующая аудиокодер преобразования, в соответствии с примерным вариантом осуществления;
на фиг. 8 показана блок-схема, иллюстрирующая компоновку в аудиодекодере преобразования, в соответствии с примерным вариантом осуществления.
Подробное описание изобретения
Расширение полосы частот гармонических аудиосигналов ассоциировано с некоторыми проблемами, как обозначено выше. В декодере, когда низкую полосу, то есть часть полосы частот, которая была кодирована, передана и декодирована, переворачивают или транслируют в форму для высокой полосы, нет уверенности в том, что спектральные пики заканчиваются в тех же полосах, что и спектральные пики в оригинальном сигнале, или "истинной" высокой полосе. Спектральный пик из низкой полосы может заканчиваться в полосе, где оригинальный сигнал не имеет пика. Также возможен противоположный случай, то есть, когда часть сигнала низкой полосы, которая не имеет пика, заканчивается (после переворачивания или трансляции) в полосе, где оригинальный сигнал имеет пик. Пример гармонического спектра представлен на фиг. 1, и пример концепции BWE представлен на фиг. 2, которая будет дополнительно описана ниже.
Эффект, описанный выше, может привести к серьезному снижению качества для сигналов с, в основном, гармоническим содержанием. Причина этого состоит в том, что такое рассогласование между положениями пиков и усиления приводит либо к ненужной аттенюации пика, или к усилению спектральных коэффициентов низкой энергии между двумя спектральными пиками.
Описанное здесь решение относится к новому способу, для управления усилениями в полосах, в расширенной области полосы частот, на основе информации о положениях пиков. Кроме того, предложенный здесь алгоритм BWE может управлять "спектральными пиками по коэффициенту минимального уровня шума", используя переданные уровни соединения шумов. Это приводит к получению BWE, который сохраняет величину структуры в расширенных высоких частотах.
Решение, описанное здесь, пригодно для использования с гармоническими аудиосигналами. На фиг. 1 показан частотный спектр гармонического аудиосигнала, который также может быть обозначен, как гармонические спектры. Как можно видеть на чертеже, спектр содержит пики. Такой тип спектра является типичным, например, для звуков одного инструмента, такого как флейта, или вокальных звуков, и т.д.
Здесь будут описаны две части спектра гармонического аудиосигнала. Одна нижняя часть, содержащая более низкие частоты, где "нижний" обозначает более нижний, чем часть, которая будет подвергнута расширению полосы частот; и одна верхняя часть, содержащая более высокие частоты, то есть более высокие, чем нижняя часть. Выражения, такие как "нижняя часть" или "низкие/более низкие частоты", используемые здесь, относятся к части гармонического аудиоспектра ниже частоты перехода BWE (см. фиг. 2). Аналогично, выражения, такие как "верхняя часть" или "высокие/более высокие частоты", относятся к части гармонического аудиоспектра выше частоты перехода BWE (см. фиг. 2).
На фиг. 2 показан спектр гармонического аудиосигнала. Здесь эти две части, описанные ниже, можно рассматривать как более низкую часть, находящуюся слева от частоты перехода BWE, и верхнюю часть, находящуюся справа от частоты перехода BWE. На фиг. 2 оригинальный спектр, то есть спектр оригинального аудиосигнала (как можно видеть на стороне кодера) представлен светло-серым цветом. Расширенная часть полосы частот спектра представлена темным/более темным серым цветом. Расширенная часть полосы частот спектра не кодируется кодером, но восстанавливается декодером, используя принятую нижнюю часть спектра, как описано выше. На фиг. 2 можно видеть, для сравнения, как оригинальный (светло-серый) спектр, так и спектр BWE (темно-серый) для более высоких частот. Оригинальный спектр для более высоких частот является неизвестным для декодера, за исключением величины усиления для каждой полосы BWE (или высокочастотной полосы). Полосы BWE разделены пунктирными линиями на фиг. 2.
Фиг. 3a можно рассмотреть для лучшего понимания проблемы рассогласования между значениями усиления и положениями пика в расширенной части полосы частот спектра. В полосе 302а исходный спектр содержит пик, но восстановленный спектр BWE не содержит пик. Это можно видеть в полосе 202 на фиг. 2. Таким образом, когда коэффициент усиления, который рассчитывают для исходной полосы, содержащей пик, применяют для полосы BWE, которая не содержит пик, спектральные коэффициенты с низкой энергией в полосе BWE усиливают, как можно видеть в полосе 302а.
Полоса 304а на фиг. 3a представляет противоположную ситуацию, то есть, когда соответствующая полоса исходного спектра не содержит пик, но соответствующая полоса восстановленного спектра BWE содержит пик. Таким образом, полученный коэффициент усиления для полосы (принятый из кодера) рассчитывают для полосы с низкой энергией. Когда этот коэффициент усиления применяют для соответствующей полосы, которая содержит пик, в результате получают ослабленный пик, как можно видеть в полосе 304а на фиг. 3a. С точки зрения перцепционного или психоакустического восприятия, ситуация, показанная в полосе 302а, хуже для слушателя, чем ситуация в полосе 304а, по различным причинам. Таким образом, для простоты описания; обычно для слушателя более неприятно испытывать ненормальное присутствие компонента звука, чем ненормальное отсутствие компонента звука.
Ниже будет описан пример нового алгоритма BWE, иллюстрирующий описанную здесь концепцию.
Пусть Y(k) обозначают набор коэффициентов преобразования в области BWE (коэффициенты преобразования высокой частоты). Эти коэффициенты преобразования группируют по B полосам . Размер полосы Mb может быть постоянным или может увеличиваться в направлении высоких частот. В качестве примера, если полосы являются восьмимерными и однородными (то есть все Mb=8), получаем: Y1={Y(1) … Y(8)}Y2={Y(9) … Y(16)} и т.д.
Первый этап в алгоритме BWE состоит в расчете коэффициента усиления для всех
полос:
Эти коэффициенты усиления квантуют и передают в декодер.
Второй этап (который является необязательным) в алгоритме BWE состоит в расчете параметра смешения шумов или коэффициента α, который представляет собой функцию, например, средней энергии пика и средней энергии уровня шума для спектра BWE, следующим образом:
Здесь параметр α был выведен в соответствии с Уравнением (3), представленным ниже. Однако точное используемое выражение может быть выбрано разными путями, например, в зависимости от того, что является соответствующим для используемого типа кодека или квантователя, и т.д.
Энергия пика и уровня шумов может быть рассчитана, например, путем отслеживания соответствующего максимального и минимального спектра энергии.
Параметр α смеси шумов может быть квантован с использованием малого количества битов. Здесь, в качестве примера, α квантуют 2 битами. Когда параметр α смеси шумов квантуют, получают параметр , то есть Параметр передают в декодер. Область BWE может быть разделена на два или больше участка "s", и параметр αs смеси шумов может быть рассчитан, независимо, в каждом из этих участков. В таком случае кодер мог бы передавать набор параметров смеси шумов в декодер, например, по одному на участок.
Операции декодера:
Декодер выделяет из потока битов набор рассчитанных квантованных коэффициентов усиления (по одному для каждой полосы) и один или больше квантованных параметров смеси шумов или коэффициентов . Декодер также принимает квантованные коэффициенты преобразования для части низкой частоты спектра, то есть части спектра (гармонического аудиосигнала), которая была кодирована, в отличие от высокочастотной части, для которой будет выполнено расширение полосы частот.
Пусть представляет собой набор нормализованных по энергии квантованных коэффициентов низкой частоты. Эти коэффициенты затем смешивают с шумами, например, с заранее сгенерированным шумом, сохраненным, например, в кодовой книге Nb шумов. Используя предварительно сгенерированные, предварительно сохраненные шумы, можно получить возможность обеспечения качества шумов, то есть шумов, которые не содержат какие-либо непреднамеренные несоответствия или отклонения. Однако шум, в качестве альтернативы, может быть сгенерирован "на лету", когда это требуется. Коэффициенты могут быть смешаны с шумом в кодовой книге Nb шумов, например, следующим образом:
Диапазон параметра или коэффициента смешивания шумов можно установить различным способами. Например, здесь, диапазон для коэффициента смешивания шумов был установлен, как α∈[0,0.4). Такой диапазон означает, например, что в определенных случаях вклад шумов полностью игнорируется (α=0), и в определенных случаях кодовая книга шумов составляет до 40% в смешанном векторе (α=0,4), который представляет собой максимальный вклад, когда используется этот диапазон. Причина введения такого вида смеси шумов, где полученный в результате вектор содержит, например, от 60% до 100% оригинальной структуры низкой частоты, состоит в том, что часть высокой частоты спектра обычно является более зашумленной, чем часть низкой частоты спектра. Поэтому, операция смешивания шумов, описанная выше, создает вектор, который обладает статистическими свойствами более похожими на часть высокой частоты спектра оригинального сигнала, по сравнению с областью высокочастотного спектра BWE, состоящей из перевернутой или транслированной области низкочастотного спектра. Такая операция смешивания шумов может быть выполнена независимо от разных частей области BWE, например, если множество коэффициентов (α) смешивания шумов будут предусмотрены и приняты.
В решениях предшествующего уровня техники набор принятых квантованных коэффициентов усиления используется непосредственно для соответствующих полос в области BWE. Однако, в соответствии с описанным здесь решением, такие принятые квантованные коэффициенты усиления вначале модифицируют, например, когда это соответствует, на основе информации о положениях спектрального пика BWE. Запрошенная информация о положениях пиков может быть выделена из информации области низкой частоты в потоке битов, или может быть оценена с помощью алгоритма выбора пиков для квантованных коэффициентов преобразования для низкой полосы (или выведенных коэффициентов полосы BWE). Информация о пиках в области низкой частоты может быть затем транслирована в область высокой частоты (BWE). Таким образом, когда сигнал высокой полосы (BWE) выводят из сигнала низкой полосы, алгоритм может регистрировать, в каких полосах (области BWE) расположены спектральные пики.
Например, флаг fp(b) может использоваться для обозначения, содержат ли пики коэффициенты частоты, перемещенные (перевернутые или транслированные) в полосу b в области BWE. Например, fp(b)=1 может обозначать, что полоса b содержит, по меньшей мере, один пик, и fp(b)=0 может обозначать, что полоса b не содержит никакого пика. Как упомянуто выше, каждая полоса b в области BWE ассоциирована с усилением , которое зависит от количества и размера пиков, содержащихся в соответствующей полосе оригинального сигнала. Для того, чтобы согласовать усиление с фактическим содержанием пика каждой полосы в области BWE, следует адаптировать усиление. Модификация усиления выполняется для каждой полосы, например, в соответствии со следующим выражением:
Мотивация для такой модификации усиления состоит в следующем: в случае когда полоса (BWE) содержит пик (fp(b)=1), для исключения ослабления этого пика, в случае когда соответствующее усиление поступает из полосы (оригинального сигнала) без каких-либо пиков, усиление для этой полосы модифицируют так, чтобы оно представляло собой взвешенную сумму усилений текущей полосы и для двух соседних полос. В примерном уравнении (5а), представленном выше, значения веса равны, то есть 1/3, что приводит к тому, что модифицированное усиление представляет собой среднее значение усиления для текущей полосы и коэффициенты усилений для двух соседних полос. Альтернативная модификация усиления может быть достигнута, в соответствии, например, со следующим уравнением:
В случае когда полоса не содержит пик (fp(b)=0), не требуется усиливать шумоподобную структуру в этой полосе путем применения сильного усиления, которое было рассчитано из исходной полосы сигнала, которая содержала один или больше пиков. Для исключения этого, усиление для этой полосы выбирают так, чтобы оно было, например, минимальным среди усилений текущей полосы и коэффициентов усиления двух соседних полос. Усиление для полосы, содержащей пик, в качестве альтернативы, можно выбрать или рассчитать как взвешенную сумму, такую как, например, среднее значение по более чем 3 полосам, например от 5 до 7 полос, или может быть выбрано как медианное значение, например 3, 5 или 7 полос. Используя взвешенную сумму, такую как среднее или медианное значение, пик, наиболее вероятно, будет несколько ослаблен, по сравнению со случаем использования "истинного" усиления. Однако, ослабление по сравнению с "истинным" усилением может быть предпочтительным, по сравнению с противоположным случаем, поскольку умеренное ослабление лучше с точки зрения восприятия, по сравнению с усилением, приводящим к преувеличенным аудиокомпонентам, как упомянуто выше.
Случай несоответствия пиков и, таким образом, причина для модификации усиления, представляет собой то, что спектральные полосы размещены на заданной сетке, но положения пиков и пики (после переворачивания или трансляции коэффициентов низкой частоты) изменяются с течением времени. Это может привести к тому, что пики поступают в полосу или выходят из полосы неконтролируемым образом. Таким образом, положения пика в части BWE спектра не обязательно соответствуют положениям пика оригинального сигнала, и, таким образом, может присутствовать несоответствие между коэффициентом усиления, ассоциированным с полосой, и содержанием пика полосы. Пример масштабирования с немодифицированными значениями усиления представлены на фиг. 3a, и масштабирование с модифицированными коэффициентами усилениями показано на фиг. 3b.
Результат использования модифицированных коэффициентов усиления, как представлено здесь, можно видеть на фиг. 3b. В полосе 302b спектральные коэффициенты низкой энергии больше не являются такими, как усиленные в полосе 302а на фиг. 3a, но их масштабируют с более соответствующим усилением в полосе. Кроме того, пик в полосе 304b больше не ослабляют, как пик в полосе 304а на фиг. 3a. Спектр, иллюстрируемый на фиг. 3b, наиболее вероятно, соответствует аудиосигналу, который является более приятным для слушателя, чем аудиосигнал, соответствующий спектру на фиг. 3a.
Таким образом, алгоритм BWE может создавать высокочастотную часть спектра. Поскольку (например, по причинам экономии полосы частот), набор высокочастотных коэффициентов Yb не доступен в декодере, коэффициенты высокочастотного преобразования, вместо этого, реконструируют и формируют путем масштабирования перевернутых (или транслированных) коэффициентов низкой частоты (возможно, после смешения с шумами) с модифицированными квантованными коэффициентами усиления
Набор коэффициентов преобразования используется для реконструкции высокочастотной части формы колебаний аудиосигнала.
Решение, описанное здесь, представляет собой улучшение концепции BWE, обычно используемой при преобразовании области кодирования аудиосигнала. Представленный алгоритм предотвращает структуру с пиками (отношение пика к уровню шумов) в области BWE, таким образом, обеспечивая улучшенное качество звука реконструированного сигнала.
Термин “аудиокодек преобразования” или “кодек преобразования” охватывает любую пару из кодера и декодер и представляет собой термин, который обычно используется в данной области техники. В данном раскрытии термины “аудиокодер преобразования” или ʺкодерʺ и “аудиодекодер преобразования” или ʺдекодерʺ используются для отдельного описания функций/частей преобразования кодека. Термины “аудиокодер преобразования”/ʺкодерʺ и “аудиодекодер преобразования”/ʺдекодерʺ, таким образом, можно взаимно заменять термином ʺаудиокодек преобразования” или “кодек преобразования”.
Примерные процедуры декодера, фиг. 4а и 4b.
Примерная процедура, выполняемая в декодере для поддержки расширения полосы частот, BWE, или гармонического аудиосигнала будет описана ниже, со ссылкой на фиг. 4а. Процедура пригодна для использования в аудиокодере преобразования, таком как, например, кодер MDCT или другой кодер. Предполагается, что аудиосигнал, в основном, представляет собой музыку, но также, в качестве альтернативы, может содержать, например, речь.
Значение усиления, ассоциированное с полосой b частот (оригинальная полоса частот), и значение усиления, ассоциированное с множеством других полос частот, расположенных рядом с полосой b частот, принимают в действии 401а. Затем определяют в действии 404а, содержит ли реконструированная соответствующая полоса bʹ частот области BWE спектральный пик или нет. Когда реконструированная полоса bʹ частот содержит, по меньшей мере, один спектральный пик, значение усиления, ассоциированное с реконструированной полосой bʹ частот, устанавливают как первое значение в действии 406а:1, на основе принятого множества значений усиления. Когда реконструированная полоса bʹ частот не содержит спектрального пика, значение усиления, ассоциированное с реконструированной полосой bʹ частот, устанавливают как второе значение в действии 406а:2, на основе принятого множества значений усиления. Второе значение ниже чем или равно первому значению.
На фиг. 4b, процедура, представленная на фиг. 4а, иллюстрируется несколько в другом и более расширенном виде, например, с дополнительными необязательными действиями, относящимися к ранее описанному смешиванию шумов. Фиг. 4b будет описана ниже.
Значения усиления, ассоциированные с полосами частот верхней части частотного спектра, принимают в действии 40lb. Информацию, относящуюся к нижней части частот спектра, то есть коэффициенты преобразования и значения усиления, и т.д., также, предполагается, принимают в определенной точке (не показана на фиг. 4а или 4b). Кроме того, предполагается, что расширение полосы частот выполняют в определенной точке, где формируется спектр высокой полосы, путем переворачивания или трансляции спектра низкой полосы, как описано выше.
Один или больше коэффициентов смешивания шумов могут быть приняты в необязательном действии 402b. Принятые один или больше коэффициентов смешивания шумов были рассчитаны в кодере на основе распределения энергии в оригинальном спектре высокой полосы. Эти коэффициенты смешивания шумов соединения могут затем использоваться для смешивания коэффициентов в области высокой полосы с шумами, сравни с уравнением (4), представленным выше, в (также необязательном) действии 403b. Таким образом, спектр области расширенной полосы частот будет лучше соответствовать оригинальному спектру высокой полосы в отношении "зашумленности" или содержания шумов.
Далее, в действии 404b определяют, содержат ли полосы сформированной области BWE пик или нет. Например, если полоса содержит пик, индикатор, ассоциированный с полосой, может быть установлен в 1. Если другая полоса не содержит пик, индикатор, ассоциированный с этой полосой, может быть установлен в 0. На основе информации содержит ли полоса пик или нет, усиление, ассоциированное с упомянутой полосой, может быть модифицировано в действии 405b. При модификации усиления для полосы, значение усиления для соседних полос учитывают для того, чтобы достичь желательного результата, как описано выше. Путем модификации значения усиления, таким образом, обеспечивается достижение улучшенного спектра BWE. Модифицированные коэффициенты усиления могут затем применяться для соответствующих полос спектра BWE, что представлено, как действие 406b.
Пример декодера
Ниже, со ссылкой на фиг. 5, будет описан пример аудиодекодера преобразования, выполненного с возможностью выполнения описанной выше процедуры для поддержки расширения полосы частот, BWE, гармонического аудиосигнала. Деаудиокодер преобразования может представлять собой, например, декодер MDCT или другой декодер.
Декодер 501 преобразования аудиоданных представлен как связывающийся с другими объектами через модуль 502 передачи данных. Часть декодера преобразования аудиоданных, выполненная с возможностью обеспечения рабочей характеристики описанной выше процедуры, представлена как компоновка 500, окруженная пунктирной линией. Деаудиокодер преобразования может дополнительно содержать другие функциональные модули 516, такие как, например, функциональные модули, обеспечивающие регулярные функции декодера и BWE, и может дополнительно содержать один или больше модулей 514 сохранения.
Декодер 501 преобразования аудиоданных и/или компоновка 500 могут быть воплощены, например, с использованием одного или больше: процессора или микропроцессора и соответствующих программных средств, с соответствующим их сохранением, программируемого логического устройства (PLD) или другого электронного компонента (компонентов).
Деаудиокодер преобразования, как предполагается, содержит функциональные модули, для получения адекватных параметров, предоставляемых из объекта кодирования. Коэффициент смешивания с шумами представляет собой новый параметр для получения по сравнению с предшествующим уровнем техники. Таким образом, декодер должен быть выполнен так, чтобы один или больше коэффициентов смешения с шумами могут быть получен, когда требуется такое свойство. Деаудиокодер преобразования может быть описан и воплощен как содержащий модуль приема, выполненный с возможностью приема множества значений усиления, ассоциированных с полосой b частот и множества соседних полос частот для полосы b; и, возможно, коэффициента смешивания шумов. Такой модуль приема, однако, не показан в явном виде на фиг. 5.
Деаудиокодер преобразования содержит модуль определения, в качестве альтернативы, обозначенный как модуль 504 детектирования пика, который выполнен с возможностью определения и представления, какие полосы области спектра BWE содержат пик и какие полосы не содержат пик. То есть модуль определения выполнен с возможностью определения, содержит или нет спектральный пик реконструированная соответствующая полоса bʹ частот области частот расширенной полосы частот. Кроме того, аудиодекодер преобразования может содержать модуль 506 модификации усиления, который выполнен с возможностью модификации усиления, ассоциированного с полосой, в зависимости от того, содержит ли полоса пик или нет. Если полоса содержит пик, модифицированный коэффициент усиления рассчитывают как взвешенную сумму, например, среднее или медианное значение от (оригинальных) значений усиления множества полос, расположенных рядом с рассматриваемой полосой, включая в себя усиление данной полосы.
Деаудиокодер преобразования может дополнительно содержать модуль 508 применения коэффициента усиления, выполненный с возможностью применения или установки модифицированного коэффициента усиления в соответствующих полосах спектра BWE. Таким образом, модуль применения усиления выполнен с возможностью установки значения усиления, ассоциированного с реконструированной полосой bʹ частот для первого значения на основе принятого множества значений усиления, когда реконструированная полоса bʹ частот содержит, по меньшей мере, один спектральный пик, и для установки значения усиления, ассоциированного с реконструированной полосой bʹ частот, во второе значение на основе принятого множества значений усиления, когда реконструированный диапазон частот bʹ не содержит спектральный пик, где второе значение меньше чем или равно первому значению. Таким образом, обеспечивается перевод значений усиления в соответствии с положениями пиков области частоты расширенной полосы частот.
В качестве альтернативы, если возможно без модификации, применяемая функция может быть предусмотрена с использованием (обычной) дополнительной функции 516, только в случае когда применяемые коэффициенты усиления не являются оригинальными коэффициентами усиления, но модифицированными коэффициентами усиления. Кроме того, деаудиокодер преобразования может содержать модуль 510 смешивания шумов, выполненный с возможностью смешивания коэффициентов части BWE спектра с шумами, например, из кодовой книги, на основе одного или больше коэффициентов шумов или параметров, предоставляемых кодером аудиосигнала.
Пример процедуры кодера
Пример процедуры, выполняемой в кодере для поддержки расширения полосы частот, BWE, гармонического аудиосигнала будет описан ниже со ссылкой на фиг. 6. Эта процедура пригодна для использования при преобразовании аудиокодера, такого как, например, кодер MDCT или другой кодер. Как было упомянуто выше, предполагается, что аудиосигнал, прежде всего, представляет собой музыку, но может также, в качестве альтернативы, содержать, например, речь.
Процедура, описанная ниже, относится к частям процедуры кодирования, которая отклоняется от обычного кодирования гармонического аудиосигнала, из-за использования кодера преобразования. Таким образом, действия, описанные ниже, представляют собой необязательное добавление к предоставлению коэффициентов преобразования и коэффициентов усиления и т.д., для нижней части спектра и вывода коэффициентов усиления для полос верхней части спектра (части, которая кон