Регулировка уровня во временной области для декодирования или кодирования аудиосигналов

Иллюстрации

Показать все

Изобретение относится к кодированию, декодированию и обработке аудиосигналов. Технический результат – возможность регулировки уровня сигнала в динамическом диапазоне без потери точности данных. Декодер аудиосигнала для предоставления декодированного представления аудиосигнала на основе кодированного представления аудиосигнала содержит каскад предварительной обработки декодера для получения множества сигналов полосы частот из кодированного представления аудиосигнала, модуль оценки срезания, модуль сдвига уровня, преобразователь частотной области во временную и компенсатор сдвига уровня. Модуль оценки срезания анализирует кодированное представление аудиосигнала и/или дополнительную информацию касательно усиления сигналов полосы частот для определения текущего коэффициента сдвига уровня. Модуль сдвига уровня сдвигает уровни сигналов полосы частот в соответствии с коэффициентом сдвига уровня. Преобразователь частотной области во временную преобразует сигналы полосы частот со сдвинутым уровнем в представление временной области. Компенсатор сдвига уровня воздействует на представление временной области для частичной компенсации соответствующего сдвига уровня и для получения существенно компенсированного представления временной области. 4 н. и 12 з.п. ф-лы, 17 ил.

Реферат

Настоящее изобретение относится к кодированию, декодированию и обработке аудиосигналов, и в частности, к приведению уровня сигнала, подвергаемого частотно-временному преобразованию (или подвергаемого временно-частотному преобразованию), к динамическому диапазону соответствующего частотно-временного преобразователя (или временно-частотного преобразователя). Некоторые варианты осуществления настоящего изобретения относятся к приведению уровня сигнала, подвергаемого частотно-временному преобразованию (или подвергаемого временно-частотному преобразованию) к динамическому диапазону соответствующего преобразователя, реализованного на арифметике с фиксированной запятой или целочисленной арифметике. Дополнительные варианты осуществления настоящего изобретения относятся к предотвращению срезания для спектральных декодированных аудиосигналов, используя регулировку уровня во временной области совместно с дополнительной информацией.

Обработка аудиосигналов становится все более важной. Проблемы возникают, когда от современных кодеков воспринимаемого аудио требуется обеспечить удовлетворительное качество аудио при все более низких скоростях передачи битов.

В современных цепочках производства и доставки аудиоконтента доступный в цифровой форме оригинальный контент (поток PCM (поток с импульсно-кодовой модуляцией)) кодируется на стороне создания контента, например, профессиональным кодером AAC (Усовершенствованное аудиокодирование). Результирующий поток двоичных сигналов AAC затем становится доступным для покупки, например, посредством онлайн-магазина цифровых носителей. В редких случаях оказывается, что некоторые декодированные выборки PCM являются "срезанными", что означает, что две или более последовательные выборки достигли максимального уровня, который можно представить с помощью лежащего в основе битового разрешения (например, 16 битов) у равномерно квантованного представления с фиксированной запятой (например, модулированного в соответствии с PCM) для выходной формы сигнала. Это может приводить к слышимым артефактам (щелчки или кратковременное искажение). Хотя обычно на стороне кодера будут приложены усилия, чтобы предотвратить возникновение срезания на стороне декодера, тем не менее, срезание может возникать на стороне декодера по различным причинам, например разные реализации декодера, ошибки округления, ошибки передачи и т.п. Предполагая, что аудиосигнал на входе кодера ниже пороговой величины срезания, причины для срезания в современном кодере воспринимаемого аудио многочисленны. Прежде всего, аудиокодер применяет квантование к переданному сигналу, который доступен в виде разложения на частотные составляющие формы входного сигнала, чтобы уменьшить скорость передачи данных. Ошибки квантования в частотной области приводят к небольшим отклонениям амплитуды и фазы сигнала относительно исходной формы сигнала. Если амплитудные или фазовые ошибки конструктивно складываются, то результирующее положение во временной области временно может быть выше исходной формы сигнала. Во-вторых, способы параметрического кодирования (например, копирование спектральных полос, SBR) довольно грубо параметризуют мощность сигнала. Информация о фазе обычно пропускается. Следовательно, сигнал на стороне приемника восстанавливается только с правильной мощностью, но без сохранения формы сигнала. Сигналы с амплитудой, близкой к полной шкале, имеют тенденцию к срезанию.

Современные системы аудиокодирования предлагают возможность сообщать параметр уровня громкости (g1), предоставляя декодерам возможность регулировать громкость воспроизведения с помощью унифицированных уровней. Вообще, это могло бы приводить к срезанию, если аудиосигнал кодируется с достаточно высокими уровнями, и переданные коэффициенты нормализации предполагают увеличение уровней громкости. К тому же установившейся практикой при мастеринге аудиоконтента (в особенности музыки) является поднятие аудиосигналов до максимальных возможных значений, что приводит к срезанию аудиосигнала при крупном квантовании аудиокодеками.

Чтобы предотвратить срезание аудиосигналов, в качестве подходящего инструмента известны так называемые ограничители, чтобы ограничивать уровни аудиосигнала. Если входящий аудиосигнал превышает некоторую пороговую величину, то приводится в действие ограничитель и ослабляет аудиосигнал таким образом, что аудиосигнал на выходе не превышает заданный уровень. К сожалению, перед ограничителем необходим достаточный запас (в показателях динамического диапазона и/или битового разрешения).

Обычно любая нормализация громкости достигается в частотной области вместе с так называемым "управлением динамическим диапазоном" (DRC). Это дает возможность ровного смешивания в нормализации громкости, даже если коэффициент нормализации меняется от кадра к кадру из-за перекрытия гребенок фильтров.

Кроме того, из-за плохого квантования или параметрического описания любой кодированный аудиосигнал может попасть в срезание, если исходный аудиосигнал проходил мастеринг на уровнях возле пороговой величины срезания.

Как правило, в высокоэффективных устройствах цифровой обработки сигналов на основе арифметики с фиксированной запятой желательно поддерживать вычислительную сложность, использование памяти и энергопотребление как можно меньшими. По этой причине также желательно поддерживать длину слова у аудиовыборок как можно меньшей. Чтобы учесть любой возможный запас для срезания из-за нормализации громкости, потребовалось бы спроектировать гребенку фильтров, которая обычно является частью аудиокодера или декодера, с большей длиной слова.

Было бы желательно предоставить возможность ограничения сигнала без потери точности данных и/или без необходимости использования большей длины слова для гребенки фильтров декодера или гребенки фильтров кодера. В качестве альтернативы или дополнительно было бы желательно, если бы подходящий динамический диапазон сигнала, подвергаемого частотно-временному преобразованию или наоборот, можно было постоянно определять на покадровой основе для последовательных отрезков времени или "кадров" сигнала, чтобы уровень сигнала можно было регулировать таким образом, что текущий подходящий динамический диапазон помещается в динамический диапазон, предусмотренный преобразователем (преобразователем частотной области во временную или преобразователем временной области в частотную). Также было бы желательно выполнять такой сдвиг уровня с целью частотно-временного преобразования или временно-частотного преобразования практически "прозрачно" для других компонентов декодера или кодера. По меньшей мере одно из этих пожеланий и/или возможных дополнительных пожеланий выполняется декодером аудиосигнала по п. 1, кодером аудиосигнала по п. 14 и способом для декодирования кодированного представления аудиосигнала по п. 15.

Предоставляется декодер аудиосигнала для предоставления декодированного представления аудиосигнала на основе кодированного представления аудиосигнала. Декодер аудиосигнала содержит каскад предварительной обработки декодера, сконфигурированный для получения множества сигналов полосы частот из кодированного представления аудиосигнала. Декодер аудиосигнала дополнительно содержит модуль оценки срезания, сконфигурированный для анализа по меньшей мере одного из кодированного представления аудиосигнала, множества частотных сигналов и дополнительной информации касательно усиления сигналов полосы частот кодированного представления аудиосигнала в отношении того, предполагает (предполагают) ли кодированное представление аудиосигнала, множество частотных сигналов и/или дополнительная информация возможное срезание, чтобы определить текущий коэффициент сдвига уровня для кодированного представления аудиосигнала. Когда дополнительная информация предполагает возможное срезание, текущий коэффициент сдвига уровня вызывает сдвиг информации о множестве сигналов полосы частот к самому младшему биту, чтобы получить запас в по меньшей мере одном самом старшем бите. Декодер аудиосигнала также содержит модуль сдвига уровня, сконфигурированный для сдвига уровней сигналов полосы частот в соответствии с коэффициентом сдвига уровня для получения сигналов полосы частот со сдвинутым уровнем. Кроме того, декодер аудиосигнала содержит преобразователь частотной области во временную, сконфигурированный для преобразования сигналов полосы частот со сдвинутым уровнем в представление временной области. Декодер аудиосигнала дополнительно содержит компенсатор сдвига уровня, сконфигурированный для воздействия на представление временной области для по меньшей мере частичной компенсации сдвига уровня, примененного модулем сдвига уровня к сигналам полосы частот со сдвинутым уровнем, и для получения существенно компенсированного представления временной области.

Дополнительные варианты осуществления настоящего изобретения предоставляют кодер аудиосигнала, сконфигурированный для предоставления кодированного представления аудиосигнала на основе представления временной области входного аудиосигнала. Кодер аудиосигнала содержит модуль оценки срезания, сконфигурированный для анализа представления временной области входного аудиосигнала в отношении того, предполагается ли возможное срезание, чтобы определить текущий коэффициент сдвига уровня для представления входного сигнала. Когда предполагается возможное срезание, текущий коэффициент сдвига уровня вызывает сдвиг представления временной области входного аудиосигнала к самому младшему биту, чтобы получить запас в по меньшей мере одном самом старшем бите. Кодер аудиосигнала дополнительно содержит модуль сдвига уровня, сконфигурированный для сдвига уровня представления временной области входного аудиосигнала в соответствии с коэффициентом сдвига уровня для получения представления временной области со сдвинутым уровнем. Кроме того, кодер аудиосигнала содержит преобразователь временной области в частотную, сконфигурированный для преобразования представления временной области со сдвинутым уровнем в множество сигналов полосы частот. Кодер аудиосигнала также содержит компенсатор сдвига уровня, сконфигурированный для воздействия на множество сигналов полосы частот для по меньшей мере частичной компенсации сдвига уровня, примененного модулем сдвига уровня к представлению временной области со сдвинутым уровнем, и для получения множества существенно компенсированных сигналов полосы частот.

Дополнительные варианты осуществления настоящего изобретения предоставляют способ для декодирования кодированного представления аудиосигнала, чтобы получить декодированное представление аудиосигнала. Способ содержит предварительную обработку кодированного представления аудиосигнала, чтобы получить множество сигналов полосы частот. Способ дополнительно содержит анализ по меньшей мере одного из кодированного представления аудиосигнала, сигналов полосы частот и дополнительной информации касательно усиления сигналов полосы частот в отношении того, предполагается ли возможное срезание, чтобы определить текущий коэффициент сдвига уровня для кодированного представления аудиосигнала. Когда предполагается возможное срезание, текущий коэффициент сдвига уровня вызывает сдвиг представления временной области входного аудиосигнала к самому младшему биту, чтобы получить запас в по меньшей мере одном самом старшем бите. Кроме того, способ содержит сдвиг уровней сигналов полосы частот в соответствии с коэффициентом сдвига уровня для получения сигналов полосы частот со сдвинутым уровнем. Способ также содержит выполнение преобразования частотной области во временную для сигналов полосы частот в представление временной области. Способ дополнительно содержит воздействие на представление временной области для по меньшей мере частичной компенсации сдвига уровня, примененного к сигналам полосы частот со сдвинутым уровнем, и для получения существенно компенсированного представления временной области.

Кроме того, предоставляется компьютерная программа для реализации вышеописанных способов, когда исполняется на компьютере или процессоре сигналов.

Дополнительные варианты осуществления предоставляют декодер аудиосигнала для предоставления декодированного представления аудиосигнала на основе кодированного представления аудиосигнала. Декодер аудиосигнала содержит каскад предварительной обработки декодера, сконфигурированный для получения множества сигналов полосы частот из кодированного представления аудиосигнала. Декодер аудиосигнала дополнительно содержит модуль оценки срезания, сконфигурированный для анализа по меньшей мере одного из кодированного представления аудиосигнала, множества частотных сигналов и дополнительной информации касательно усиления сигналов полосы частот кодированного представления аудиосигнала, чтобы определить текущий коэффициент сдвига уровня для кодированного представления аудиосигнала. Декодер аудиосигнала также содержит модуль сдвига уровня, сконфигурированный для сдвига уровней сигналов полосы частот в соответствии с коэффициентом сдвига уровня для получения сигналов полосы частот со сдвинутым уровнем. Кроме того, декодер аудиосигнала содержит преобразователь частотной области во временную, сконфигурированный для преобразования сигналов полосы частот со сдвинутым уровнем в представление временной области. Декодер аудиосигнала дополнительно содержит компенсатор сдвига уровня, сконфигурированный для воздействия на представление временной области для по меньшей мере частичной компенсации сдвига уровня, примененного модулем сдвига уровня к сигналам полосы частот со сдвинутым уровнем, и для получения существенно компенсированного представления временной области.

Дополнительные варианты осуществления настоящего изобретения предоставляют кодер аудиосигнала, сконфигурированный для предоставления кодированного представления аудиосигнала на основе представления временной области входного аудиосигнала. Кодер аудиосигнала содержит модуль оценки срезания, сконфигурированный для анализа представления временной области входного аудиосигнала, чтобы определить текущий коэффициент сдвига уровня для представления входного сигнала. Кодер аудиосигнала дополнительно содержит модуль сдвига уровня, сконфигурированный для сдвига уровня представления временной области входного аудиосигнала в соответствии с коэффициентом сдвига уровня для получения представления временной области со сдвинутым уровнем. Кроме того, кодер аудиосигнала содержит преобразователь временной области в частотную, сконфигурированный для преобразования представления временной области со сдвинутым уровнем в множество сигналов полосы частот. Кодер аудиосигнала также содержит компенсатор сдвига уровня, сконфигурированный для воздействия на множество сигналов полосы частот для по меньшей мере частичной компенсации сдвига уровня, примененного модулем сдвига уровня к представлению временной области со сдвинутым уровнем, и для получения множества существенно компенсированных сигналов полосы частот.

Дополнительные варианты осуществления настоящего изобретения предоставляют способ для декодирования кодированного представления аудиосигнала, чтобы получить декодированное представление аудиосигнала. Способ содержит предварительную обработку кодированного представления аудиосигнала, чтобы получить множество сигналов полосы частот. Способ дополнительно содержит анализ по меньшей мере одного из кодированного представления аудиосигнала, сигналов полосы частот и дополнительной информации касательно усиления сигналов полосы частот, чтобы определить текущий коэффициент сдвига уровня для кодированного представления аудиосигнала. Кроме того, способ содержит сдвиг уровней сигналов полосы частот в соответствии с коэффициентом сдвига уровня для получения сигналов полосы частот со сдвинутым уровнем. Способ также содержит выполнение преобразования частотной области во временную для сигналов полосы частот в представление временной области. Способ дополнительно содержит воздействие на представление временной области для по меньшей мере частичной компенсации сдвига уровня, примененного к сигналам полосы частот со сдвинутым уровнем, и для получения существенно компенсированного представления временной области.

По меньшей мере некоторые из вариантов осуществления основываются на понимании, что можно без потери релевантной информации сдвинуть множество сигналов полосы частот в представлении частотной области с помощью некоторого коэффициента сдвига уровня в течение интервалов времени, в которых общий уровень громкости аудиосигнала довольно высокий. Точнее, релевантная информация в любом случае сдвигается в биты, которые, вероятно, содержат шум. Таким образом, может использоваться преобразователь частотной области во временную, имеющий ограниченную длину слова, даже если динамический диапазон сигналов полосы частот может быть больше поддерживаемого ограниченной длиной слова у преобразователя частотной области во временную. Другими словами, по меньшей мере некоторые варианты осуществления настоящего изобретения пользуются тем, что самый младший бит (биты) обычно не переносит никакой релевантной информации, хотя аудиосигнал довольно громкий, то есть релевантная информация с большей вероятностью содержится в самом старшем бите (битах). Сдвиг уровня, примененный к сигналам полосы частот со сдвинутым уровнем, также может обладать преимуществом снижения вероятности возникновения срезания в представлении временной области, где упомянутое срезание может происходить от конструктивного наложения одного или нескольких сигналов полосы частот в множестве сигналов полосы частот.

Эти догадки и результаты также применяются аналогичным образом к кодеру аудиосигнала и способу для кодирования исходного аудиосигнала, чтобы получить кодированное представление аудиосигнала.

Ниже подробнее описываются варианты осуществления настоящего изобретения со ссылкой на фигуры, на которых:

Фиг. 1 иллюстрирует кодер в соответствии с современным уровнем техники;

Фиг. 2 изображает декодер в соответствии с современным уровнем техники;

Фиг. 3 иллюстрирует другой кодер в соответствии с современным уровнем техники;

Фиг. 4 изображает еще один декодер в соответствии с современным уровнем техники;

Фиг. 5 показывает блок-схему декодера аудиосигнала в соответствии по меньшей мере с одним вариантом осуществления;

Фиг. 6 показывает блок-схему декодера аудиосигнала в соответствии по меньшей мере с еще одним вариантом осуществления;

Фиг. 7 показывает блок-схему, иллюстрирующую идею предложенного декодера аудиосигнала и предложенного способа для декодирования кодированного представления аудиосигнала в соответствии с вариантами осуществления;

Фиг. 8 – схематическая визуализация сдвига уровня, чтобы получить запас;

Фиг. 9 показывает блок-схему возможной регулировки формы перехода, которая может быть компонентом декодера или кодера аудиосигнала в соответствии по меньшей мере с некоторыми вариантами осуществления;

Фиг. 10 изображает блок оценки в соответствии с дополнительным вариантом осуществления, содержащий регулятор фильтра с предсказанием;

Фиг. 11 иллюстрирует устройство для формирования обратного потока данных;

Фиг. 12 иллюстрирует кодер в соответствии с современным уровнем техники;

Фиг. 13 изображает декодер в соответствии с современным уровнем техники;

Фиг. 14 иллюстрирует другой кодер в соответствии с современным уровнем техники; и

Фиг. 15 показывает блок-схему кодера аудиосигнала в соответствии по меньшей мере с одним вариантом осуществления; и

Фиг. 16 показывает блок-схему алгоритма способа для декодирования кодированного представления аудиосигнала в соответствии по меньшей мере с одним вариантом осуществления.

Обработка звуковых сигналов развилась во многих направлениях, и предметом многих исследований стало то, как эффективно кодировать и декодировать сигнал аудиоданных. Эффективное кодирование предусмотрено, например, в AAC MPEG (MPEG = Экспертная группа по движущимся изображениям; AAC = Усовершенствованное аудиокодирование). Некоторые аспекты AAC MPEG подробнее объясняются ниже в качестве введения к аудиокодированию и декодированию. Описание AAC MPEG нужно воспринимать только в качестве примера, так как описанные идеи с тем же успехом могут применяться к другим схемам аудиокодирования и декодирования.

В соответствии с AAC MPEG спектральные значения аудиосигнала кодируются с применением масштабных коэффициентов, квантования и кодовых книг, в частности, кодовых книг Хаффмана.

Перед тем, как проводится кодирование методом Хаффмана, кодер группирует множество кодируемых спектральных коэффициентов в разные разделы (спектральные коэффициенты получены от вышестоящих компонентов, например гребенки фильтров, психоакустической модели и квантователя, управляемого психоакустической моделью касательно порогов квантования и разрешений квантования). Для каждого раздела спектральных коэффициентов кодер выбирает кодовую книгу Хаффмана для кодирования методом Хаффмана. AAC MPEG предоставляет одиннадцать разных спектральных кодовых книг Хаффмана для кодирования спектральных данных, из которых кодер выбирает кодовую книгу, лучше всего подходящую для кодирования спектральных коэффициентов раздела. Кодер в качестве дополнительной информации предоставляет декодеру идентификатор кодовой книги, идентифицирующий кодовую книгу, используемую для кодирования методом Хаффмана спектральных коэффициентов раздела.

На стороне декодера декодер анализирует принятую дополнительную информацию, чтобы определить, какая из множества спектральных кодовых книг Хаффмана использована для кодирования спектральных значений раздела. Декодер проводит декодирование методом Хаффмана на основе дополнительной информации о кодовой книге Хаффмана, применяемой для кодирования спектральных коэффициентов раздела, который декодеру нужно декодировать.

После декодирования методом Хаффмана в декодере получается множество квантованных спектральных значений. Декодер затем может провести обратное квантование, чтобы инвертировать неравномерное квантование, которое могло быть проведено кодером. С помощью этого в декодере получаются обратно-квантованные спектральные значения.

Однако обратно-квантованные спектральные значения все еще могут быть немасштабированными. Выведенные немасштабированные спектральные значения сгруппированы в масштабные диапазоны, при этом каждый масштабный диапазон имеет общий масштабный коэффициент. Масштабный коэффициент для каждого масштабного диапазона доступен декодеру в виде дополнительной информации, которая предоставлена кодером. Используя эту информацию, декодер умножает немасштабированные спектральные значения в масштабном диапазоне на их масштабный коэффициент. С помощью этого получаются масштабированные спектральные значения.

Теперь со ссылкой на фиг. 1–4 объясняется кодирование и декодирование спектральных значений в соответствии с современным уровнем техники.

Фиг. 1 иллюстрирует кодер в соответствии с современным уровнем техники. Кодер содержит гребенку 10 T/F-фильтров (временно-частотных) для преобразования аудиосигнала AS, который должен быть кодирован, из временной области в частотную область, чтобы получить аудиосигнал частотной области. Аудиосигнал частотной области вводится в блок 20 масштабных коэффициентов для определения масштабных коэффициентов. Блок 20 масштабных коэффициентов приспособлен для разделения спектральных коэффициентов аудиосигнала частотной области на несколько групп спектральных коэффициентов, называемых масштабными диапазонами, которые совместно используют один масштабный коэффициент. Масштабный коэффициент представляет собой значение усиления, используемое для изменения амплитуды всех спектральных коэффициентов в соответствующем масштабном диапазоне. Кроме того, блок 20 масштабных коэффициентов приспособлен для формирования и вывода немасштабированных спектральных коэффициентов аудиосигнала частотной области.

Кроме того, кодер на фиг. 1 содержит квантователь для квантования немасштабированных спектральных коэффициентов аудиосигнала частотной области. Квантователь 30 может быть квантователем с неравномерным шагом.

После квантования квантованные немасштабированные спектры аудиосигнала вводятся в кодер 40 Хаффмана для кодирования методом Хаффмана. Кодирование методом Хаффмана используется для уменьшения избыточности квантованного спектра аудиосигнала. Множество немасштабированных квантованных спектральных коэффициентов группируется в разделы. Хотя в MPEG-AAC предусмотрено одиннадцать возможных кодовых книг, все спектральные коэффициенты раздела кодируются одной и той же кодовой книгой Хаффмана.

Кодер выберет одну из одиннадцати возможных кодовых книг Хаффмана, которая особенно подходит для кодирования спектральных коэффициентов раздела. При этом выбор кодовой книги Хаффмана в кодере для конкретного раздела зависит от спектральных значений конкретного раздела. Кодированные методом Хаффмана спектральные коэффициенты затем можно передать декодеру вместе с дополнительной информацией, содержащей, например, информацию о кодовой книге Хаффмана, которая использована для кодирования раздела спектральных коэффициентов, масштабный коэффициент, который использован для конкретного масштабного диапазона, и т.п.

Два или четыре спектральных коэффициента кодируются кодовым словом в кодовой книге Хаффмана, применяемой для кодирования спектральных коэффициентов раздела методом Хаффмана. Кодер передает декодеру кодовые слова, представляющие кодированные спектральные коэффициенты, вместе с дополнительной информацией, содержащей длину раздела, а также информацию о кодовой книге Хаффмана, используемой для кодирования спектральных коэффициентов раздела.

В AAC MPEG предоставляется одиннадцать спектральных кодовых книг Хаффмана для кодирования спектральных данных аудиосигнала. Разные спектральные кодовые книги Хаффмана можно идентифицировать по их индексу кодовой книги (значение между 1 и 11). Размер кодовой книги Хаффмана указывает, сколько спектральных коэффициентов кодируется кодовым словом из рассматриваемой кодовой книги Хаффмана. В AAC MPEG размер кодовой книги Хаффмана равен либо 2, либо 4, указывая, что кодовое слово кодирует либо два, либо четыре спектральных значения аудиосигнала.

Однако разные кодовые книги Хаффмана также отличаются по другим свойствам. Например, максимальное абсолютное значение спектрального коэффициента, которое может кодировать кодовая книга Хаффмана, меняется от одной кодовой книги к другой и может быть равно, например, 1, 2, 4, 7, 12 или больше. Кроме того, рассматриваемая кодовая книга Хаффмана может быть приспособлена либо не приспособлена к кодированию значений со знаком.

Применяя кодирование методом Хаффмана, спектральные коэффициенты кодируются кодовыми словами разных длин. AAC MPEG предоставляет две разные кодовые книги Хаффмана, имеющие максимальное абсолютное значение 1, две разные кодовые книги Хаффмана, имеющие максимальное абсолютное значение 2, две разные кодовые книги Хаффмана, имеющие максимальное абсолютное значение 4, две разные кодовые книги Хаффмана, имеющие максимальное абсолютное значение 7, и две разные кодовые книги Хаффмана, имеющие максимальное абсолютное значение 12, где каждая кодовая книга Хаффмана представляет отдельную функцию распределение вероятностей. Кодер Хаффмана всегда будет выбирать кодовую книгу Хаффмана, которая лучше всего подходит для кодирования спектральных коэффициентов.

Фиг. 2 иллюстрирует декодер в соответствии с современным уровнем техники. Кодированные методом Хаффмана спектральные значения принимаются декодером 50 Хаффмана. Декодер 50 Хаффмана в качестве дополнительной информации также принимает информацию о кодовой книге Хаффмана, используемой для кодирования спектральных значений для каждого раздела спектральных значений. Затем декодер 50 Хаффмана выполняет декодирование методом Хаффмана для получения немасштабированных квантованных спектральных значений. Немасштабированные квантованные спектральные значения вводятся в обратный квантователь 60. Обратный квантователь выполняет обратное квантование для получения обратно-квантованных немасштабированных спектральных значений, которые вводятся в преобразователь 70 масштаба. Преобразователь 70 масштаба также принимает масштабные коэффициенты для каждого масштабного диапазона в качестве дополнительной информации. На основе принятых масштабных коэффициентов преобразователь 70 масштаба масштабирует немасштабированные обратно-квантованные спектральные значения, чтобы получить масштабированные обратно-квантованные спектральные значения. Затем гребенка 80 F/T-фильтров преобразует масштабированные обратно-квантованные спектральные значения аудиосигнала частотной области из частотной области во временную область, чтобы получить выборочные значения аудиосигнала временной области.

Фиг. 3 иллюстрирует кодер в соответствии с современным уровнем техники, отличающийся от кодера из фиг. 1 в том, что кодер из фиг. 3 дополнительно содержит блок TNS на стороне кодера (TNS = Временное ограничение шума). Временное ограничение шума может применяться для управления временной формой шума квантования путем проведения процесса фильтрации по отношению к частям спектральных данных аудиосигнала. Блок 15 TNS на стороне кодера проводит кодирование с линейным предсказанием (LPC) по отношению к спектральным коэффициентам кодируемого аудиосигнала частотной области. Результатом вычисления LPC, в числе прочего, являются коэффициенты отражения, также называемые коэффициентами PARCOR. Временное ограничение шума не используется, если эффективность [выигрыш] предсказания, которая также выводится с помощью вычисления LPC, не превышает некоторого порогового значения. Однако, если эффективность предсказания больше порогового значения, применяется временное ограничение шума. Блок TNS на стороне кодера удаляет все коэффициенты отражения, которые меньше некоторого порогового значения. Оставшиеся коэффициенты отражения преобразуются в коэффициенты линейного предсказания и используются в качестве коэффициентов фильтра ограничения шума в кодере. Затем блок TNS на стороне кодера выполняет операцию фильтрации над теми спектральными коэффициентами, для которых применяется TNS, чтобы получить обработанные спектральные коэффициенты аудиосигнала. Декодеру передается дополнительная информация, указывающая информацию TNS, например коэффициенты отражения (коэффициенты PARCOR).

Фиг. 4 иллюстрирует декодер в соответствии с современным уровнем техники, который отличается от проиллюстрированного на фиг. 2 декодера в том, что декодер из фиг. 4 к тому же содержит блок 75 TNS на стороне декодера. Блок TNS на стороне декодера принимает обратно-квантованные масштабированные спектры аудиосигнала, а также принимает информацию TNS, например, информацию, указывающую коэффициенты отражения (коэффициенты PARCOR). Блок 75 TNS на стороне декодера обрабатывает обратно-квантованные спектры аудиосигнала, чтобы получить обработанный обратно-квантованный спектр аудиосигнала.

Фиг. 5 показывает блок-схему декодера 100 аудиосигнала в соответствии по меньшей мере с одним вариантом осуществления настоящего изобретения. Декодер аудиосигнала сконфигурирован для приема кодированного представления аудиосигнала. Как правило, кодированное представление аудиосигнала сопровождается дополнительной информацией. Кодированное представление аудиосигнала вместе с дополнительной информацией может предоставляться в виде потока данных, который создан, например, кодером воспринимаемого аудио. Декодер 100 аудиосигнала дополнительно сконфигурирован для предоставления декодированного представления аудиосигнала, которое может быть идентично сигналу, обозначенному как "существенно компенсированное представление временной области" на фиг. 5, или может быть выведено из него с использованием последующей обработки.

Декодер 100 аудиосигнала содержит каскад 110 предварительной обработки декодера, который сконфигурирован для получения множества сигналов полосы частот из кодированного представления аудиосигнала. Например, каскад 110 предварительной обработки декодера может содержать распаковщик потока двоичных сигналов, если кодированное представление аудиосигнала и дополнительная информация содержатся в потоке двоичных сигналов. Некоторые стандарты аудиокодирования могут использовать изменяющиеся во времени разрешения, а также разные разрешения для множества сигналов полосы частот в зависимости от частотного диапазона, в котором кодированное представление аудиосигнала переносит релевантную информацию (высокое разрешение) или нерелевантную информацию (низкое разрешение или вообще отсутствие данных) в настоящее время. Это означает, что полоса частот, в которой кодированное представление аудиосигнала содержит в настоящее время большое количество релевантной информации, обычно кодируется с использованием довольно высокого разрешения (то есть, с использованием довольно большого количества битов) в течение того интервала времени, в отличие от сигнала полосы частот, который временно не переносит никакой информации или только очень мало информации. Может даже оказаться, что для некоторых сигналов полосы частот поток двоичных сигналов временно вообще не содержит данных или битов, потому что эти сигналы полосы частот не содержат никакой релевантной информации в течение соответствующего интервала времени. Поток двоичных сигналов, предоставленный в каскад 110 предварительной обработки декодера, обычно содержит информацию (например, как часть дополнительной информации), указывающую, какие сигналы полосы частот из множества сигналов полосы частот содержат данные для рассматриваемого в настоящее время интервала времени или "кадра", и соответствующее битовое разрешение.

Декодер 100 аудиосигнала дополнительно содержит модуль 120 оценки срезания, сконфигурированный для анализа дополнительной информации касательно усиления сигналов полосы частот кодированного представления аудиосигнала, чтобы определить текущий коэффициент сдвига уровня для кодированного представления аудиосигнала. Некоторые стандарты кодирования воспринимаемого аудио используют индивидуальные масштабные коэффициенты для разных сигналов полосы частот в множестве сигналов полосы частот. Индивидуальные масштабные коэффициенты указывают для каждого сигнала полосы частот текущий диапазон амплитуд относительно других сигналов полосы частот. Для некоторых вариантов осуществления настоящего изобретения анализ этих масштабных коэффициентов дает возможность приблизительной оценки максимальной амплитуды, которая может возникать в соответствующем представлении временной области после того, как множество сигналов полосы частот преобразовано из частотной области во временную область. Эта информация может затем использоваться для определения, возможно ли возникновение срезания в представлении временной области для рассматриваемого интервала времени или "кадра" в отсутствие какой-либо подходящей обработки, которая предложена настоящим изобретением. Модуль 120 оценки срезания сконфигурирован для определения коэффициента сдвига уровня, который сдвигает все сигналы полосы частот в множестве сигналов полосы частот на одинаковую величину относительно уровня (например, относительно амплитуды сигнала или мощности сигнала). Коэффициент сдвига уровня может определяться индивидуально для каждого интервала времени (кадра), то есть коэффициент сдвига уровня изменяется во времени. Как правило, модуль 120