2583717 - Способ и система кодирования аудиоданных с адаптивной низкочастотной коррекцией

Способ и система кодирования аудиоданных с адаптивной низкочастотной коррекцией

Иллюстрации

Показать все

Изобретение относится к вычислительной технике. Технический результат заключается в адаптивном применении низкочастотной коррекции в ходе кодирования звуковых сигналов, содержащих выраженные низкочастотные тональные составляющие, без изменения декодера. Способ кодирования звука, включающий выполнение обнаружения тональности на аудиоданных в частотной области с целью генерирования данных управления коррекцией, указывающих, имеет ли выраженное тональное содержимое каждая низкочастотная полоса набора по меньшей мере из некоторых низкочастотных полос аудиоданных; генерирование предварительного значения маскировки для аудиоданных в полосе для каждой указанной низкочастотной полосы; определение значений маскировки для аудиоданных полосы для каждой из указанных низкочастотных полос, при этом значения маскировки для аудиоданных в каждой указанной низкочастотной полосе, имеющей выраженное тональное содержимое, что указывается данными управления коррекцией, получают путем выполнения низкочастотной коррекции для коррекции предварительного значения маскировки аудиоданных в полосе, и значение маскировки для каждой другой низкочастотной полосы в наборе представляет собой предварительное значение маскировки для аудиоданных полосы. 4 н. и 24 з.п. ф-лы, 7 ил.

Реферат

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИ

Данная заявка заявляет приоритет предварительной заявки на патент США №61/584478, поданной 9 января 2012 г., озаглавленной «Method and System for Encoding Audio Data with Adaptive Low Frequency Compensation», и заявки на патент США №13/588890, поданной 17 августа 2012 г., озаглавленной «Method and System for Encoding Audio Data with Adaptive Low Frequency Compensation», каждая из которых ссылкой полностью включается в настоящее раскрытие.

ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯ

1. Область техники

Изобретение относится к обработке звуковых сигналов и, в частности, к кодированию аудиоданных с адаптивной низкочастотной коррекцией. Некоторые варианты осуществления изобретения являются пригодными для кодирования аудиоданных в соответствии с одним из форматов, известных как Dolby Digital (AC-3) и Dolby Digital Plus (E-AC-3), или в соответствии с другим форматом кодирования. Dolby, Dolby Digital и Dolby Digital Plus являются товарными знаками Dolby Laboratories Licensing Corporation.

2. Уровень техники

Несмотря на то, что изобретение не ограничивается использованием при кодировании аудиоданных в соответствии с форматом AC-3 (Dolby Digital) (или с форматом Dolby Digital Plus), для удобства оно будет описано в вариантах осуществления, где оно кодирует битовый аудиопоток в соответствии с форматом АС-3. Кодированный битовый поток АС-3 включает от одного до шести каналов звукового содержимого и метаданные, указывающие по меньшей мере на одну из характеристик звукового содержимого. Звуковое содержимое представляет собой аудиоданные, которые были сжаты с использованием перцептуального кодирования звука.

Подробности кодирования АС-3 (также известного как Dolby Digital) хорошо известны и изложены во многих опубликованных источниках, включая следующие: стандарт сжатия цифрового звука ATSC A52/A (AC-3), Revision A, Комитета по перспективным телевизионным системам, 20 августа. 2001; препринт 3796 «Flexible Perceptual Coding for Audio Transmission and Storage» за авторством Craig C. Todd et al., 96-я Конвенция Общества инженеров по звуковой технике (AES), 26 февраля, 1994; статья «Design and Implementation of AC-3 Coders» за авторством Steve Vernon, IEEE Trans. Consumer Electronics, Vol.41, No. 3, август 1995; глава «Dolby Digital Audio Coding Standards» за авторством Robert L. Andersen и Grant A. Davidson в работе «The Digital Signal Processing Handbook», издание второе, гл. редактор Vijay K. Madisetti, CRC Press, 2009; препринт 3365 «High Quality, Low-Rate Audio Transform Coding for Transmission and Multimedia Applications» за авторством Bosi et al., 93-я Конвенция AES, 1992; и патенты США №№5583962; 5632005; 5633981; 5727119; и 6021386.

Подробности кодирования Dolby Digital (AC-3) и Dolby Digital Plus (иногда именуемого Enhanced AC-3, или «E-AC-3») изложены в статье «Introduction to Dolby Digital Plus, an Enhancement to the Dolby Digital Coding System», препринт 6196, 117-я Конвенция AES, 28 октября 2004, и в технических условиях Dolby Digital /Dolby Digital Plus Specification (ATSC A/52:2010), доступных по ссылке

http://www.atsc.org/cms/index.php/standards/published-standards.

При кодировании АС-3 битового аудиопотока блоки входных дискретных значений аудиоданных, подлежащие кодированию, претерпевают преобразование из временной области в частотную, в результате приводящее к блокам данных в частотной области, обычно именуемым коэффициентами преобразования, частотными коэффициентами или частотными составляющими, которые располагаются в равномерно расположенных элементах разрешения по частоте. Частотный коэффициент в каждом элементе разрешения затем преобразуется (например, на ступени 7 BFPE системы по ФИГ. 1) в формат с плавающей запятой, включающий экспоненту и мантиссу.

Типичные варианты осуществления кодеров АС-3 (и Dolby Digital Plus, и других кодеров аудиоданных) реализуют психоакустическую модель для анализа данных в частотной области на полосовой основе (т.е., как правило, на основе 50 неравномерно распределенных полос, являющихся приближениями полосы частот, хорошо известной психоакустической шкалы, известной как шкала Барка) с целью определения оптимального распределения битов каждой из мантисс. Данные мантисс затем квантуются (например, в квантователе 6 системы по ФИГ. 1) в некоторое количество битов, соответствующих определенному распределению битов. Квантованные данные мантисс затем форматируют (например, в форматере 8 системы по ФИГ. 1) в кодированный выходной битовый поток.

Как правило, распределение битов мантисс основывается на разности между тонко гранулированным спектром (представляемым для каждого элемента разрешения по частоте значением спектральной плотности мощности («PSD»)) и грубо гранулированной кривой маскировки (представляемой значением маски для каждой полосы частот). Также как правило, психоакустическая модель реализует низкочастотную коррекцию (иногда именуемую «lowcomp»-коррекцией или «lowcomp») для определения корректирующих значений (иногда именуемых в настоящем раскрытии значениями параметра «lowcomp») с целью коррекции значений кривой маскировки для низкочастотных полос. Каждое значение параметра lowcomp может вычитаться из предварительного значения кривой маскировки для отличающейся одной из низкочастотных полос с целью генерирования окончательного значения кривой маскировки для указанной полосы.

Как отмечалось, распределение битов мантисс при звуковом кодировании может основываться на разности между спектром сигнала и кривой маскировки. Простой алгоритм реализации такого распределения битов может предполагать, что шум квантования в одной конкретной полосе частот не зависит от распределений битов в соседних полосах. Однако это предположение, как правило, не является обоснованным, в особенности, на низких частотах, по причинам ограниченной избирательности по частоте и высокого уровня перекрытия между полосами в банке фильтров декодера, а также по причине просачивания из одной полосы в соседние полосы на низких частотах, где наклон кривой маскировки может быть равен или может превышать наклон переходных амплитудно-частотных характеристик банка фильтров.

Таким образом, процесс распределения битов мантисс при звуковом кодировании часто включает процесс низкочастотной коррекции, который определяет скорректированную кривую маскировки. Скорректированная кривая маскировки затем используется для определения значения отношения «сигнал-маска» для каждой частотной составляющей аудиоданных. Низкочастотная коррекция представляет собой процесс коррекции избирательности декодера с целью улучшения производительности кодирования на низких частотах для сигналов с выраженными низкочастотными тональными составляющими. Как правило, низкочастотная коррекция представляет собой коррекцию частотной характеристики банка фильтров, которая для удобства может встраиваться в вычисление функции возбуждения, которая используется для определения значений отношения сигнал-маска. Как более подробно будет обсуждаться ниже, типичная реализация низкочастотной коррекции выполняет поиск выраженных низкочастотных составляющих сигнала путем поиска частотных полос со значением PSD на 12 дБ меньше, чем значение PSD для следующей (более высокочастотной) полосы.

Когда указанное значение PSD обнаруживается, значение функции возбуждения для полосы немедленно уменьшается на 18 дБ (или на величину до 18 дБ). Это уменьшение затем медленно восстанавливается на 3 дБ для каждой последующей полосы.

ФИГ. 1 представляет собой кодер, сконфигурированный для выполнения кодирования AC-3 (или Enhanced АС-3) на входных аудиоданных 1 во временной области. Банк 2 анализирующих фильтров преобразовывает входные аудиоданные 1 во временной области в аудиоданные 3 в частотной области, а ступень 7 кодирования блоков с плавающей запятой (BFPE) генерирует представление с плавающей запятой каждой частотной составляющей данных 3, включающее экспоненту и мантиссу для каждого элемента разрешения по частоте. Вывод данных в частотной области из ступени 7 иногда будет именоваться в настоящем раскрытии как аудиоданные 3 в частотной области. Вывод аудиоданных в частотной области со ступени 7 затем кодируется, что заключается в квантовании его мантисс в квантователе 6 и ограничении дискретности изменения его экспонент (на ступени 10 ограничения дискретности изменения экспонент) и кодировании (на ступени 11 кодирования экспонент) экспонент с ограниченной дискретностью изменения, генерируемых на ступени 10. Форматер 8 генерирует кодированный битовый поток 9 AC-3 (или Enhanced AC-3) в ответ на вывод квантованных данных из квантователя 6 и вывод данных кодированных дифференциальных экспонент из ступени 11.

Квантователь 6 выполняет распределение битов и квантование на основе управляющих данных (в том числе данных маскировки), генерируемых контроллером 4. Данные маскировки (определяющие кривую маскировки) генерируются исходя из данных 3 в частотной области на основе психоакустической модели (реализуемой контроллером 4) человеческого слуха и слухового восприятия. Психоакустическая модель учитывает зависящие от частоты пороги человеческого слуха и психоакустическое явление, именуемое маскировкой, посредством которого интенсивная частотная составляющая, близкая к одной или нескольким более слабым частотным составляющим, склонна маскировать более слабые составляющие, делая их неслышимыми для слушателя. Это делает возможным пропуск более слабых частотных составляющих при кодировании аудиоданных и, таким образом, достижение более высокой степени сжатия без неблагоприятного воздействия на воспринимаемое качество кодированных аудиоданных (битовый поток 9). Данные маскировки включают значение кривой маскировки для каждой полосы частот аудиоданных 3 в частотной области. Указанные значения кривой маскировки представляют уровень сигнала, маскируемый ухом человека в каждой полосе частот. Квантователь 6 использует эту информацию для принятия решения о том, как наилучшим образом использовать доступное количество информационных битов для представления данных в частотной области каждой из полос частот входного звукового сигнала.

Для коррекции значений кривой маскировки для низкочастотных полос, контроллер 4 может реализовывать традиционный процесс низкочастотной коррекции (иногда именуемый в настоящем раскрытии «lowcomp»-коррекцией) для генерирования значений параметра «lowcomp». Скорректированные значения кривой маскировки используются для генерирования значений отношения сигнал-маска для каждой частотной составляющей аудиоданных 3 в частотной области. Низкочастотная коррекция является характерным признаком психоакустической модели, обычно используемой в ходе кодирования аудиоданных AC-3 (и Dolby Digital Plus). Lowcomp-коррекция улучшает кодирование высокотональных низкочастотных составляющих (входных аудиоданных, подлежащих кодированию), предпочтительно, уменьшая маску в значимом диапазоне частот и, как следствие, выделяя больше битов кодовым словам, используемым для кодирования этих составляющих.

Lowcomp-коррекция определяет параметр lowcomp для каждой низкочастотной полосы. Параметр lowcomp для каждой полосы фактически вычитается из значения «возбуждения» (которое определяется хорошо известным образом) для этой полосы, а результирующие значения разности используются для определения скорректированных значений кривой маскировки. Уменьшение значения возбуждения для полосы (например, путем вычитания из него параметра lowcomp или увеличения значения параметра lowcomp, который из него вычитается) в результате приводит к увеличению количества битов, выделяемых кодированной версии звукового сигнала в указанной полосе, по следующей причине. Несмотря на то, что значение возбуждения для полосы необязательно равно конечному (скорректированному) значению маски (которое фактически вычитается из значения аудиоданных для указанной полосы), оно используется для вычисления окончательного значения маски (указанное окончательное значение маски учитывает абсолютные пороги слышимости и, потенциально, другие широкополосные и/или полосовые корректировки). Поскольку количество кодирующих битов, выделенных звуковому сигналу в полосе, больше, если больше отношение «сигнал-маска» для этой полосы, уменьшение значения маски для полосы могло бы увеличивать количество битов, выделяемых кодированной версии звукового сигнала в этой полосе.

Поэтому уменьшение значения возбуждения для полосы обычно приводит к уменьшенному значению маски для этой полосы и, следовательно, к увеличению количества выделенных битов для этой полосы.

Далее мы более подробно опишем способ, согласно которому традиционная lowcomp-коррекция могла бы обычно выполняться психоакустической моделью (например, моделью, реализуемой контроллером 4 по ФИГ. 1). Контроллер 4 может просматривать низкочастотные полосы (в диапазоне от 0 Гц до 2,5 КГц с частотой дискретизации 48 КГц) для поиска резкого (12 дБ) увеличения спектральной плотности мощности (PSD) между текущей полосой частот и следующей (более высокочастотной) полосой, что является одной из характеристик сильной тональной составляющей. В ответ на определение в низкочастотной полосе PSD, указывающей сильную тональную составляющую, применяется lowcomp-коррекция, вызывающая выделение большего количества битов данным, используемым для кодирования определенной сильной низкочастотной тональной составляющей.

Следует понимать, что при кодировании AC-3 и Dolby Digital Plus каждая составляющая аудиоданных 3 в частотной области (т.е. содержимое каждого преобразованного элемента разрешения) имеет представление с плавающей запятой, включающее мантиссу и экспоненту. Для упрощения вычисления кривой маскировки, семейство кодеров Dolby Digital использует при получении кривой маскировки только экспоненты. Или, иначе выражаясь, кривая маскировки зависит от значений экспонент коэффициентов преобразования, но не зависит от значений мантисс коэффициентов преобразования. Так как интервал экспонент является довольно ограниченным (обычно, целочисленными значениями от 0 до 24), то, в целях вычисления кривой маскировки, значения экспонент отображаются в шкалу PSD с большим интервалом (обычно, целочисленных значений от 0 до 3072). Таким образом, самые громкие частотные составляющие (т.е. те, которые имеют экспоненту, равную 0) отображаются в значение PSD, равное 3072, в то время как самые мягкие составляющие данных в частотной области (т.е., те, которые имеют экспоненту, равную 24) отображаются в значение PSD, равное 0.

Известно, что при традиционном кодировании Dolby Digital (или Dolby Digital Plus) вместо абсолютных экспонент кодируются дифференциальные экспоненты (т.е. разность между последовательными экспонентами). Дифференциальные экспоненты могут принимать только одно из пяти значений: 2, 1, 0, -1 и -2. Если дифференциальная экспонента находится за пределами этого интервала, одна из экспонент, подвергнутых вычитанию, изменяется таким образом, чтобы дифференциальная экспонента (после изменения) находилась в пределах указанного интервала (это традиционный способ известен как «ограничение дискретности изменения экспоненты», или «ограничение дискретности изменения»). Ступень 10 ограничения дискретности изменения экспонент в кодере по ФИГ. 1 генерирует экспоненты с ограниченной дискретностью изменения в ответ на направленные к ней исходные экспоненты путем выполнения операции ограничения дискретности изменения.

Рассмотрим пример типичной реализации lowcomp-коррекции, в которой психоакустическая модель (например, модель, реализуемая контроллером 4 по ФИГ. 1) просматривает низкочастотные полосы, где полоса «N+1» представляет собой следующую полосу, и текущая полоса «N» имеет меньшую частоту, чем следующая полоса. Просмотр может происходить от самой низкочастотной полосы до полосы номер 22 и, как правило, не включает последнюю полосу канала LFE (низкочастотных эффектов). Если определяется, что значение PSD для полосы N+1 за вычетом значения PSD для полосы N равно 256 (что указывает на резкое увеличение (12 дБ) PSD при переходе от значения PSD для текущей полосы, N, к следующей (более высокочастотной) полосе, N+1), lowcomp-коррекция выполняется путем немедленного уменьшения функции возбуждения, вычисленной для текущей полосы (т.е. уменьшения значения возбуждения для этой полосы), на 18 дБ. Значение возбуждения для указанной полосы уменьшается путем вычитания параметра lowcomp, равного 384, из значения возбуждения, которое было бы определено для этой полосы в противном случае. Это уменьшение значения возбуждения медленно восстанавливается (например, на величину до 3 дБ на каждую последующую полосу).

Для последующих полос, т.е. полос с более высокой частотой, чем у полосы, для которой изначально предназначается lowcomp, если определяется, что разность в PSD между одной полосой и следующей полосой меньше 256, параметр lowcomp (который вычитается из значения возбуждения для этой полосы), либо сохраняет то же значение, что и для предыдущей полосы, либо уменьшается до меньшего значения. До тех пор, пока впервые не определено (в ходе просмотра всех полос частот), что разность в PSD между двумя смежными полосами не равна 256, lowcomp-коррекция не выполняется (т.е. из значений возбуждения полос «вычитается» параметр lowcomp, имеющий нулевое значение).

Несмотря на то, что традиционный lowcomp-процесс является полезным для тональных сигналов с выраженными низкочастотными составляющими, недостатком является то, что критерий разности PSD 12 дБ, который запускает уменьшение маски, часто встречается в большом количестве нетональных сигналов, имеющих низкочастотное содержимое. Хорошо известным примером такого нетонального сигнала являются аудиоданные, служащие признаком аплодисментов толпы, и они будут упоминаться в настоящем раскрытии как образец нетонального сигнала этого типа (который в типичных вариантах осуществления настоящего изобретения различается с тональным сигналом). Авторы изобретения осознали, что перераспределение кодирующих битов от низких к средним/высоким частотам (относительно распределения кодирующих битов, которое могло бы использоваться при традиционном кодировании AC-3 или E-AC-3 с традиционной lowcomp-коррекцией) улучшает воспринимаемое качество аплодисментов и других нетональных сигналов, воспроизводимых вслед за декодированием версий сигналов, кодированных AC-3 (или E-AC-3), и поэтому было бы желательно отключать lowcomp-коррекцию таких нетональных сигналов в ходе их кодирования AC-3 или E-AC-3 (т.е. в ходе кодирования таких сигналов было бы желательно переключать lowcomp-коррекцию в положение ВЫКЛ.). Авторы изобретения также осознали, что отключение lowcomp-коррекции в ходе кодирования AC-3 (или E-AC-3) тональных сигналов, имеющих низкочастотное содержимое (например, сигналов, генерируемых камертон-дудками), в ходе такого кодирования ухудшает воспринимаемое качество тональных сигналов при их воспроизведении вслед за декодированием их версий, кодированных AC-3 (или E-AC-3).

Таким образом, авторы изобретения осознали, что было бы желательно реализовать кодер, который может адаптивно применять низкочастотную коррекцию в ходе кодирования звуковых сигналов, содержащих выраженные низкочастотные тональные составляющие, но не в ходе кодирования звуковых сигналов, которые не содержат выраженные низкочастотные тональные составляющие (например, аплодисментов или других звуковых сигналов, имеющих низкочастотное нетональное содержимое), и что это следует сделать таким образом, чтобы не требовались изменения декодера (т.е. образом, который допускает декодирование традиционным декодером кодированного звука, который был сгенерирован кодером согласно изобретению).

Некоторые традиционные способы кодирования звука, в которых распределение битов мантисс основывается на разности между спектром сигнала и кривой маскировки, в ходе генерирования значений маскировки для полосовых аудиоданных в частотной области, подлежащих кодированию, в дополнение к низкочастотной коррекции выполняют по меньшей мере один процесс коррекции значений маскировки.

Например, некоторые традиционные аудиокодеры (например, кодеры AC-3 и E-AC-3) реализуют распределение дельта-битов, которое представляет собой подготовку к параметрической коррекции кривой маскировки для каждого подлежащего кодированию звукового канала в соответствии с дополнительным усовершенствованным психоакустическим анализом. Кодер передает дополнительные коды битового потока, обозначаемые как дельты, которые переносят разности между использованной кривой маскировки и используемой по умолчанию кривой маскировки (т.е. разность между значением маскировки, определяемым используемой по умолчанию моделью маскировки на каждой частоте, и значением маскировки, определяемым усовершенствованной моделью маскировки, фактически используемой на той же частоте).

Функция распределения дельта-битов, как правило, вынуждена представлять собой ступенчатую лестничную функцию (например, со ступенями+6 дБ вплоть до+18 дБ). Каждый шаг ступени лестницы соответствует корректировке уровня маскировки для целого числа сопредельных половинных полос Барка. Ступени лестницы включают некоторое количество неперекрывающихся сегментов переменной длины. Для эффективности передачи, эти сегменты кодируются неравномерно.

Традиционным применением распределения дельта-битов является традиционный процесс BABNDNORM, предназначенный для коррекции уровня маскировки. В процессе BABNDNORM (одном из примеров процесса коррекции кривой маскировки), для перцептуальных полос номер 29 и выше (из числа частотных полос Барка, используемых при кодировании AC-3 и Enhanced AC-3), энергия сигнала в каждой перцептуальной полосе, используемой для доставки функции возбуждения, масштабируется значением, обратно пропорциональным ширине перцептуальной полосы. Поскольку все перцептуальные полосы ниже полосы 29 имеют единичную ширину полосы (т.е. включают только единственный элемент разрешения по частоте), в масштабировании энергий сигнала для полос ниже 29 нет необходимости. На постепенно увеличивающихся частотах функция возбуждения и, следовательно, оценка порога маскировки уменьшаются. Это увеличивает распределение битов на более высоких частотах, особенно в канале объединения сигналов. Некоторые аудиокодеры, которые реализуют кодирование AC-3 (или E-AC-3), конфигурируются для реализации процесса BABNDNORM в качестве одного из этапов кодирования.

ФИГ. 5 представляет собой график значений полосовой PSD (перцептуальной энергии; верхняя кривая) полосовых аудиоданных в частотной области, график масштабированных значений полосовой PSD (вторая кривая сверху), генерируемых путем применения к аудиоданным традиционного процесса BABNDNORM, график функции возбуждения (третья кривая сверху), генерируемой (например, традиционным кодером AC-3 или E-AC-3) для использования при маскировке аудиоданных, и график масштабированной версии функции возбуждения (нижняя кривая), генерируемой (например, традиционным кодером AC-3 или E-AC-3) путем применения к функции возбуждения традиционного процесса BABNDNORM. Каждая из этих четырех кривых представлена в шкале перцептуальных полос (частот Барка). Очевидно, что две верхние кривые начинают расходиться одна с другой в полосе 29, и две нижние кривые также начинают расходиться одна с другой в полосе 29.

ФИГ. 6 представляет собой график спектра частот звукового сигнала (кривая по ФИГ. 6, имеющая самый широкий динамический диапазон), график используемой по умолчанию кривой маскировки, предназначенной для маскировки звукового сигнала (вторая кривая снизу), и график масштабированной версии кривой маскировки (нижняя кривая), генерируемой (например, традиционным кодером AC-3 или E-AC-3) путем применения к кривой маскировки традиционного процесса BABNDNORM. Из ФИГ. 6 очевидно, что на постепенно возрастающих частотах процесс BABNDNORM снижает кривую маскировки на большие величины.

КРАТКОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

В первом классе вариантов осуществления изобретения, изобретение представляет собой способ распределения битов мантисс, предназначенный для определения распределения битов мантисс значений аудиоданных для аудиоданных в частотной области, подлежащих кодированию (в том числе путем квантования). Этот способ распределения битов включает этап определения значений маскировки для значений аудиоданных, который заключается в выполнении адаптивной низкочастотной коррекции на аудиоданных каждой полосы частот из набора низкочастотных полос аудиоданных так, чтобы эти значения маскировки были пригодны для определения значений отношения сигнал-маска, которые определяют распределение битов мантисс для указанных аудиоданных. Адаптивная низкочастотная коррекция включает этапы:

(a) выполнения обнаружения тональности на аудиоданных с целью генерирования данных управления коррекцией, указывающих, имеет ли выраженное тональное содержимое каждая полоса частот из набора низкочастотных полос; и

(b) выполнения низкочастотной коррекции на аудиоданных в каждой полосе частот из набора низкочастотных полос, имеющей выраженное тональное содержимое, что указывается данными управления коррекцией и заключается в коррекции предварительного значения маскировки для указанной каждой из полос частот, имеющих выраженное тональное содержимое, но в невыполнении низкочастотной коррекции на аудиоданных в любой другой полосе частот из набора низкочастотных полос так, чтобы значение маскировки для каждой указанной полосы частот представляло собой нескорректированное предварительное значение маскировки.

В некоторый вариантах осуществления изобретения в первом классе этап (а) включает этап выполнения обнаружения тональности на аудиоданных с целью генерирования данных управления коррекцией, указывающих, имеет ли выраженное тональное содержимое каждая из полос частот из по меньшей мере подмножества полос частот аудиоданных (необязательно низкочастотных полос), и этап определения значений маскировки для значений аудиоданных также включает этап:

(c) выполнения процесса коррекции значений маскировки первым способом для указанной каждой полосы частот аудиоданных, имеющей выраженное тональное содержимое, что указывается данными управления коррекцией и заключается в коррекции предварительного значения маскировки для указанной каждой полосы частот, имеющей выраженное тональное содержимое, и выполнения процесса коррекции значений маскировки вторым способом для указанной каждой полосы частот аудиоданных, в которых отсутствует выраженное тональное содержимое, что указывается данными управления коррекцией.

Например, процесс коррекции значений маскировки может представлять собой процесс BABNDNORM, указанная каждая полоса частот может представлять собой перцептуальную полосу, и этап (с) может включать этап выполнения процесса BABNDNORM с первой постоянной масштабирования для указанной каждой полосы частот, имеющей выраженное тональное содержимое, и выполнение процесса BABNDNORM со второй постоянной масштабирования для указанной каждой полосы частот, в которой отсутствует выраженное тональное содержимое.

Другой вариант осуществления изобретения представляет собой способ кодирования, включающий любой из вариантов осуществления указанного способа распределения мантисс.

Во втором классе вариантов осуществления изобретения, изобретение представляет собой способ кодирования звука, который преодолевает ограничения традиционных способов кодирования, которые применяют низкочастотную коррекцию ко всем входным звуковым сигналам (включая сигналы, как с тональным, так и с нетональным низкочастотным содержимым) или не применяют низкочастотную коррекцию ни к одному входному звуковому сигналу. Эти варианты осуществления изобретения избирательно (адаптивно) применяют низкочастотную коррекцию в ходе кодирования звуковых сигналов, содержащих выраженные низкочастотные тональные составляющие, но не в ходе кодирования звуковых сигналов, которые не содержат выраженные низкочастотные тональные составляющие (например, аплодисментов или других звуковых сигналов, имеющих низкочастотное нетональное содержимое, но не выраженное тональное низкочастотное содержимое). Адаптивная низкочастотная коррекция выполняется способом, который позволяет декодеру выполнять декодирование кодированного звука без определения того (или его информирования о том), применялась ли низкочастотная коррекция в ходе кодирования или нет.

Типичный вариант осуществления изобретения во втором классе представляет собой способ кодирования звука, включающий этапы:

(a) выполнения обнаружения тональности на аудиоданных в частотной области с целью генерирования данных управления коррекцией, указывающих имеет ли выраженное тональное содержимое каждая низкочастотная полоса набора по меньшей мере из некоторых низкочастотных полос аудиоданных; и

(b) выполнения низкочастотной коррекции для генерирования скорректированного значения маскировки для аудиоданных в каждой указанной низкочастотной полосе, имеющей выраженное тональное содержимое, что указывается данными управления коррекцией, и генерирования значения маскировки для аудиоданных в каждой другой низкочастотной полосе в наборе без выполнения низкочастотной коррекции.

В некоторых вариантах осуществления изобретения, способ кодирования звука представляет собой способ кодирования AC-3 или Enhanced AC-3. В этих вариантах осуществления изобретения, низкочастотная коррекция предпочтительно выполняется (т.е. переключается в положение ВКЛ., или включается) для полос частот входных аудиоданных, для которых изначально предназначалась lowcomp-коррекция (т.е. полос частот, указывающих выраженное, долговременное, стационарное («тональное») низкочастотное содержимое), и иначе не выполняется (т.е. переключается в положение ВЫКЛ., или фактически отключается). В этих вариантах осуществления изобретения, в ответ на данные управления коррекцией, указывающие, что низкочастотную коррекцию не следует выполнять на полосе частот аудиоданных (например, на данные управления коррекцией, указывающие, что полоса включает нетональное звуковое содержимое, а не выраженное тональное содержимое), этап (b) предпочтительно включает этап «повторного ограничения дискретности изменения экспонент» аудиоданных в указанной полосе с целью генерирования модифицированных аудиоданных для этой полосы, указанные модифицированные аудиоданные для полосы включают модифицированную экспоненту. Повторное ограничение дискретности изменения экспонент генерирует модифицированные аудиоданные для полосы таким образом, что предотвращается равенство -2 дифференциальной экспоненты для этой полосы (например, так, что экспонента аудиоданных в следующей, более высокочастотной полосе за вычетом модифицированной экспоненты модифицированных аудиоданных для данной полосы должна быть равна 2, 1, 0 или -1). Таким образом, lowcomp-коррекция не будет применяться к полосе, поскольку не будет удовлетворяться критерий применения к полосе lowcomp-коррекции (увеличение PSD для полосы на 12 дБ относительно PSD для следующей, более низкочастотной полосы; этот критерий не может удовлетворяться, если не выполняется равенство -2 экспоненты модифицированных (подвергнутых «повторному ограничению дискретности изменения экспонент») аудиоданных для полосы за вычетом экспоненты следующей, более низкочастотной полосы).

Конкретнее, в некоторых указанных вариантах осуществления изобретения, для каждой полосы («N-й» полосы), для которой повторное ограничение дискретности изменения экспонент препятствует равенству дифференциальной экспоненты -2, lowcomp-коррекция «не применяется» (или переключается в положение ВЫКЛ., или фактически отключается) в следующем смысле. Модифицированная дифференциальная экспонента для полосы (в результате повторного ограничения дискретности изменения экспонент) равна -1, 0, 1 или 2. Таким образом, если дифференциальная экспонента для предыдущей (более низкочастотной) полосы («(N-1)-й» полосы) была равна -2 (что может происходить, если этап обнаружения тональности указывал сильное тональное содержимое для «(N-1)-й» полосы с целью предотвращения повторного ограничения дискретности изменения экспонент и отсутствие тонального содержимого для «N-й» полосы - для запуска повторного ограничения дискретности изменения экспонент для «N-й» полосы), и lowcomp-коррекция применила (традиционным образом) полную корректировку маски для «(N-1)-й» полосы (т.е. обнаружение тональности согласно изобретению не предотвратило осуществление этого посредством lowcomp), традиционная lowcomp-коррекция (без повторного ограничения дискретности изменения экспонент) применял бы последовательность постепенно уменьшающихся корректировок маски (для небольшого количества полос, следующих за «(N-1)-й» полосой, в том числе для «N-й» полосы) до тех пор, пока он не достигнет полосы, для которой он выполняет нулевую корректировку (в предположении, что ни одна из дифференциальных экспонент для этих полос не равна -2). В вариантах осуществления изобретения, описываемых в настоящем абзаце, когда повторное ограничение дискретности изменения экспонент (согласно изобретению) препятствует равенству -2 дифференциальной экспоненты для полосы («N-й» полосы; т.е. поскольку этап обнаружения тональности согласно изобретению указывает нетональное содержимое для этой полосы), если lowcomp-коррекция применила корректировку маски для предыдущей полосы («(N-1)-й» полосы»), допускается продолжение lowcomp-коррекцией ее последовательности постепенно уменьшающихся корректировок маски для N-й полосы (и, возможно, также и для небольшого количества последующих полос) до тех пор, пока она не достигнет первой полосы, для которой она выполняет нулевую корректировку. В этот момент, предотвращается совершение lowcomp-коррекцией какой-либо дальнейшей корректировки маски до тех пор, пока обнаружение тональности согласно изобретению не укажет тональный сигнал.

В других вариантах осуществления изобретения, когда этап обнаружения тональности согласно изобретению указывает нетональное содержимое для какой-либо низкочастотной полосы (или для всех совместно рассматриваемых низкочастотных полос) в наборе, к которому традиционно могла бы применяться lowcomp-коррекция, lowcomp-коррекция «не применяется» (или переключается в положение OFF, или фактически отключается) в следующем смысле. В ответ на указание этапом обнаружения тональности согласно изобретению нетонального содержимого по меньшей мере для одной низкочастотной полосы в наборе, вычитание ненулевых параметров lowcomp из функции возбуждения для всех полос в наборе прекращается (например, немедленно). В этот момент, предотвращается выполнений lowcomp-коррекцией каких-либо корректировок маски (вплоть до начала зондирования по полосам следующего набора аудиоданных в частотной области).

В некоторых вариантах осуществления изобретения, данные управления коррекцией указывают, имеет ли тональное содержимое каждая отдельная низкочастотная полоса в наборе, и низкочастотная коррекция избирательно применяется (или не применяется) к каждой отдельной низкочастотной полосе в этом наборе. В других вариантах осуществления изобретения, данные управления коррекцией указывают, имеют ли выраженное тональное содержимое низкочастотные полосы в наборе (рассматриваемом совместно), и низкочастотная коррекция либо применяется ко всем низкочастотным полосам в наборе, либо не применяется ни к одной низкочастотной полосе в наборе (в зависимости от содержимого данных управления коррекцией).

В некоторых вариантах осуществления изобретения во втором классе, этап (а) включает этап выполнения обнаружения тональности на аудиоданных с целью генерирования данных управления коррекцией, указывающих, имеет ли тональное содержимое каждая полоса частот из по меньшей мере подмножества полос частот (необязательно низкочастотных полос) аудиоданных, и этап определения значений маскировки для значений аудиоданных также включает этап:

(c) выполнения процесса коррекции значений маскировки первым способом для указанной каждой полосы частот аудиоданных, имеющих выраженное тональное содержимое, что указывается данными управления коррекцией, и выполнения процесса коррекции значений маскировки вторым способом для указанной каждой полосы частот аудиоданных, в которых отсутствует выраженное тональное содержимое, что указывается данными управления коррекцией.

Способ и система кодирования аудиоданных с адаптивной низкочастотной коррекцией

Патент 2583717