Система компандирования и способ для снижения шума квантования с использованием усовершенствованного спектрального расширения
Иллюстрации
Показать всеИзобретение относятся к области обработки звуковых сигналов. Техническим результатом является снижение шума квантования. Процесс упаковки уменьшает исходный динамический диапазон первоначального звукового сигнала посредством процесса упаковки, который делит первоначальный звуковой сигнал на совокупность сегментов с использованием определенной формы окна, вычисляет коэффициент усиления в широкой полосе частот в частотной области с использованием основанного не на энергии среднего значения дискретных значений частотной области первоначального звукового сигнала и применяет отдельные коэффициенты усиления для усиления сегментов с относительно низкой интенсивностью и ослабления сегментов с относительно высокой интенсивностью. 5 н. и 16 з.п. ф-лы, 8 ил.
Реферат
ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИ
[0001] Заявка испрашивает приоритет согласно предварительной заявке на патент США № 61/809028, поданной 5 апреля 2013 года, и предварительной заявке на патент США № 61/877167, поданной 12 сентября 2013 года, содержание которых во всей полноте включено в настоящую заявку посредством ссылки.
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
[0002] Один или несколько вариантов относятся в целом к обработке звуковых сигналов, а более конкретно к снижению шума кодирования в аудиокодеках, использующих способы упаковки/распаковки (компандирования).
ПРЕДПОСЫЛКИ СОЗДАНИЯ ИЗОБРЕТЕНИЯ
[0003] Многие популярные цифровые звуковые форматы используют способы упаковки с потерями данных, которые отбрасывают некоторые данные для снижения технических требований к памяти или скорости передачи данных. Применение упаковки с потерями данных не только снижает точность исходного содержимого (например, звукового содержимого), но оно также может внести заметные искажения в виде артефактов упаковки. В контексте звуковых систем кодирования эти артефакты звука называются шумом кодирования или шумом квантования.
[0004] Цифровые звуковые системы используют кодеки (кодирующие-декодирующие компоненты) для упаковки и распаковки аудиоданных в соответствии с определенным форматом файла звукозаписи или аудиоформатом потокового мультимедиа. Кодеки реализуют алгоритмы, которые пытаются представлять звуковой сигнал посредством минимального числа битов, сохраняя такую высокую точность, насколько это возможно. Технологии упаковки с потерями, как правило, используют в аудиокодеках, работающих по принципу психоакустической модели слухового восприятия человека. Аудиоформаты обычно включают использование преобразования во временной/частотной области (например, модифицированного дискретного косинусного преобразования - MDCT), а также использование таких маскирующих эффектов, как частотная маскировка или временная маскировка, таким образом, чтобы определенные звуки, включая любые явные шумы квантования, скрывались либо маскировались фактическим содержимым.
[0005] Большинство звуковых систем кодирования основаны на кадровом представлении. Аудиокодеки в норме формируют в пределах кадра шум кодирования в частотной области таким образом, что он становится менее слышимым. Несколько существующих цифровых аудиоформатов используют кадры настолько большой длительности, что кадр может содержать звуки нескольких разных уровней или интенсивностей. Так как шум кодирования обычно является стационарным в отношении уровня на протяжении выделения кадра, то шум кодирования может быть наиболее слышим в течение частей кадра с низкой интенсивностью. Такой эффект может проявляться в виде искажения - опережающего эха, при котором тишина (или сигнал низкого уровня) предшествующего сегмента с высокой интенсивностью переполнен шумом в декодированном звуковом сигнале. Такой эффект может быть наиболее заметным в кратковременных звуках или импульсах от ударных инструментов, таких как кастаньеты или другие источники резких ударных звуков. Такое искажение, как правило, обусловлено шумом квантования, вносимого в частотной области, который распространяется по всему окну преобразования кодека во временной области.
[0006] Существующие меры по избеганию или сведению к минимуму артефактов предварительного эха включают использование фильтров. Такие фильтры, тем не менее, вызывают фазовые искажения и временную размытость. Другое возможное решение включает использование меньших окон преобразования, однако этот подход может значительно уменьшить частотное разрешение.
[0007] Не следует полагать, что предмет изобретения, обсуждаемый в разделе предпосылок создания изобретения, является известным уровнем техники только в результате его упоминания в разделе предпосылок создания изобретения. Аналогично, не следует полагать, что проблема, упоминаемая в разделе предпосылок создания изобретения или связанная с предметом изобретения в разделе предпосылок создания изобретения, является ранее признанной в известном уровне техники. Предмет изобретения в разделе предпосылок создания изобретения лишь представляет различные подходы, которые сами по себе также могут представлять собой изобретения.
КРАТКОЕ ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ
[0008] Варианты осуществления направлены на способ обработки принятого звукового сигнала путем распаковки звукового сигнала в расширенный динамический диапазон с помощью процесса, который включает деление принятого звукового сигнала на совокупность временных сегментов с использованием определенной формы окна, вычисление коэффициента усиления в широкой полоске частот для каждого временного сегмента в частотной области с использованием основанного не на энергии среднего значения представления звукового сигнала в частотной области и применение коэффициента усиления к каждому временному сегменту для получения распакованного звукового сигнала. Значения коэффициента усиления в широкой полосе частот, применяемые к каждому временному сегменту, выбирают таким образом, чтобы получить эффект усиления сегментов с относительно высокой интенсивностью и ослабления сегментов с относительно низкой интенсивностью. Для данного способа принятый звуковой сигнал содержит исходный звуковой сигнал, который был упакован из исходного динамического диапазона с помощью процесса упаковки, включающего деление исходного звукового сигнала на совокупность временных сегментов с использованием определенной формы окна, вычисление коэффициента усиления в широкой полосе частот в частотной области с использованием основанного не на энергии среднего значения дискретных значений частотной области исходного звукового сигнала и применение коэффициента усиления в широкой полосе частот к исходному звуковому сигналу. В процессе упаковки значения коэффициентов усиления в широкой полосе частот, применяемые к каждому временному сегменту, выбирают таким образом, чтобы получить эффект усиления сегментов с относительно низкой интенсивностью и ослабления сегментов с относительно высокой интенсивностью. Процесс распаковки выполняют с возможностью восстановления, по существу, динамического диапазона первоначального звукового сигнала, а коэффициент усиления в широкой полосе частот в процессе распаковки может быть, по существу, обратным коэффициенту усиления в широкой полосе частот в процессе упаковки.
[0009] В системе, которая реализует способ обработки принятого звукового сигнала с помощью процесса распаковки, может применяться компонент банка фильтров для анализа звукового сигнала с целью получения его представления в частотной области, а определенная форма окна для сегментации на совокупность временных сегментов может быть такой же, как у фильтра-прототипа для банка фильтров. Кроме того, в системе, которая реализует способ обработки принятого звукового сигнала с помощью процесса упаковки, может быть применен компонент банка фильтров для анализа исходного звукового сигнала с целью получения его представления в частотной области, а определенная форма окна для сегментации на совокупность временных сегментов может быть такой же, как у фильтра-прототипа для банка фильтров. Банк фильтров в любом случае может быть или банком QMF, или оконным преобразованием Фурье. В данной системе принимаемый сигнал для процесса распаковки получают после модификации упакованного сигнала с помощью аудиокодера, который генерирует битовый поток, и декодера, который декодирует битовый поток. Кодер и декодер могут содержать по меньшей мере часть аудиокодека с преобразованием сигналов. Система может дополнительно содержать компоненты, которые обрабатывают информацию управления, которая принимается через битовый поток и определяет состояние приведения в действие процесса распаковки.
КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВ
[0010] На нижеследующих графических материалах подобные ссылочные позиции используются для обозначения подобных элементов. Несмотря на то, что нижеследующие фигуры изображают различные примеры, указанная одна или несколько реализаций не ограничиваются примерами, изображенными на фигурах.
[0011] На фиг. 1 изображена система для упаковки и распаковки звукового сигнала в аудиокодеке с преобразованием сигналов в соответствии с одним из вариантов осуществления.
[0012] На фиг. 2A изображен звуковой сигнал, разделенный на множество коротких временных сегментов в соответствии с одним из вариантов осуществления.
[0013] На фиг. 2B изображен звуковой сигнал фиг. 2A после применения широкополосного усиления к каждому из коротких временных сегментов в соответствии с одним из вариантов осуществления.
[0014] На фиг. 3A представлена блок-схема, иллюстрирующая способ упаковки звукового сигнала в соответствии с одним из вариантов осуществления.
[0015] На фиг. 3B представлена блок-схема, иллюстрирующая способ распаковки звукового сигнала в соответствии с одним из вариантов осуществления.
[0016] На фиг. 4 представлена структурная схема, иллюстрирующая систему для упаковки звукового сигнала в соответствии с одним из вариантов осуществления.
[0017] На фиг. 5 представлена структурная схема, иллюстрирующая систему для распаковки звукового сигнала в соответствии с одним из вариантов осуществления.
[0018] На фиг. 6 изображено деление звукового сигнала на совокупность коротких временных сегментов в соответствии с одним из вариантов осуществления.
ПОДРОБНОЕ ОПИСАНИЕ
[0019] Описаются системы и способы для применения способов компандирования с целью осуществления в аудиокодеке временного формирования шума квантования. Такие варианты осуществления включают использование алгоритма компандирования, реализованного в QMF области для достижения временного формирования шума квантования. Процессы включают управление с помощью кодера требуемым уровнем компандирования с помощью декодера и расширение монофонических приложений до стерео и многоканального компандирования.
[0020] Аспекты одного или нескольких вариантов осуществления изобретения, описанных в данной заявке, могут быть реализованы в звуковой системе, которая обрабатывает звуковые сигналы для передачи по сети, включающей один или несколько компьютеров, или обрабатывающих устройств исполнения программных команд. Любой из описываемых вариантов осуществления изобретения может использоваться отдельно или совместно с любым другим в любом сочетании. Несмотря на то, что разные варианты осуществления изобретения могут быть продиктованы разными недостатками в известном уровне техники, которые могут обсуждаться или упоминаться в одном или нескольких местах данного описания, указанные варианты осуществления изобретения не обязательно нацелены на какой-либо из этих недостатков. Иными словами, разные варианты осуществления изобретения могут быть нацелены на разные недостатки, которые могут обсуждаться в данном описании. Некоторые варианты осуществления изобретения могут лишь частично быть нацеленными на некоторые недостатки или только один недостаток, который может обсуждаться в данном описании, а некоторые варианты осуществления изобретения могут не быть нацеленными ни на один из этих недостатков.
[0021] На фиг. 1 изображена система компандирования для снижения шума квантования в системе обработки звука с кодеком в соответствии с одним из вариантов осуществления. На фиг. 1 изображена система обработки звуковых сигналов, построенная c применением аудиокодека, содержащего кодер (или "основной кодер") 106 и декодер (или "основной декодер") 112. Кодер 106 кодирует звуковое содержимое в потоке данных или в сигнале для передачи по сети 110, где оно декодируется с помощью декодера 112 для воспроизведения или дальнейшей обработки. В одном из вариантов осуществления кодер 106 и декодер 112 кодека реализуют способ упаковки с потерями для снижения требований к памяти и/или скорости передачи цифровых аудиоданных, и такой кодек может быть реализован в виде MP3, Vorbis, Dolby Digital (AC-3), AAC или аналогичного кодека. Способ упаковки с потерями кодека создает шум кодирования, который обычно является стационарным по отношению к уровню на протяжении выделения кадра, определенного посредством кодека. Такой шум кодирования часто является наиболее слышимым во время частей кадра с низкой интенсивностью. Система 100 включает компоненты, которые уменьшают воспринимаемый шум кодирования в существующих системах кодирования, предусматривая компонент 104 предварительного этапа упаковки перед основным кодером 106 кодека и компонент 114 окончательного этапа распаковки, работающий на выходе основного декодера 112. Компонент 104 упаковки способен делить исходный входной звуковой сигнал 102 на совокупность временных сегментов, используя определенную форму окна, вычислять и применять коэффициент усиления в широкой полосе частот в частотной области, используя основанное не на энергии среднее значение дискретных значений частотной области исходного звукового сигнала, причем коэффициенты усиления, применяемые к каждому временному сегменту, усиливают сегменты с относительно низкой интенсивностью и ослабляют сегменты с относительно высокой интенсивностью. Такая модификация усиления имеет эффект упаковки или значительного уменьшения исходного динамического диапазона входного звукового сигнала 102. Затем упакованный звуковой сигнал кодируется в кодере 106, передается по сети 110 и декодируется декодером 112. Декодированный упакованный сигнал подается на вход компонента 114 распаковки, который выполнен с возможностью осуществления операции, обратной операции упаковки предварительного этапа 104 упаковки посредством применения обратных значений коэффициентов усиления для каждого временного сегмента для расширения динамического диапазона упакованного звукового сигнала обратно до исходного динамического диапазона входного звукового сигнала 102. Таким образом, выходной звуковой сигнал 116 содержит звуковой сигнал, имеющий исходный динамический диапазон, с удаленным в предварительном и окончательном этапе процесса компандирования шумом кодирования.
[0022] Как показано на фиг. 1, компонент упаковки или предварительный этап 104 упаковки выполнен с возможностью уменьшения динамического диапазона звукового сигнала 102, подаваемого на основной кодер 106. Входной звуковой сигнал делится на ряд коротких сегментов. Размер или длина каждого короткого сегмента представляет собой часть размера кадра, используемого основным кодером 106. Например, типичный размер кадра основного кодера может быть порядка от 40 до 80 миллисекунд. В этом случае каждый короткий сегмент может быть порядка от 1 до 3 миллисекунд. Компонент 104 упаковки вычисляет соответствующий коэффициент усиления в широкой полосе частот для упаковки входного звукового сигнала на основе посегментной упаковки. Это достигается путем модификации коротких сегментов сигнала с помощью соответствующего коэффициента усиления для каждого сегмента. Относительно большие значения коэффициентов усиления выбирают таким образом, чтобы усиливать сегменты с относительно низкой интенсивностью, а малые значения коэффициентов усиления выбирают таким образом, чтобы ослабить сегменты с высокой интенсивностью.
[0023] На фиг. 2A изображен звуковой сигнал, разделенный на множество коротких временных сегментов в соответствии с одним из вариантов осуществления, а на фиг. 2B изображен тот же звуковой сигнал после применения широкополосного усиления компонентом упаковки. Как показано на фиг. 2A, звуковой сигнал 202 представляет собой кратковременный или такой звуковой импульс, который может быть получен с помощью ударного инструмента (например, кастаньет). Сигнал имеет пик амплитуды, как показано на графике напряжения V в зависимости от времени t. В целом, амплитуда сигнала зависит от акустической энергии или интенсивности звука и представляет собой меру мощности звука в любой момент времени. Когда звуковой сигнал 202 обрабатывается посредством аудиокодека, основанного на кадровом представлении, части сигнала обрабатываются в пределах кадров 204 преобразования (например, MDCT). Типовые существующие цифровые звуковые системы используют кадры относительно большой длительности, так что для резких кратковременных или коротких импульсных звуков один кадр может включать звуки низкой интенсивности, а также высокой интенсивности. Таким образом, как показано на фиг. 1, единственный кадр 204 MDCT содержит импульсную часть (пик) звукового сигнала, а также относительно большое количество сигнала низкой интенсивности до и после пика. В одном из вариантов осуществления компонент 104 упаковки делит сигнал на ряд коротких временных сегментов 206 и применяет широкополосное усиление к каждому сегменту для сжатия динамического диапазона сигнала 202. Количество и размер каждого короткого сегмента могут быть выбраны в зависимости от требований приложений и системных ограничений. По отношению к размеру отдельного кадра MDCT количество коротких сегментов может составлять от 12 до 64 сегментов, и может, как правило, содержать 32 сегмента, но варианты осуществления изобретения не ограничиваются этим.
[0024] На фиг. 2B изображен звуковой сигнал фиг. 2A после применения широкополосного усиления к каждому из коротких временных сегментов в соответствии с одним из вариантов осуществления. Как показано на фиг. 2B, звуковой сигнал 212 имеет такую же относительную форму, что и исходный сигнал 202, однако амплитуда сегментов с низкой интенсивностью увеличена путем применения коэффициентов усиления, а амплитуда сегментов с высокой интенсивностью уменьшена путем применения ослабляющих коэффициентов усиления.
[0025] Выходным сигналом основного декодера 112 является входной звуковой сигнал с уменьшенным динамическим диапазоном (например, сигнал 212), к которому добавляется шум квантования, внесенный основным кодером 106. Этот шум квантования имеет практически равномерный уровень во времени в пределах каждого кадра. Компонент 114 распаковки действует на декодированный сигнал для восстановления динамического диапазона исходного сигнала. Он использует то же кратковременное разрешение, обусловленное размером 206 короткого сегмента, и инвертирует коэффициенты усиления, применяемые в компоненте 104 упаковки. Таким образом, компонент 114 распаковки применяет малый коэффициент усиления (ослабления) к сегментам, которые в исходном сигнале имели низкую интенсивность и были усилены устройством упаковки данных, и применяет большой коэффициент усиления (усиления) к сегментам, которые в исходном сигнале имели высокую интенсивность и были ослаблены устройством упаковки данных. Шум квантования, добавляемый основным кодером, имеет равномерную временную огибающую и, таким образом, одновременно формируется усилением при окончательной обработке, чтобы приблизительно повторять временную огибающую исходного сигнала. Такая обработка эффективно представляет шум квантования менее слышимым во время тихих отрывков. Хотя шум может быть усилен во время отрывков с высокой интенсивностью, он остается менее слышимым из-за маскирующего эффекта громкого сигнала самого звукового содержимого.
[0026] Как показано на фиг. 2A, процесс компандирования изменяет отдельные сегменты звукового сигнала обособленно с соответствующими коэффициентами усиления. В некоторых случаях это может привести к неоднородностям в выходном сигнале компонента упаковки, что может вызвать проблемы в основном кодере 106. Кроме того, неоднородности при усилении в компоненте 114 распаковки могут привести к разрывам в огибающей формируемого шума, что может привести к слышимым щелчкам в выходном звуковом сигнале 116. Другая проблема, связанная с применением отдельных коэффициентов усиления к коротким сегментам звукового сигнала, обусловлена тем фактом, что типовые звуковые сигналы представляют собой смесь множества отдельных источников. Некоторые из этих источников могут быть установившимися во времени, а некоторые могут быть неустановившимися. Установившийся сигнал обычно постоянен в своих статистических параметрах во времени, тогда как неустановившиеся сигналы обычно не являются постоянными. Учитывая широкополосный характер неустановившихся сигналов, их характерные признаки в такой смеси обычно заметнее на более высоких частотах. Вычисление коэффициента усиления, обусловленного кратковременной энергией (RMS) сигнала, стремится смещаться в сторону более сильных низких частот и, следовательно, преобладают установившиеся источники, и демонстрирует небольшое изменение во времени. Таким образом, подход на основе энергетического принципа в формировании шума, вносимого основным кодером, обычно неэффективен.
[0027] В варианте осуществления изобретения система 100 вычисляет и применяет коэффициент усиления в компонентах упаковки и распаковки в банке фильтров посредством короткого фильтра-прототипа для того, чтобы решить возможные проблемы, связанные с применением отдельных коэффициентов усиления. Для модификации сигнал (исходный сигнал в компоненте 104 упаковки и выходной сигнал основного декодера 112 в компоненте 114 распаковки) сначала анализируется с помощью банка фильтров, а широкополосное усиление применяется непосредственно в частотной области. Соответствующий эффект во временной области состоит в том, чтобы естественно сгладить применение усиления в соответствии с формой фильтра-прототипа. Это устраняет проблемы неоднородностей, описанные выше. Затем модифицированный в частотной области сигнал преобразуется обратно во временную область с помощью соответствующего синтезирующего банка фильтров. Анализ сигнала посредством банка фильтров обеспечивает доступ к его спектральному составу и позволяет выполнять вычисление коэффициента усиления, который преимущественно повышает вклад, приходящийся на высокие частоты (или повышает вклад, приходящийся на любой спектральный состав со слабым сигналом), обеспечивая коэффициенты усиления, в которых не преобладают сильнейшие составляющие в сигнале. Это решает проблему, связанную с источниками звука, которые содержат смесь различных источников, как описано выше. В одном варианте осуществления система вычисляет коэффициент усиления с использованием p-нормы спектральных амплитуд, где p, как правило, меньше, чем 2 (р < 2). Это позволяет выделить спектральный состав слабых сигналов по сравнению с основанным на энергетическом принципе (р = 2).
[0028] Как указано выше, система включает фильтр-прототип для сглаживания применения усиления. В целом фильтр-прототип является основной формой окна в банке фильтров, который модулируется сигналами синусоидальной формы для получения импульсных характеристик для разных субполосовых фильтров в банке фильтров. Например, оконное преобразование Фурье (STFT) представляет собой банк фильтров, а каждая частота линии этого преобразования является поддиапазоном банка фильтров. Оконное преобразование Фурье осуществляется путем перемножения сигнала с формой окна (окна N-дискретных значений), которое может быть прямоугольным, окном Ханна, производным окном Кайзера-Бесселя (KBD) или какой-либо другой формы. Затем помещенный в окно сигнал подвергают дискретному преобразованию Фурье (DFT) для получения STFT. Форма окна в данном случае является фильтром-прототипом. DFT состоит из синусоидальных базисных функций разных частот. Форма окна, умноженная на синусоидальную функцию, затем обеспечивает фильтр для поддиапазона, соответствующего этой частоте. Поскольку форма окна одинакова на всех частотах, ее называют "прототипом".
[0029] В варианте осуществления система использует банк QMF (квадратурных модулированных фильтров) для банка фильтров. В конкретной реализации банк QMF может иметь 64-разрядное окно, которое образует прототип. Это окно, модулируемое косинусной и синусной функциями (соответствующими 64 равномерно расположенным частотам), образует субполосовые фильтры для банка QMF. После каждого применения функции QMF, окно перемещается на 64 дискретных значения, т.е. перекрытие между временными сегментами в этом случае составляет 640 - 64 = 576 дискретных значений. Несмотря на то, что, хотя форма окна в данном случае охватывает десять временных сегментов (640 = 10 * 64), главный лепесток окна (где величины дискретных значений очень значительны) составляет приблизительно 128 дискретных значений в длину. Таким образом, эффективная длина окна по-прежнему является относительно короткой.
[0030] В одном из вариантов осуществления компонент 114 распаковки в идеальном случае обращает коэффициенты усиления, которые использует компонент 104 упаковки. Хотя возможно передавать коэффициенты усиления, которые использует компонент упаковки, через битовый поток в декодер, такой подход, как правило, расходует значительную скорость передачи данных. В одном из вариантов осуществления система 100 вместо оценки коэффициентов усиления, требуемых компонентом 114 распаковки непосредственно из доступного ему сигнала, т.е. выходного сигнала декодера 112, который по существу не требует дополнительных битов. Банк фильтров в компонентах упаковки и распаковки выбирают таким образом, чтобы они были идентичными для вычисления коэффициентов усиления, которые обратны друг другу. Кроме того, эти банки фильтров синхронизированы по времени, так что любые эффективные запаздывания между выходным сигналом компонента 104 упаковки и входным сигналом компонента 114 распаковки кратны шагу банка фильтров. Если основной кодер-декодер работает без потерь, а банк фильтров обеспечивает идеальное восстановление, то коэффициенты усиления в компонентах упаковки и распаковки будут строго обратны друг другу, что позволяет обеспечить точное восстановление исходного сигнала. На практике, однако, коэффициент усиления, применяемый компонентом 114 распаковки является только приближением обратного значения коэффициента усиления, применяемого компонентом 104 упаковки.
[0031] В одном из вариантов осуществления банк фильтров, применяемый в компонентах упаковки и распаковки, представляет собой банк QMF. В типовом использовании приложения основной звуковой кадр может иметь длину 4096 дискретных значений с перекрытием в 2048 дискретных значений с соседним кадром. При частоте 48 кГц такой кадр будет иметь длительность 85,3 миллисекунды. В отличие от этого, применяемый банк QMF может иметь шаг 64 дискретных значения (длительность которых составляет 1,3 мс), что обеспечивает прекрасное временное разрешение для коэффициентов усиления. Кроме того, QMF имеет сглаживающий фильтр-прототип, длина которого составляет 640 дискретных значений, обеспечивающий то, что применение усиления плавно изменяется во времени. Анализ посредством банка QMF обеспечивает частотно-временное мозаичное представление сигнала. Каждый временной интервал QMF равен шагу и в каждом временном интервале QMF содержится 64 равномерно распределенных поддиапазона. В альтернативном варианте можно использовать другие банки фильтров, такие как оконное преобразования Фурье (STFT), и такое частотно-временное мозаичное представление по-прежнему может быть получено.
[0032] В одном варианте осуществления компонент 104 упаковки выполняет этап предварительной обработки, который масштабирует входной сигнал кодека. Для данного варианта осуществления St(k) является комплексным дискретным значением банка фильтров во временном интервале t и с элементом разрешения по частоте k. На фиг. 6 изображено разделение звукового сигнала на ряд временных интервалов для диапазона частот в соответствии с одним из вариантов осуществления. Для варианта осуществления на диаграмме 600 присутствуют 64 элемента разрешения по частоте k и 32 временных интервала t, которые представляют совокупность частотно-временной мозаики, как показано на диаграмме (хотя и не обязательно вычерчено в масштабе). Предварительный этап упаковки масштабирует входной сигнал кодека, который принимает вид St(k) = St(k)/gt. В этом уравнении является нормализованным средним значением интервала.
[0033] В приведенном выше уравнении выражение является средним абсолютным уровнем/первой нормой и S0 является подходящей константой. Обобщенная р-норма определяется в данном контексте следующим образом:
[0034] Было показано, что первая норма может дать значительно лучшие результаты, чем использование энергии (rms/вторая норма). Значение члена показателя степени γ обычно находится в диапазоне от 0 до 1, и может выбираться равным 1/3. Константа S0 обеспечивает приемлемые значения коэффициентов усиления независимо от платформы реализации. Например, она может быть равна 1, если реализуется на платформе, где все значения St(k) могут ограничиваться 1 по абсолютному значению. Она потенциально может быть другой в платформе, где St(k) может иметь отличающееся максимальное абсолютное значение. Она также может быть использована, чтобы убедиться в том, что среднее значение коэффициента большого множества сигналов близко к 1. То есть, она может являться промежуточным значением сигнала между максимальным значением сигнала и минимальным значением сигнала, определенным из большого свода содержимого.
[0035] В процессе заключительного этапа, выполняемого компонентом 114 распаковки, выходной сигнал кодека распаковывается с помощью обратного значения коэффициенту усиления, примененного компонентом 104 упаковки. Это требует точной или почти точной копии банка фильтров компонента упаковки. В этом случае представляет собой комплексное дискретное значение этого второго банка фильтров. Компонент 114 распаковки масштабирует выходной сигнал кодека, который принимает вид .
[0036] В приведенном выше уравнении является средним значением нормированного интервала, заданным как:
и
[0037] В общем случае компонент 114 распаковки будет использовать такую же р-норму, которая используется в компоненте 104 упаковки. Таким образом, если средний абсолютный уровень используется для определения в компоненте 104, упаковки, то также определяется с использованием первой нормы (р=1) в приведенном выше уравнении.
[0038] Когда комплексный банк фильтров (содержащий как косинусную, так и синусную базисные функции), такой как STFT или комплексный QMF, применяется в компонентах упаковки и распаковки, вычисление амплитуды или комплексного дискретного значения поддиапазона требует вычислительно-трудоёмкой операции извлечения квадратного корня. Этого можно избежать путем аппроксимации амплитуды комплексного дискретного значения поддиапазона различными способами, например, путем суммирования амплитуды его действительной и мнимой частей.
[0039] В приведенных выше уравнениях значение К меньше или равно количеству поддиапазонов в банке фильтров. В общем случае р-норма может быть вычислена с помощью любого подмножества поддиапазонов в банке фильтров. Однако, такое же подмножество следует использовать как в кодере 106, так и в декодере 112. В одном из вариантов осуществления высокочастотные составляющие (например, звуковые компоненты выше 6 кГц) звукового сигнала могут кодироваться посредством инструментального средства усовершенствованного спектрального расширения (A-SPX). Кроме того, желательно использовать только сигнал выше 1 кГц (или аналогичной частоты) для сопровождения формирования шума. В таком случае только такие поддиапазоны в диапазоне от 1 кГц до 6 кГц могут использоваться для вычисления р-нормы, и, следовательно, коэффициента усиления. Кроме того, хотя коэффициент усиления вычисляется из одного подмножества поддиапазонов, он, тем не менее, может применяться к другому и, возможно, большему подмножеству поддиапазонов.
[0040] Как показано на фиг. 1, функция компандирования для формирования шума квантования, внесенного основным кодером 106 аудиокодека, выполняется двумя отдельными компонентами 104 и 114, выполняющими функции упаковки предварительным кодером и функции распаковки окончательным декодером. На фиг. 3A представлена блок-схема, иллюстрирующая способ упаковки звукового сигнала в компоненте упаковки предварительным кодером в соответствии с одним из вариантов осуществления, а на фиг. 3B представлена блок-схема, иллюстрирующая способ распаковки звукового сигнала в компоненте распаковки окончательным декодером в соответствии с одним из вариантов осуществления.
[0041] Как показано на фиг. 3A, процесс 300 начинается с приема компонентом упаковки входного звукового сигнала (302). Затем этот компонент делит звуковой сигнал на короткие временные сегменты (304) и упаковывает звуковой сигнал для уменьшения динамического диапазона посредством применения коэффициента усиления в широкой полосе частот для каждого из коротких сегментов (306). Компонент упаковки также реализует определенную прототипную фильтрацию и компоненты банка QMF для уменьшения или исключения любых неоднородностей, вызванных применением различных значений коэффициента усиления для смежных сегментов, как описано выше (308). В некоторых случаях, обусловленных типом звукового содержимого или определенными характеристиками звукового содержимого, упаковка и распаковка звукового сигнала до и после этапов кодирования/декодирования аудиокодека может ухудшить, а не улучшить качество выходного звука. В таких случаях, процесс компандирования может быть отключен или модифицирован для повторного компандирования (упаковки/распаковки) с разными уровнями. Таким образом, компонент упаковки наряду с другими переменными (310) определяет целесообразность функции компандирования и/или оптимальный уровень компандирования, требуемый для конкретного входного сигнала и среды звуковоспроизведения. Данный этап 310 определения может произойти в любой практической точке процесса 300, например, до разделения звукового сигнала 304 или упаковки звукового сигнала 306. Если компандирование будет сочтено целесообразным, то применяются коэффициенты усиления (306), а затем кодер кодирует сигнал для передачи в декодер в соответствии с форматом данных кодека (312). Определенные данные управления компандированием, такие как данные привидения в действие, данные синхронизации, данные уровня компандирования и другие подобные данные управления, могут быть переданы как часть битового потока для обработки компонентом распаковки.
[0042] На фиг. 3B представлена блок-схема, иллюстрирующая способ распаковки звукового сигнала в компоненте распаковки окончательным декодером в соответствии с одним из вариантов осуществления. Как показано в процессе 350, звено декодера кодека получает битовый поток кодированного звукового сигнала от звена кодера (352). Затем декодер декодирует кодированный сигнал в соответствии с форматом (353) данных кодека. Затем компонент распаковки обрабатывает битовый поток и применяет любые кодированные данные управления для отключения распаковки или изменения параметров распаковки на основании данных (354) управления. Компонент распаковки с использованием подходящей формы (356) окна делит звуковой сигнал на временные сегменты. В одном из вариантов осуществления изобретения временные сегменты соответствуют таким же временным сегментам, используемым в компоненте упаковки. Затем компонент распаковки вычисляет соответствующие коэффициенты усиления для каждого сегмента в частотной области (358) и пр