Заполнение шумом при аудиокодировании с перцепционным преобразованием

Иллюстрации

Показать все

Изобретение относится к средствам для заполнения шумом при аудиокодировании. Технический результат заключается в повышении качества аудио после заполнения спектра шумом. Аудиодекодер с перцепционным преобразованием содержит: модуль заполнения шумом, модуль формирования шума частотной области, при этом модуль формирования шума частотной области сконфигурирован с возможностью: определять спектральную перцепционную весовую функцию из информации коэффициентов линейного предсказания, сигнализируемой в потоке данных, в который спектр кодируется, или определять спектральную перцепционную весовую функцию из коэффициентов масштабирования, относящихся к диапазонам коэффициентов масштабирования, сигнализируемых в потоке данных, в который спектр кодируется, при этом модуль заполнения шумом сконфигурирован с возможностью: генерировать промежуточный сигнал шума; идентифицировать непрерывные спектральные нулевые части спектра аудиосигнала; определять функцию для каждой непрерывной спектральной нулевой части в зависимости от ширины соответствующей непрерывной спектральной нулевой части, спектрального положения соответствующей непрерывной спектральной нулевой части; и формировать промежуточный сигнал шума. 6 н. и 20 з.п. ф-лы, 23 ил.

Реферат

Настоящая заявка относится к заполнению шумом при аудиокодировании с перцепционным преобразованием.

В кодировании с преобразованием часто осознается (ср. [1], [2], [3]), что квантование частей спектра в нули ведет к ухудшению восприятия. Такие части, квантованные в нуль, называются спектральными дырами. Решение для этой проблемы, представленное в [1], [2], [3] и [4], состоит в том, чтобы заменять квантованные в нуль спектральные линии на шум. Иногда, избегают вставки шума ниже некоторой частоты. Начальная частота для заполнения шумом является фиксированной, но разной среди известного предшествующего уровня техники.

Иногда, FDNS (Формирование шума частотной области) используется для формирования спектра (включая сюда вставленный шум) и для управления шумом квантования, как в USAC (ср. [4]). FDNS выполняется с использованием амплитудной характеристики фильтра LPC. Коэффициенты фильтра LPC вычисляются с использованием подвергнутого предыскажению входного сигнала.

В [1] было замечено, что добавление шума в непосредственной окрестности тональной компоненты ведет к ухудшению, и соответственно, точно так же как в [5] только длинные последовательности нулей заполняются шумом, чтобы избегать скрытия квантованных не в нуль значений вставленным окружающим шумом.

В [3] замечено, что имеется проблема компромисса между гранулярностью заполнения шумом и размером требуемой сторонней информации. В [1], [2], [3] и [5] передается один параметр заполнения шумом в расчете на полный спектр. Вставленный шум спектрально формируется с использованием LPC как в [2] или с использованием коэффициентов масштабирования как в [3]. В [3] описано как адаптировать коэффициенты масштабирования к заполнению шумом с одним уровнем заполнения шумом для всего спектра. В [3], коэффициенты масштабирования для диапазонов, которые полностью квантуются в нуль, модифицируются, чтобы избегать спектральных дыр и иметь корректный уровень шума.

Даже хотя решения в [1] и [5] избегают ухудшения тональных компонент в том, что они предлагают не заполнять малые спектральные дыры, все еще имеется необходимость, чтобы дополнительно улучшать качество аудиосигнала, кодированного с использованием заполнения шумом, особенно при очень низких битрейтах.

Имеются другие проблемы помимо описанных выше, которые проистекают из концепций заполнения шумом, известных до настоящего времени, согласно которым шум заполняется в спектр спектрально плоским способом.

Было бы предпочтительно иметь улучшенную концепцию заполнения шумом в наличии, которая увеличивает достижимое качество аудио, проистекающее из заполненного шумом спектра, по меньшей мере, в соединении с кодированием аудио с перцепционным преобразованием.

Соответственно, целью настоящего изобретения является обеспечить концепцию для заполнения шумом в кодировании аудио с перцепционным преобразованием с улучшенными характеристиками.

Эта цель достигается посредством сущности независимых пунктов формулы изобретения, содержащихся здесь, при этом предпочтительные аспекты настоящей заявки являются предметом зависимых пунктов формулы изобретения.

Является базовой находкой настоящей заявки, что заполнение шумом в аудиокодеках с перцепционным преобразованием может быть улучшено посредством выполнения заполнения шумом со спектрально глобальным наклоном, нежели спектрально плоским способом. Например, спектрально глобальный наклон может иметь отрицательный угловой коэффициент, то есть демонстрировать уменьшение от низких к высоким частотам, чтобы, по меньшей мере, частично обращать спектральный наклон, вызываемый подверганием заполненного шумом спектра спектральной перцепционной весовой функции. Положительный угловой коэффициент также может быть возможным, например, в случаях, когда кодированный спектр демонстрирует подобный высокочастотному характер. В частности, спектральные перцепционные весовые функции обычно имеют тенденцию демонстрировать увеличение от низких к высоким частотам. Соответственно, шум, заполняемый в спектр аудиокодеров с перцепционным преобразованием спектрально плоским способом, в конечном итоге дает минимальный уровень наклоненного шума в конечно восстановленном спектре. Изобретатели настоящей заявки, однако, осознали, что этот наклон в конечно восстановленном спектре отрицательно влияет на качество аудио, так как он ведет к спектральным дырам, остающимся в заполненных шумом частях спектра. Соответственно, вставка шума со спектрально глобальным наклоном, так что уровень шума уменьшается от низких к высоким частотам, по меньшей мере, частично компенсирует такой спектральный наклон, вызываемый последующим формированием заполненного шумом спектра с использованием спектральной перцепционной весовой функции, тем самым, улучшая качество аудио. В зависимости от обстоятельств, положительный угловой коэффициент может быть предпочтительным, как отмечено выше.

В соответствии с одним вариантом осуществления, угловой коэффициент спектрально глобального наклона изменяется в ответ на сигнализацию в потоке данных, в который спектр кодируется. Сигнализация может, например, явно сигнализировать крутизну и может адаптироваться, на стороне кодирования, к величине спектрального наклона, вызываемого спектральной перцепционной весовой функцией. Например, величина спектрального наклона, вызываемого спектральной перцепционной весовой функцией, может проистекать от предыскажения, которому аудиосигнал подвергается до применения анализа LPC на нем.

В соответствии с одним вариантом осуществления, заполнение шумом спектра аудиосигнала улучшается по качеству по отношению к заполненному шумом спектру даже дополнительно, так что воспроизведение заполненного шумом аудиосигнала является менее раздражающим, посредством выполнения заполнения шумом способом, зависящим от тональности аудиосигнала.

В соответствии с одним вариантом осуществления настоящей заявки, непрерывная спектральная нулевая часть спектра аудиосигнала заполняется шумом, спектрально сформированным с использованием функции, принимающей максимум во внутренней части непрерывной спектральной нулевой части, и имеющей спадающие кнаружи края, абсолютный угловой коэффициент которых отрицательно зависит от тональности, то есть угловой коэффициент уменьшается с увеличением тональности. Дополнительно или альтернативно, функция, используемая для заполнения, принимает максимум во внутренней части непрерывной спектральной нулевой части и имеет спадающие кнаружи края, спектральная ширина которых положительно зависит от тональности, то есть спектральная ширина увеличивается с увеличением тональности. Даже дополнительно, дополнительно или альтернативно, для заполнения может использоваться постоянная или унимодальная функция, интеграл которой - нормализованной к интегралу, равному 1 - по внешним четвертям непрерывной спектральной нулевой части отрицательно зависит от тональности, то есть интеграл уменьшается с увеличением тональности. Посредством всех из этих мер, заполнение шумом имеет тенденцию быть менее вредным для тональных частей аудиосигнала, однако, при этом является тем не менее эффективным для нетональных частей аудиосигнала в терминах уменьшения спектральных дыр. Другими словами, всякий раз, когда аудиосигнал имеет тональное содержимое, шум, заполняемый в спектр аудиосигнала, оставляет тональные пики спектра не затронутыми посредством поддержания достаточного расстояния от них, при этом, однако, нетональный характер временных фаз аудиосигнала с аудио-содержимым как нетональный тем не менее удовлетворяется заполнением шумом.

В соответствии с одним вариантом осуществления настоящей заявки, непрерывные спектральные нулевые части спектра аудиосигнала идентифицируются и идентифицированные нулевые части заполняются шумом, спектрально сформированным с помощью функций, так что для каждой непрерывной спектральной нулевой части соответствующая функция устанавливается в зависимости от ширины соответствующей непрерывной спектральной нулевой части и тональности аудиосигнала. Для легкости реализации, зависимость может достигаться посредством поиска в таблице поиска функций, или функции могут вычисляться аналитически с использованием математической формулы в зависимости от ширины непрерывной спектральной нулевой части и тональности аудиосигнала. В любом случае, усилие для реализации зависимости является относительно малым по сравнению с преимуществами, проистекающими от зависимости. В частности, зависимость может быть такой, что соответствующая функция устанавливается в зависимости от ширины непрерывной спектральной нулевой части, так что функция ограничивается соответствующей непрерывной спектральной нулевой частью, и в зависимости от тональности аудиосигнала, так что, для более высокой тональности аудиосигнала, масса функции становится более сосредоточенной во внутренней части соответствующей непрерывной спектральной нулевой части и отдаленной от краев соответствующей непрерывной спектральной нулевой части.

В соответствии с одним дополнительным вариантом осуществления, шум, спектрально формируемый и заполняемый в непрерывные спектральные нулевые части, обычно масштабируется с использованием спектрально глобального уровня заполнения шумом. В частности, шум масштабируется так, что интеграл по шуму в непрерывных спектральных нулевых частях или интеграл по функциям непрерывных спектральных нулевых частей соответствует, например, равен, глобальному уровню заполнения шумом. Предпочтительно, глобальный уровень заполнения шумом кодируется внутри существующих аудиокодеков в любом случае так, что никакой дополнительный синтаксис не должен обеспечиваться для таких аудиокодеков. То есть, глобальный уровень заполнения шумом может явно сигнализироваться в потоке данных, в который аудиосигнал кодируется, с малым усилием. В действительности, функции, с помощью которых шум непрерывной спектральной нулевой части спектрально формируется, могут масштабироваться так, что интеграл по шуму, с помощью которого все непрерывные спектральные нулевые части заполняются, соответствует глобальному уровню заполнения шумом.

В соответствии с одним вариантом осуществления настоящей заявки, тональность выводится из параметра кодирования, с использованием которого аудиосигнал кодируется. Посредством этой меры, никакая дополнительная информация не должна передаваться внутри существующего аудиокодека. В соответствии с конкретными вариантами осуществления, параметр кодирования является флагом или усилением LTP (долгосрочного предсказания), флагом активации или усилением TNS (временного формирования шума) и/или флагом активации перегруппировки спектра.

В соответствии с одним дополнительным вариантом осуществления, выполнение заполнения шумом ограничивается на высокочастотную спектральную часть, при этом низкочастотное начальное положение высокочастотной спектральной части устанавливается, соответствуя явной сигнализации в потоке данных, и в который аудиосигнал кодируется. Посредством этой меры, является возможной адаптивная к сигналу установка нижней границы высокочастотной спектральной части, в которой выполняется заполнение шумом. Посредством этой меры, в свою очередь, качество аудио, результирующее из заполнения шумом, может увеличиваться. Необходимая дополнительная сторонняя информация, в свою очередь, внесенная посредством явной сигнализации, является сравнительно малой.

Заполнение шумом может использоваться на стороне кодирования аудио и/или декодирования аудио. Когда используется на стороне кодирования аудио, заполненный шумом спектр может использоваться для целей анализа посредством синтеза.

В соответствии с одним вариантом осуществления, кодер определяет глобальный уровень масштабирования шума посредством учета зависимости от тональности.

Предпочтительные варианты осуществления настоящей заявки описываются ниже по отношению к фигурам, среди которых:

Фиг. 1А показывает блок-схему аудиокодера с перцепционным преобразованием в соответствии с одним вариантом осуществления;

Фиг. 1В показывает блок-схему аудиодекодера с перцепционным преобразованием в соответствии с одним вариантом осуществления;

Фиг. 1С показывает схематическую диаграмму, иллюстрирующую возможный способ достижения спектрально глобального наклона, вводимого в шум заполнения, в соответствии с одним вариантом осуществления;

Фиг. 2А показывает, выровненным по времени способом, одно над другим, сверху книзу, временной фрагмент из аудиосигнала, его спектрограмму с использованием схематически показанного спектрально-временного изменения "шкалы серого" спектральной энергии, и тональность аудиосигнала, для иллюстративных целей;

Фиг. 2В показывает блок-схему устройства заполнения шумом в соответствии с одним вариантом осуществления;

Фиг. 3 показывает схему спектра, подлежащего заполнению шумом, и функцию, используемую, чтобы спектрально формировать шум, используемый, чтобы заполнять непрерывную спектральную нулевую часть этого спектра, в соответствии с одним вариантом осуществления;

Фиг. 4 показывает схему спектра, подлежащего заполнению шумом, и функцию, используемую, чтобы спектрально формировать шум, используемый, чтобы заполнять непрерывную спектральную нулевую часть этого спектра, в соответствии с одним дополнительным вариантом осуществления;

Фиг. 5 показывает схему спектра, подлежащего заполнению шумом, и функцию, используемую, чтобы спектрально формировать шум, используемый, чтобы заполнять непрерывную спектральную нулевую часть этого спектра, в соответствии с одним еще дополнительным вариантом осуществления;

Фиг. 6 показывает блок-схему модуля заполнения шумом из фиг. 2 в соответствии с одним вариантом осуществления;

Фиг. 7 схематически показывает возможное отношение между определенной тональностью аудиосигнала с одной стороны и возможными функциями, доступными для спектрального формирования непрерывной спектральной нулевой части, с другой стороны в соответствии с одним вариантом осуществления;

Фиг. 8 схематически показывает спектр, подлежащий заполнению шумом, при этом дополнительно показывает функции, используемые, чтобы спектрально формировать шум для заполнения непрерывных спектральных нулевых частей спектра, чтобы проиллюстрировать то, как масштабировать уровень шума в соответствии с одним вариантом осуществления;

Фиг. 9 показывает блок-схему кодера, который может использоваться внутри аудиокодека, применяющего концепцию заполнения шумом, описанную по отношению к фиг. 1 по 8;

Фиг. 10 схематически показывает квантованный спектр, подлежащий заполнению шумом, как кодируется посредством кодера из фиг. 9 вместе с переданной сторонней информацией, именно коэффициентами масштабирования и глобальным уровнем шума, в соответствии с одним вариантом осуществления;

Фиг. 11 показывает блок-схему декодера, соответствующего кодеру из фиг. 9 и включающего в себя устройство заполнения шумом в соответствии с фиг. 2;

Фиг. 12 показывает схему спектрограммы с ассоциированными данными сторонней информации в соответствии с одним вариантом реализации кодера и декодера из фиг. 9 и 11;

Фиг. 13 показывает аудиокодер с преобразованием линейного предсказания, который может включаться в аудиокодек, использующий концепцию заполнения шумом из фиг. 1 по 8, в соответствии с одним вариантом осуществления;

Фиг. 14 показывает блок-схему декодера, соответствующего кодеру из фиг. 13;

Фиг. 15 показывает примеры фрагментов из спектра, подлежащего заполнению шумом;

Фиг. 16 показывает явный пример для функции для формирования шума, заполняемого в некоторую непрерывную спектральную нулевую часть спектра, подлежащего заполнению шумом, в соответствии с одним вариантом осуществления;

Фиг. 17А-D показывают различные примеры для функций для спектрального формирования шума, заполняемого в непрерывные спектральные нулевые части, для разных ширин нулевых частей и разных ширин переходов, используемых для разных тональностей.

Везде в последующем описании фигур, одинаковые ссылочные позиции используются для элементов, показанных на этих фигурах, описание, приведенное по отношению к одному элементу на одной фигуре, должно интерпретироваться как переносимое на элемент на другой фигуре, который указывается с использованием такой же ссылочной позиции. Посредством этой меры, обширное и повторяющееся описание избегается насколько возможно, тем самым, описание различных вариантов осуществления концентрируется на различиях друг между другом, нежели описываются все варианты осуществления снова сначала, снова и снова.

Фиг. 1А показывает аудиокодер с перцепционным преобразованием в соответствии с одним вариантом осуществления настоящей заявки, и фиг. 1b показывает аудиодекодер с перцепционным преобразованием в соответствии с одним вариантом осуществления настоящей заявки, оба соответствуют друг другу, чтобы формировать аудиокодек с перцепционным преобразованием.

Как показано на фиг. 1А, аудиокодер с перцепционным преобразованием содержит модуль 1 взвешивания спектра, сконфигурированный с возможностью спектрально взвешивать исходный спектр аудиосигнала, принимаемый модулем 1 взвешивания спектра, согласно обратной к перцепционной весовой функции спектрального взвешивания, определенной посредством модуля 1 взвешивания спектра предварительно определенным способом, для которого примеры показаны ниже. Модуль 1 спектрального взвешивания получает, посредством этой меры, взвешенный по восприятию спектр, который затем подвергается квантованию спектрально единообразным способом, то есть способом, одинаковым для спектральных линий, в модуле 2 квантования аудиокодера с перцепционным преобразованием. Результат, выводимый модулем 2 единообразного квантования, является квантованным спектром 34, который в заключение кодируется в поток данных, выводимый аудиокодером с перцепционным преобразованием.

Чтобы управлять заполнением шумом, подлежащим выполнению на стороне декодирования, чтобы улучшать спектр 34, по отношению к установке уровня шума, может необязательно присутствовать модуль 3 вычисления уровня шума аудиокодера с перцепционным преобразованием, который вычисляет параметр уровня шума посредством измерения уровня взвешенного по восприятию спектра 4 в частях 5, совместно расположенных с нулевыми частями 40 квантованного спектра 34. Таким образом, вычисленный параметр уровня шума также может кодироваться в вышеупомянутом потоке данных, чтобы прибывать в декодер.

Аудиодекодер с перцепционным преобразованием показан на фиг. 1В. Он содержит устройство 30 заполнения шумом, сконфигурированное с возможностью выполнять заполнение шумом над прибывающим спектром 34 аудиосигнала, как кодируется в поток данных, генерируемый посредством кодера из фиг. 1А, посредством заполнения спектра 34 с помощью шума, демонстрирующего спектрально глобальный наклон, так что уровень шума уменьшается от низких к высоким частотам, чтобы получать заполненный шумом спектр 36. Модуль формирования шума частотной области шума аудиодекодера с перцепционным преобразованием, показанный с использованием ссылочной позиции 6, сконфигурирован с возможностью подвергать заполненный шумом спектр спектральному формированию с использованием спектральной перцепционной весовой функции, полученной от стороны кодирования посредством потока данных, способом, описанным посредством конкретных примеров дополнительно ниже. Этот спектр, выводимый модулем 6 формирования шума частотной области, может передаваться в модуль 7 обратного преобразования, чтобы восстанавливать аудиосигнал во временной области и подобным образом, внутри аудиокодера с перцепционным преобразованием, модуль 8 преобразования может предшествовать модулю 1 взвешивания спектра, чтобы обеспечивать модуль 1 взвешивания спектра спектром аудиосигнала.

Смысл заполнения спектра 34 шумом 9, который демонстрирует спектрально глобальный наклон, является следующим: позже, когда заполненный шумом спектр 36 подвергается спектральному формированию посредством модуля 6 формирования шума частотной области, спектр 36 будет подвергаться наклоненной весовой функции. Например, спектр будет усиливаться на высоких частотах при сравнении с взвешиванием низких частот. То есть, уровень спектра 36 будет подниматься на более высоких частотах по отношению к более низким частотам. Это вызывает спектрально глобальный наклон с положительным угловым коэффициентом в исходно спектрально плоских частях спектра 36. Соответственно, если шум 9 будет заполняться в спектр 36, чтобы заполнять его нулевые части 40, спектрально плоским способом, то спектр, выводимый посредством FDNS 6, будет демонстрировать внутри этих частей 40 минимальный уровень шума, который имеет тенденцию увеличиваться от, например, низких к высоким частотам. То есть, при обследовании всего спектра или, по меньшей мере, части ширины полосы спектра, где заполнение шумом выполняется, можно видеть, что шум внутри частей 40 имеет тенденцию или функцию линейной регрессии с положительным угловым коэффициентом или отрицательным угловым коэффициентом. Так как устройство 30 заполнения шумом, однако, заполняет спектр 34 с помощью шума, демонстрирующего спектрально глобальный наклон положительного или отрицательного углового коэффициента, показанного как α на фиг. 1В, и который наклонен в противоположном направлении по сравнению с наклоном, вызываемым FDNS 9, спектральный наклон, вызываемый FDNS 6, компенсируется и минимальный уровень шума, таким образом, вводимый в конечно восстановленный спектр на выходе FDNS 6, является плоским или, по меньшей мере, более плоским, что, тем самым, увеличивает качество аудио посредством оставления менее глубоких дыр шума.

"Спектрально глобальный наклон" обозначает, что шум 9, заполняемый в спектр 34, имеет уровень, который имеет тенденцию уменьшаться (или увеличиваться) от низких к высоким частотам. Например, при размещении линии линейной регрессии через локальные максимумы шума 9, как заполняется, например, во взаимно спектрально отдаленные, непрерывные спектральные нулевые части 40, результирующая линия линейной регрессии имеет отрицательный (или положительный) угловой коэффициент α.

Хотя не обязательно, модуль вычисления уровня шума аудиокодера с перцепционным преобразованием может учитывать наклоненный способ заполнения шума в спектр 34 посредством измерения уровня взвешенного по восприятию спектра 4 в частях 5 способом, взвешенным со спектрально глобальным наклоном, имеющим, например, положительный угловой коэффициент в случае, когда α является отрицательным, и отрицательный угловой коэффициент, если α является положительным. Угловой коэффициент, применяемый модулем вычисления уровня шума, который показан как β на фиг. 1А, не должен быть таким же как упомянутый угловой коэффициент, применяемый на стороне декодирования, в отношении его абсолютного значения, но в соответствии с одним вариантом осуществления это может иметь место. Посредством этого, модуль 3 вычисления уровня шума является способным адаптировать уровень шума 9, вставляемого на стороне декодирования, более точно к уровню шума, который приближает исходный сигнал наилучшим способом и по всей спектральной ширине полосы.

Ниже будет описываться то, что может быть возможным управлять изменением углового коэффициента спектрально глобального наклона α посредством явной сигнализации в потоке данных или посредством неявной сигнализации в нем, например, устройство 30 заполнения шумом выводит крутизну из, например, самой спектральной перцепционной весовой функции или из переключения длины окна преобразования. Посредством упомянутого вывода, например, угловой коэффициент может адаптироваться к длине окна.

Имеются разные возможные способы, посредством которых устройство 30 заполнения шумом вызывает, чтобы шум 9 демонстрировал спектрально глобальный наклон. Фиг. 1С, например, иллюстрирует, что устройство 30 заполнения шумом выполняет умножение 11 по спектральным линиям между промежуточным сигналом 13 шума, представляющим промежуточное состояние в обработке заполнения шумом, и монотонно убывающей (или возрастающей) функцией 15, то есть функцией, которая монотонно спектрально убывает (или возрастает) по всему спектру или, по меньшей мере, части, где выполняется заполнение шумом, чтобы получать шум 9. Как проиллюстрировано на фиг. 1С, промежуточный сигнал 13 шума может быть уже спектрально сформированным. Детали в этом отношении относятся к конкретным вариантам осуществления, очерченным дополнительно ниже, согласно которым заполнение шумом также выполняется в зависимости от тональности. Спектральное формирование, однако, также может пропускаться или может выполняться после умножения 11. Сигнал параметра уровня шума и поток данных могут использоваться, чтобы устанавливать уровень промежуточного сигнала 13 шума, но альтернативно промежуточный сигнал шума может генерироваться с использованием стандартного уровня, применяя скалярный параметр уровня шума, чтобы масштабировать линию спектра после умножения 11. Монотонно убывающая функция 15 может, как проиллюстрировано на фиг. 1С, быть линейной функцией, кусочно-линейной функцией, полиномиальной функцией или любой другой функцией.

Как будет описываться более подробно ниже, является возможным адаптивно устанавливать часть всего спектра, внутри которой заполнение шумом выполняется посредством устройства 30 заполнения шумом.

В соединении с вариантами осуществления, очерченными дополнительно ниже, согласно которым непрерывные спектральные нулевые части в спектре 34, то есть спектральные дыры, заполняются конкретным неплоским и зависящим от тональности способом, будет описываться то, что имеются также альтернативы для умножения 11, проиллюстрированного на фиг. 1С, чтобы вызывать спектрально глобальный наклон, описанный до сих пор.

Последующее описание продолжается конкретными вариантами осуществления для выполнения заполнения шумом. Ниже, разные варианты осуществления представляются для различных аудиокодеков, где может встраиваться заполнение шумом, вместе с особенностями, которые могут применяться в соединении с соответствующим представленным аудиокодеком. Следует отметить, что заполнение шумом, описанное далее, может, в любом случае, выполняться на стороне декодирования. В зависимости от кодера, однако, заполнение шумом, как описано далее, также может выполняться на стороне кодирования, как, например, по причинам анализа посредством синтеза. Промежуточный случай, согласно которому модифицированный способ заполнения шумом в соответствии с вариантами осуществления, очерченными ниже, только частично изменяет способ работы кодера, как, например, чтобы определять спектрально глобальный уровень заполнения шумом, также описывается ниже.

Фиг. 2А показывает, для иллюстративных целей, аудиосигнал 10, то есть временное поведение его аудиовыборок, например, выровненную по времени спектрограмму 12 аудиосигнала, которая была выведена из аудиосигнала 10, по меньшей мере, среди прочего, посредством подходящего преобразования, такого как преобразование с перекрытиями, проиллюстрированного на 14 иллюстративно для двух последовательных окон 16 преобразования и ассоциированных спектров 18, которое, таким образом, представляет срез из спектрограммы 12 в момент времени, соответствующий середине ассоциированного окна 16 преобразования, например. Примеры для спектрограммы 12 и того, как она выводится, дополнительно представлены ниже. В любом случае, спектрограмма 12 подвергается некоторому типу квантования и, таким образом, имеет нулевые части, где спектральные значения, в которых спектрограмма 12 спектрально-временным образом дискретизирована, являются непрерывно нулевыми. Преобразование 14 с перекрытиями может, например, быть критически дискретизированным преобразованием, таким как MDCT. Окна 16 преобразования могут иметь перекрытие, равное 50%, друг с другом, но другие варианты осуществления также являются возможными. Дополнительно, спектрально-временное разрешение, при котором спектрограмма 12 дискретизируется в спектральные значения, может изменяться во времени. Другими словами, временное расстояние между последовательными спектрами 18 спектрограммы 12 может изменяться во времени, и то же применяется к спектральному разрешению каждого спектра 18. В частности, изменение во времени, в отношении временного расстояния между последовательными спектрами 18, может быть обратным к изменению спектрального разрешения спектров. Квантование использует, например, спектрально изменяющийся, адаптивный к сигналу размер шага квантования, изменяющийся, например, в соответствии с огибающей спектра LPC аудиосигнала, описываемой посредством коэффициентов LP, сигнализируемых в потоке данных, в который квантованные спектральные значения спектрограммы 12 со спектрами 18, подлежащими заполнению шумом, кодируются, или в соответствии с коэффициентами масштабирования, определяемыми, в свою очередь, в соответствии с психоакустической моделью, и сигнализируемыми в потоке данных.

Помимо этого, выровненным по времени способом фиг. 2А показывает характеристику аудиосигнала 10 и его временное изменение, именно тональность аудиосигнала. Вообще говоря, "тональность" указывает меру, описывающую то, как сконцентрирована энергия аудиосигнала в некоторой точке времени в соответствующем спектре 18, ассоциированном с этой точкой во времени. Если энергия рассеяна сильно, как, например, в зашумленных временных фазах аудиосигнала 10, то тональность является низкой. Но если энергия, по существу, сконцентрирована в одном или более спектральных пиках, то тональность является высокой.

Фиг. 2В показывает устройство 30 заполнения шумом, сконфигурированное с возможностью выполнять заполнение шумом над спектром аудиосигнала, в соответствии с одним вариантом осуществления настоящей заявки. Как будет описываться более подробно ниже, устройство сконфигурировано с возможностью выполнять заполнение шумом в зависимости от тональности аудиосигнала.

Устройство из фиг. 2В содержит модуль 32 заполнения шумом и модуль 34 определения тональности, который является необязательным.

Фактическое заполнение шумом выполняется посредством модуля 32 заполнения шумом. Модуль 32 заполнения шумом принимает спектр, к которому заполнение шумом должно применяться. Этот спектр проиллюстрирован на фиг. 2В как разреженный спектр 34. Разреженный спектр 34 может быть спектром 18 из спектрограммы 12. Спектры 18 входят в модуль 32 заполнения шумом последовательно. Модуль 32 заполнения шумом подвергает спектр 34 заполнению шумом и выводит "заполненный спектр" 36. Модуль 32 заполнения шумом выполняет заполнение шумом в зависимости от тональности аудиосигнала, как, например, тональности 20 из фиг. 2А. В зависимости от обстоятельств, тональность может не быть напрямую доступной. Например, существующие аудиокодеки не обеспечивают явную сигнализацию тональности аудиосигнала в потоке данных, так что если устройство 30 установлено на стороне декодирования, не будет возможным восстанавливать тональность без высокой степени ложной оценки. Например, спектр 34 может, вследствие его разреженности и/или из-за его адаптивного к сигналу изменяющегося квантования, не быть оптимальной основой для оценки тональности.

Соответственно, задачей модуля 34 определения тональности является обеспечивать модуль 32 заполнения шумом оценкой тональности на основе другого указания 38 тональности, как будет описываться более подробно ниже. В соответствии с вариантами осуществления, описанными ниже, указание 38 тональности может быть доступным на сторонах кодирования и декодирования в любом случае, посредством соответствующего параметра кодирования, передаваемого внутри потока данных аудиокодека, внутри которого устройство 30, например, используется. На фиг. 1В, устройство 30 используется на стороне декодирования, но альтернативно устройство 30 может использоваться на стороне кодирования также, как, например, в контуре обратной связи предсказания кодера из фиг. 1А, если присутствует.

Фиг. 3 показывает пример для разреженного спектра 34, то есть квантованного спектра, имеющего непрерывные части 40 и 42, состоящие из последовательностей спектрально соседних спектральных значений спектра 34, которые квантованы в нуль. Непрерывные части 40 и 42 являются, таким образом, спектрально раздельными или отдаленными друг от друга посредством, по меньшей мере, одной не квантованной в нуль спектральной линии в спектре 34.

Зависимость от тональности для заполнения шумом, в общем, описанного выше по отношению к фиг. 2В, может осуществляться следующим образом. Фиг. 3 показывает временную часть 44, включающую в себя непрерывную спектральную нулевую часть 40, увеличенную на 46. Модуль 32 заполнения шумом сконфигурирован с возможностью заполнять эту непрерывную спектральную нулевую часть 40 способом, зависящим от тональности аудиосигнала, во время, которому спектр 34 принадлежит. В частности, модуль 32 заполнения шумом заполняет непрерывную спектральную нулевую часть шумом, спектрально сформированным с использованием функции, принимающей максимум во внутренней части непрерывной спектральной нулевой части, и имеющей спадающие кнаружи края, абсолютный угловой коэффициент которых отрицательно зависит от тональности. Фиг. 3 иллюстративно показывает две функции 48 для двух разных тональностей. Обе функции являются "унимодальными", то есть принимают абсолютный максимум во внутренней части непрерывной спектральной нулевой части 40 и имеют всего только локальный максимум, который может быть плато или одиночной спектральной частотой. Здесь, локальный максимум принимается функциями 48 и 50 непрерывно над простирающимся интервалом 52, то есть плато, расположенное в центре нулевой части 40. Областью определения функций 48 и 50 является нулевая часть 40. Центральный интервал 52 покрывает только центральную часть нулевой части 40 и граничит сбоку с краевой частью 54 на стороне более высокой частоты интервала 52, и с краевой частью 56 более низкой частоты на стороне более низкой частоты интервала 52. Внутри краевой части 54, функции 48 и 52 имеют спадающий край 58, и внутри краевой части 56, поднимающийся край 60. Абсолютный угловой коэффициент может приписываться каждому краю 58 и 60, соответственно, как, например, средний угловой коэффициент внутри краевой части 54 и 56, соответственно. То есть, угловой коэффициент, приписанный спадающему краю 58, может быть средним угловым коэффициентом соответствующей функции 48 и 52, соответственно, внутри краевой части 54, и угловой коэффициент, приписанный поднимающемуся краю 60, может быть средним угловым коэффициентом функции 48 и 52, соответственно, внутри краевой части 56.

Как можно видеть, абсолютное значение углового коэффициента краев 58 и 60 является более высоким для функции 50, чем для функции 48. Модуль 32 заполнения шумом выбирает заполнять нулевую часть 40 с помощью функции 50 для тональностей, более низких, чем тональности, для которых модуль 32 заполнения шумом выбирает использовать функцию 48 для заполнения нулевой части 40. Посредством этой меры, модуль 32 заполнения шумом избегает кластеризации непосредственной периферии потенциально тональных спектральных пиков спектра 34, как, например, пика 62. Чем меньше абсолютный угловой коэффициент краев 58 и 60, тем дальше шум, заполняемый в нулевую часть 40, находится от ненулевых частей спектра 34, окружающих нулевую часть 40.

Модуль 32 заполнения шумом может, например, осуществлять выбор, чтобы выбирать функцию 48 в случае тональности аудиосигнала, равной τ2, и функцию 50 в случае тональности аудиосигнала, равной τ1, но описание, приведенное дополнительно ниже, показывает, что модуль 32 заполнения шумом может различать больше, чем два разных состояния тональности аудиосигнала, то есть может поддерживать более, чем две разных функции 48, 50 для заполнения некоторой непрерывной спектральной нулево