Устройство и способ для кодирования и декодирования аудио, применяющие синусоидальную замену

Иллюстрации

Показать все

Изобретение относится к кодированию, декодированию и к обработке аудиосигнала и, в частности, к кодированию и декодированию аудио, применяющему синусоидальную замену. Технический результат - повышение точности воспроизведения аудиосигнала. Для этого устройство содержит блок обработки, определитель псевдокоэффициентов, блок модификации спектра, блок спектрально-временного преобразования, управляемый осциллятор и смеситель. Определитель псевдокоэффициентов сконфигурирован для определения одного или более псевдокоэффициентов декодированного спектра аудиосигнала, причем каждый из псевдокоэффициентов имеет спектральное местоположение и спектральное значение. Блок модификации спектра сконфигурирован для установки одного или более псевдокоэффициентов в предопределенное значение, чтобы получить модифицированный спектр аудиосигнала. Блок спектрально-временного преобразования сконфигурирован для преобразования модифицированного спектра аудиосигнала во временную область, чтобы получить сигнал преобразования временной области. Управляемый осциллятор сконфигурирован для генерирования сигнала осциллятора временной области, причем управляемый осциллятор управляется спектральным местоположением и спектральным значением по меньшей мере одного из одного или более псевдокоэффициентов. Смеситель сконфигурирован для смешивания сигнала преобразования временной области и сигнала осциллятора временной области, чтобы получить выходной аудиосигнал. 5 н. и 26 з.п. ф-лы, 6 ил., 4 табл.

Реферат

Настоящее изобретение относится к кодированию, декодированию и к обработке аудиосигнала и, в частности, к кодированию и декодированию аудио, применяющему синусоидальную замену.

Обработка аудиосигналов становится все более важной. Проблемы возникают, когда современным кодеком воспринимаемого аудио требуется обеспечить удовлетворительное качество аудио при все более низких скоростях передачи битов. Более того, часто допустимое время ожидания также очень небольшое, например для приложений двунаправленной связи или распределенных игр и т.п.

Современные аудиокодеки, например USAC (Унифицированное кодирование речи и аудио) часто переключаются между кодированием с предсказанием во временной области и кодированием в области преобразования, тем не менее музыкальный контент по-прежнему преимущественно кодируется в области преобразования. На низких скоростях передачи битов, например < 14 кбит/с, тональные компоненты в музыкальных элементах часто звучат плохо, когда они кодированы посредством преобразующих кодеров, что делает задачу кодирования аудио с достаточным качеством еще более трудной.

Более того, ограничения по малой задержке приводят, как правило, к субоптимальной частотной характеристике блока фильтров преобразующего кодера (из-за оптимизированной к малой задержке формы окна и/или длины преобразования) и поэтому негативно сказываются на воспринимаемом качестве у таких кодеков.

В соответствии с классической психоакустической моделью задаются предварительные условия для прозрачности по отношению к шуму квантования. На высоких скоростях передачи битов это относится к приспособленному для восприятия оптимальному временному/частотному распределению шума квантования, которое подчиняется уровням маскировки человеческого слуха. Однако на низких скоростях передачи битов нельзя достичь прозрачности. Поэтому на низких скоростях передачи битов может применяться стратегия уменьшения требований к уровням маскировки.

Уже предоставлены кодеки высшего класса для музыкального контента, в частности, преобразующие кодеры на основе Модифицированного дискретного косинусного преобразования (MDCT), которые квантуют и передают спектральные коэффициенты в частотной области. Однако на очень низких скоростях передачи данных можно кодировать только очень мало спектральных линий каждого временного кадра с помощью доступных битов для того кадра. В результате, в кодированный сигнал неминуемо вносятся артефакты временной модуляции и так называемые вибрирующие [воющие] артефакты.

Заметнее всего эти типы артефактов воспринимаются в квазистационарных тональных компонентах. Это главным образом происходит, если из-за ограничений по задержке приходится выбирать форму окна преобразования, которая вызывает значительные перекрестные помехи между соседними спектральными коэффициентами (спектральное уширение) из-за известного эффекта утечки. Однако, несмотря на это, обычно только один или более этих соседних спектральных коэффициентов остаются ненулевыми после грубого квантования кодером с низкой скоростью передачи битов.

Как указано выше, в известном уровне техники в соответствии с одним подходом применяются преобразующие кодеры. Все современные аудиокодеки с высоким коэффициентом сжатия, которые хорошо подходят для кодирования музыкального контента, опираются на кодирование с преобразованием. Самыми известными примерами являются Усовершенствованное кодирование аудио (AAC) MPEG2/4 и Унифицированное кодирование речи и аудио (USAC) MPEG-D. USAC имеет переключаемое ядро, состоящее из модуля Линейного предсказания с алгебраическим кодовым возбуждением (ACELP) плюс модуля Кодированного возбуждения с преобразованием (TCX) (см. [5]), предназначенного преимущественно для кодирования речи, и в качестве альтернативы, AAC, предназначенного преимущественно для кодирования музыки. Как и AAC, TCX также является способом кодирования на основе преобразования. При настройках для низкой скорости передачи битов эти схемы кодирования предрасположены к проявлению вибрирующих артефактов, особенно если лежащие в основе схемы кодирования основываются на Модифицированном дискретном косинусном преобразовании (MDCT) (см. [1]).

Для воспроизведения музыки преобразующие кодеры являются предпочтительной методикой для сжатия аудиоданных. Однако на низких скоростях передачи битов традиционные преобразующие кодеры проявляют сильные вибрирующие артефакты и артефакты резкости. Большинство артефактов возникают из слишком редко кодированных тональных спектральных компонент. Это главным образом происходит, если они спектрально размываются субоптимальной спектральной передаточной функцией (эффект утечки), которая преимущественно спроектирована для соблюдения строгих ограничений по задержке.

В соответствии с другим подходом в известном уровне техники схемы кодирования являются полностью параметрическими для переходов, синусоид и шума. В частности, для средних и низких скоростей передачи битов стандартизованы полностью параметрические аудиокодеки, самыми известными из которых являются Часть 3, подраздел 7 MPEG-4 "Гармонические и индивидуальные компоненты плюс шум" (HILN) (см. [2]) и Часть 3, подраздел 8 MPEG-4 "Синусоидальное кодирование" (SSC) (см. [3]). Однако параметрические кодеры страдают от неприятно искусственного звука и с увеличением скорости передачи битов плохо масштабируются в направлении воспринимаемой прозрачности.

Дополнительный подход предоставляет гибридное кодирование сигнала по форме и параметрическое кодирование. В [4] предлагается гибрид кодирования сигнала по форме на основе преобразования и MPEG 4-SSC (только синусоидальная часть). В итерационном процессе синусоиды извлекаются и вычитаются из сигнала, чтобы образовать разностный сигнал, который должен быть кодирован с помощью методик кодирования с преобразованием. Извлеченные синусоиды кодируются с помощью набора параметров и передаются наряду с остатком. В [6] предоставляется гибридный подход к кодированию, который раздельно кодирует синусоиды и остаток. В [7] на веб-странице так называемого кодека Перекрывающегося преобразования с ограниченной энергией (CELT)/Ghost описывается идея использования блока осцилляторов для гибридного кодирования.

На средних или более высоких скоростях передачи битов преобразующие кодеры хорошо подходят для кодирования музыки из-за их естественного звука. Здесь требования к прозрачности лежащей в основе психоакустической модели выполняются полностью или почти полностью. Однако на низких скоростях передачи битов кодерам приходится серьезно нарушать требования психоакустической модели, и в такой ситуации преобразующие кодеры предрасположены к вибрирующим артефактам, артефактам резкости и музыкального шума.

Хотя полностью параметрические аудиокодеки больше всего подходят для меньших скоростей передачи битов, однако известно, что они звучат неприятно искусственно. Кроме того, эти кодеки не масштабируются плавно до воспринимаемой прозрачности, поскольку неосуществимо постепенное уточнение довольно грубой параметрической модели.

Гибридное кодирование сигнала по форме и параметрическое кодирование потенциально преодолевают ограничения отдельных подходов и могли бы извлекать выгоду из взаимно-ортогональных свойств обеих методик. Однако на текущем уровне техники это затруднено из-за недостатка взаимодействия между частью кодирования с преобразованием и параметрической частью гибридного кодека. Проблемы относятся к разделению сигнала между параметрической и преобразующей частью кодека, управлению запасом разрядов между преобразующей и параметрической частью, к методикам сигнализации параметров и прозрачному объединению выхода параметрического и преобразующего кодека.

Цель настоящего изобретения - предоставить усовершенствованные идеи для гибридного кодирования и декодирования аудио. Цель настоящего изобретения достигается с помощью устройства по п. 1, устройства по п. 12, способа по п. 29, способа по п. 30 и компьютерной программы по п. 31.

Предоставляется устройство для генерирования выходного аудиосигнала (сигнала вывода аудио) на основе кодированного спектра аудиосигнала.

Устройство содержит блок обработки для обработки кодированного спектра аудиосигнала, чтобы получить декодированный спектр аудиосигнала. Декодированный спектр аудиосигнала содержит множество спектральных коэффициентов, где каждый из спектральных коэффициентов имеет спектральное местоположение в кодированном спектре аудиосигнала и спектральное значение, где спектральные коэффициенты последовательно упорядочены в соответствии с их спектральным местоположением в кодированном спектре аудиосигнала, чтобы спектральные коэффициенты формировали последовательность спектральных коэффициентов.

Кроме того, устройство содержит определитель псевдокоэффициентов для определения одного или более псевдокоэффициентов декодированного спектра аудиосигнала, причем каждый из псевдокоэффициентов имеет спектральное местоположение и спектральное значение.

Кроме того, устройство содержит блок модификации спектра для установки одного или более псевдокоэффициентов в предопределенное значение, чтобы получить модифицированный спектр аудиосигнала.

Кроме того, устройство содержит блок спектрально-временного преобразования для преобразования модифицированного спектра аудиосигнала во временную область, чтобы получить сигнал преобразования временной области.

Кроме того, устройство содержит управляемый осциллятор для генерирования сигнала осциллятора временной области, причем управляемый осциллятор управляется спектральным местоположением и спектральным значением по меньшей мере одного из упомянутого одного или более псевдокоэффициентов.

Кроме того, устройство содержит смеситель для смешивания сигнала преобразования временной области и сигнала осциллятора временной области, чтобы получить выходной аудиосигнал.

Предложенные идеи улучшают воспринимаемое качество традиционных кодеков блочного преобразования на низких скоростях передачи битов. Предлагается заменить локальные тональные области в спектрах аудиосигналов, перекрывающие соседние локальные минимумы, охватывающие локальный максимум, псевдолиниями (также называемыми псевдокоэффициентами), в некоторых вариантах осуществления имеющими сходную энергию или уровень с упомянутыми областями, которые должны быть заменены.

В соответствии с вариантами осуществления предоставляется кодирование аудио с малой задержкой и низкой скоростью передачи битов. Некоторые варианты осуществления основываются на новой и оригинальной идее, называемой ToneFilling (TF). Термин "ToneFilling" означает методику кодирования, в которой иным образом плохо кодированные естественные тоны заменяются сходными для восприятия и при этом чистыми синусоидными тонами. В силу этого избегают артефактов амплитудной модуляции на некоторой скорости, зависящих от спектрального положения синусоиды относительно спектрального местоположения ближайшего элемента выборки MDCT (известных как "вибрирующие").

В соответствии с вариантами осуществления взвешивается степень раздражения у всех возможных артефактов. Это относится к воспринимаемым особенностям, например высоте, гармоничности, модуляции, и к стационарности артефактов. Все особенности оцениваются в Модели раздражения при восприятии звука (SPAM). Управляемая по такой модели ToneFilling обеспечивает значительные преимущества. Ошибка высоты и модуляции, которая вносится в результате замены естественного тона чистым синусоидным тоном, взвешивается по отношению к влиянию аддитивного шума и плохой стационарности ("вибрирование"), вызванных редко квантованным естественным тоном.

ToneFilling предоставляет значительные отличия от кодеков синусоиды-плюс-шум. Например, TF заменяет тоны синусами вместо вычитания синусоид. Сходные для восприятия тоны имеют такие же локальные Центры тяжести (COG), как и исходная звуковая компонента, которая должна быть заменена. В соответствии с вариантами осуществления исходные тоны удаляются в аудиоспектре (от левого к правому основанию функции COG). Обычно разрешение по частоте у синусоиды, используемой для замены, является как можно более крупным, чтобы минимизировать дополнительную информацию, в то же время учитывая относящиеся к восприятию требования, чтобы избежать ощущения нестройности.

В некоторых вариантах осуществления ToneFilling может проводиться выше нижней граничной частоты из-за упомянутых, относящихся к восприятию требований, но не ниже нижней граничной частоты. При проведении ToneFilling тоны представляются посредством спектральных псевдолиний в преобразующем кодере. Однако в оснащенном ToneFilling кодере псевдолинии подвергаются обычной обработке, управляемой по классической психоакустической модели. Поэтому при проведении ToneFilling отсутствует потребность в априорных ограничениях параметрической части (на скорости x передачи битов заменяются y-тональные компоненты). Достигается такая тесная интеграция в преобразующий кодек.

Функциональные возможности ToneFilling могут применяться на кодере путем обнаружения локальных COG (сглаженные оценки; максимальные показатели качества) путем удаления тональных компонент, путем генерирования замененных псевдолиний (например, псевдокоэффициентов), которые переносят информацию об уровне посредством амплитуды псевдолиний, информацию о частоте посредством спектрального положения псевдолиний и точную информацию о частоте (смещение на половину элемента) посредством знака псевдолиний. Псевдокоэффициенты (псевдолинии) обрабатываются последующим квантователем в кодеке почти так же, как и любой обычный спектральный коэффициент (спектральная линия).

Кроме того, ToneFilling может применяться на декодере путем обнаружения изолированных спектральных линий, где истинные псевдокоэффициенты (псевдолинии) могут отмечаться с помощью массива признаков (например, битовое поле). Декодер может связать информацию о псевдолинии для создания синусоидальных путей. Схема зарождения/продолжения/угасания может применяться для синтеза непрерывных путей.

Для декодирования псевдокоэффициенты (псевдолинии) могут отмечаться как таковые с помощью массива признаков, передаваемого в дополнительной информации. Разрешение по частоте в половину элемента у псевдолиний может сигнализироваться с помощью знака псевдокоэффициентов (псевдолиний). На декодере псевдолинии можно удалить из спектра перед блоком обратного преобразования и синтезировать отдельно с помощью блока осцилляторов. Со временем пары осцилляторов можно связать, и применяется интерполяция параметров для обеспечения плавно разворачивающегося выхода осциллятора.

Начала и смещения управляемых параметрами осцилляторов могут иметь такую форму, что они точно соответствуют временным характеристикам операции с окнами у преобразующего кодека, соответственно обеспечивая плавный переход между сгенерированными преобразующим кодеком частями и сгенерированными осциллятором частями выходного сигнала.

Предоставленные идеи хорошо и без усилий включаются в существующие схемы кодирования с преобразованием типа AAC, TCX или сходные конфигурации. Управление точностью квантования параметров может неявно выполняться с помощью существующего регулирования скорости кодека.

В соответствии с вариантом осуществления, каждый из спектральных коэффициентов может иметь по меньшей мере одного из непосредственного предшественника и непосредственного последователя, где непосредственный предшественник упомянутого спектрального коэффициента может быть одним из спектральных коэффициентов, который непосредственно предшествует упомянутому спектральному коэффициенту в последовательности, где непосредственный последователь упомянутого спектрального коэффициента может быть одним из спектральных коэффициентов, который непосредственно следует за упомянутым спектральным коэффициентом в последовательности. Определитель псевдокоэффициентов может быть сконфигурирован для определения одного или более псевдокоэффициентов декодированного спектра аудиосигнала путем определения по меньшей мере одного спектрального коэффициента последовательности, который имеет спектральное значение, которое отличается от предопределенного значения, который имеет непосредственного предшественника, спектральное значение которого равно предопределенному значению, и который имеет непосредственного последователя, спектральное значение которого равно предопределенному значению.

В варианте осуществления предопределенное значение может быть нулем.

В соответствии с вариантом осуществления, определитель псевдокоэффициентов может быть сконфигурирован для определения одного или более псевдокоэффициентов декодированного спектра аудиосигнала путем определения по меньшей мере одного спектрального коэффициента последовательности в качестве кандидата-псевдокоэффициента, который имеет непосредственного предшественника, спектральное значение которого равно предопределенному значению, и который имеет непосредственного последователя, спектральное значение которого равно предопределенному значению. Определитель псевдокоэффициентов может быть сконфигурирован для определения, является ли кандидат-псевдокоэффициент псевдокоэффициентом, путем определения, указывает ли дополнительная информация, что упомянутый кандидат-псевдокоэффициент является псевдокоэффициентом.

В варианте осуществления управляемый осциллятор может быть сконфигурирован для генерирования сигнала осциллятора временной области, имеющего частоту сигнала осциллятора, чтобы частота сигнала осциллятора у сигнала осциллятора зависела от спектрального местоположения одного из упомянутого одного или более псевдокоэффициентов.

В некоторых вариантах осуществления частота сигнала у сигнала осциллятора генерируется путем проведения интерполяции между спектральным местоположением двух или более временно последовательных псевдокоэффициентов.

В соответствии с вариантом осуществления псевдокоэффициенты являются значениями со знаком, содержащими компоненту знака. Управляемый осциллятор может быть сконфигурирован для генерирования сигнала осциллятора временной области, чтобы частота сигнала осциллятора у сигнала осциллятора, кроме того, зависела от компоненты знака одного из одного или более псевдокоэффициентов, чтобы частота сигнала осциллятора имела первое значение частоты, когда компонента знака имеет первое значение знака, и чтобы частота сигнала осциллятора имела другое второе значение частоты, когда компонента знака имеет другое второе значение.

В варианте осуществления управляемый осциллятор может быть сконфигурирован для генерирования сигнала осциллятора временной области, где амплитуда сигнала осциллятора может зависеть от спектрального значения одного из одного или более псевдокоэффициентов, чтобы амплитуда сигнала осциллятора имела первое значение амплитуды, когда спектральное значение имеет третье значение, и чтобы амплитуда сигнала осциллятора имела другое второе значение амплитуды, когда спектральное значение имеет четвертое значение, причем второе значение амплитуды больше первого значения амплитуды, когда четвертое значение больше третьего значения.

В соответствии с некоторыми вариантами осуществления значение амплитуды у сигнала осциллятора генерируется путем проведения интерполяции между спектральными значениями двух или более временно последовательных псевдокоэффициентов. Например, в некоторых вариантах осуществления амплитуда сигнала осциллятора генерируется путем проведения интерполяции между моментами времени, для которых передается значение.

В варианте осуществления управляемый осциллятор также может дополнительно управляться посредством экстраполированных параметров, выведенных из псевдокоэффициента предыдущего кадра, например, чтобы скрыть потерю кадра данных во время передачи или чтобы сгладить нестабильную работу управления осциллятором.

В соответствии с некоторыми вариантами осуществления значение амплитуды у сигнала осциллятора генерируется путем проведения интерполяции между спектральными значениями двух или более псевдокоэффициентов. Например, в некоторых вариантах осуществления амплитуда сигнала осциллятора генерируется путем проведения интерполяции между моментами времени, для которых передается значение.

В соответствии с вариантом осуществления модифицированный спектр аудиосигнала может быть спектром MDCT, содержащим коэффициенты MDCT. Блок спектрально-временного преобразования может быть сконфигурирован для преобразования спектра MDCT из области MDCT во временную область путем преобразования по меньшей мере некоторых из коэффициентов декодированного спектра аудиосигнала во временную область.

В варианте осуществления смеситель может быть сконфигурирован для смешивания сигнала преобразования временной области и сигнала осциллятора временной области путем сложения во временной области сигнала преобразования временной области с сигналом осциллятора временной области.

Кроме того, предоставляется устройство для кодирования входного спектра аудиосигнала. Входной спектр аудиосигнала содержит множество спектральных коэффициентов, где каждый из спектральных коэффициентов имеет спектральное местоположение во входном спектре аудиосигнала и спектральное значение. Спектральные коэффициенты последовательно упорядочиваются в соответствии с их спектральным местоположением во входном спектре аудиосигнала, чтобы спектральные коэффициенты формировали последовательность спектральных коэффициентов. Каждый из спектральных коэффициентов имеет по меньшей мере одного из одного или более предшественников и имеет по меньшей мере одного из одного или более последователей, где каждый из предшественников упомянутого спектрального коэффициента является одним из спектральных коэффициентов, который предшествует упомянутому спектральному коэффициенту в последовательности. Каждый из последователей упомянутого спектрального коэффициента является одним из спектральных коэффициентов, который следует за упомянутым спектральным коэффициентом в последовательности.

Устройство содержит определитель экстремумов для определения одного экстремума или большего количества экстремумов, предпочтительно в большем спектральном разрешении, которое обеспечивается лежащим в основе частотно-временным преобразованием.

Например, входной спектр аудиосигнала может быть спектром MDCT, имеющим множество коэффициентов MDCT.

Определитель экстремумов может определять экстремум или экстремумы в спектре сравнения, где значение сравнения коэффициента в спектре сравнения назначается каждому из коэффициентов MDCT спектра MDCT. Однако спектр сравнения может иметь большее спектральное разрешение, чем входной спектр аудиосигнала. Например, спектр сравнения может быть спектром Дискретного преобразования Фурье (DFT) (четно или нечетно составленного DFT), имеющим вдвое большее спектральное разрешение, чем входной спектр аудиосигнала MDCT. При этом только каждое второе спектральное значение спектра DFT назначается спектральному значению спектра MDCT. Однако можно учитывать другие коэффициенты спектра сравнения, когда определяется экстремум или экстремумы спектра сравнения. При этом коэффициент спектра сравнения может определяться как экстремум, который не назначается спектральному коэффициенту входного спектра аудиосигнала, но который имеет непосредственного предшественника и непосредственного последователя, которые назначаются соответственно спектральному коэффициенту входного спектра аудиосигнала и непосредственному последователю того спектрального коэффициента входного спектра аудиосигнала. Таким образом, можно считать, что упомянутый экстремум спектра сравнения (например, спектра DFT высокого разрешения) назначается спектральному местоположению во входном спектре аудиосигнала (MDCT), который располагается между упомянутым спектральным коэффициентом входного спектра аудиосигнала (MDCT) и упомянутым непосредственным последователем упомянутого спектрального коэффициента входного спектра аудиосигнала (MDCT). Такая ситуация может кодироваться путем выбора подходящего значения знака у псевдокоэффициента, что объясняется позднее. При этом достигается разрешение меньше элемента выборки.

Кроме того, устройство содержит модификатор спектра для модификации входного спектра аудиосигнала, чтобы получить модифицированный спектр аудиосигнала, путем установки спектрального значения по меньшей мере одного из предшественников или по меньшей мере одного из последователей по меньшей мере одного из коэффициентов экстремума в предопределенное значение. Кроме того, модификатор спектра сконфигурирован, чтобы не устанавливать спектральные значения одного или более коэффициентов экстремума в предопределенное значение, либо сконфигурирован, чтобы заменять по меньшей мере один из одного или более коэффициентов экстремума псевдокоэффициентом, где спектральное значение псевдокоэффициента отличается от предопределенного значения.

Кроме того, устройство содержит блок обработки для обработки модифицированного спектра аудиосигнала, чтобы получить кодированный спектр аудиосигнала.

Кроме того, устройство содержит генератор дополнительной информации для генерирования и передачи дополнительной информации, где генератор дополнительной информации сконфигурирован для нахождения одного или более кандидатов-псевдокоэффициентов в модифицированном входном спектре аудиосигнала, сгенерированном модификатором спектра, где генератор дополнительной информации сконфигурирован для выбора по меньшей мере одного из кандидатов-псевдокоэффициентов в качестве выбранных кандидатов, и где генератор дополнительной информации сконфигурирован для генерирования дополнительной информации, чтобы дополнительная информация указывала выбранные кандидаты как псевдокоэффициенты.

Определитель экстремумов сконфигурирован для определения одного или более коэффициентов экстремума, предпочтительно в большем спектральном разрешении, которое обеспечивается лежащим в основе частотно-временным преобразованием, чтобы каждый из коэффициентов экстремума являлся одним из спектральных коэффициентов, спектральное значение которого больше спектрального значения по меньшей мере одного из его предшественников, и спектральное значение которого больше спектрального значения по меньшей мере одного из его последователей. Либо каждый из спектральных коэффициентов имеет значение сравнения, ассоциированное с упомянутым спектральным коэффициентом, и определитель экстремумов сконфигурирован для определения одного или более коэффициентов экстремума, чтобы каждый из коэффициентов экстремума являлся одним из спектральных коэффициентов, значение сравнения которого больше значения сравнения по меньшей мере одного из его предшественников, и значение сравнения которого больше значения сравнения по меньшей мере одного из его последователей.

В соответствии с вариантами осуществления, дополнительная информация, сгенерированная генератором дополнительной информации, может иметь статический, предопределенный размер, либо ее размер может оцениваться итерационно адаптивным к сигналу способом. В этом случае декодеру также передается фактический размер дополнительной информации. Поэтому в соответствии с вариантом осуществления генератор 440 дополнительной информации сконфигурирован для передачи размера дополнительной информации.

В варианте осуществления модификатор спектра сконфигурирован для модификации входного спектра аудиосигнала, чтобы спектральные значения по меньшей мере некоторых спектральных коэффициентов входного спектра аудиосигнала оставались немодифицированными в модифицированном спектре аудиосигнала.

В соответствии с вариантом осуществления каждый из спектральных коэффициентов имеет по меньшей мере одного из непосредственного предшественника в качестве одного из его предшественников и непосредственного последователя в качестве одного из его последователей, где непосредственный предшественник упомянутого спектрального коэффициента является одним из спектральных коэффициентов, который непосредственно предшествует упомянутому спектральному коэффициенту в последовательности, где непосредственный последователь упомянутого спектрального коэффициента является одним из спектральных коэффициентов, который непосредственно следует за упомянутым спектральным коэффициентом в последовательности.

Модификатор спектра может быть сконфигурирован для модификации входного спектра аудиосигнала, чтобы получить модифицированный спектр аудиосигнала, путем установки спектрального значения непосредственного предшественника или непосредственного последователя по меньшей мере одного из коэффициентов экстремума в предопределенное значение, где модификатор спектра может быть сконфигурирован, чтобы не устанавливать спектральные значения одного или более коэффициентов экстремума в предопределенное значение, либо может быть сконфигурирован, чтобы заменять по меньшей мере один из одного или более коэффициентов экстремума псевдокоэффициентом, где спектральное значение псевдокоэффициента отличается от предопределенного значения. Следует отметить, что когда определитель экстремумов определяет коэффициенты экстремума на основе спектра сравнения (например, энергетического спектра), то спектральные коэффициенты, которые могут быть, например, локальным максимумом спектра сравнения (например, энергетического спектра), не должны быть локальным максимумом входного спектра аудиосигнала (например, спектра MDCT).

Определитель экстремумов может быть сконфигурирован для определения одного или более коэффициентов экстремума, чтобы каждый из коэффициентов экстремума являлся одним из спектральных коэффициентов, спектральное значение которого больше спектрального значения его непосредственного предшественника, и спектральное значение которого больше спектрального значения его непосредственного последователя. Либо каждый из спектральных коэффициентов имеет значение сравнения, ассоциированное с упомянутым спектральным коэффициентом, и определитель экстремумов может быть сконфигурирован для определения одного или более коэффициентов экстремума, чтобы каждый из коэффициентов экстремума являлся одним из спектральных коэффициентов, значение сравнения которого больше значения сравнения его непосредственного предшественника, и значение сравнения которого больше значения сравнения его непосредственного последователя.

В соответствии с вариантом осуществления определитель экстремумов может быть сконфигурирован для определения одного или более минимальных коэффициентов, чтобы каждый из одного или более минимальных коэффициентов являлся одним из спектральных коэффициентов, спектральное значение которого меньше спектрального значения одного из его предшественников, и спектральное значение которого меньше спектрального значения одного из его последователей, либо где каждый из спектральных коэффициентов имеет значение сравнения, ассоциированное с упомянутым спектральным коэффициентом, где определитель экстремумов сконфигурирован для определения одного или более минимальных коэффициентов, чтобы каждый из минимальных коэффициентов являлся одним из спектральных коэффициентов, значение сравнения которого меньше значения сравнения одного из его предшественников, и значение сравнения которого меньше значения сравнения одного из его последователей. В таком варианте осуществления модификатор спектра может быть сконфигурирован для определения значения представления на основе спектральных значений или значений сравнения одного или более коэффициентов экстремума и одного или более минимальных коэффициентов, чтобы значение представления отличалось от предопределенного значения. Кроме того, модификатор спектра может быть сконфигурирован для изменения спектрального значения одного из коэффициентов входной последовательности аудиосигнала путем установки упомянутого спектрального значения в значение представления.

В соответствии с вариантом осуществления модификатор спектра может быть сконфигурирован для определения, меньше ли порогового значения разность значений между одним из значения сравнения или спектрального значения одного из коэффициентов экстремума. Кроме того, модификатор спектра может быть сконфигурирован для модификации входного спектра аудиосигнала, чтобы спектральные значения по меньшей мере некоторых спектральных коэффициентов входного спектра аудиосигнала оставались немодифицированными в модифицированном спектре аудиосигнала в зависимости от того, меньше ли разность значений порогового значения.

В варианте осуществления определитель экстремумов может быть сконфигурирован для определения одной или более подпоследовательностей последовательности спектральных значений, чтобы каждая из подпоследовательностей содержала множество последующих спектральных коэффициентов входного спектра аудиосигнала. Последующие спектральные коэффициенты могут последовательно упорядочиваться в подпоследовательности в соответствии с их спектральным положением. Каждая из подпоследовательностей может иметь первый элемент, являющийся первым в упомянутой последовательно упорядоченной подпоследовательности, и последний элемент, являющийся последним в упомянутой последовательно упорядоченной подпоследовательности. Кроме того, каждая из подпоследовательностей может содержать точно два из минимальных коэффициентов и точно один из коэффициентов экстремума, причем один из минимальных коэффициентов является первым элементом подпоследовательности, а другой из минимальных коэффициентов является последним элементом подпоследовательности. В таком варианте осуществления модификатор спектра может быть сконфигурирован для определения значения представления на основе спектральных значений или значений сравнения коэффициентов одной из подпоследовательностей. Модификатор спектра может быть сконфигурирован для изменения спектрального значения одного из коэффициентов упомянутой подпоследовательности путем установки упомянутого спектрального значения в значение представления.

В соответствии с вариантом осуществления определитель экстремумов может быть сконфигурирован для определения коэффициента центра тяжести путем определения произведения значения сравнения и значения местоположения для каждого спектрального коэффициента подпоследовательности, чтобы получить множество взвешенных коэффициентов путем суммирования взвешенных коэффициентов, чтобы получить первую сумму, путем суммирования значений сравнения всех спектральных коэффициентов подпоследовательности, чтобы получить вторую сумму; путем деления первой суммы на вторую сумму, чтобы получить промежуточный результат; и путем применения в отношении промежуточного результата округления до ближайшего целого, чтобы получить коэффициент центра тяжести, и где модификатор спектра сконфигурирован для установки спектральных значений всех спектральных коэффициентов подпоследовательности, которые не являются коэффициентом центра тяжести, в предопределенное значение. Либо определитель экстремумов может быть сконфигурирован для определения коэффициента центра тяжести путем определения произведения спектрального значения и значения местоположения для каждого спектрального коэффициента подпоследовательности, чтобы получить множество взвешенных коэффициентов, путем суммирования взвешенных коэффициентов, чтобы получить первую сумму, путем суммирования спектральных значений всех спектральных коэффициентов подпоследовательно