2607263 - Устройство и способ для кодирования и декодирования кодированного аудиосигнала с использованием временного формирования шума/наложений

Устройство и способ для кодирования и декодирования кодированного аудиосигнала с использованием временного формирования шума/наложений

Иллюстрации

Показать все

Изобретение относится к средствам для кодирования и декодирования кодированного аудиосигнала. Технический результат заключается в предоставлении усовершенствованного принципа кодирования/декодирования, позволяющего уменьшить скорость передачи битов. Устройство для декодирования кодированного сигнала содержит: аудиодекодер в спектральной области для формирования первого декодированного представления первого набора первых спектральных частей, представляющих собой остаточные спектральные прогнозные значения; модуль повторного формирования частоты для формирования восстановленной второй спектральной части с использованием первой спектральной части из первого набора первых спектральных частей, при этом восстановленная вторая спектральная часть дополнительно содержит остаточные спектральные прогнозные значения; и обратный прогнозный фильтр для выполнения обратного прогнозирования по частоте с использованием остаточных спектральных значений для первого набора первых спектральных частей и восстановленной второй спектральной части с использованием информации прогнозного фильтра, включенной в кодированный аудиосигнал. 6 н. и 14 з.п. ф-лы, 41 ил.

Реферат

Настоящее изобретение относится к кодированию/декодированию аудио и, в частности, к кодированию аудио с использованием интеллектуального заполнения интервалов (IGF).

Кодирование аудио представляет собой область сжатия сигналов, которая связана с использованием избыточности и нерелевантности в аудиосигналах с использованием психоакустических сведений. На сегодняшний день аудиокодекам типично требуется приблизительно 60 Кбит/с/канал для перцепционно прозрачного кодирования практически любого типа аудиосигнала. Более новые кодеки нацелены на уменьшение скорости передачи битов при кодировании посредством использования спектральных подобий в сигнале с использованием таких технологий, как расширение полосы пропускания (BWE). BWE-схема использует набор параметров для низкой скорости передачи битов, чтобы представлять высокочастотные (HF) компоненты аудиосигнала. HF-спектр заполнен спектральным содержимым из низкочастотных (LF) областей, и спектральная форма, наклон и временная непрерывность регулируются для того, чтобы поддерживать тембр и цвет исходного сигнала. Такие BWE-способы позволяют аудиокодекам сохранять хорошее качество даже на низких скоростях передачи битов приблизительно в 24 Кбит/с/канал.

Хранение или передача аудиосигналов зачастую подчиняются строгим ограничениям скорости передачи битов. В прошлом, кодеры принудительно существенно уменьшали полосу пропускания передаваемого аудиосигнала, когда была доступна только очень низкая скорость передачи битов.

Современные аудиокодеки в наше время могут кодировать широкополосные сигналы посредством использования способов расширения полосы пропускания (BWE) [1]. Эти алгоритмы основываются на параметрическом представлении высокочастотного содержимого (HF), который формируется из кодированной на основе формы сигналов низкочастотной части (LF) декодированного сигнала, посредством транспозиции в спектральную HF-область ("наложения") и применения постобработки на основе параметров. В BWE-схемах, восстановление спектральной HF-области выше данной так называемой частоты разделения зачастую основано на спектральном наложении. Типично, HF-область состоит из нескольких смежных наложений, и каждое из этих наложений получается из полосовых (BP) областей LF-спектра ниже данной частоты разделения. Системы предшествующего уровня техники эффективно выполняют наложение в представлении на основе гребенки фильтров, например, гребенки квадратурных зеркальных фильтров (QMF), посредством копирования набора смежных подполосных коэффициентов из исходной в целевую область.

Еще одна технология, разработанная в современных аудиокодеках, которая повышает эффективность сжатия и за счет этого обеспечивает расширенную полосу пропускания аудиосигнала на низких скоростях передачи битов, представляет собой синтетическую замену на основе параметров подходящих частей спектров звука. Например, шумоподобные части сигнала исходного аудиосигнала могут быть заменены без существенных потерь субъективного качества посредством искусственного шума, сформированного в декодере, и масштабированы посредством параметров вспомогательной информации. Один пример представляет собой инструментальное средство для перцепционного замещения шума (PNS), содержащееся в усовершенствованном кодировании аудио (AAC) на основе MPEG-4 [5].

Дополнительная мера, которая также обеспечивает расширенную полосу пропускания аудиосигнала на низких скоростях передачи битов, представляет собой технологию заполнения шумом, содержащуюся в стандартизированном кодировании речи и аудио (USAC) на основе MPEG-D [7]. Интервалы отсутствия сигнала в спектре (нули), которые логически выводятся посредством мертвой зоны квантователя вследствие слишком приблизительного квантования, затем заполняются искусственным шумом в декодере и масштабируются посредством постобработки на основе параметров.

Другая система предшествующего уровня техники называется "точной спектральной заменой (ASR)" [2-4]. В дополнение к кодеку на основе формы сигналов, ASR использует выделенную стадию синтеза сигналов, которая восстанавливает перцепционно важные синусоидальные части сигнала в декодере. Кроме того, система, описанная в [5], основывается на синусоидальном моделировании в HF-области кодера на основе формы сигналов, чтобы обеспечивать расширенную полосу пропускания аудиосигнала, имеющую неплохое перцепционное качество на низких скоростях передачи битов. Все эти способы заключают в себе преобразование данных во второй области, отличное от модифицированного дискретного косинусного преобразования (MDCT), а также довольно комплексные стадии анализа/синтеза для сохранения синусоидальных HF-компонентов.

Фиг. 13a иллюстрирует принципиальную схему аудиокодера для технологии расширения полосы пропускания, например, используемой при высокоэффективном усовершенствованном кодировании аудио (HE-AAC). Аудиосигнал в линии 1300 вводится в систему фильтров, состоящую из нижних частот 1302 и верхних частот 1304. Сигнал, выводимый посредством фильтра 1304 верхних частот, вводится в модуль 1306 извлечения/кодирования параметров. Модуль 1306 извлечения/кодирования параметров выполнен с возможностью вычисления и кодирования параметров, таких как, например, параметр спектральной огибающей, параметр добавления шума, параметр пропущенных гармоник или параметр обратной фильтрации. Эти извлеченные параметры вводятся в мультиплексор 1308 потоков битов. Выходной сигнал нижних частот вводится в процессор, типично содержащий функциональность модуля 1310 понижающей дискретизации и базового кодера 1312. Нижние частоты 1302 ограничивают полосу пропускания, которая должна кодироваться, значительно меньшей полосой пропускания, чем возникающая исходном входном аудиосигнале на линии 1300. Это предоставляет значительное усиление при кодировании вследствие того факта, что полные функциональности, осуществляемые в базовом кодере, должны работать только для сигнала с уменьшенной полосой пропускания. Когда, например, полоса пропускания аудиосигнала на линии 1300 составляет 20 кГц, и когда фильтр 1302 нижних частот примерно имеет полосу пропускания в 4 кГц, чтобы удовлетворять теореме дискретизации, теоретически достаточно того, что сигнал после модуля понижающей дискретизации имеет частоту дискретизации в 8 кГц, что является существенным уменьшением по сравнению с частотой дискретизации, требуемой для аудиосигнала 1300, которая должна составлять, по меньшей мере, 40 кГц.

Фиг. 13b иллюстрирует принципиальную схему соответствующего декодера расширения полосы пропускания. Декодер содержит мультиплексор 1320 потоков битов. Демультиплексор 1320 потоков битов извлекает входной сигнал для базового декодера 1322 и входной сигнал для декодера 1324 параметров. Выходной сигнал базового декодера имеет, в вышеприведенном примере, частоту дискретизации в 8 кГц, и следовательно, полосу пропускания в 4 кГц, тогда как для восстановления полной полосы пропускания выходной сигнал модуля 1330 восстановления высоких частот должен иметь 20 кГц, что требует частоты дискретизации, по меньшей мере, в 40 кГц. Для обеспечения возможности этого, требуется процессор декодера, имеющий функциональность модуля 1325 повышающей дискретизации и гребенки 1326 фильтров. Модуль 1330 восстановления высоких частот затем принимает частотно проанализированный низкочастотный сигнал, выводимый посредством гребенки 1326 фильтров, и восстанавливает частотный диапазон, заданный посредством фильтра 1304 верхних частот по фиг. 13a, с использованием параметрического представления полосы высоких частот. Модуль 1330 восстановления высоких частот имеет несколько функциональностей, таких как повторное формирование диапазона верхних частот с использованием исходного диапазона в диапазоне низких частот, регулирование спектральной огибающей, функциональность добавления шума и функциональность для того, чтобы вводить пропущенные гармоники в диапазоне верхних частот, и если применяется и вычисляется в кодере по фиг. 13a, операция обратной фильтрации, чтобы учитывать тот факт, что диапазон верхних частот типично не является настолько тональным, как диапазон нижних частот. В HE-AAC, пропущенные гармоники повторно синтезируются на стороне декодера и размещаются точно в середине полосы частот восстановления. Следовательно, все линии пропущенных гармоник, которые определяются в определенной полосе частот восстановления, не размещены в значениях частоты, в которых они располагаются в исходном сигнале. Вместо этого, эти линии пропущенных гармоник размещены в частотах в центре определенной полосы частот. Таким образом, когда линия пропущенных гармоник в исходном сигнале размещена очень близко к границе полосы частот восстановления в исходном сигнале, ошибка в частоте, введенная посредством размещения этой линии пропущенных гармоник в восстановленном сигнале в центре полосы частот, находится близко к 50% отдельной полосы частот восстановления, для которой сформированы и переданы параметры.

Кроме того, даже если типичные аудио базовые кодеры работают в спектральной области, базовый декодер, тем не менее, формирует сигнал временной области, который затем снова преобразуется в спектральную область посредством функциональности гребенки 1326 фильтров. Это вводит дополнительные задержки при обработке, может вводить артефакты вследствие тандемной обработки преобразования сначала из спектральной области в частотную область и снова преобразования типично в другую частотную область, и, конечно, это также требует значительной сложности вычислений и в силу этого электроэнергии, что представляет собой проблему, в частности, когда технология расширения полосы пропускания применяется в мобильных устройствах, к примеру, в мобильных телефонах, планшетных или переносных компьютерах и т.д.

Современные аудиокодеки выполняют кодирование аудио с низкой скоростью передачи битов с использованием BWE в качестве неотъемлемой части схемы кодирования. Тем не менее, BWE-технологии ограничены тем, что они заменяют только высокочастотный (HF) спектр. Более того, они не обеспечивают возможность кодирования на основе формы сигналов перцепционно важного содержимого выше данной частоты разделения. Следовательно, современные аудиокодеки теряют HF-детали или тембр, когда реализуется BWE, поскольку точное совмещение тональных гармоник сигнала не учитывается в большинстве систем.

Другой недостаток BWE-систем современного уровня техники заключается в необходимости преобразования аудиосигнала в новую область для реализации BWE (например, преобразования из MDCT-в QMF-область). Это приводит к усложнению синхронизации, дополнительной вычислительной сложности и повышенным требованиям к запоминающему устройству.

В частности, если система расширения полосы пропускания реализуется в области гребенки фильтров или частотно-временного преобразования, предусмотрена только ограниченная возможность управлять временной формой сигнала расширения полосы пропускания. Типично, степень временной детализации ограничена посредством размера перескока, используемого между смежными окнами преобразования на основе кодирования со взвешиванием. Это может приводить к нежелательным опережающим или запаздывающим эхо в спектральном диапазоне расширения полосы пропускания. Чтобы повышать степень временной детализации, могут использоваться меньшие размеры перескока или меньшие кадры расширения полосы пропускания, но это приводит к дополнительному расходу скорости передачи битов вследствие того факта, что в течение определенного периода времени должно передаваться большее число параметров, типично определенный набор параметров для каждого временного кадра. В противном случае, если отдельные временные кадры становятся слишком большими, то формируются опережающие и запаздывающие эхо, в частности, для переходных частей аудиосигнала.

Цель настоящего изобретения заключается в том, чтобы предоставлять усовершенствованный принцип кодирования/декодирования.

Это цель достигается посредством устройства для декодирования кодированного аудиосигнала по п. 1, устройства для кодирования аудиосигнала по п. 10, способа декодирования по п. 16, способа кодирования по п. 18 или компьютерной программы по п. 19.

Настоящее изобретение основано на том факте, что повышенное качество и уменьшенная скорость передачи битов, в частности, для сигналов, содержащих переходные части, поскольку они возникают очень часто в аудиосигналах, получается за счет комбинирования технологии временного формирования шума (TNS) или временного формирования мозаичных фрагментов (TTS) с восстановлением высоких частот. TNS/TTS-обработка на стороне кодера, реализуемая посредством прогнозирования по частоте, восстанавливает временную огибающую аудиосигнала. В зависимости от реализации, т.е. когда фильтр для временного формирования шума определяется не только в частотном диапазоне, покрывающем исходный частотный диапазон, но также и в целевом частотном диапазоне, который должен быть восстановлен в декодере повторного формирования частоты, временная огибающая применяется не только к базовому аудиосигналу до начальной частоты заполнения интервалов, но временная огибающая также применяется к спектральным диапазонам восстановленных вторых спектральных частей. Таким образом, опережающие эхо или запаздывающие эхо, которые должны возникать без временного формирования мозаичных фрагментов, уменьшаются или исключаются. Это достигается посредством применения обратного прогнозирования по частоте не только в базовом частотном диапазоне вплоть до определенной начальной частоты заполнения интервалов, но также и в частотном диапазоне выше базового частотного диапазона. С этой целью, повторное формирование частоты или формирование частотных мозаичных фрагментов выполняется на стороне декодера до применения прогнозирования по частоте. Тем не менее, прогнозирование по частоте может применяться либо до, либо после формирования спектральной огибающей в зависимости от того, вычисление информации энергии выполнено для остаточных спектральных значений после фильтрации или для (полных) спектральных значений перед формированием огибающей.

TTS-обработка для одного или более частотных мозаичных фрагментов дополнительно устанавливает непрерывность корреляции между исходным диапазоном и диапазоном восстановления в двух смежных диапазонах восстановления или частотных мозаичных фрагментах.

В реализации, предпочтительно использовать комплексную TNS/TTS-фильтрацию. В силу этого, не допускаются артефакты (временного) наложения спектров критически дискретизированного действительного представления, такого как MDCT. Комплексный TNS-фильтр может вычисляться на стороне кодера посредством применения не только модифицированного дискретного косинусного преобразования, но помимо этого, также и модифицированного дискретного синусного преобразования, чтобы получать комплексное модифицированное преобразование. Тем не менее, передаются только значения модифицированного дискретного косинусного преобразования, т.е. действительная часть комплексного преобразования. Тем не менее, на стороне декодера, можно оценивать мнимую часть преобразования с использованием MDCT-спектров предшествующих или последующих кадров, так что на стороне декодера комплексный фильтр может снова применяться при обратном прогнозировании по частоте и, в частности, при прогнозировании по границе между исходным диапазоном и диапазоном восстановления, а также по границе между смежными по частоте частотными мозаичными фрагментами в диапазоне восстановления.

Дополнительный аспект основан на таких выявленных сведениях, что проблемы, связанные с разделением расширения полосы пропускания, с одной стороны, и базового кодирования, с другой стороны, могут разрешаться и преодолеваться посредством выполнения расширения полосы пропускания в той спектральной области, в которой работает базовый декодер. Следовательно, предоставляется полноскоростной базовый декодер, который кодирует и декодирует полный диапазон аудиосигнала. Это не требует модуля понижающей дискретизации на стороне кодера и модуля повышающей дискретизации на стороне декодера. Вместо этого, вся обработка выполняется в области полной частоты дискретизации или полной полосы пропускания. Чтобы получать высокое усиление при кодировании, аудиосигнал анализируется для того, чтобы находить первый набор первых спектральных частей, который должен быть кодирован с высоким разрешением, причем этот первый набор первых спектральных частей может включать в себя, в варианте осуществления, тональные части аудиосигнала. С другой стороны, нетональные или зашумленные компоненты в аудиосигнале, составляющем второй набор вторых спектральных частей, параметрически кодируются с низким спектральным разрешением. Кодированный аудиосигнал в таком случае требует только первого набора первых спектральных частей, кодированных с сохранением формы сигнала с помощью высокого спектрального разрешения, и дополнительно, второго набора вторых спектральных частей, кодированных параметрически с низким разрешением с использованием частотных "мозаичных фрагментов", получаемых из первого набора. На стороне декодера, базовый декодер, который представляет собой полнополосный декодер, восстанавливает первый набор первых спектральных частей с сохранением формы сигнала, т.е. без сведений о том, что приспосабливается дополнительное повторное формирование частоты. Тем не менее, за счет этого сформированный спектр имеет множество интервалов в спектре. Эти интервалы отсутствия сигнала затем заполнены с помощью изобретаемой технологии интеллектуального заполнения интервалов (IGF) посредством использования повторного формирования частоты, применяющего параметрические данные, с одной стороны, и использования исходного спектрального диапазона, т.е. первых спектральных частей, восстановленных посредством полноскоростного аудиодекодера, с другой стороны.

В дополнительных вариантах осуществления, спектральные части, которые восстановлены только посредством заполнения шумом, а не репликации полосы пропускания или заполнения частотными мозаичными фрагментами, составляют третий набор третьих спектральных частей. Вследствие того факта, что принцип кодирования работает в одной области для базового кодирования/декодирования, с одной стороны, и повторного формирования частоты, с другой стороны, IGF ограничен не только заполнением диапазона верхних частот, но может заполнять диапазоны нижних частот, либо посредством заполнения шумом без повторного формирования частоты, либо посредством повторного формирования частоты с использованием частотного мозаичного фрагмента в другом частотном диапазоне.

Кроме того, следует подчеркнуть, что информация относительно спектральных энергий, информация относительно отдельных энергий (или информация отдельных энергий), информация относительно энергии выживания (или информация энергии выживания), информация относительно энергии мозаичных фрагментов (или информация энергии мозаичных фрагментов) либо информация относительно недостающей энергии (или информация недостающей энергии) может содержать не только значение энергии, но также и (например, абсолютное) значение амплитуды, значение уровня или любое другое значение, из которого может быть получено конечное значение энергии. Следовательно, информация относительно энергии, например, может содержать само значение энергии и/или значение уровня и/или амплитуды, и/или абсолютной амплитуды.

Дополнительный аспект основан на таких выявленных сведениях, что ситуация корреляции является важной не только для исходного диапазона, но также и для целевого диапазона. Кроме того, настоящее изобретение подтверждает такую ситуацию, что различные ситуации корреляции могут возникать в исходном диапазоне и целевом диапазоне. Когда, например, рассматривается речевой сигнал с высокочастотным шумом, может возникать такая ситуация, что полоса низких частот, содержащая речевой сигнал с небольшим числом обертонов, имеет высокую корреляцию в левом канале и правом канале, когда динамик размещен посередине. Тем не менее, часть высоких частот может иметь сильную декорреляцию вследствие того факта, что может возникать отличный высокочастотный шум с левой стороны по сравнению с другим высокочастотным шумом или отсутствием высокочастотного шума с правой стороны. Таким образом, когда должна выполняться операция прямого заполнения интервалов, которая игнорирует эту ситуацию, в таком случае часть высоких частот также должна быть коррелирована, и это может формировать серьезные артефакты пространственной сегрегации в восстановленном сигнале. Чтобы разрешать эту проблему, вычисляются параметрические данные для полосы частот восстановления или, в общем, для второго набора вторых спектральных частей, которые должны быть восстановлены с использованием первого набора первых спектральных частей для того, чтобы идентифицировать первое или второе другое двухканальное представление для второй спектральной части или, другими словами, для полосы частот восстановления. Следовательно, на стороне кодера двухканальный идентификатор вычисляется для вторых спектральных частей, т.е. для частей, для которых, дополнительно, вычисляется информация энергии для полос частот восстановления. Модуль повторного формирования частоты на стороне декодера затем повторно формирует вторую спектральную часть в зависимости от первой части из первого набора первых спектральных частей, т.е. исходного диапазона, и параметрических данных для второй части, таких как информация энергии спектральной огибающей или любые другие данные спектральной огибающей, и дополнительно, в зависимости от двухканального идентификатора для второй части, т.е. для этой повторно рассматриваемой полосы частот восстановления.

Двухканальный идентификатор предпочтительно передается в качестве флага для каждой полосы частот восстановления, и эти данные передаются из кодера в декодер, и декодер затем декодирует базовый сигнал, как указано посредством предпочтительно вычисленных флагов для полос базовых частот. Затем в реализации, базовый сигнал сохраняется в обоих стереопредставлениях (например, левый/правый и средний/боковой), и для заполнения частотными мозаичными IGF-фрагментами представление исходных мозаичных фрагментов выбрано таким образом, что оно соответствует представлению целевых мозаичных фрагментов, как указано посредством флагов двухканального идентификатора для интеллектуального заполнения интервалов или полос частот восстановления, т.е. для целевого диапазона.

Следует подчеркнуть, что эта процедура работает не только для стереосигналов, т.е. для левого канала и правого канала, но также и работает для многоканальных сигналов. В случае многоканальных сигналов, таким способом могут обрабатываться несколько пар различных каналов, к примеру, левый и правый канал в качестве первой пары, левый канал объемного звучания и правый объемного звучания в качестве второй пары и центральный канал и LFE-канала в качестве третьей пары. Другие спаривания могут определяться для форматов с более высоким числом выходных каналов, к примеру, 7.1, 11.1 и т.д.

Дополнительный аспект основан на таких выявленных сведениях, что определенные ухудшения качества звука могут быть исправлены посредством применения схемы сигнально-адаптивного заполнения частотными мозаичными фрагментами. С этой целью, анализ на стороне кодера выполняется для того, чтобы выявлять возможный вариант наилучше совпадающей исходной области для определенной целевой области. Информация совпадения, идентифицирующая для целевой области определенную исходную область, вместе с необязательно некоторой дополнительной информацией, формируется и передается в качестве вспомогательной информации в декодер. Декодер затем применяет операцию заполнения частотными мозаичными фрагментами с использованием информации совпадения. С этой целью, декодер считывает информацию совпадения из передаваемого потока данных или файла данных и осуществляет доступ к исходной области, идентифицированной для определенной полосы частот восстановления и, если указывается в информации совпадения, дополнительно выполняет некоторую обработку этих данных исходной области, чтобы формировать необработанные спектральные данные для полосы частот восстановления. Затем этому результату операции заполнения частотными мозаичными фрагментами, т.е. необработанным спектральным данным для полосы частот восстановления, придается определенная форма с использованием информации спектральной огибающей, чтобы, в завершение, получать полосу частот восстановления, которая также содержит первые спектральные части, к примеру, тональные части. Тем не менее, эти тональные части не формируются посредством схемы адаптивного заполнения мозаичными фрагментами, а эти первые спектральные части выводятся посредством самого аудиодекодера или базового декодера.

Схема адаптивного выбора спектральных мозаичных фрагментов может работать с низкой степенью детализации. В этой реализации, исходная область подразделяется на типично перекрывающиеся исходные области и целевую область, или полосы частот восстановления задаются посредством неперекрывающихся целевых частотных областей. Далее подобия между каждой исходной областью и каждой целевой областью определяются на стороне кодера, и наилучше совпадающая пара исходной области и целевой области идентифицирована посредством информации совпадения, и на стороне декодера, исходная область, идентифицированная в информации совпадения, используется для формирования необработанных спектральных данных для полосы частот восстановления.

В целях получения большей степени детализации каждой исходной области разрешается сдвигаться, чтобы получать определенное запаздывание, при котором подобия являются максимальными. Это запаздывание может быть идентичным по точности элементу разрешения по частоте и обеспечивает возможность еще лучшего совпадения между исходной областью и целевой областью.

Кроме того, в дополнение к только идентификации наилучше совпадающей пары, это запаздывание корреляции также может передаваться в информации совпадения и, дополнительно, даже знак может передаваться. Когда знак определяется как отрицательный на стороне кодера, то соответствующий флаг знака также передается в информации совпадения, и на стороне декодера, спектральные значения исходной области умножаются на -1 либо, в комплексном представлении, "циклически сдвигаются" на 180 градусов.

Дополнительная реализация этого изобретения применяет операцию отбеливания мозаичных фрагментов. Отбеливание спектра удаляет приблизительную информацию спектральной огибающей и подчеркивает точную спектральную структуру, которая представляет главный интерес для оценки подобия мозаичных фрагментов. Следовательно, частотный мозаичный фрагмент, с одной стороны, и/или исходный сигнал, с другой стороны, отбеливаются до вычисления меры взаимной корреляции. Когда только мозаичный фрагмент отбелен с использованием предварительно заданной процедуры, передается флаг отбеливания, указывающий декодеру то, что идентичный предварительно заданный процесс отбеливания должен применяться к частотному мозаичному фрагменту в IGF.

Относительно выбора мозаичных фрагментов, предпочтительно использовать запаздывание корреляции, чтобы спектрально сдвигать повторно сформированный спектр посредством целого числа элементов выборки преобразования. В зависимости от базового преобразования, спектральный сдвиг может требовать коррекций с суммированием. В случае нечетных запаздываний мозаичный фрагмент дополнительно модулирован через умножение на переменную временную последовательность из -1/1 для того, чтобы компенсировать представление с обратной частотой каждой второй полосы частот в MDCT. Кроме того, знак результата корреляции применяется при формировании частотного мозаичного фрагмента.

Кроме того, предпочтительно использовать отсечение и стабилизацию мозаичных фрагментов, чтобы удостовериться, что не допускаются артефакты, созданные посредством быстро изменяющихся исходных областей для идентичной области восстановления или целевой области. С этой целью, выполняется анализ подобия между различными идентифицированными исходными областями, и когда исходный мозаичный фрагмент является аналогичным другим исходным мозаичным фрагментам с подобием выше порогового значения, то этот исходный мозаичный фрагмент может быть отброшен из набора потенциальных исходных мозаичных фрагментов, поскольку он имеет высокую корреляцию с другими исходными мозаичными фрагментами. Кроме того, в качестве типа стабилизации выбора мозаичных фрагментов, предпочтительно поддерживать порядок мозаичных фрагментов от предыдущего кадра, если ни один из исходных мозаичных фрагментов в текущем кадре не коррелируется (лучше данного порогового значения) с целевыми мозаичными фрагментами в текущем кадре.

Система кодирования аудио эффективно кодирует произвольные аудиосигналы в широком диапазоне скоростей передачи битов. При этом, что для высоких скоростей передачи битов изобретаемая система стремится к прозрачности, для низких скоростей передачи битов минимизируется перцепционное раздражение. Следовательно, основная доля доступной скорости передачи битов используется для того, чтобы кодировать на основе формы сигналов только перцепционно наиболее релевантную структуру сигнала в кодере, и результирующие интервалы отсутствия сигнала в спектре заполняются в декодере содержимым сигнала, который примерно аппроксимирует исходный спектр. Очень ограниченный битовый бюджет расходуется для того, чтобы управлять так называемым интеллектуальным заполнением интервалов (IGF) в спектре на основе параметров посредством выделенной вспомогательной информации, передаваемой из кодера в декодер.

Далее описываются предпочтительные варианты осуществления настоящего изобретения со ссылками на прилагаемые чертежи, на которых:

Фиг. 1a иллюстрирует устройство для кодирования аудиосигнала;

Фиг. 1b иллюстрирует декодер для декодирования кодированного аудиосигнала, совпадающий с кодером по фиг. 1a;

Фиг. 2a иллюстрирует предпочтительную реализацию декодера;

Фиг. 2b иллюстрирует предпочтительную реализацию кодера;

Фиг. 3a иллюстрирует схематичное представление спектра, сформированного посредством декодера в спектральной области по фиг. 1b;

Фиг. 3b иллюстрирует таблицу, указывающую взаимосвязь между коэффициентами масштабирования для полос частот коэффициентов масштабирования и энергиями для полос частот восстановления и информацией заполнения шумом для полосы частот заполнения шумом;

Фиг. 4a иллюстрирует функциональность кодера в спектральной области для применения выбора спектральных частей к первому и второму наборам спектральных частей;

Фиг. 4b иллюстрирует реализацию функциональности по фиг. 4a;

Фиг. 5a иллюстрирует функциональность MDCT-кодера;

Фиг. 5b иллюстрирует функциональность декодера с MDCT-технологией;

Фиг. 5c иллюстрирует реализацию модуля повторного формирования частоты;

Фиг. 6a иллюстрирует аудиокодер с функциональностью временного формирования шума/временного формирования мозаичных фрагментов;

Фиг. 6b иллюстрирует декодер с технологией временного формирования шума/временного формирования мозаичных фрагментов;

Фиг. 6c иллюстрирует дополнительную функциональность для функциональности временного формирования шума/временного формирования мозаичных фрагментов с другим порядком спектрального прогнозного фильтра и спектрального формирователя;

Фиг. 7a иллюстрирует реализацию функциональности временного формирования мозаичных фрагментов (TTS);

Фиг. 7b иллюстрирует реализацию декодера, совпадающую с реализацией кодера по фиг. 7a;

Фиг. 7c иллюстрирует спектрограмму исходного сигнала и расширенного сигнала без TTS;

Фиг. 7d иллюстрирует частотное представление, иллюстрирующее соответствие между частотами интеллектуального заполнения интервалов и энергиями временного формирования мозаичных фрагментов;

Фиг. 7e иллюстрирует спектрограмму исходного сигнала и расширенного сигнала с TTS;

Фиг. 8a иллюстрирует двухканальный декодер с повторным формированием частоты;

Фиг. 8b иллюстрирует таблицу, иллюстрирующую различные комбинации представлений и исходных/целевых диапазонов;

Фиг. 8c иллюстрирует блок-схему последовательности операций способа, иллюстрирующую функциональность двухканального декодера с повторным формированием частоты по фиг. 8a;

Фиг. 8d иллюстрирует более подробную реализацию декодера по фиг. 8a;

Фиг. 8e иллюстрирует реализацию кодера для двухканальной обработки, которая должна декодироваться посредством декодера по фиг. 8a;

Фиг. 9a иллюстрирует декодер с технологией повторного формирования частоты с использованием значений энергии для частотного диапазона повторного формирования;

Фиг. 9b иллюстрирует более подробную реализацию модуля повторного формирования частоты по фиг. 9a;

Фиг. 9c иллюстрирует схематический вид, иллюстрирующий функциональность по фиг. 9b;

Фиг. 9d иллюстрирует дополнительную реализацию декодера по фиг. 9a;

Фиг. 10a иллюстрирует блок-схему кодера, совпадающего с декодером по фиг. 9a;

Фиг. 10b иллюстрирует блок-схему для иллюстрации дополнительной функциональности модуля вычисления параметров по фиг. 10a;

Фиг. 10c иллюстрирует блок-схему, иллюстрирующую дополнительную функциональность параметрического модуля вычисления по фиг. 10a;

Фиг. 10d иллюстрирует блок-схему, иллюстрирующую дополнительную функциональность параметрического модуля вычисления по фиг. 10a;

Фиг. 11a иллюстрирует дополнительный декодер, имеющий конкретный идентификатор исходного диапазона для операции заполнения спектральными мозаичными фрагментами в декодере;

Фиг. 11b иллюстрирует дополнительную функциональность модуля повторного формирования частоты по фиг. 11a;

Фиг. 11c иллюстрирует кодер, используемый для взаимодействия с декодером на фиг. 11a;

Фиг. 11d иллюстрирует блок-схему реализации модуля вычисления параметров по фиг. 11c;

Фиг. 12a и 12b иллюстрируют упрощенные графические схемы частоты для иллюстрации исходного диапазона и целевого диапазона;

Фиг. 12c иллюстрирует график примерной корреляции двух сигналов;

Фиг. 13a иллюстрирует кодер предшествующего уровня техники с расширением полосы пропускания; и

Фиг. 13b иллюстрирует декодер предшествующего уровня техники с расширением полосы пропускания.

Фиг. 1a иллюстрирует устройство для кодирования аудиосигнала 99. Аудиосигнал 99 вводится во временно-спектральный преобразователь 100 для преобразования аудиосигнала, имеющего частоту дискретизации, в спектральное представление 101, выводимое посредством временно-спектрального преобразователя. Спектр 101 вводится в спектральный анализатор 102 для анализа спектрального представления 101. Спектральный анализатор 101 выполнен с возможностью определения первого набора первых спектральных частей 103, которые должны быть кодированы с первым спектральным разрешением, и другого второго набора вторых спектральных частей 105, которые должны быть кодированы со вторым спектральным разрешением. Второе спектральное разрешение меньше первого спектрального разрешения. Второй набор вторых спектральных частей 105 вводится в модуль 104 вычисления параметров или параметрический кодер для вычисления информации спектральной огибающей, имеющей второе спектральное разрешение. Кроме того, аудиокодер 106 в спектральной области предоставляется для формирования первого кодированного представления 107 первого набора первых спектральных частей, имеющих первое спектральное разрешение. Кроме того, модуль 104 вычисления параметров/параметрический кодер выполнен с возможностью формирования второго кодированного представления 109 второго набора вторых спектральных час

Устройство и способ для кодирования и декодирования кодированного аудиосигнала с использованием временного формирования шума/наложений

Патент 2607263