2554844 - Стереофоническое кодирование на основе mdct с комплексным предсказанием

Стереофоническое кодирование на основе mdct с комплексным предсказанием

Иллюстрации

Показать все

Изобретение относится к средствам для стереофонического кодирования и декодирования с использованием комплексного предсказания в частотной области. Технический результат заключается в обеспечении высокого качества звука при уменьшении вычислительных затрат. В одном из вариантов осуществления изобретения способ декодирования, предназначенный для получения выходного стереофонического сигнала из входного стереофонического сигнала, закодированного посредством стереофонического кодирования с комплексным предсказанием и включающего первые представления двух входных каналов в частотной области, включает следующие этапы повышающего микширования: вычисление второго представления первого входного канала в частотной области и вычисление выходного канала на основе первого и второго представлений первого входного канала в частотной области, первого представления второго входного канала в частотной области и коэффициента комплексного предсказания. Способ включает выполнение модификаций в частотной области селективно перед повышающим микшированием или после повышающего микширования. 3 н. и 12 з.п. ф-лы, 19 ил.

Реферат

Область технического применения

Изобретение, раскрытое в данном документе, в общем, относится к стереофоническому кодированию и, точнее, к способам стереофонического кодирования с использованием комплексного предсказания в частотной области.

Предпосылки изобретения

Совместное кодирование левого (L) и правого (R) каналов стереофонического сигнала делает возможным более эффективное кодирование по сравнению с независимым кодированием L и R. Общий подход для совместного стереофонического кодирования представляет собой среднее/побочное (M/S) кодирование. Здесь средний (М) сигнал формируется путем сложения сигналов L и R, например, сигнал М может иметь форму

M=(L+R)/2.

Также путем вычитания двух каналов L и R формируется побочный сигнал (S), например, сигнал S может иметь форму

S=(L-R)/2.

В случае M/S-кодирования вместо сигналов L и R кодируются сигналы M и S.

В стандарте MPEG (Экспертная группа по вопросам движущегося изображения) AAC (перспективное звуковое кодирование) (см. документ стандарта ISO/IEC 13818-7) L/R-стереофоническое кодирование и M/S-стереофоническое кодирование могут выбираться изменяющимся в зависимости от времени или изменяющимся в зависимости от частоты образом. Так, стереофонический кодер может применять L/R-кодирование для некоторых частотных полос стереофонического сигнала, в то время как для кодирования других частотных полос стереофонического сигнала используется M/S-кодирование (изменение в зависимости от частоты). Кроме того, кодер может переключаться между L/R- и M/S-кодированием с течением времени (изменение в зависимости от времени). В стандарте MPEG AAC стереофоническое кодирование осуществляется в частотной области, конкретнее, в области MDCT (модифицированного дискретного косинусного преобразования). Это позволяет адаптивно выбирать или L/R-, или M/S-кодирования изменяющимся в зависимости от частоты, а также изменяющимся в зависимости от времени образом.

Параметрическое стереофоническое кодирование представляет собой способ эффективного кодирования стереофонического звукового сигнала как монофонического сигнала плюс небольшое количество дополнительной информации для стереофонических параметров. Оно составляет часть стандарта MPEG-4 Audio (cм. документ стандарта ISO/IEC 14496-3). Монофонический сигнал может кодироваться с использованием любого кодера звука. Стереофонические параметры могут внедряться во вспомогательную часть монофонического битового потока, и, таким образом, достигается полная прямая и обратная совместимость. В декодере в первую очередь декодируется монофонический сигнал, после чего стереофонический сигнал реконструируется при помощи стереофонических параметров. Декоррелированная версия декодированного монофонического сигнала, которая имеет нулевую взаимную корреляцию с монофоническим сигналом, генерируется посредством декоррелятора, например, соответствующего фазового фильтра, который может включать одну или несколько линий задержки. По существу, декоррелированный сигнал имеет такое же спектральное и временное распределение энергии, как и монофонический сигнал. Монофонический сигнал совместно с декоррелированным сигналом являются входными в процесс повышающего микширования, который управляется стереофоническими параметрами и который реконструирует стереофонический сигнал. Для получения дополнительной информации см. статью "Low Complexity Parametric Stereo Coding in MPEG-4", H. Purnhagen, Proc. of the 7^th Int. Conference on Digital Audio Effects (DAFx'04), Naples, Italy, October 5-8, 2004, pages 163-168.

MPEG Surround (MPS; см. ISO/IEC 23003-1 и статью "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding", J. Herre et al., Audio Engineering Convention Paper 7084, 122^nd Convention, May 5-8, 2007) позволяет объединять принципы параметрического стереофонического кодирования с остаточным кодированием, замещающим декоррелированный сигнал передаваемым остатком и, таким образом, улучшающим воспринимаемое качество. Остаточное кодирование может выполняться путем понижающего микширования многоканального сигнала и, необязательно, путем извлечения пространственных меток. В ходе процесса понижающего микширования вычисляются, а затем кодируются и передаются остаточные сигналы, представляющие сигнал ошибки. В декодере они могут замещать декоррелированные сигналы. При гибридном подходе они могут замещать декоррелированные сигналы в некоторых полосах частот, предпочтительно, в относительно низкочастотных полосах.

В соответствии с современной системой MPEG унифицированного кодирования речи и звука (USAC), два примера которой приведены на Фиг. 1, декодер включает блок комплекснозначных квадратурных зеркальных фильтров (QMF), расположенный в нисходящем направлении относительно базового декодера. QMF-представление, получаемое на выходе блока фильтров, является комплексным - и, таким образом, передискретизированным в два раза - и может быть организовано как сигнал понижающего микширования (или, эквивалентно, средний сигнал) М и остаточный сигнал D, к которым применяется матрица повышающего микширования с комплексными элементами. Сигналы L и R (в области QMF) получаются как:

где g - действительнозначный коэффициент усиления, и α - комплекснозначный коэффициент предсказания. Предпочтительно, α выбирается так, чтобы минимизировать энергию остаточного сигнала D. Коэффициент усиления может определяться путем нормализации, т.е. так, чтобы обеспечить то, что мощность суммарного сигнала будет равна сумме мощностей левого и правого сигналов. Действительные и мнимые части каждого из сигналов L и R являются взаимно избыточными - в принципе, каждая из них может быть вычислена на основе другой, - но они являются полезными для того, чтобы сделать возможным последующее применение декодера с репликацией спектральной полосы (SBR) без возникновения слышимых артефактов из-за наложения спектров. По похожим причинам, использование передискретизированного представления сигнала также может выбираться с целью предотвращения появления артефактов, связанных с другой обработкой сигнала, адаптивной ко времени или к частоте (не показана), такой как, например, повышающее микширование монофонического сигнала в стереофонический сигнал. Последним этапом обработки в декодере является обратная QMF-фильтрация. Отмечается, что QMF-представление сигнала с ограниченной полосой допускает разностные способы с ограниченной полосой и способы «остаточного заполнения», которые могут интегрироваться в декодеры этого типа.

Приведенная выше структура кодирования хорошо подходит для низких битовых скоростей передачи данных, как правило, ниже 80 Кбит/с, но не является оптимальной для более высоких битовых скоростей передачи данных в том, что касается вычислительной сложности. Точнее, при более высоких битовых скоростях передачи данных инструмент SBR, как правило, не применяется (поскольку он не будет повышать эффективность кодирования). Поэтому в декодере без ступени SBR только наличие комплекснозначной матрицы повышающего микширования оправдывает присутствие блока QMF-фильтров, который требует больших вычислительных ресурсов и вносит задержку (при длине кадра 1024 дискретных значений блок анализирующих/синтезирующих QMF-фильтров вносит задержку в 961 дискретных значений). Это ясно указывает на потребность в более эффективной структуре кодирования.

Краткое описание изобретения

Целью настоящего изобретения является создание способов и устройства для стереофонического кодирования, которые являются эффективными в вычислительном отношении также и в диапазоне высоких битовых скоростей передачи данных.

Изобретение исполняет указанную цель, предусматривая кодер и декодер, способы кодирования и декодирования и, соответственно, компьютерные программные продукты, предназначенные для кодирования и декодирования, что определено независимыми пунктами формулы изобретения. Зависимые пункты формулы изобретения определяют варианты осуществления изобретения.

В первой особенности изобретение предусматривает систему декодера, предназначенную для создания стереофонического сигнала путем стереофонического кодирования с комплексным предсказанием, и система декодера включает:

- повышающее микширование, адаптированное для генерирования стереофонического сигнала на основе первых представлений сигнала понижающего микширования (М) понижающего микширования и остаточного сигнала (D) в частотной области, где каждое из первых представлений в частотной области включает первые спектральные составляющие, представляющие спектральный состав соответствующего сигнала, выраженного в первом подпространстве многомерного пространства, и ступень повышающего микширования включает:

- - модуль, предназначенный для вычисления второго представления сигнала понижающего микширования в частотной области на основе его первого представления в частотной области, где второе представление в частотной области включает вторые спектральные составляющие, представляющие спектральный состав сигнала, выраженного во втором подпространстве многомерного пространства, которое включает часть многомерного пространства, не включенную в первое подпространство;

- - взвешенный сумматор, предназначенный для вычисления побочного сигнала (S) на основе первого и второго представлений сигнала понижающего микширования в частотной области, первого представления остаточного сигнала в частотной области и коэффициента (α) комплексного предсказания, закодированного в сигнале битового потока; и

- суммарно-разностную ступень, предназначенную для вычисления стереофонического сигнала на основе первого представления сигнала понижающего микширования в частотной области и побочного сигнала,

где ступень повышающего микширования также может действовать в режиме ретрансляции, в котором указанные сигнал понижающего микширования и остаточный сигнал подаются непосредственно на суммарно-разностную ступень.

Во второй особенности изобретение предусматривает систему кодера, предназначенную для кодирования стереофонического сигнала посредством сигнала битового потока путем стереофонического кодирования с комплексным предсказанием, которая включает:

- оцениватель, предназначенный для оценки коэффициента комплексного предсказания;

- ступень кодирования, действующая для:

(a) преобразования стереофонического сигнала в представлений в частотной области сигнала понижающего микширования и остаточного сигнала во взаимосвязи, определяемой значением коэффициента комплексного предсказания;

мультиплексор, предназначенный для приема выходных данных ступени кодирования и оценивателя и для их кодирования посредством указанного сигнала битового потока.

В третьей и четвертой особенностях изобретения предусматриваются способы кодирования стереофонического сигнала в битовый поток и декодирования битового потока в, по меньшей мере, один стереофонический сигнал. Технические признаки каждого из способов аналогичны таковым, соответственно, для системы кодера и системы декодера. В пятой и шестой особенностях изобретение также предусматривает компьютерный программный продукт, содержащий команды, предназначенные для исполнения каждого из способов на компьютере.

Изобретение извлекает выгоду из преимуществ унифицированного стереофонического кодирования в системе MPEG USAC. Эти преимущества сохраняются и при более высоких битовых скоростях передачи данных, когда SBR, как правило, не используется, без значительного увеличения вычислительной сложности, которым мог бы сопровождаться подход на основе QMF. Это является возможным, поскольку критически дискретизированное преобразование MDCT, которое находится в основе кодирования с преобразованием в системе MPEG USAC, в соответствии с изобретением может применяться для стереофонического кодирования с комплексным предсказанием, по меньшей мере, в тех случаях, когда полосы пропускания кодированных звуковых сигналов канала понижающего микширования и остаточного канала одинаковы, и процесс повышающего микширования не включает декорреляцию. Это означает, что дополнительное QMF-преобразование больше не требуется. Показательная реализация стереофонического кодирования с комплексным предсказанием в области QMF фактически значительно увеличивала бы количество операций в единицу времени по сравнению с традиционным L/R- или M/S-стерео. Поэтому кодирующее устройство согласно изобретению оказывается конкурентоспособным при указанных битовых скоростях передачи данных, обеспечивая высокое качество звука при умеренных вычислительных затратах.

Как понятно специалистам, то, что ступень повышающего микширования также может действовать и в режиме ретрансляции, позволяет декодеру адаптивно выполнять декодирование в соответствии с традиционным прямым, или совместным, кодированием и кодированием с комплексным предсказанием, что определяется на стороне кодера. Поэтому в тех случаях, когда декодер не может положительно повысить уровень качества выше уровня традиционного прямого L/R-стереофонического кодирования или совместного M/S-стереофонического кодирования, он может, по меньшей мере, гарантировать, что будет поддерживаться тот же уровень. Таким образом, декодер согласно данной особенности изобретения может с функциональной точки зрения считаться расширенным относительно предпосылок.

Как преимущество перед стереофоническим сигналом, кодированным с предсказанием на основе QMF, возможна совершенная реконструкция сигнала (не считая ошибок квантования, которые могут быть сделаны сколь угодно малыми).

Таким образом, изобретение предусматривает кодирующее устройство для стереофонического кодирования сигнала на основе преобразования путем комплексного предсказания. Предпочтительно, устройство согласно изобретению не ограничивается стереофоническим кодированием с комплексным предсказанием, но также может действовать и в режиме прямого L/R-стереофонического кодирования или совместного M/S-стереофонического кодирования в соответствии с предпосылками так, чтобы можно было выбирать наиболее подходящий способ кодирования для конкретного применения или в ходе отдельного промежутка времени.

В качестве основы для комплексного предсказания согласно изобретению используется передискретизированное (например, комплексное) представление сигнала, включающее указанные первую и вторую спектральные составляющие, и поэтому модули, предназначенные для вычисления указанного передискретизированного представления, располагаются в системе кодера и в системе декодера согласно изобретению. Спектральные составляющие относятся к первому и второму подпространствам многомерного пространства, которое может представлять собой множество функций, зависящих от времени, на интервале заданной длины (например, предварительно определенной длины временного кадра), дискретизированном с конечной частотой дискретизации. Хорошо известно, что функции в таком особом многомерном пространстве могут аппроксимироваться конечной взвешенной суммой базисных функций.

Как понятно специалистам, кодер, адаптированный для совместного действия с декодером, оснащается эквивалентными модулями для создания передискретизированного представления, на котором основывается кодирование с предсказанием, так, чтобы сделать возможным достоверное воспроизведение кодированного сигнала. Указанные эквивалентные модули могут быть идентичными или сходными модулями, имеющими идентичные, или сходные, характеристики передачи. В частности, модули кодера и декодера, соответственно, могут представлять собой похожие или непохожие обрабатывающие блоки, исполняющие соответствующие компьютерные программы, которые выполняют эквивалентные наборы математических операций.

В некоторых вариантах осуществления системы декодера или системы кодера первые спектральные составляющие имеют действительные значения, выраженные в первом подпространстве, а вторые спектральные составляющие имеют мнимые значения, выраженные во втором подпространстве. Первые и вторые спектральные составляющие совместно образуют комплексное спектральное представление сигнала. Первое подпространство может представлять собой линейную оболочку первого набора базисных функций, в то время как второе подпространство может представлять собой оболочку набора вторых базисных функций, некоторые из которых линейно независимы от первого множества базисных функций.

В одном из вариантов осуществления изобретения модуль, предназначенный для вычисления комплексного представления, представляет собой преобразование действительного в мнимое, т.е. модуль для вычисления мнимых частей спектра дискретного сигнала на основании действительного спектрального представления этого сигнала. Преобразование может основываться на точных или приближенных математических зависимостях, таких как формулы из гармонического анализа или эвристические зависимости.

В некоторых вариантах осуществления системы декодера или системы кодера первые спектральные составляющие могут быть получены посредством преобразования дискретного сигнала во временной области из временной области в частотную, предпочтительно, посредством преобразование Фурье, такого как дискретное косинусное преобразование (DCT), модифицированное дискретное косинусное преобразование (MDCT), дискретное синусное преобразование (DST), модифицированное дискретное синусное преобразование (MDST), быстрое преобразование Фурье (FFT), алгоритм Фурье на основе простых множителей и т.п. В первых четырех случаях вторые спектральные составляющие могут быть затем получены, соответственно, путем DST, MDST, DCT и MDCT. Как хорошо известно, линейная оболочка косинусов, которые являются периодическими на единичном интервале, образует подпространство, которое не полностью помещается в линейной оболочке синусов, периодических на том же интервале. Предпочтительно, первые спектральные составляющие могут быть получены посредством MDCT и вторые спектральные составляющие могут быть получены посредством MDST.

В одном из вариантов осуществления изобретения система декодера включает, по меньшей мере, один модуль временного ограничения шума (модуль TNS, или TNS-фильтр), который располагается в восходящем направлении относительно ступени повышающего микширования. Вообще говоря, использование TNS повышает воспринимаемое качество звука для сигналов с составляющими переходного типа, и это также применимо к вариантам осуществления системы декодера согласно изобретению, содержащим TNS в качестве характерного признака. В традиционном L/R- или M/S-стереофоническом кодировании TNS-фильтр может применяться как последний этап обработки в частотной области непосредственно перед обратным преобразованием. В случае стереофонического кодирования с комплексным предсказанием, однако, часто является более преимущественным применение TNS-фильтра на сигнале понижающего микширования и остаточном сигнале, т.е. перед матрицей повышающего микширования. Иными словами, TNS применяется к линейным комбинациям левого и правого каналов, что имеет некоторые преимущества. Во-первых, может оказаться, что в данной ситуации TNS полезно только для, скажем, сигнала понижающего микширования. Тогда для остаточного сигнала TNS-фильтрация может подавляться, или пропускаться, и необходимо передавать коэффициенты TNS-фильтра только для сигнала понижающего микширования, что может означать более экономное использование доступной полосы пропускания. Во-вторых, вычисление передискретизированного представления сигнала понижающего микширования (например, данных MDST, получаемых исходя из данных MDCT так, чтобы можно было сформировать комплексное представление в частотной области), которое необходимо для кодирования с комплексным предсказанием, может потребовать того, чтобы можно было вычислить представление сигнала понижающего во временной области. В свою очередь, это означает, что сигнал понижающего микширования предпочтительно должен быть доступен как временная последовательность спектров MDCT, полученных единообразным образом. Если TNS-фильтр применялся в декодере после матрицы повышающего микширования, которая преобразовывает представление понижающего микширования/остаточное представление в левое/правое представление, будет доступна только последовательность оставшихся после TNS спектров MDCT сигнала понижающего микширования. Это может сделать эффективное вычисление соответствующих спектров MDST весьма затруднительным, особенно если левый и правый каналы использовали TNS-фильтры с отличающимися характеристиками.

Следует подчеркнуть, что доступность временной последовательности спектров MDCT не является абсолютным критерием для получения MDST-представления, подходящего для того, чтобы оно служило основой для кодирования с комплексным предсказанием. В дополнение к экспериментальным свидетельствам этот факт можно объяснить тем, что TNS в общем применимо только к более высоким частотам, таким как частоты выше нескольких килогерц, поэтому остаточный сигнал, фильтрованный посредством TNS, приблизительно соответствует нефильтрованному остаточному сигналу для менее высоких частот. Таким образом, изобретение может быть осуществлено как декодер для стереофонического кодирования с комплексным предсказанием, в котором, как указывается ниже, TNS-фильтры имеют и иное размещение, чем в восходящем направлении относительно ступени повышающего микширования.

В одном из вариантов осуществления изобретения система декодера включает, по меньшей мере, один дополнительный модуль TNS, расположенный в нисходящем направлении относительно ступени повышающего микширования. Посредством положения селектора выбирается или модуль (модули) TNS в восходящем направлении относительно ступени повышающего микширования, или модуль (модули) TNS в нисходящем направлении относительно ступени повышающего микширования. В некоторых обстоятельствах вычисление комплексного представления в частотной области не требует того, чтобы могло вычисляться представление сигнала понижающего микширования во временной области. Кроме того, как излагается ниже, декодер может селективно действовать в режиме прямого или совместного кодирования, не применяя кодирование с комплексным предсказанием, и тогда может оказаться более подходящим применение традиционного местоположения модулей TNS, т.е. как одного из последних этапов обработки в частотной области.

В одном из вариантов осуществления изобретения система декодера адаптирована для экономии ресурсов обработки и, возможно, энергии путем отключения модуля, предназначенного для вычисления второго представления сигнала понижающего микширования в частотной области, когда последнее не является необходимым. Предполагается, что сигнал понижающего микширования является разделенным на последовательные временные блоки, каждый из которых связан со значением коэффициента комплексного предсказания. Это значение может определяться посредством решения, принимаемого для каждого временного блока кодером во взаимодействии с декодером. Кроме того, в данном варианте осуществления изобретения модуль, предназначенный для вычисления второго представления сигнала понижающего микширования в частотной области, адаптируется для самостоятельного отключения, если для данного временного блока абсолютное значение мнимой части коэффициента комплексного предсказания равна нулю или не превышает предварительно определенный допуск. Отключение модуля может подразумевать, что для данного временного блока второе представление сигнала понижающего микширования в частотной области не вычисляется. Если отключение не происходит, второе представление в частотной области (например, набор коэффициентов MDST) может умножаться на нуль или на число, имеющее, в значительной мере, тот же порядок величины, что и машинное эпсилон (единица округления) декодера, или какое-либо другое подходящее пороговое значение.

В дальнейшем развитии предшествующего варианта осуществления изобретения экономия ресурсов обработки достигается на подуровне временного блока, на которые разделяется сигнал понижающего микширования. Например, таким подуровнем в пределах временного блока может быть полоса частот, где декодер определяет значение коэффициента комплексного предсказания для каждой полосы частот в пределах временного блока. Сходным образом модуль, предназначенный для генерирования второго представления в частотной области, адаптируется для подавления его действия для полосы частот в пределах временного блока, где коэффициент комплексного предсказания равен нулю или имеет абсолютное значение меньше допуска.

В одном из вариантов осуществления изобретения первые спектральные составляющие представляют собой коэффициенты преобразования, расположенные в одном или нескольких временных блоках коэффициентов преобразования, где каждый блок генерируется путем применения преобразования к временному отрезку сигнала во временной области. Кроме того модуль, предназначенный для вычисления второго представления сигнала понижающего микширования в частотной области, адаптирован для

• получения одной или нескольких первых промежуточных составляющих из, по меньшей мере, некоторых первых спектральных составляющих;

• формирования комбинации указанного одного или нескольких первых спектральных составляющих в соответствии с, по меньшей мере, частью одной или нескольких импульсных характеристик с целью получения одной или нескольких вторых промежуточных составляющих; и

• получения указанной одной или нескольких вторых спектральных составляющих из указанной одной или нескольких вторых промежуточных составляющих.

Данная процедура выполняет вычисление второго представления в частотной области непосредственно из первого представления в частотной области, как более подробно описано в патенте США №6980933 B2, в особенности в разделах 8-28 и, в частности, в уравнении 41. Как понятно специалистам, вычисление не выполняется через временную область в отличие, например, от обратного преобразования, за которым следует другое преобразование.

Для примера реализации стереофонического кодирования с комплексным предсказанием согласно изобретению было оценено, что вычислительная сложность возрастает лишь незначительно (значительно меньше, чем возрастание, вызываемое стереофоническим кодированием с комплексным предсказанием в области QMF) по сравнению с традиционным L/R- или M/S-стерео. Один из вариантов осуществления изобретения этого типа, включающий точное вычисление вторых спектральных составляющих, вносит задержку, которая, как правило, лишь на несколько процентов длительнее, чем задержка, вносимая реализацией на основе QMF (полагая длину временного блока равной 1024 дискретных значений и сравнивая ее с задержкой гибридного блока анализирующих/синтезирующих QMF-фильтров, которая равна 961 дискретных значений).

Соответственно, по меньшей мере, в некоторых из предыдущих вариантов осуществления изобретения импульсные характеристики адаптируются к преобразованию, посредством которого можно получить первое представление в частотной области, и, точнее, адаптируются согласно его частотным характеристикам.

В некоторых вариантах осуществления изобретения первое представление сигнала понижающего микширования в частотной области получается путем преобразования, которое применяется в связи с одной или несколькими анализирующими оконными функциями (или обрезными функциями, например, прямоугольным окном, синусным окном, окном, производным от окна Кайзера-Бесселя, и т.д.), одной из целей которых является временная сегментация без внесения пагубного количества шума или нежелательного изменения спектра. Возможно, указанные оконные функции являются частично перекрывающимися. В таком случае, предпочтительно, частотные характеристики преобразования зависят от характеристик указанной одной или нескольких анализирующих оконных функций.

Продолжая обращаться к вариантам осуществления изобретения, включающим в качестве характерного признака вычисление второго представления в частотной области в пределах частотной области, можно понизить вычислительную нагрузку, что заключается в использовании приближенного второго представления в частотной области. Указанное приближение может выполняться путем отказа от требования полной информации, на которой основывается вычисление. Согласно идеям патента США №6980933 B2, например, для точного вычисления второго представления сигнала понижающего микширования в частотной области в одном блоке, в первую очередь, требуются данные в частотной области из трех временных блоков, а именно: блока, одновременного с выходным блоком, предшествующего блока и последующего блока. Для целей кодирования с комплексным предсказанием согласно настоящему изобретению пригодные приближения могут быть получены путем пропуска - или замещения на нуль - данных, происходящих из последующего блока (посредством чего действие модуля может стать причинным, т.е. он не будет вносить задержку) и/или из предшествующего блока так, чтобы вычисление второго представления в частотной области основывалось на данных только из одного или двух временных блоков. Следует отметить, что даже если пропуск входных данных может подразумевать изменение масштаба второго представления в частотной области - в том смысле, что, например, оно больше не будет представлять равную мощность, - оно все еще может быть использовано в качестве основы для кодирования с комплексным предсказанием, поскольку оно, как указывалось выше, вычисляется на концах кодера и декодера эквивалентным образом. В действительности возможное изменение масштаба такого типа будет компенсироваться путем соответствующего изменения значения коэффициента предсказания.

Еще один приближенный способ вычисления части второго представления сигнала понижающего микширования в частотной области, образующей спектральные составляющие, может включать объединение, по меньшей мере, двух составляющих из первого представления в частотной области. Последние составляющие могут быть смежными во времени и/или по частоте. В качестве альтернативы, они могут объединяться посредством фильтрации с импульсной характеристикой конечной длительности (FIR) с относительно небольшим количеством звеньев. Например, в системе, применяющей размер временного блока 1024, указанные фильтры могут включать 2, 3, 4 и т.д. звеньев. Описания способов приближенного вычисления такого рода можно найти, например, в заявке на патент США №2005/0197831 A1. Если используется оконная функция, такая как, например, непрямоугольная функция, придающая относительно малые веса окружению каждой из границ временного блока, может оказаться целесообразным основывать вторые спектральные составляющие во временном блоке только на комбинациях первых спектральных составляющих в том же временном блоке, подразумевая, что для краевых составляющих доступно не такое же количество информации. Ошибка приближения, возможно, вносимая при такой практической реализации, в некоторой степени подавляется, или скрывается, посредством формы оконной функции.

В одном из вариантов осуществления декодера, который сконструирован для вывода стереофонического сигнала во временной области, в него включена возможность переключения между прямым, или совместным, стереофоническим кодированием и кодированием с комплексным предсказанием. Это достигается путем снабжения:

• переключателем, который может селективно действовать или как ретранслирующая ступень (не модифицирующая сигналы), или как суммарно-разностное преобразование;

• ступенью обратного преобразования, предназначенной для выполнения преобразования «частота-время»; и

• селекторной схемой, предназначенной для подачи на ступень обратного преобразования или прямо (или совместно) кодированного сигнала, или сигнала, кодированного с комплексным предсказанием.

Как понятно специалистам, указанная гибкость части декодера предоставляет кодеру свободу выбора между традиционным прямым, или совместным, кодированием и кодированием с комплексным предсказанием. Поэтому в тех случаях, когда уровень качества традиционного L/R-стереофонического кодирования, или совместного M/S-стереофонического кодирования, не может быть повышен, данный вариант осуществления изобретения может, по меньшей мере, гарантировать, что будет поддерживаться тот же уровень. Таким образом, декодер согласно изобретению можно считать расширенным по отношению к текущему уровню техники.

Другая группа вариантов осуществления изобретения системы декодера выполняет вычисление вторых спектральных составляющих во втором представлении в частотной области через временную область. Точнее, применяется преобразование, обратное тому, посредством которого получаются (или могут быть получены) первые спектральные составляющие, за которым следует другое преобразование, дающее на выходе вторые спектральные составляющие. В частности, за обратным MDCT может следовать MDST. Для того чтобы уменьшить количество преобразований и обратных преобразований, выходной сигнал обратного MDCT в таком варианте осуществления изобретения может подаваться и к MDST, и к терминалам вывода данных системы декодирования (которым, возможно, предшествуют дополнительные этапы обработки).

Для примера реализации кодирования с комплексным предсказанием согласно изобретению было оценено, что вычислительная сложность по сравнению с традиционным L/R- или M/S-стереофоническим кодированием возрастает лишь незначительно (в еще меньшей степени, чем возрастание, вызываемое кодированием с комплексным предсказанием в области QMF).

Как дополнительное развитие варианта осуществления изобретения, относящегося к предшествующему параграфу, ступень повышающего микширования может включать дополнительную ступень обратного преобразования, предназначенную для обработки побочного сигнала. В этом случае суммарно-разностная ступень снабжается представлением побочного сигнала во временной области, которое генерируется указанной дополнительной ступенью обратного преобразования, и представлением сигнала понижающего микширования во временной области, которое генерируется уже упоминавшейся ступенью обратного преобразования. Следует повторно отметить, что преимущественной с точки зрения вычислительной сложности является подача последнего сигнала и на суммарно-разностную ступень, и на указанную другую ступень преобразования, которая упоминалась выше.

В одном из вариантов осуществления изобретения декодер, сконструированный для вывода стереофонического сигнала во временной области, включает возможность переключения между L/R-стереофоническим кодированием, или совместным M/S-стереофоническим кодированием, и кодированием с комплексным предсказанием. Это достигается путем оснащения:

• переключателем, способным действовать или как ретранслирующая ступень, или как суммарно-разностная ступень;

• дополнительной ступенью обратного преобразования, предназначенной для вычисления представления побочного сигнала во временной области;

• селекторной схемой, предназначенной для связывания ступеней обратного преобразования или с суммарно-разностной ступенью, связанной с точкой в восходящем направлении относительно ступени повышающего микширования и в нисходящем направлении относительно переключателя (предпочтительно, когда переключатель приводится в действие для того, чтобы выполнять функцию полосового фильтра, как может быть в случае декодирования стереофонического сигнала, генерируемого путем кодирования с комплексным предсказанием), или для объединения сигнала понижающего микширования из переключателя с побочным сигналом из взвешенного сумматора (предпочтительно, когда переключатель приводится в действие для выполнения функции суммарно-разностной ступени, как может быть в случае декодирования стереофонического сигнала, закодированного напрямую).

Как понятно специалист

Стереофоническое кодирование на основе mdct с комплексным предсказанием

Патент 2554844