Способ совмещения параметрического многоканального аудиокодирования с матричным многоканальным кодированием объемного звучания
Иллюстрации
Показать всеИзобретение относится к многоканальному аудиокодированию и передаче и, в частности, к способам кодирования многоканального аудиосигнала, полностью обратно совместимого со стереоустройствами и форматами. Сущность изобретения состоит в том, чтобы совместить параметрическое многоканальное аудиокодирование с матричным многоканальным кодированием объемного звучания путем постепенного улучшения звука сигнала прямого смешения при повышении скорости передачи данных, используемой для передачи побочной информации, начиная с 0 и до скоростей передачи данных, используемых для параметрических способов. Более конкретно - оно обеспечивает способ гибкого выбора "рабочей точки" где-либо между матричной реконструкцией объемного звучания (отсутствие побочной информации, ограниченное аудиокачество) и полностью параметрической реконструкцией (полная требуемая скорость передачи побочной информации, хорошее качество). Эта рабочая точка может быть выбрана динамически (то есть, изменяясь во времени) и в ответ на допустимую скорость передачи побочной информации, когда она диктуется индивидуальным применением. Технический результат - обеспечение эффективного кодирования многоканальных аудиосигналов и в то же время обратно совместимое с решениями для кодирования на матричной основе. 4 н. и 9 з.п. ф-лы, 10 ил.
Реферат
Область изобретения
Настоящее изобретение относится к многоканальному аудиокодированию и передаче и, в частности, к способам кодирования многоканального аудиосигнала, полностью обратно совместимого со стереоустройствами и форматами, позволяющим проводить эффективное кодирование многоканальных аудиосигналов.
Предшествующий уровень техники
Параметрическое кодирование многоканальных аудиосигналов является предметом непрерывных исследований. В целом, можно выделить два подхода к кодированию многоканальных аудиосигналов. Комитет по стандартизации методов цифровой компрессии потоков видеоданных (MPEG) Международной Организации Стандартизации (ISO) в настоящее время работает над стандартизацией технологии для реконструкции многоканального аудиоконтента из стерео- или даже моносигналов с преобразованием «вниз» (прямым смешением) путем добавления лишь небольшого количества справочной информации к преобразованным прямым смешением сигналам.
Для параллельного преобразования «вверх» (обратного смешения) стерео в многоканальное аудио разрабатываются способы, которые не нуждаются ни в какой дополнительной побочной информации сверх той, которая уже (в неявном виде) содержится в сигнале прямого смешения, чтобы реконструировать пространственный образ первоначального многоканального аудиосигнала.
Существующие способы стереосовместимой многоканальной передачи без дополнительной побочной информации, которые приобрели практическое значение, могут характеризоваться, главным образом, как способы с матричным представлением объемного звучания, такие как Dolby Pro Logic (Dolby Pro Logic II) и Logic-7, как описано более подробно в "Dolby Surround Pro Logic II Decoder - Principles of Operation", http://www.dolby.com/assets/pdf/tech_ library/209_Dolby_Surround_Pro_Logic_II_Decoder_Principles_of_Operation.pdf и в "Multichannel Matrix Surround Decoders for Two-Eared Listeners", Griesinger, D., 101st AES Convention, Los Angeles, USA, 1996, Preprint 4402. Общий принцип этих способов заключается в том, что они используют заранее определенные способы многоканального или стереопрямого смешения, где кодер применяет фазовые сдвиги к каналам объемного звучания перед смешиванием их вместе с фронтальным и центральным каналами, чтобы сформировать стереосигнал прямого смешения. Создание сигнала (Lt, Rt) прямого смешения описывается следующим уравнением:
Левый сигнал (Lt) прямого смешения содержит левый - фронтальный сигнал (Lf), центральный сигнал (C), умноженный на коэффициент q, левый - объемный сигнал (Ls), повернутый по фазе на 90° ("j") и умноженный на масштабный коэффициент a, и правый - объемный сигнал (Rs), который также повернут по фазе на 90° и умножен на масштабный коэффициент b. Правый сигнал (Rt) прямого смешения создается подобным образом. Типичные коэффициенты при преобразовании вниз равны 0,707 для q и a и 0,408 для b. Обоснование разных знаков каналов объемного звучания для правого сигнала (Rt) прямого смешения и левого сигнала (Lt) прямого смешения заключается в том, что выгодно смешивать каналы объемного звучания в противофазе в паре при прямом смешении (Lt, Rt). Это свойство помогает декодеру различать передний и задний каналы из пары сигналов прямого смешения. Следовательно, матрица прямого смешения позволяет осуществить частичную реконструкцию многоканального выходного сигнала из стереосигнала прямого смешения внутри декодера, применяя операцию обратного матричного преобразования. Насколько близко воссозданный многоканальный сигнал походит на первоначальный входной сигнал кодера, зависит, однако, от конкретных свойств многоканального аудиоконтента.
Примером способа кодирования, добавляющего справочную информацию, также называемую побочной информацией, является аудиокодирование MPEG Surround. Этот эффективный способ параметрического многоканального аудиокодирования описан, например, в "The Reference Model Architecture for MPEG Spatial Audio Coding", Herre, J., Purnhagen, H., Breebaart, J., Faller, C., Disch, S., Kjoerling, K., Schuijers, E., Hilpert, J., Myburg, F., Proc. 118th AES Convention, Barcelona, Spain, 2005 и в "Text of Working Draft for Spatial Audio Coding (SAC)", ISO/IEC JTC1/SC29/WG11 (MPEG), Document N7136, Busan, Korea, 2005.
Схематическое представление кодера, используемого при пространственном аудиокодировании, показано на фиг.6. Кодер разделяет поступающие сигналы 10 (входной сигнал 1,... входной сигнал N) на отдельные элементы с зависимостью "частота-время" посредством квадратурных зеркальных фильтров 12 (QMF). Возникающие в результате группы частотных элементов (полос) упоминаются как "полосы параметров". Для каждой полосы параметров множество пространственных параметров 14 определяется устройством 16 анализа параметров, который описывает свойства пространственного образа, например разницы уровней между парами каналов (CLD), взаимная корреляция между парами каналов (ICC) или информация об огибающих сигналах (CPC). Эти параметры в дальнейшем квантуются, кодируются и компилируются совместно в битовый поток пространственных данных. В зависимости от рабочего режима, этот битовый поток может охватывать широкий диапазон скоростей передачи данных, начиная от нескольких кбит/сек для достижения многоканального аудио хорошего качества и до десятков кбит/сек для почти абсолютно точного качества.
Помимо извлечения параметров, кодер также создает из многоканального входного сигнала моно- или стереосигнал прямого смешения. Кроме того, в случае стереосигнала прямого смешения пользователь имеет на выбор вариант обычного (ITU-стиль) стереосигнала прямого смешения или вариант прямого смешения, который совместим с матричными системами представления объемного звучания. Наконец, стереосигнал прямого смешения преобразуется во временную область посредством групп 18 QMF-синтеза. Результирующий сигнал прямого смешения может быть передан на декодер, сопровождаясь пространственными параметрами или битовым потоком 14 пространственных параметров. Предпочтительно, сигнал прямого смешения также кодируется перед передачей (используя обычный моно- или стерео- основной кодер), хотя битовые потоки основного кодера и пространственные параметры могут дополнительно объединяться (мультиплексироваться), чтобы формировать единый выходной битовый поток.
Декодер, схематично показанный на фиг.7, в принципе, выполняет процесс, обратный процессу, выполняемому кодером. Входящий поток разделяется на битовый поток основного кодера и битовый поток параметров. Это не показано на фиг.7. Затем декодированный сигнал 20 прямого смешения обрабатывается группой 22 QMF-анализа, чтобы получить полосы параметров, которые являются теми же самыми, которые применялись в кодере. Устройство 24 пространственного синтеза восстанавливает многоканальный сигнал с помощью управляющих данных 26 (то есть переданных пространственных параметров). Наконец, сигналы QMF-области преобразуются во временную область посредством группы 27 устройств QMF-синтеза, которая получает окончательные многоканальные выходные сигналы 28.
На фиг.8 показан простой пример QMF-анализа, как он выполняется в кодере предшествующего уровня техники, показанном на фиг.6, и декодере предшествующего уровня техники, показанном на фиг.7. Выборка 30 аудиосигнала, взятая во временной области и имеющая четыре значения выборки, вводится в группу 32 фильтров. На выходе группы 32 фильтров получаются три выходных выборки 34a, 34b и 34c, каждая из которых имеет четыре значения выборки. В идеальном случае на выходе группы 32 фильтров получают выходные выборки 34a-34c, так что выборки внутри выходных сигналов содержат только информацию о диапазонах дискретных частот основного аудиосигнала 30. В случае, показанном на фиг.8, выборка 34a имеет информацию об интервале частот в диапазоне от f0 до fl, выборка 34b имеет информацию об интервале частот [fl, f2] и выборка 34c имеет информацию об интервале частот [f2, f3]. Хотя интервалы частот на фиг.8 не перекрываются, в более общем случае интервалы частот выходных выборок на выходе группы фильтров могут иметь весьма значительное перекрытие частот.
Кодер предшествующего уровня техники, как уже описывалось выше, может обеспечивать либо сигнал ITU-типа прямого смешения, либо сигнал прямого смешения с матричным представлением объемного звучания, когда желателен двухканальный сигнал прямого смешения. В случае сигнала прямого смешения с совместимым матричным представлением объемного звучания (используемого для примера матричного подхода, приведенного в уравнении 1), возможна вероятность, что кодер напрямую создает сигнал прямого смешения с совместимым матричным представлением объемного звучания.
На фиг.9 показан альтернативный подход к созданию сигнала прямого смешения, совместимого с системой объемного звучания, используя блок 30 заключительной обработки сигнала прямого смешения, работающий с регулярным стереосигналом 32 прямого смешения. Процессор 30 системы объемного звучания (кодек MTX) изменяет регулярный стереосигнал 32 прямого смешения так, чтобы сделать его совместимым с системой объемного звучания, управляемой пространственными параметрами 14, извлеченными устройством 16 извлечения параметров. Для передачи сигнал 34 прямого смешения, совместимый с системой объемного звучания, преобразуется во временную область с помощью QMF-синтеза, используя группу 18 QMF-синтеза.
Получение совместимого с системой объемного звучания сигнала посредством заключительной обработки регулярного стереосигнала прямого смешения имеет то преимущество, что обработка совместимости с системой объемного звучания может быть полностью реверсирована на стороне декодера, если в наличии имеются пространственные параметры.
Хотя оба подхода пригодны для передачи многоканального сигнала, в системах предшествующего уровня техники имеются определенные недостатки. Способы объемного звучания очень эффективны (поскольку не требуются никакие дополнительные параметры) за счет очень ограниченного качества многоканальной реконструкции.
Параметрические многоканальные подходы, с другой стороны, требуют более высокой скорости передачи данных из-за побочной информации, которая становится проблемой, когда предел устанавливается как максимальная приемлемая скорость передачи данных для параметрического представления. Когда кодируемые параметры требуют сравнительно высокой величины скорости передачи данных, единственный возможный способ остаться в пределах такого ограничения скорости передачи данных состоит в снижении качества кодируемого канала при преобразовании вниз посредством повышения сжатия канала. Следовательно, результатом является общая потеря качества звука, которая может быть недопустимо высокой. Другими словами, для параметрических многоканальных методов часто существует жесткое ограничение минимальной скорости передачи данных, требуемой для уровня пространственных параметров, которое в некоторых случаях может быть неприемлемо высоким.
Хотя принципиальная обратная совместимость между способами объемного звучания и пространственными аудиоспособами может быть достигнута с помощью кодера предшествующего уровня техники, показанного на фиг.9, никакая дополнительная скорость передачи данных не может быть сохранена при таком подходе, когда требуется только декодирование на матричной основе. Даже тогда должен быть передан полный набор пространственных параметров, тратя напрасно ширину полос передачи.
Принимая во внимание, что скорость передачи данных, которая должна быть использована при применении параметрического способа, может быть слишком высокой в случае определенных сценариев применения, качество аудио, полученного способами без передачи побочной информации, может быть недостаточным.
Патентная заявка США 2005157883 представляет устройство для создания многоканального аудиосигнала, используя входной сигнал и параметрическую побочную информацию, причем входной сигнал содержит первый входной канал и второй входной канал, полученные из первоначального многоканального сигнала, а параметрическая побочная информация описывает взаимосвязи между каналами многоканального исходного сигнала.
Сущность изобретения
Задача настоящего изобретения заключается в том, чтобы обеспечить более эффективное кодирование многоканальных аудиосигналов и в то же самое время обратно совместимое с решениями для кодирования на матричной основе.
В соответствии с первым аспектом настоящего изобретения эта задача решается многоканальным аудиодекодером для обработки аудиосигнала и для обработки первых параметрических данных, описывающих первую часть многоканального сигнала, причем для второй части многоканального сигнала никакие параметрические данные не обрабатываются или обрабатываются вторые параметрические данные, причем вторые параметрические данные требуют меньшего количества информационных единиц, чем первые параметрические данные, при описании одинаковых частей многоканального сигнала, содержащие процессор для получения промежуточного сигнала из аудиосигнала, используя первое правило получения для получения первой части промежуточного сигнала, причем первая часть промежуточного сигнала соответствует первой части многоканального аудиосигнала, причем первое правило получения зависит от первых параметрических данных; и используя второе правило получения для получения второй части промежуточного сигнала, причем второе правило получения не использует никаких параметрических данных или использует вторые параметрические данные.
В соответствии со вторым аспектом настоящего изобретения эта задача решается с помощью многоканального кодера для создания параметрического представления, описывающего пространственные свойства многоканального аудиосигнала, причем многоканальный кодер содержит генератор параметров для создания пространственных параметров, выходной интерфейс для создания параметрического представления, причем генератор параметров или выходной интерфейс выполнены с возможностью создания параметрического представления, параметрическое представление содержит первые параметрические данные для первой части многоканального сигнала, а для второй части многоканального сигнала в параметрическом представлении не содержится никаких параметрических данных или содержатся вторые параметрические данные, при этом вторые параметрические данные требуют меньшего количества информационных единиц, чем первые параметрические данные, при описании одинаковых частей многоканального сигнала.
В соответствии с третьим аспектом настоящего изобретения эта задача решается способом обработки аудиосигнала и обработки первых параметрических данных, описывающих первую часть многоканального сигнала, причем для второй части многоканального сигнала никакие параметрические данные или вторые параметрические данные не обрабатываются, вторые параметрические данные требуют меньшего количества информационных единиц, чем первые параметрические данные, при описании одинаковых частей многоканального сигнала, причем способ содержит этапы, на которых получают промежуточный сигнал из сигнала прямого смешения, используя первое правило получения, зависящее от первых параметрических данных, для получения первой части промежуточного сигнала, причем первая часть промежуточного сигнала соответствует первой части многоканального аудиосигнала; и получают вторую часть промежуточного сигнала, используя второе правило получения, причем второе правило получения использует вторые параметрические данные или не использует никаких параметрических данных.
В соответствии с четвертым аспектом настоящего изобретения эта задача решается способом создания параметрического представления, описывающего пространственные свойства многоканального аудиосигнала, причем способ содержит этапы, на которых создают пространственные параметры и создают параметрическое представление так, что параметрическое представление содержит первые параметрические данные для первой части многоканального сигнала, причем для второй части многоканального сигнала в параметрическом представлении не содержатся никакие параметрические данные или содержатся вторые параметрические данные, при этом вторые параметрические данные требуют меньшего количества информационных единиц, чем первые параметрические данные, при описании одинаковых частей многоканального сигнала.
В соответствии с пятым аспектом настоящего изобретения эта задача решается с помощью параметрического представления, описывающего пространственные свойства многоканального аудиосигнала, при этом параметрическое представление содержит первые параметрические данные для первой части многоканального сигнала, параметрическое представление не содержит никаких параметрических данных или содержит вторые параметрические данные для второй части многоканального сигнала, при этом вторые параметрические данные требуют меньшего количества информационных единиц, чем первые параметрические данные, при описании одинаковых частей многоканального сигнала.
В соответствии с шестым аспектом настоящего изобретения эта задача решается с помощью компьютерной программы, имеющей программный код для выполнения, при исполнении на компьютере, способа обработки аудиосигнала и обработки первых параметрических данных, описывающих первую часть многоканального сигнала, причем для второй части многоканального сигнала никакие параметрические данные не обрабатываются или обрабатываются вторые параметрические данные, причем вторые параметрические данные требуют меньшего количества информационных единиц, чем первые параметрические данные, при описании одинаковых частей многоканального сигнала, причем способ содержит получение промежуточного сигнала из сигнала прямого смешения, используя первое правило получения, зависящее от первых параметрических данных, для получения первой части промежуточного сигнала, причем первая часть промежуточного сигнала соответствует первой части многоканального аудиосигнала; и получения второй части промежуточного сигнала, используя второе правило получения, причем второе правило получения использует вторые параметрические данные или не использует никаких параметрических данных.
В соответствии с седьмым аспектом настоящего изобретения эта задача решается с помощью компьютерной программы, имеющей программный код для выполнения, при исполнении на компьютере, способа создания параметрического представления, описывающего пространственные свойства многоканального аудиосигнала, причем способ содержит создание пространственных параметров и создание параметрического представления так, что параметрическое представление содержит первые параметрические данные для первой части многоканального сигнала, причем в параметрическом представлении для второй части многоканального сигнала не содержится никаких параметрических данных или содержатся вторые параметрические данные, при этом вторые параметрические данные требуют меньшего количества информационных единиц, чем первые параметрические данные, при описании одинаковых частей многоканального сигнала.
В соответствии с восьмым аспектом настоящего изобретения эта задача решается транскодером для создания параметрического представления многоканального аудиосигнала, используя пространственные параметры, описывающие пространственные свойства многоканального аудиосигнала, причем транскодер содержит генератор параметров для создания параметрического представления, причем параметрическое представление содержит первые параметрические данные, получаемые из пространственных параметров для первой части многоканального сигнала, причем в параметрическом представлении для второй части многоканального сигнала не содержится никаких параметрических данных или содержатся вторые параметрические данные, при этом вторые параметрические данные требуют меньшего количества информационных единиц, чем первые параметрические данные, при описании одинаковых частей многоканального сигнала.
Настоящее изобретение основано на том факте, что многоканальный аудиосигнал может быть эффективно представлен параметрическим представлением, когда первое правило получения используется для получения первых параметрических данных параметрического представления, описывающих первую часть многоканального сигнала, и когда для второй части многоканального сигнала в параметрическом представлении содержатся вторые параметрические данные или не содержится никаких параметрических данных, принимая во внимание, что вторые параметрические данные требуют меньшего количества информационных единиц, чем первые параметрические данные, при описании одинаковых частей многоканального сигнала.
Таким образом, первая часть многоканального сигнала представляется первыми параметрами, позволяющими произвести реконструкцию многоканального сигнала с более высоким качеством, и вторая часть может быть представлена вторыми параметрами, позволяющими произвести реконструкцию с несколько более низким качеством. Скорость передачи данных, используемая первыми параметрическими данными, соответственно выше, чем скорость передачи данных, используемая вторыми параметрическими данными, когда и те и другие параметрические данные должны описывать одну и ту же часть многоканального сигнала. Другими словами, первые параметры требуют большей скорости передачи данных в расчете на некоторую часть сигнала, чем вторые параметры.
Задача изобретения состоит в том, чтобы совместить оба направления предшествующего уровня техники, постепенно улучшая звук сигнала прямого смешения при повышении скорости передачи данных используемой побочной информации, начиная от 0 и до скоростей передачи данных, используемых параметрическими способами. То есть настоящее изобретение направлено на ликвидацию разрыва в скоростях передачи данных и качестве восприятия между полностью параметрическими способами и матричными способами представления объемного звучания. Более конкретно, оно обеспечивает способ гибкого выбора "рабочей точки" где-то между матричным представлением объемного звучания (без побочной информации, с ограниченным качеством аудиосигнала) и полностью параметрической реконструкцией (требуется полная скорость передачи побочной информации, хорошее качество). Эта рабочая точка может выбираться динамически (то есть с изменением во времени) и в ответ на допустимую скорость передачи побочной информации, как она диктуется индивидуальным применением.
Путем динамического выбора размера первой части многоканального аудиосигнала, которая является частью многоканального аудиосигнала, представляемого пространственными аудиопараметрами, требуемая скорость передачи данных может меняться в пределах широкого диапазона. Представление основных частей многоканального сигнала с помощью пространственных аудиопараметров потребует сравнительно высокой скорости передачи данных для получения хорошего качества восприятия. Поскольку для второй части многоканального аудиосигнала выбирается правило получения параметров, в результате использования которого требуется меньшая скорость передачи данных, результирующая общая скорость передачи данных может быть уменьшена путем увеличения размера второй части многоканального сигнала. В предпочтительном варианте осуществления настоящего изобретения для второй части многоканального сигнала никакие параметрические данные вообще не передаются, что, конечно, позволяет максимально экономить на скорости передачи двоичных сигналов. Поэтому посредством динамического изменения размера первой части по отношению к размеру второй части скорость передачи данных (или качество восприятия) может динамически регулироваться в соответствии с потребностями.
В предпочтительном варианте осуществления настоящего изобретения сигнал прямого смешения получается матрично совместимым способом. Поэтому первая часть многоканального аудиосигнала может быть воспроизведена с высоким качеством восприятия, используя пространственные аудиопараметры, а вторая часть многоканального сигнала может быть воспроизведена, используя решения на основе матриц. Это позволяет выполнять высококачественное воспроизведение частей сигналов, требующих повышенного качества. В то же самое время общая скорость передачи данных снижается, опираясь на воспроизведение на основе матриц для частей сигнала, менее критичных для качества воспроизводимого сигнала.
В дополнительном предпочтительном варианте осуществления настоящего изобретения концепция изобретения применяется на стороне декодера в пределах QMF-представления принятого сигнала прямого смешения. Процесс обратного смешения принципиально может быть разделен на три этапа:
предварительная обработка входных сигналов (сигналов прямого смешения, принятых в QMF-области) путем применения матрицы предварительного декоррелятора;
декорреляция части предварительно обработанных сигналов; и
смешение полученных таким образом сигналов (предварительно обработанных сигналов и декоррелированных сигналов) внутри матрицы смешения, при этом выходным результатом смешения являются каналы сигнала прямого смешения.
Как матрица предварительного декоррелятора, так и матрица смешения являются двумерными матрицами с размерностями "число временных интервалов", с одной стороны, и "число полос параметров", с другой стороны. В пределах процесса декодирования элементы этих матриц заполняются значениями, которые выводятся из параметров, считанных из битового потока пространственных данных, то есть с помощью первых параметрических данных. Когда первые параметрические данные принимаются только для первой части многоканального сигнала, только эта часть реконструкции многоканального сигнала может быть получена, используя предоставленные первые параметрические данные. Матричные элементы для получения второй части реконструкции многоканального сигнала в соответствии с настоящим изобретением получаются с использованием схемы совместимого с матрицами кодирования. Эти матричные элементы могут поэтому быть получены либо только на основании информации, извлеченной из сигнала прямого смешения, либо быть заменены на заранее определенные значения.
В предпочтительном варианте осуществления многоканальный аудиодекодер, соответствующий настоящему изобретению, распознает с помощью объема переданных первых параметрических данных, какая часть матричного или какая часть многоканального аудиосигнала должна быть обработана в соответствии с правилом, зависящим от пространственных параметров, и какая часть должна быть обработана в соответствии с решением, основанным на матрице.
В другом варианте осуществления настоящего изобретения аудиокодер создает информацию окна, указывая, какие части многоканального сигнала обрабатываются с помощью решения, основанного на матрице, или с помощью подхода, совместимого с пространственным аудиосигналом. Информация окна содержится в параметрическом представлении многоканального сигнала.
Декодер, соответствующий изобретению, поэтому способен принимать и обрабатывать информацию окна, созданную для применения соответствующих правил обратного смешения к частям многоканального аудиосигнала, указанным с помощью информации окна.
В предпочтительном варианте осуществления настоящего изобретения концепция изобретения применяется в QMF-области во время обработки сигнала, то есть в области, в которой сигналы представлены многочисленными представлениями и каждое представление содержит информацию об определенной полосе частот.
В дополнительном предпочтительном варианте осуществления настоящего изобретения способ, свободный от побочной информации (подход, основанный на матрице), применяется только к более высокочастотным частям, тогда как (явная) параметрическая информация (то есть первое правило кодирования и декодирования) применяется для надлежащего воспроизведения низкочастотных частей. Это создает выгоду из-за свойства человеческого слуха гораздо легче замечать малые отклонения двух подобных сигналов (например, фазовые отклонения) для низких частот, чем для высоких частот.
Большим преимуществом настоящего изобретения является то, что обратная совместимость схемы кодирования и декодирования пространственного аудиосигнала с решениями, основанными на матрицах, достигается без необходимости вводить дополнительное аппаратурное или программное обеспечение, когда правила кодирования и декодирования пространственных аудиокодеров выбраны соответствующим образом.
Кроме того, совместимость достигается без необходимости передавать дополнительные данные, как это имеет место в случаях на предшествующем уровне техники. Схема кодирования, соответствующая настоящему изобретению, кроме того, чрезвычайно гибка, поскольку позволяет плавно регулировать скорости передачи данных или качество, то есть плавно переходить от кодирования, полностью основанного на матрицах, к полному пространственному аудиокодированию конкретного сигнала. То есть применяемая схема кодирования может приспосабливаться к фактическим нуждам, ориентируясь либо на требуемую скорость передачи данных, либо на желаемое качество.
Краткое описание чертежей
Предпочтительные варианты осуществления настоящего изобретения в дальнейшем описываются со ссылкой на приложенные чертежи, на которых
фиг. l - кодер, соответствующий изобретению;
фиг. 2 - иллюстрация примера двоичного потока параметров, созданного с помощью принципа изобретения;
фиг. 2a - транскодер, соответствующий изобретению;
фиг. 3 - декодер, соответствующий изобретению;
фиг. 4 - иллюстрация примера пространственного аудиодекодера, соответствующего изобретению;
фиг. 5 - проиллюстрировано использование различных схем кодирования на стороне декодера;
фиг. 6 - кодер, соответствующий предшествующему уровню техники;
фиг. 7 - декодер, соответствующий предшествующему уровню техники;
фиг. 8 - блок-схема группы фильтров; и
фиг. 9 - иллюстрация дополнительного примера кодера, соответствующего предшествующему уровню изобретения.
Подробное описание предпочтительных вариантов осуществления
На фиг.1 показан многоканальный кодер, соответствующий изобретению. Многоканальный кодер 100 имеет генератор 102 параметров и выходной интерфейс 104.
Многоканальный аудиосигнал 106 поступает на кодер 100, в котором обрабатываются первая часть 108 и вторая часть 110 многоканального сигнала 106. Генератор 102 параметров принимает первую часть 108 и вторую часть 110 и создает пространственные параметры, описывающие пространственные свойства многоканального сигнала 106.
Пространственные параметры передаются на выходной интерфейс 104, который создает параметрическое представление 112 из многоканального сигнала 106, в котором параметрическое представление 112 содержит первые параметрические данные для первой части 108 многоканального сигнала и в котором для второй части 110 многоканального сигнала 106 вторые параметрические данные, требующие меньшего количества информации, чем первые параметрические данные, или не требующие никаких параметрических данных, содержатся в параметрическом представлении 112.
Для решения одной и той же задачи возможны несколько разновидностей многоканального кодера 100. Например, генератор 102 параметров может применять два различных правила получения параметров к первой части 108 и ко второй части 110, что приводит в результате к различным наборам параметров, которые затем передаются в выходной интерфейс 104, который объединяет различные наборы параметров в параметрическое представление 112. Особый и предпочтительный случай заключается в том, что для второй части 110 в параметрическое представление не вводятся никакие параметры (и поэтому не создаются генератором 102 параметров), поскольку на стороне декодера декодер получает требуемые параметры декодирования с помощью некоторых эвристических правил.
Другая возможность состоит в том, что генератор 102 параметров получает полный набор пространственных аудиопараметров как для первой части 108, так и для второй части 110. Следовательно, выходной интерфейс 104 должен обрабатывать пространственные параметры при условии, чтобы вторые параметрические данные требовали меньшее количество битов, чем первые параметрические данные.
Кроме того, выходной интерфейс 104 может добавлять дополнительный сигнал окна к параметрическому представлению 112, что должно сообщить декодеру, как во время кодирования многоканальный сигнал 106 был разделен на первую часть 108 и на вторую часть 110. В модифицированном варианте предпочтительного варианта осуществления многоканального кодера 100 многоканальный кодер 100 может дополнительно иметь устройство принятия решения по делению на части для определения, какая часть многоканального сигнала 106 используется в качестве первой части 108 и какая часть используется в качестве второй части 110 решения, основанного на критерии качества.
Критерий качества может быть получен в отношении результирующей общей скорости передачи данных параметрического представления 112 или в отношении аспектов качества, учитывая качество восприятия воспроизведения многоканального сигнала 106, основанного на параметрическом представлении 112.
Главное преимущество состоит в том, что скорость передачи данных, используемая при параметрическом представлении, может, таким образом, варьироваться во времени, полагая, что критерий качества удовлетворяется в любое время в течение кодирования, позволяя в то же время общее снижение требуемой скорости передачи данных по сравнению со способами, соответствующими предшествующему уровню техники.
На фиг.2 показан пример параметрического представления 112, созданного кодером, соответствующим изобретению.
Как упоминалось выше, обработка аудиосигналов делается блочным способом, то есть множество следующих друг за другом выборок многоканального сигнала во временной области, образующих так называемый кадр, обрабатываются на одном этапе. На фиг.2 показан битовый поток параметров, то есть параметрическое представление для двух последовательных кадров. Битовый поток параметров имеет представление высококачественного кадра 120 и представление более низкокачественного кадра 122. Во время кодирования высококачественного кадра 120 было принято решение, что первая часть 108, которая представляется параметрическими данными, должна быть большей по сравнению со второй частью, что может, например, иметь место, когда аудиосцена, которая должна кодироваться, довольно сложна. Двоичный поток параметров, показанный на фиг.2, кроме того, создается при предположении, что используется предпочтительный вариант осуществления кодера, соответствующего изобретению, который не получает никаких параметрических данных для второй части 110 многоканального сигнала 106. Как можно видеть на фиг.2, в параметрическом представлении используются 28 пространственные параметры ICC и ICLD, чтобы описать высококачественный кадр 120. Например, 28 пространственные параметры описывают низкочастотные полосы QMF-представления многоканального сигнала.
Низкокачественный кадр 122 содержит только 21 набор пространственных параметров, имеющих параметры ICC и ICLD, поскольку это было признано достаточным для желаемого качества восприятия.
На фиг.2a показан транскодер 150, соответствующий изобретению. Транскодер, соответствующий изобретению, в качестве входных данных принимает входной поток 152 битовых данных, имеющий полный набор пространственных параметров, описывающих первый кадр 154 и второй кадр 156 многоканального аудиосигнала.
Транскодер 150 создает поток 158 битовых данных, содержащий параметрическое представление, представляющее пространственные свойства многоканального аудиосигнала. В примере, показанном на фиг.2a, транскодер 150 создает параметрическое представление, в котором для первого кадра число 160 параметров уменьшается лишь очень незначительно. Число 162 параметров, описывающих второй кадр, соответствующий входным параметрам 156, существенно уменьшено, что