2345506 - Многоканальный синтезатор и способ для формирования многоканального выходного сигнала

Многоканальный синтезатор и способ для формирования многоканального выходного сигнала

Иллюстрации

Показать все

Изобретение относится к обработке многоканального аудиосигнала, в частности к восстановлению многоканального аудиосигнала с использованием основного канала и параметрической дополнительной информации. Многоканальный синтезатор включает в себя постпроцессор для определения заключительно обработанных параметров восстановления или величин, выведенных из параметра восстановления для текущего временного отрезка входного сигнала, так что заключительно обработанный параметр восстановления или заключительно обработанная величина отличается от соответствующего квантованного и обратно квантованного параметра восстановления в том, что значение заключительно обработанного параметра восстановления или выведенной величины не ограничены длиной шага квантования. Блок (12) многоканального восстановления использует заключительно обработанный параметр восстановления для восстановления многоканального выходного сигнала. Технический результат состоит в том, что путем постобработки параметров восстановления применительно к многоканальному кодированию/декодированию обеспечивается низкая скорость передачи данных, с одной стороны, и высокое качество, с другой стороны, поскольку уменьшаются сильные изменения в восстановленном многоканальном выходном сигнале вследствие большой длины шага квантования для параметра восстановления, которая предпочтительна из-за требований низкой скорости передачи данных. 3 н. и 22 з.п ф-лы, 13 ил.

Реферат

Область техники

Настоящее изобретение относится к обработке многоканального аудиосигнала, в частности к восстановлению многоканального аудиосигнала с использованием основного канала и параметрической дополнительной информации для восстановления выходного сигнала, имеющего множество каналов.

Уровень техники изобретения и предшествующий уровень техники

В последнее время метод многоканального аудиовоспроизведения становится более и более важным. Это может быть обусловлено фактом, что методы аудиосжатия/кодирования, например хорошо известный метод mp3, позволили распространять аудиозаписи через Интернет или другие каналы передачи, имеющие ограниченную ширину полосы. Метод кодирования mp3 стал таким известным из-за того факта, что он обеспечивает возможность распространения всех записей в стереофоническом формате, т.е. цифровом представлении аудиозаписи, включающем в себя первый, или левый, стереофонический канал и второй, или правый, стереофонический канал.

Тем не менее, существуют основные недостатки традиционных двухканальных аудиосистем. Поэтому разработан метод объемного звучания. Рекомендуемое многоканально-объемное представление включает в себя, в дополнение к двум стереофоническим каналам L и R, дополнительный центральный канал С и два канала Ls, Rs объемного звучания. Этот эталонный аудиоформат также называется стереофонией три/два, которая означает три передних канала и два канала объемного звучания. Обычно требуются пять каналов передачи. В среде аудиовоспроизведения необходимо, по меньшей мере, пять динамиков на соответствующих пяти различных местах, чтобы добиться оптимальной зоны наилучшего восприятия на определенном расстоянии от пяти правильно размещенных громкоговорителей.

В данной области техники известны различные методы для уменьшения количества данных, необходимых для передачи многоканального аудиосигнала. Такие методы называются методами квазистереофонии. С этой целью делается ссылка на фиг.10, которая показывает устройство 60 квазистереофонии. Это устройство может являться устройством, реализующим, например, мощную стереофонию (IS) или бинауральное кодирование сигнала (BCC). Такое устройство обычно принимает - в качестве входных данных - по меньшей мере, два канала (CH1, CH2, ... CHn) и выводит один канал несущей и параметрические данные. Параметрические данные определяются из условия, чтобы в декодере могло быть вычислено приближенное значение исходного канала (CH1, CH2, ... CHn).

Обычно канал несущей будет включать в себя выборки поддиапазона, спектральные коэффициенты, выборки временной области и т.д., которые обеспечивают относительно точное представление основного сигнала, в то время как параметрические данные не включают в себя такие выборки спектральных коэффициентов, но включают в себя параметры управления для управления определенным алгоритмом восстановления, например взвешиванием путем умножения, временной манипуляцией, смещением частоты, фазовым сдвигом, ... Параметрические данные, следовательно, включают в себя только относительно грубое представление сигнала или ассоциированного канала. Выраженный в цифрах объем данных, требуемый высокочастотным каналом, будет находиться в диапазоне 60-70 кбит/с, тогда как объем данных, требуемый параметрической дополнительной информацией для одного канала, будет находиться в диапазоне 1,5-2,5 кбит/с. Примером для параметрических данных являются хорошо известные масштабные коэффициенты, информация о мощной стереомощности или параметры бинауральной метки, как описано ниже.

Кодирование стереомощности описано в препринте 3799 AES «Intensity Stereo Coding» J. Herre, K. H. Brandenburg, D. Lederer, февраль 1994 г., Амстердам. В целом концепция стереомощности основывается на преобразовании основной оси, которое должно применяться к данным обоих стереофонических аудиоканалов. Если большинство точек данных концентрируется вокруг первой основной оси, то выигрыш от кодирования может быть достигнут путем поворота обоих сигналов на определенный угол перед кодированием. Это, однако, не всегда верно для методов создания реальных стереофонических сигналов. Поэтому этот метод модифицируется посредством исключения второй ортогональной компоненты из передачи в битовом потоке. Таким образом, восстановленные сигналы для левых и правых каналов состоят из вариантов того же переданного сигнала, по-разному взвешенных или масштабированных. Тем не менее, восстановленные сигналы отличаются по амплитуде, но идентичны относительно своей фазовой информации. Огибающие энергии в зависимости от времени обоих исходных аудиоканалов, однако, сохраняются посредством операции выборочного масштабирования, которая обычно действует частотно-селективным способом. Это соответствует человеческому восприятию звука на высоких частотах, где преобладающие пространственные сигналы определяются огибающими энергии.

Кроме того, в практических реализациях переданный сигнал, т.е. канал несущей, формируется из суммарного сигнала левого канала и правого канала вместо поворота обоих компонентов. Более того, эта обработка, т.е. формирование параметров стереомощности для выполнения операции масштабирования, выполняется частотно-селективным способом, т.е. независимо для каждого диапазона масштабного коэффициента, т.е. распределения частоты кодера. Предпочтительным образом оба канала объединяются для образования комбинированного канала или канала несущей, и в дополнение к комбинированному каналу определяется информация стереомощности, которая зависит от энергии первого канала, энергии второго канала или энергии комбинированного канала.

Метод BCC описан в конвенционном документе 5574 AES «Binaural cue coding applied to stereo and multichannel audio compression», C. Faller, F. Baumgarte, май 2002 г., Мюнхен. При кодировании BCC некоторое количество входных аудиоканалов преобразуются в спектральное представление с использованием преобразования на основе DFT (дискретное преобразование Фурье) с перекрывающимися окнами. Результирующий однородный спектр разделяется на неперекрывающиеся части, каждая из которых имеет индекс. Каждая часть имеет ширину полосы, пропорциональную эквивалентной прямоугольной ширине полосы (ERB). Межканальная разность уровней (ICLD) и межканальная разность времени (ICTD) оцениваются для каждой части для каждого кадра k. ICLD и ICTD квантуются и кодируются, что приводит к потоку двоичных сигналов BCC. Межканальные разности уровней и межканальные разности времени задаются для каждого канала относительно опорного канала. Затем рассчитываются параметры в соответствии с принятой формулой, которая зависит от определенных разделений обрабатываемого сигнала.

На стороне декодера декодер принимает монофонический сигнал и поток двоичных сигналов ВСС. Монофонический сигнал преобразуется в частотную область и вводится в блок пространственного синтеза, который также принимает декодированные значения ICLD и ICTD. В блоке пространственного синтеза значения параметров BCC (ICLD и ICTD) используются для выполнения операции взвешивания монофонического сигнала, для того, чтобы синтезировать многоканальные сигналы, которые после частотного/временного преобразования представляют восстановление исходного многоканального аудиосигнала.

В случае BCC, объединений стереомодуль 60 предназначен для вывода дополнительной информации канала так, что параметрические данные канала являются квантованными и кодированными параметрами ICLD или ICTD, где один из исходных каналов используется как опорный канал для кодирования дополнительной информации канала.

Обычно канал несущей формируется из суммы составляющих исходных каналов.

Естественно, вышеизложенные методы только обеспечивают монофоническое представление для декодера, который может лишь обрабатывать канал несущей, но не способен обрабатывать параметрические данные для формирования одного или более приближенных значений более чем одного входного канала.

Метод аудиокодирования, известный как бинауральное кодирование сигнала (BCC), также описан в публикациях патентных заявок США US 2003 0219130 A1, 2003/0026441 A1 и 2003/0035553 A1. Дополнительно можно также сослаться на публикацию «Binaural Cue Coding. Part II: Schemes and Applications», C. Faller и F. Baumgarte, IEEE Trans. On Audio and Speech Proc., Vol. 11, No. 6, ноябрь 1993. Приведенные публикации патентных заявок США и две приведенные выше технические публикации по методу BCC включены в данный документ полностью посредством ссылки.

Далее детально рассмотрена типовая общая схема ВСС для многоканального аудиокодирования со ссылкой на фиг.11-13. Фиг.11 показывает такую общую схему бинаурального кодирования сигнала для кодирования/передачи многоканальных аудиосигналов. Многоканальный входной аудиосигнал на входе 110 кодера 112 BCC микшируется в блоке 114 микширования с понижением. В настоящем примере исходный многоканальный сигнал на входе 110 является 5-канальным сигналом объемного звучания, имеющим передний левый канал, передний правый канал, левый канал объемного звучания, правый канал объемного звучания и центральный канал. В предпочтительном варианте осуществления настоящего изобретения блок 114 микширования с понижением создает суммарный сигнал с помощью простого суммирования этих пяти каналов в монофонический сигнал. В данной области техники известны другие схемы микширования с понижением, так что, используя многоканальный входной сигнал, можно получить микшированный сигнал единственного канала. Этот единственный канал выводится на линии 115 суммарного сигнала. Дополнительная информация, полученная с помощью блока 116 анализа ВСС, выводится в линии 117 дополнительной информации. В блоке анализа ВСС межканальные разности уровней (ICLD) и межканальные разности времени (ICTD) рассчитываются, как описано выше. В последнее время блок 116 анализа ВСС усовершенствован для вычисления также межканальных корреляционных значений (значений ICC). Суммарный сигнал и дополнительная информация передается, предпочтительно, в квантованной и кодированной форме на декодер 120 ВСС. Декодер ВСС разлагает переданный суммарный сигнал на ряд поддиапазонов и применяет масштабирование, задержки и другую обработку для формирования поддиапазонов выходных многоканальных аудиосигналов. Эта обработка выполняется так, чтобы параметры (контрольные метки) ICLD, ICTD и ICC восстановленного многоканального сигнала на выходе 121 были подобны соответствующим контрольным меткам для исходного многоканального сигнала на входе 110 кодера 112 ВСС. С этой целью декодер 120 ВСС включает в себя блок 122 синтеза ВСС и блок 123 обработки дополнительной информации.

Далее внутреннее устройство блока 122 синтеза ВСС объясняется со ссылкой на фиг.12. Суммарный сигнал на линии 115 вводится в блок частотного/временного преобразования или гребенку 125 фильтров FB. На выходе блока 125 существует N сигналов поддиапазонов или, в крайнем случае, набор спектральных коэффициентов, когда гребенка 125 фильтров аудиосигналов выполняет преобразование 1:1, т.е. преобразование, которое создает N спектральных коэффициентов из N выборок временной области.

Блок 122 синтеза ВСС дополнительно содержит каскад 126 задержки, каскад 127 изменения уровня, каскад 128 коррелированной обработки и каскад 129 обратной гребенки фильтров IFB. На выходе каскада 129 восстановленный многоканальный аудиосигнал, имеющий, например, пять каналов в случае 5-канальной системы объемного звучания, может быть выведен на комплект громкоговорителей 124, как проиллюстрировано на фиг.11.

Как показано на фиг.12, входной сигнал s(n) преобразуется в частотную область или область гребенки фильтров посредством элемента 125. Сигнал, выведенный с помощью элемента 125, умножается, так что получаются несколько версий одного и того же сигнала, как проиллюстрировано с помощью узла 130 умножения. Количество версий исходного сигнала равно количеству выходных каналов в выходном сигнале, который необходимо восстановить. Затем, в общем, каждая версия выходного сигнала в узле 130 подвергается определенной задержке d₁, d₂, ..., d_i, ..., d_N. Параметры задержки вычисляются блоком 123 обработки дополнительной информации на фиг.11 и выводятся из межканальных разностей времени, как определено блоком 116 анализа ВСС.

То же самое является верным для коэффициентов умножения a₁, a₂, ..., a_i, ..., a_N, которые также рассчитываются блоком 123 обработки дополнительной информации на основе межканальных разностей уровней, которые рассчитываются блоком 116 анализа ВСС.

Параметры ICC, рассчитанные блоком 116 анализа BCC, используются для управления функциональными средствами блока 128, так что на выходах блока 128 формируются определенные значения корреляции между задержанными и регулируемыми по уровню сигналами. Следует заметить, что порядок этапов 126, 127, 128 может отличаться от случая, показанного на фиг.12.

Следует заметить, что в покадровой обработке аудиосигнала анализ ВСС выполняется на покадровой основе, т.е. в зависимости от времени, а также на частотной основе. Это означает, что для каждой спектральной полосы получаются параметры ВСС. Это означает, что если гребенка 125 фильтров аудиосигнала разлагает на составные части входной сигнал, например, на 32 сигнала полос пропускания, блок анализа ВСС получает совокупность параметров ВСС для каждой из 32 полос. Естественно, блок 122 синтеза ВСС из фиг.11, который показан подробно на фиг.12, выполняет восстановление, которое также основано на 32 полосах в примере.

Ниже ссылка дана на фиг.13, показывающую установку для определения некоторых параметров ВСС. Обычно параметры ICLD, ICTD и ICC могут быть определены между парами каналов. Однако предпочтительно определять параметры ICLD и ICTD между опорным каналом и каждым другим каналом. Это проиллюстрировано на фиг.13A.

Параметры ICC могут быть определены различными способами. В более общем смысле можно оценить параметры ICC в кодере между всеми возможными парами каналов, как показано на фиг.13В. В этом случае декодер синтезировал бы ICC так, что он был бы приблизительно тот же, что и исходный многоканальный сигнал между всеми возможными парами каналов. Однако было предложено оценивать только параметры ICC между наиболее мощными двумя каналами в каждый момент времени. Эта схема проиллюстрирована на фиг.13С, где показан пример, в котором в один момент времени параметр ICC оценивается между каналами 1 и 2, а в другой момент времени параметр ICC рассчитывается между каналами 1 и 5. Затем декодер синтезирует межканальную корреляцию между наиболее мощными каналами в декодере и применяет некоторое эвристическое правило для вычисления и синтезирования межканальной когерентности для оставшихся пар каналов.

Относительно расчета, например, коэффициентов умножения a₁, a_N, основанных на переданных параметрах ICLD, ссылка дается на конвенционный документ AES 5574, упомянутый выше. Параметры ICLD представляют собой распределение энергии в исходном многоканальном сигнале. Без потери общности, на фиг.13А показано, что существуют четыре параметра ICLD, показывающих разность энергии между всеми другими каналами и передним левым каналом. В блоке 123 обработки дополнительной информации коэффициенты умножения a₁, ..., a_N выводятся из параметров ICLD из условия, чтобы общая энергия всех восстановленных выходных каналов была равна (или пропорциональна) энергии переданного суммарного сигнала. Простым способом для определения этих параметров является 2-этапный процесс, в котором на первом этапе коэффициент умножения для левого переднего канала устанавливается на единицу, тогда как коэффициенты умножения для других каналов на фиг.13А устанавливаются на переданные значения ICLD. Затем на втором этапе энергия всех пяти каналов рассчитывается и сравнивается с энергией переданного суммарного сигнала. Затем все каналы масштабируется с понижением с использованием коэффициента понижения, который является одинаковым для всех каналов, причем коэффициент понижения выбирается из условия, чтобы общая энергия всех восстановленных выходных каналов после масштабирования с понижением была равна общей энергии переданного суммарного сигнала.

Естественно, существуют другие способы для расчета коэффициентов умножения, не использующие 2-этапный процесс, а требующие лишь 1-этапного процесса.

Относительно параметров задержки следует отметить, что параметры задержки ICTD, которые передаются из кодера ВСС, могут использоваться непосредственно, когда параметр задержки d₁ для левого переднего канала установлен в ноль. Здесь не нужно изменять масштаб, поскольку задержка не изменяет энергию сигнала.

Относительно меры межканальной когерентности (ICC), переданной от кодера ВСС к декодеру ВСС, здесь следует отметить, что управление когерентностью может выполняться посредством изменения коэффициентов умножения a₁, ..., a_n, например, посредством перемножения весовых коэффициентов всех поддиапазонов со случайными числами со значениями между 20log10(-6) и 20log10(6). Псевдослучайная последовательность предпочтительно выбирается так, что дисперсия является приблизительно постоянной для всех критических полос, а среднее является нулем внутри каждой критической полосы. Та же последовательность применяется к спектральным коэффициентам для каждого другого кадра. Таким образом, ширина слухового образа управляется посредством изменения дисперсии псевдослучайной последовательности. Большая дисперсия создает большую ширину образа. Изменение дисперсии может быть выполнено в индивидуальных полосах, которые имеют ширину критической полосы. Это делает возможным одновременное существование множества объектов в акустической обстановке, при этом каждый объект имеет различную ширину образа. Подходящее амплитудное распределение для псевдослучайной последовательности является равномерным распределением на логарифмической шкале, как это описано в публикации патентной заявки США 2003/0219130 A1. Тем не менее, вся обработка синтеза ВСС относится к единственному входному каналу, переданному как суммарный сигнал от кодера ВСС к декодеру ВСС, как показано на фиг.11.

Сходный метод, также известный как параметрическая стереофония, описан в J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, «High-Quality Parametric Spatial Audio Coding at Low Bitrates», 116-я Конвенция AES, Берлин, Препринт 6072, май 2004 г., и E. Schuijers, J. Breebaart, H. Purnhagen, J. Engdegard, «Low Complexity Parametric Stereo Coding», 116-я Конвенция AES, Берлин, Препринт 6073, май 2004 г.

Как описано выше со ссылкой на фиг.13, параметрическая дополнительная информация, т.е. межканальные разности уровней (ICLD), межканальные разности времени (ICTD) либо параметр межканальной когерентности (ICC) могут быть вычислены и переданы для каждого из пяти каналов. Это означает, что обычно передается пять множеств межканальных разностей уровней для пятиканального сигнала. То же самое справедливо для межканальных разностей времени. Относительно параметра межканальной когерентности также может быть достаточно передать только, например, два множества этих параметров.

Как описано выше со ссылкой на фиг.12, не существует единого параметра разности уровней, параметра разности времени или параметра когерентности для одного кадра или временного отрезка сигнала. Вместо этого эти параметры определяются для нескольких различных полос частот, так что получается частотно-зависимая параметризация. Поскольку предпочтительно использовать, например, 32 частотных канала, т.е. гребенку фильтров, имеющих 32 полосы частот для анализа ВСС и синтеза ВСС, то параметры могут занимать достаточно большое количество данных. Хотя по сравнению с другими многоканальными передачами параметрическое представление дает в результате достаточно низкую скорость передачи данных, существует постоянная потребность в дальнейшем снижении необходимой скорости передачи данных для представления многоканального сигнала, например сигнала, имеющего два канала (стереофонический сигнал), либо сигнала, имеющего более двух каналов, например многоканального сигнала объемного звучания.

С этой целью вычисленные на стороне кодера параметры восстановления квантуются в соответствии с определенным правилом квантования. Это означает, что неквантованные параметры восстановления отображаются в ограниченное множество уровней квантования, или индексов квантования, как известно в данной области техники и описано в публикации C. Faller и F. Baumgarte, «Binaural cue coding applied to audio compression with flexible rendering», 113-я Конвенция AES, Лос-Анджелес, препринт 5686, октябрь 2002 г.

Квантование имеет такой эффект, что все значения параметра, которые меньше длины шага квантования, квантуются в ноль. Кроме того, отображением большого множества неквантованных значений в малое множество квантованных значений достигается, по сути, экономия данных. Эта экономия скорости данных далее улучшается посредством энтропийного кодирования квантованных параметров восстановления на стороне кодера. Предпочтительными способами энтропийного кодирования являются способы Хаффмана на основе предопределенных кодовых таблиц, или на основе фактического определения статистик сигнала и адаптивного к сигналу создания словарей кодов. В качестве альтернативы могут использоваться другие инструменты энтропийного кодирования, например арифметическое кодирование.

В принципе, имеется правило, что скорость передачи данных, требуемая для параметров восстановления, снижается с увеличением длины шага квантователя. Иначе говоря, более грубое квантование приводит к более низкой скорости передачи данных, а более точное квантование приводит к более высокой скорости передачи данных.

Так как обычно требуются параметрические представления сигнала для условий с низкой скоростью передачи данных, то предпринимается попытка квантовать параметры восстановления настолько грубо, насколько возможно, для получения представления сигнала, имеющего определенный объем данных в основном канале и также имеющего обоснованно малый объем данных для дополнительной информации, которая включает в себя квантованные и энтропийно кодированные параметры восстановления.

Способы предшествующего уровня техники, таким образом, извлекают параметры восстановления, которые нужно передать, непосредственно из многоканального сигнала, который нужно кодировать. Грубое квантование, как обсуждалось выше, приводит к искажениям параметров восстановления, что приводит к большим ошибкам округления, когда квантованный параметр восстановления обратно квантуется в декодере и используется для многоканального синтеза. Естественно, ошибка округления увеличивается с длиной шага квантователя, т.е. с выбранной «грубостью квантователя». Такие ошибки округления могут приводить к изменению уровня квантования, т.е. изменению от первого уровня квантования в первый момент времени до второго уровня квантования в более поздний период времени, причем разница между одним уровнем квантователя и другим уровнем квантователя определяется довольно большой длиной шага квантователя, которая предпочтительна для грубого квантования. К сожалению, такое изменение уровня квантователя, равное большой длине шага квантователя, может быть инициировано только небольшим изменением параметра, когда неквантованный параметр находится посередине между двумя уровнями квантования. Ясно, что возникновение таких изменений индекса квантователя в дополнительной информации приводит к таким же сильным изменениям в стадии синтеза сигнала. Когда, например, рассматривается межканальная разность уровней, становится понятно, что сильное изменение приводит к резкому снижению громкости сигнала определенного динамика, и сопутствующему резкому увеличению громкости сигнала для другого динамика. Эта ситуация, которая инициируется только изменением уровня квантования и грубым квантованием, может восприниматься как непосредственное перемещение источника звука из (виртуального) первого места в (виртуальное) второе место. Такое немедленное перемещение от одного момента времени к другому моменту времени звучит неестественно, т.е. воспринимается как эффект модуляции, поскольку источники звука, в частности, тональных сигналов не меняют своего положения очень быстро.

В общем случае ошибки передачи могут, таким образом, приводить к резким изменениям индексов квантователя, что немедленно приводит к резким изменениям в многоканальном выходном сигнале, что является даже более действительным для ситуаций, в которых применяется грубый квантователь по соображениям скорости передачи данных.

Сущность изобретения

Целью настоящего изобретения является создание усовершенствованной концепции синтеза сигнала, допускающей низкую скорость передачи данных, с одной стороны, и хорошее субъективное качество, с другой стороны.

В соответствии с первым аспектом настоящего изобретения эта цель достигается с помощью многоканального синтезатора для формирования выходного сигнала из входного сигнала, при этом входной сигнал имеет, по меньшей мере, один входной канал и последовательность квантованных параметров восстановления, при этом квантованные параметры восстановления квантуются в соответствии с правилом квантования и ассоциируются с последующими временными отрезками входного канала, при этом выходной сигнал имеет некоторое количество синтезированных выходных каналов, и количество синтезированных выходных каналов больше 1 или больше количества входных каналов, содержащего постпроцессор для определения заключительно обработанного параметра восстановления или заключительно обработанной величины, выведенной из параметра восстановления для временного отрезка входного сигнала, который должен быть обработан, причем постпроцессор обеспечивает определение заключительно обработанного параметра восстановления, чтобы значение заключительно обработанного параметра восстановления или заключительно обработанной величины отличалось от значения, получаемого с использованием повторного квантования в соответствии с правилом квантования; и блок многоканального восстановления для восстановления временного отрезка количества синтезированных выходных каналов с использованием временного отрезка входного канала и заключительно обработанного параметра восстановления, либо заключительно обработанного значения.

В соответствии со вторым аспектом настоящего изобретения эта цель достигается с помощью способа формирования выходного сигнала из входного сигнала, при этом входной сигнал имеет, по меньшей мере, один входной канал и последовательность квантованных параметров восстановления, при этом квантованные параметры восстановления квантуются в соответствии с правилом квантования и ассоциируются с последующими временными отрезками входного канала, при этом выходной сигнал имеет некоторое количество синтезированных выходных каналов, и количество синтезированных выходных каналов больше 1 или больше количества входных каналов, содержащего определение заключительно обработанного параметра восстановления или заключительно обработанную величину, выведенную из параметра восстановления для временного отрезка обрабатываемого входного сигнала, чтобы значение заключительно обработанного параметра восстановления или заключительно обработанной величины отличались от значения, получаемого с использованием повторного квантования в соответствии с правилом квантования; и восстановление временного отрезка количества синтезированных выходных каналов с использованием временного отрезка входного канала и заключительно обработанного параметра восстановления, либо заключительно обработанного значения.

В соответствии с третьим аспектом настоящего изобретения эта цель достигается с помощью компьютерной программы, реализующей вышеописанный способ при исполнении на компьютере.

Настоящее изобретение основывается на обнаружении того, что постобработка (заключительная обработка) для квантованных параметров восстановления, используемых в многоканальном синтезаторе, является эффективной для снижения или даже устранения проблем, связанных с грубым квантованием, с одной стороны, и изменениями уровня квантования, с другой стороны. В то время как в системах предшествующего уровня техники небольшое изменение параметра в кодере приводит к сильному изменению параметра в декодере, так как повторное квантование в синтезаторе допустимо только для ограниченного множества квантованных значений, то соответствующее изобретению устройство выполняет постобработку параметров восстановления с тем, чтобы прошедший постобработку (заключительную обработку) параметр восстановления для подлежащего обработке временного отрезка входного сигнала не определялся адаптированным для кодера растром квантования, а приводил в результате к значению параметра восстановления, которое отличается от значения, получаемого квантованием в соответствии с правилом квантования.

Хотя в случае линейного квантователя способ предшествующего уровня техники допускает лишь обратно квантованные значения, являющиеся целыми кратными числами длины шага квантователя, соответствующая изобретению постобработка позволяет, чтобы обратно квантованные значения были не целыми кратными числами длины шага квантователя. Это означает, что соответствующая изобретению постобработка устраняет ограничения длины шага квантователя, так как также заключительно обработанные параметры восстановления, лежащие между двумя соседними уровнями квантователя, могут быть получены путем постобработки и использованы соответствующим изобретению блоком многоканального восстановления, который применяет заключительно обработанный параметр восстановления.

Эта постобработка может выполняться до или после повторного квантования в многоканальном синтезаторе. Когда постобработка выполняется с квантованными параметрами, т.е. с индексами квантователя, требуется обратный квантователь, который может обратно квантовать не только кратные значения шага квантователя, но который также может обратно квантовать в обратно квантованные значения между кратными значениями длины шага квантователя.

В случае, когда постобработка выполняется с использованием обратно квантованных параметров восстановления, может использоваться простой обратный квантователь, причем для обратно квантованных значений выполняется интерполяция/фильтрация/сглаживание.

В случае нелинейного правила квантования, например логарифмического правила квантования, постобработка квантованных параметров восстановления предпочтительна до повторного квантования, так как логарифмическое квантование похоже на восприятие звука человеческим ухом, что является более точным для звука нижнего тембра и менее точным для звука верхнего тембра, т.е. выполняет разновидность логарифмического сжатия.

Здесь следует отметить, что соответствующие изобретению преимущества получаются не только путем модификации самого параметра восстановления, который включается в битовый поток в качестве квантованного параметра. Преимущества также могут быть получены посредством выведения заключительно обработанного количества из параметра восстановления. Это особенно полезно, когда параметр восстановления является параметром разности и выполняется манипулирование, например сглаживание, над абсолютным параметром, выведенным из параметра разности.

В предпочтительном варианте осуществления настоящего изобретения постобработка для параметров восстановления управляется посредством анализатора сигнала, который анализирует отрезок сигнала, связанный с параметром восстановления, для выяснения, какая характеристика сигнала присутствует. В предпочтительном варианте осуществления соответствующая изобретению постобработка активизируется только для тональных отрезков сигнала (по отношению к частоте и/или времени), тогда как постобработка деактивируется для нетональных отрезков, т.е. отрезков переходных процессов входного сигнала. Это убеждает в том, что полная динамика изменения параметра восстановления передается для участков переходных процессов аудиосигнала, хотя это не всегда так для тональных отрезков сигнала.

Предпочтительно, чтобы постпроцессор выполнял модификацию параметров восстановления в виде сглаживания, где это имеет смысл с психоакустической точки зрения, не влияя на важные пространственные сигналы обнаружения, которые особо важны для нетональных, т.е. участков переходных процессов сигнала.

Настоящее изобретение приводит в результате к низкой скорости передачи данных, поскольку квантование на стороне кодера параметров восстановления может быть грубым квантованием, поскольку проектировщик системы не должен опасаться серьезных изменений в декодере из-за изменения от параметра восстановления с одного обратно квантованного уровня на другой обратно квантованный уровень, потому что подобное изменение уменьшается за счет соответствующей изобретению обработки путем отображения в значение между двумя уровнями повторного квантования.

Другое преимущество настоящего изобретения заключается в том, что повышается качество системы, поскольку уменьшаются слышимые артефакты, вызванные изменением с одного уровня повторного квантования на следующий разрешенный уровень повторного квантования, за счет соответствующей постобработки, которая предназначена для отображения в значение между двумя разрешенными уровнями повторного квантования.

Естественно, соответствующая изобретению постобработка квантованных параметров восстановления означает дополнительную потерю информации в дополнение к потере информации, полученной посредством параметризации в кодере и последующего квантования параметра восстановления. Однако это не приводит к отрицательным последствиям, поскольку соответствующий изобретению постпроцессор предпочтительно использует текущие или предшествующие квантованные параметры восстановления для определения заключительно обработанного параметра восстановления, который должен использоваться для восстановления текущего временного отрезка входного сигнала, т.е. основного канала. Показано, что это приводит к улучшенному субъективному качеству, так как вызванные кодером ошибки могут с определенной степенью компенсироваться. Даже когда вызванные на стороне кодера ошибки не компенсируются постобработкой параметров восстановления, сильные изменения пространственного восприятия в восстановленном многоканальном аудиосигнале снижаются, предпочтительно только для тональных отрезков сигнала, так что субъективное качество прослушивания повышается в любом случае, независимо от обстоятельства, приводит это к дополнительной потере информации или нет.

Краткое описание чертежей

Предпочтительные варианты осуществления настоящего изобретения описаны ниже со ссылками на прилагаемые чертежи, в которых представлено следующее:

Фиг.1 - блок-схема предпочтительного варианта осуществления многоканального синтезатора, соответствующего изобретению;

Фиг.2 - блок-схема предпочтительного варианта осуществления системы кодера/декодера, в которую включен многоканальный синтезатор, показанный на фиг.1;

Фиг.3 - блок-схема комбинации постпроцессора/анализатора сигнала, которая должна использоваться в соответствующем изобретению многоканальном синтезаторе, показанном на фиг.1;

Фиг.4 - схематичное представление временных отрезков входного сигнала и связанных квантованных параметров восстановления для прошлых отрезков сигнала, текущих отрезков сигнала, которые должны быть обработаны, и будущих отрезков сигнала;

Фиг.5 - вариант осуществления постпроцессора по фиг.1;

Фиг.6А - другой вариант осуществления постпроцессора, показанного на фиг.1;

Фиг.6B - другой предпочтительный вариант осуществления постпроцессора;

Фиг.7А - другой вариант осуществления постпроцессора, показанного на фиг.1;

Фиг.7B - схематичное представление параметров для постобработки в соответствии с изобретением, показывающее, что величина, выведенная из параметра восстановления, также может быть сглажена;

Фиг.8 - схематичное представление квантователя/обратного квантователя, выполняющего простое отображен

Многоканальный синтезатор и способ для формирования многоканального выходного сигнала

Патент 2345506