2388068 - Временное и пространственное генерирование многоканальных аудиосигналов

Временное и пространственное генерирование многоканальных аудиосигналов

Иллюстрации

Показать все

Изобретение относится к кодированию многоканальных аудиосигналов. Выбранный канал многоканального сигнала, который представляется посредством кадров, скомпонованных из значений дискретизации, имеющих высокое временное разрешение, может быть кодирован с высоким качеством, когда получают параметрическое представление формы сигнала, представляющее форму сигнала в представлении с промежуточным разрешением выбранного канала, при этом параметрическое представление формы сигнала включает в себя последовательность промежуточных параметров формы сигнала, имеющих промежуточное временное разрешение ниже высокого временного разрешения значений дискретизации и выше низкого временного разрешения, задаваемого частотой следования кадров. Параметрическое представление формы сигналов с промежуточным разрешением может быть использовано для того, чтобы генерировать восстановленный канал для получения канала, имеющего огибающую сигнала, близкую к огибающей выбранного исходного канала. Временная шкала, на которой выполняется генерирование, короче временной шкалы покадровой обработки, тем самым повышая качество восстановленного канала. С другой стороны, временная шкала генерирования больше, чем временная шкала значений дискретизации, что значительно снижает объем данных, требуемый параметрическим представлением формы сигнала. Технический результат - улучшение пространственного восприятия восстановленного многоканального сигнала. 16 н. и 21 з.п. ф-лы, 16 ил., 1 табл.

Реферат

Область техники, к которой относится изобретение

Изобретение относится к кодированию многоканальных аудиосигналов и, в частности, к принципу для того, чтобы улучшать пространственное восприятие восстановленного многоканального сигнала.

Описание предшествующего уровня техники

Последние разработки в аудиокодировании предоставили возможность воссоздавать многоканальное представление аудиосигнала на основе стерео- (или моно-) сигнала и соответствующих управляющих данных. Эти способы значительно отличаются от предыдущих основанных на матрицах решений, таких как Dolby Prologic, поскольку дополнительные управляющие данные передаются для того, чтобы управлять воссозданием, также упоминаемым как повышающее микширование, каналов объемного звучания на основе передаваемых моно- и стереоканалов.

Следовательно, параметрические многоканальные аудиодекодеры восстанавливают N каналов на основе M передаваемых каналов, где N>M, и на основе дополнительных управляющих данных. Дополнительные управляющие данные представляют значительно меньший расход данных, чем передача всех N каналов, делая кодирование очень эффективным и при этом обеспечивая совместимость как с M-канальными устройствами, так и с N-канальными устройствами. M каналов могут быть одноканальным моно, стерео или 5.1-канальным представлением. Следовательно, можно иметь, к примеру, 7.2-канальный исходный сигнал, обработанный с помощью понижающего микширования до 5.1-канального обратно совместимого сигнала, и пространственные аудиопараметры, позволяющие пространственному аудиодекодеру воспроизводить очень похожую версию исходных 7.2 каналов при небольших дополнительных затратах по расходу битов (битрейту).

Эти способы параметрического кодирования объемного звучания обычно содержат параметризацию сигнала объемного звучания на основе ILD (межканальной разности уровней) и ICC (межканальной когерентности). Данные параметры описывают, к примеру, соотношения мощности и корреляцию между парами каналов исходного многоканального сигнала. В процессе декодирования воссозданный многоканальный сигнал получается посредством распределения энергии принимаемых каналов понижающего микширования между всеми парами каналов, описанными посредством передаваемых параметров ILD. Тем не менее, поскольку многоканальный сигнал может иметь равное распределение мощности между всеми каналами, хотя сигналы в различных каналах очень различаются, тем самым предоставляя впечатление прослушивания очень широкого (рассеянного) звука, корректная ширина (рассеянность) получается посредством микширования сигналов с их декоррелированными версиями. Это микширование описывается посредством параметра ICC. Декоррелированная версия сигнала получается посредством прохождения сигнала через всечастотный фильтр, такой как ревербератор.

Это означает, что декоррелированная версия сигнала создается на стороне декодера и не передается, как каналы понижающего микширования, от кодера к декодеру. Выходные сигналы из всечастотных фильтров (декорреляторов) имеют временную характеристику, которая обычно очень плоская. Следовательно, дираковский входной сигнал дает затухающий шумовой выброс. Следовательно, при микшировании декоррелированного и исходного сигнала важно для некоторых типов сигналов, таких как плотные переходы (сигналы аплодисментов), генерировать временную огибающую декоррелированного сигнала так, чтобы лучше соответствовать огибающей канала понижающего микширования, который зачастую также называется сухим сигналом. Невыполнение этого приводит к восприятию большего размера пространства и ненатурально звучащим переходным сигналам. При задании переходных сигналов и ревербератора как всечастотного фильтра даже артефакты типа эхо могут быть введены, когда генерирование декоррелированных (мокрых) сигналов опускается.

С технической точки зрения одна из ключевых сложностей при восстановлении многоканальных сигналов, как, например, в рамках синтеза MPEG-звука, состоит в надлежащем воспроизведении многоканальных сигналов с очень широкой звуковой картиной. Технически говоря, это соответствует генерированию нескольких сигналов с низкой межканальной корреляцией (или когерентностью), но при плотном управлении спектральными и временными огибающими. Примерами таких сигналов являются элементы "аплодисментов", которые предоставляют как высокую степень декорреляции, так и резкие переходные события (хлопки). Как следствие, эти элементы являются наиболее критичными для технологии объемного звучания MPEG, которая, к примеру, подробнее описана в "Report on MPEG Spatial Audio Coding RMO Listening Tests", ISO/IEC JTC1/SC29/WG11 (MPEG), документ N7138, Bu-san, Korea, 2005". Как правило, предыдущие работы фокусировались на ряде аспектов, связанных с оптимальным воспроизведением широких/рассеянных сигналов, таких как аплодисменты, посредством предоставления решений, которые:

1. Приспосабливают временную (и спектральную) форму декоррелированного сигнала к форме передаваемого сигнала понижающего микширования, чтобы предотвратить помехи опережающего эхо (примечание: это не требует отправки никакой побочной информации от пространственного аудиокодера в пространственный аудиодекодер).

2. Приспосабливают временные огибающие синтезированных выходных каналов к исходным формам огибающих (присутствующим на входе соответствующего кодера) с помощью побочной информации, которая описывает временные огибающие исходных входных сигналов и которая передается от пространственного аудиокодера в пространственный аудиодекодер.

В настоящее время эталонная модель объемного звучания MPEG уже содержит несколько средств, поддерживающих кодирование таких сигналов, к примеру:

- временное генерирование во временной области (TP);

- генерирование временной огибающей (TES).

В системе синтеза объемного звучания MPEG декоррелированный звук генерируется и сводится с "сухим" сигналом, чтобы контролировать корреляцию синтезированных выходных каналов согласно передаваемым значениям ICC. Далее декоррелированный сигнал упоминается как "рассеянный" сигнал, хотя термин "рассеянный" отражает свойства восстановленного пространственного звукового поля, а не свойства самого сигнала. Для переходных сигналов рассеянный звук, генерируемый в декодере, не соответствует автоматически точной временной форме сухих сигналов и комбинируется перцепционно оптимальным образом с сухим сигналом. Это приводит к плохому воспроизведению переходов по аналогии с проблемой опережающего эхо, которая известна из перцепционного аудиокодирования. Средство TP, реализующее временное генерирование во временной области, разработано так, чтобы разрешать проблему посредством обработки рассеянного звука.

Средство TP применяется во временной области, как проиллюстрировано на фиг. 14. Оно фактически состоит из оценки временной огибающей сухих и рассеянных сигналов с более высоким временным разрешением, чем разрешение, предоставляемое посредством группы фильтров кодера объемного звучания MPEG. Рассеянный сигнал перемасштабируется по своей временной огибающей, чтобы соответствовать огибающей "сухого" сигнала. Это приводит к значительному повышению качества звука для критичных переходных сигналов с широкой пространственной картиной/низкой корреляцией между сигналами каналов, таких как аплодисменты.

Генерирование огибающей (корректировка временного изменения энергии, содержащейся в канале) выполняется посредством согласования нормализованной кратковременной энергии "сырого" сигнала с энергией "сухого" сигнала. Это достигается посредством изменяющейся во времени функции усиления, которая применяется к рассеянному сигналу, так что временная огибающая рассеянного сигнала генерируется так, чтобы соответствовать огибающей "сухого" сигнала.

Отметим, что это не требует того, чтобы какая-либо побочная информация была передана от кодера в декодер, чтобы обрабатывать временную огибающую сигнала (только управляющая информация для выборочного включения/отключения TP передается посредством кодера объемного звучания).

Фиг. 14 иллюстрирует временное генерирование во временной области, применяемое к кодированию объемного звучания MPEG. Прямой сигнал 10 и рассеянный сигнал 12, которые должны быть сгенерированы, являются сигналами, которые должны быть обработаны, оба предоставляемые в области группы фильтров. В объемном звучании MPEG, в необязательном порядке, может быть доступен остаточный сигнал 14, который прибавляется к прямому сигналу 10 по-прежнему в рамках области группы фильтров. В специальном случае декодера объемного звучания MPEG генерируются только высокочастотные части рассеянного сигнала 12, тем самым низкочастотные части 16 сигнала добавляются к прямому сигналу 10 в области группы фильтров.

Прямой сигнал 10 и рассеянный сигнал 12 по отдельности преобразуются во временную область посредством устройств 18a и 18b синтеза группы фильтров. Фактическое временное генерирование во временной области выполняется после группы фильтров синтеза. Поскольку должны быть сгенерированы только высокочастотные части рассеянного сигнала 12, представления во временной области прямого сигнала 10 и рассеянного сигнала 12 вводятся в фильтры 20a и 20b верхних частот, которые гарантируют то, что только высокочастотные части используются в последующих этапах фильтрации. Последующее спектральное отбеливание сигналов может выполняться в спектральных отбеливателях (средствах отбеливания) 22a и 22b, чтобы обеспечить то, что соотношения амплитуды (энергии) полного спектрального диапазона сигналов учитываются в последующей оценке 24 огибающих, которая сравнивает соотношение энергий, которые содержатся в прямом сигнале и рассеянном сигнале, в заданном временном отрезке. Этот временной отрезок обычно задается посредством длины кадра. Оценка 24 огибающей имеет в качестве выходных данных коэффициент 26 масштабирования, который применяется к рассеянному сигналу 12 при генерировании 28 огибающей во временной области, чтобы гарантировать то, что огибающая сигнала фактически одинаковая для рассеянного сигнала 12 и прямого сигнала 10 в каждом кадре.

В завершение, рассеянный сигнал со сгенерированной огибающей повторно подвергается фильтрации верхних частот посредством фильтра 29 верхних частот, чтобы гарантировать то, что артефакты в полосах низких частот не содержатся для рассеянного сигнала со сгенерированной огибающей. Комбинирование прямого сигнала и рассеянного сигнала выполняется посредством сумматора 30. Выходной сигнал 32 в таком случае содержит части прямого сигнала 10 и рассеянного сигнала 12, при этом для рассеянного сигнала огибающая сгенерирована так, чтобы обеспечить то, что огибающая сигнала фактически одинаковая для рассеянного сигнала 12 и прямого сигнала 10, до комбинирования.

Проблема точного контроля временной формы рассеянного звука может быть разрешена посредством так называемого средства генерирования временной огибающей (TES), которое разработано так, чтобы быть несложной альтернативой средству временной обработки (TP). Хотя TP работает во временной области посредством масштабирования во временной области огибающей рассеянного звука, подход TES достигает такого же главного эффекта посредством управления огибающей временного звука в представлении спектральной области. Это выполняется аналогично подходу временного генерирования шума (TNS), известному из стандарта MPEG-2/4 Перспективное звуковое кодирование (AAC). Обработка точной временной огибающей рассеянного звука достигается посредством свертывания его спектральных коэффициентов по частоте с помощью надлежащего фильтра генерирования, полученного из LPC-анализа спектральных коэффициентов сухого сигнала. Вследствие достаточно высокого временного разрешения группы фильтров объемного звучания MPEG обработка TES требует только фильтрации нижнего порядка (комплексного прогнозирования первого порядка) и таким образом имеет небольшую вычислительную сложность. С другой стороны, вследствие ограничений, к примеру, связанных с временным наложением, он не может предоставить в полной степени временной контроль, который предлагает средство TP.

Отметим, что аналогично случаю TP, TES не требует передачу какой-либо побочной информации от кодера к декодеру, чтобы описать временную огибающую сигнала.

Оба средства, TP и TES, успешно разрешают проблему временного генерирования рассеянного звука посредством приспособления его временной формы к форме передаваемого сигнала понижающего микширования. Хотя это предотвращает опережающее эхо обнаружения, это не может компенсировать второй тип недостатка многоканального выходного сигнала, который обусловлен отсутствием пространственного перераспределения.

Сигнал аплодисментов состоит из плотной смеси переходных событий (хлопков), некоторые из которых типично попадают в один параметрический кадр. Очевидно, не все хлопки в кадре возникают из одного (или аналогичного) пространственного направления. Тем не менее, для декодера объемного звучания MPEG временная модульность декодера в значительной степени определяется размером кадра и временной модульностью параметрического такта. Таким образом, после синтеза все хлопки, которые попадают в кадр, показываются с одной пространственной ориентацией (распределением уровней между выходными каналами), в отличие от исходного сигнала, для которого каждый хлопок может быть локализован (и фактически воспринят) отдельно.

Чтобы также достичь хороших результатов в отношении пространственного перераспределения наиболее критических сигналов, таких как сигналы аплодисментов, временные огибающие подвергнутого повышающему микшированию сигнала должны быть сгенерированы с очень высоким временным разрешением.

Сущность изобретения

Цель настоящего изобретения заключается в том, чтобы реализовать концепцию кодирования многоканальных аудиосигналов, которая обеспечивает эффективное кодирование, предоставляющее улучшенное сохранение пространственного распределения многоканальных сигналов.

В соответствии с первым аспектом настоящего изобретения, эта цель достигается посредством декодера для генерирования многоканального выходного сигнала на основе базового сигнала, полученного из исходного многоканального сигнала, имеющего один или более каналов, при этом число каналов базового сигнала меньше числа каналов исходного многоканального сигнала, причем базовый сигнал организован в виде кадров, кадр содержит значения дискретизации, имеющие высокое разрешение, и на основе параметрического представления формы сигнала, представляющего форму сигнала в представлении с промежуточным разрешением для выбранного исходного канала исходного многоканального сигнала, при этом параметрическое представление формы сигнала включает в себя последовательность промежуточных параметров формы сигнала, имеющих промежуточное временное разрешение ниже упомянутого высокого временного разрешения значений дискретизации и выше низкого временного разрешения, задаваемого частотой следования кадров, содержащего: блок повышающего микширования для генерирования множества подвергнутых повышающему микшированию каналов, имеющих временное разрешение выше промежуточного разрешения; и генерирователь для генерирования выбранного подвергнутого повышающему микшированию канала с помощью промежуточных параметров формы сигнала выбранного исходного канала, соответствующего выбранному подвергнутому повышающему микшированию каналу.

В соответствии со вторым аспектом настоящего изобретения, эта цель достигается посредством кодера для генерирования параметрического представления формы сигнала канала многоканального сигнала, представляемого посредством кадров, при этом кадр содержит значения дискретизации, имеющие период дискретизации, причем кодер содержит: блок понижения временного разрешения для получения представления с низким разрешением канала с помощью значений дискретизации кадра, при этом представление с низким разрешением имеет значения с низким разрешением, имеющие ассоциированный период низкого разрешения, больший периода дискретизации; и блок вычисления параметров формы сигнала для вычисления параметрического представления формы сигнала, представляющего форму сигнала в представлении с низким разрешением, при этом блок вычисления параметров формы сигнала выполнен с возможностью генерировать последовательность параметров формы сигнала, имеющих временное разрешение ниже временного разрешения значений дискретизации и выше временного разрешения, задаваемого частотой следования кадров.

В соответствии с третьим аспектом настоящего изобретения, эта цель достигается посредством способа генерирования многоканального выходного сигнала на основе базового сигнала, полученного из исходного многоканального сигнала, имеющего один или более каналов, при этом число каналов базового сигнала меньше числа каналов исходного многоканального сигнала, причем базовый сигнал организован в виде кадров, кадр содержит значения дискретизации, имеющие высокое разрешение, и на основе параметрического представления формы сигнала, представляющего форму сигнала в представлении с промежуточным разрешением для выбранного исходного канала исходного многоканального сигнала, при этом параметрическое представление формы сигнала включает в себя последовательность промежуточных параметров формы сигнала, имеющих промежуточное временное разрешение ниже упомянутого высокого временного разрешения значений дискретизации и выше низкого временного разрешения, задаваемого частотой следования кадров, причем способ содержит: генерирование множества подвергнутых повышающему микшированию каналов, имеющих временное разрешение выше промежуточного разрешения; и генерирование выбранного подвергнутого повышающему микшированию канала с помощью промежуточных параметров формы сигнала выбранного исходного канала, соответствующего выбранному подвергнутому повышающему микшированию каналу.

В соответствии с четвертым аспектом настоящего изобретения, эта цель достигается посредством способа генерирования параметрического представления формы сигнала канала многоканального сигнала, представляемого посредством кадров, при этом кадр содержит значения дискретизации, имеющие период дискретизации, причем способ содержит: получение представления с низким разрешением канала с помощью значений дискретизации кадра, при этом представление с низким разрешением имеет значения с низким разрешением, имеющие ассоциированный период низкого разрешения, больший периода дискретизации; и вычисление параметрического представления формы сигнала, представляющего форму сигнала в представлении с низким разрешением, при этом при вычислении параметров формы сигнала генерируют последовательность параметров формы сигнала, имеющих временное разрешение ниже временного разрешения значений дискретизации и выше временного разрешения, задаваемого частотой следования кадров.

В соответствии с пятым аспектом настоящего изобретения, эта цель достигается посредством представления многоканального аудиосигнала на основе базового сигнала, полученного из многоканального аудиосигнала, имеющего один или более каналов, при этом число каналов базового сигнала меньше числа каналов многоканального сигнала, причем базовый сигнал организован в виде кадров, кадр содержит значения дискретизации, имеющие высокое разрешение, и на основе параметрического представления формы сигнала, представляющего форму сигнала в представлении с промежуточным разрешением для выбранного исходного канала многоканального сигнала, при этом параметрическое представление формы сигнала включает в себя последовательность промежуточных параметров формы сигнала, имеющих промежуточное временное разрешение ниже упомянутого высокого временного разрешения значений дискретизации и выше низкого временного разрешения, задаваемого частотой следования кадров.

В соответствии с шестым аспектом настоящего изобретения, эта цель достигается посредством машиночитаемого носителя информации, имеющего сохраненным представление многоканального аудиосигнала на основе базового сигнала, полученного из многоканального аудиосигнала, имеющего один или более каналов, при этом число каналов базового сигнала меньше числа каналов многоканального сигнала, причем базовый сигнал организован в виде кадров, кадр содержит значения дискретизации, имеющие высокое разрешение, и на основе параметрического представления формы сигнала, представляющего форму сигнала в представлении с промежуточным разрешением для выбранного канала многоканального сигнала, при этом параметрическое представление формы сигнала включает в себя последовательность промежуточных параметров формы сигнала, имеющих промежуточное временное разрешение ниже упомянутого высокого временного разрешения значений дискретизации и выше низкого временного разрешения, задаваемого частотой следования кадров.

В соответствии с седьмым аспектом настоящего изобретения, эта цель достигается посредством приемного устройства или аудиопроигрывателя, имеющего декодер для генерирования многоканального выходного сигнала на основе базового сигнала, полученного из исходного многоканального сигнала, имеющего один или более каналов, при этом число каналов базового сигнала меньше числа каналов исходного многоканального сигнала, причем базовый сигнал организован в виде кадров, кадр содержит значения дискретизации, имеющие высокое разрешение, и на основе параметрического представления формы сигнала, представляющего форму сигнала в представлении с промежуточным разрешением для выбранного исходного канала исходного многоканального сигнала, при этом параметрическое представление формы сигнала включает в себя последовательность промежуточных параметров формы сигнала, имеющих промежуточное временное разрешение ниже упомянутого высокого временного разрешения значений дискретизации и выше низкого временного разрешения, задаваемого частотой следования кадров, содержащего: блок повышающего микширования для генерирования множества подвергнутых повышающему микшированию каналов, имеющих временное разрешение выше промежуточного разрешения; и генерирователь для генерирования выбранного подвергнутого повышающему микшированию канала с помощью промежуточных параметров формы сигнала выбранного исходного канала, соответствующего выбранному подвергнутому повышающему микшированию каналу.

В соответствии с восьмым аспектом настоящего изобретения, эта цель достигается посредством передающего устройства или аудиорекордера, имеющего кодер для генерирования параметрического представления формы сигнала канала многоканального сигнала, представляемого посредством кадров, при этом кадр содержит значения дискретизации, имеющие период дискретизации, причем кодер содержит: блок понижения временного разрешения для получения представления с низким разрешением канала с помощью значений дискретизации кадра, при этом представление с низким разрешением имеет значения с низким разрешением, имеющие ассоциированный период низкого разрешения, больший периода дискретизации; и блок вычисления параметров формы сигнала для вычисления параметрического представления формы сигнала, представляющего форму сигнала в представлении с низким разрешением, при этом блок вычисления параметров формы сигнала выполнен с возможностью генерировать последовательность параметров формы сигнала, имеющих временное разрешение ниже временного разрешения значений дискретизации и выше временного разрешения, задаваемого частотой следования кадров.

В соответствии с девятым аспектом настоящего изобретения, эта цель достигается посредством способа приема или воспроизведения аудио, причем способ имеет способ генерирования многоканального выходного сигнала на основе базового сигнала, полученного из исходного многоканального сигнала, имеющего один или более каналов, при этом число каналов базового сигнала меньше числа каналов исходного многоканального сигнала, причем базовый сигнал организован в виде кадров, кадр содержит значения дискретизации, имеющие высокое разрешение, и на основе параметрического представления формы сигнала, представляющего форму сигнала в представлении с промежуточным разрешением для выбранного исходного канала исходного многоканального сигнала, при этом параметрическое представление формы сигнала включает в себя последовательность промежуточных параметров формы сигнала, имеющих промежуточное временное разрешение ниже упомянутого высокого временного разрешения значений дискретизации и выше низкого временного разрешения, задаваемого частотой следования кадров, при этом способ содержит: генерирование множества подвергнутых повышающему микшированию каналов, имеющих временное разрешение выше промежуточного разрешения; и генерирование выбранного подвергнутого повышающему микшированию канала с помощью промежуточных параметров формы сигнала выбранного исходного канала, соответствующего выбранному подвергнутому повышающему микшированию каналу.

В соответствии с десятым аспектом настоящего изобретения, эта цель достигается посредством способа передачи или аудиозаписи, причем способ имеет способ генерирования параметрического представления формы сигнала канала многоканального сигнала, представляемого посредством кадров, при этом кадр содержит значения дискретизации, имеющие период дискретизации, при этом способ содержит: получение представления с низким разрешением канала с помощью значений дискретизации кадра, при этом представление с низким разрешением имеет значения с низким разрешением, имеющие ассоциированный период низкого разрешения, больший периода дискретизации; и вычисление параметрического представления формы сигнала, представляющего форму сигнала в представлении с низким разрешением, при этом при вычислении параметров формы сигнала генерируют последовательность параметров формы сигнала, имеющих временное разрешение ниже временного разрешения значений дискретизации и выше временного разрешения, задаваемого частотой следования кадров.

В соответствии с одиннадцатым аспектом настоящего изобретения, эта цель достигается посредством системы передачи, имеющей передающее устройство и приемное устройство, при этом передающее устройство имеет кодер для генерирования параметрического представления формы сигнала канала многоканального сигнала, представляемого посредством кадров, при этом кадр содержит значения дискретизации, имеющие период дискретизации; и приемное устройство имеет декодер для генерирования многоканального выходного сигнала на основе базового сигнала, полученного из исходного многоканального сигнала, имеющего один или более каналов, при этом число каналов базового сигнала меньше числа каналов исходного многоканального сигнала, причем базовый сигнал организован в виде кадров, кадр содержит значения дискретизации, имеющие высокое разрешение, и на основе параметрического представления формы сигнала, представляющего форму сигнала в представлении с промежуточным разрешением для выбранного исходного канала исходного многоканального сигнала, при этом параметрическое представление формы сигнала включает в себя последовательность промежуточных параметров формы сигнала, имеющих промежуточное временное разрешение ниже упомянутого высокого временного разрешения значений дискретизации и выше низкого временного разрешения, задаваемого частотой следования кадров.

В соответствии с двенадцатым аспектом настоящего изобретения, эта цель достигается посредством способа передачи и приема, при этом способ передачи имеет способ генерирования параметрического представления формы сигнала канала многоканального сигнала, представляемого посредством кадров, при этом кадр содержит значения дискретизации, имеющие период дискретизации; и способ приема имеет способ генерирования многоканального выходного сигнала на основе базового сигнала, полученного из исходного многоканального сигнала, имеющего один или более каналов, при этом число каналов базового сигнала меньше числа каналов исходного многоканального сигнала, причем базовый сигнал организован в виде кадров, кадр содержит значения дискретизации, имеющие высокое разрешение, и на основе параметрического представления формы сигнала, представляющего форму сигнала в представлении с промежуточным разрешением для выбранного исходного канала исходного многоканального сигнала, при этом параметрическое представление формы сигнала включает в себя последовательность промежуточных параметров формы сигнала, имеющих промежуточное временное разрешение ниже упомянутого высокого временного разрешения значений дискретизации и выше низкого временного разрешения, задаваемого частотой следования кадров.

В соответствии с тринадцатым аспектом настоящего изобретения, эта цель достигается посредством компьютерной программы, имеющей программный код для осуществления любого из вышеуказанных способов, при исполнении на компьютере.

Настоящее изобретение основано на установлении того, что выбранный канал многоканального сигнала, который представляется посредством кадров, скомпонованных из значений дискретизации, имеющих высокое временное разрешение, может быть кодирован с высоким качеством, когда получают параметрическое представление формы сигнала, представляющее форму сигнала в представлении с промежуточным разрешением выбранного канала, при этом параметрическое представление формы сигнала включает в себя последовательность промежуточных параметров формы сигнала, имеющих промежуточное временное разрешение ниже упомянутого высокого временного разрешения значений дискретизации и выше низкого временного разрешения, задаваемого частотой следования кадров. Параметрическое представление формы сигналов с промежуточным разрешением может быть использовано для того, чтобы генерировать восстановленный канал, чтобы получать канал, имеющий огибающую сигнала, близкую к огибающей выбранного исходного канала. Временная шкала, на которой выполняется генерирование, точнее временной шкалы обработки касательно кадров, тем самым повышается качество восстановленного канала. С другой стороны, временная шкала генерирования более грубая, чем временная шкала значений дискретизации, чем значительно снижается объем данных, требуемый параметрическим представлением формы сигнала.

Параметрическое представление формы сигнала, подходящее для генерирования огибающей, в предпочтительном варианте осуществления содержит показатель интенсивности сигнала в качестве параметра, который указывает интенсивность сигнала в периоде дискретизации. Поскольку интенсивность сигнала в значительной степени связана с воспринимаемой громкостью сигнала, использование параметров интенсивности сигнала, следовательно, является подходящим вариантом для реализации генерирования огибающей. Два естественных параметра интенсивности сигнала - это, например, амплитуда или квадрат амплитуды, т.е. энергия сигнала.

Настоящее изобретение направлено на предоставление механизма для того, чтобы восстанавливать пространственное распределение сигналов с высокой степенью разрешения по времени и таким образом восстанавливать полное ощущение "пространственного распространения", поскольку это важно, к примеру, для сигналов аплодисментов. Важное дополнительное условие заключается в том, что улучшенные рабочие характеристики воспроизведения достигаются без недопустимо высокого увеличения объема передаваемой управляющей информации (побочной информации объемного звучания).

Настоящее изобретение, описанное в последующих разделах, относится в первую очередь к многоканальному восстановлению аудиосигналов на основе доступного сигнала понижающего микширования и дополнительных управляющих данных. На стороне кодера извлекаются пространственные параметры, представляющие многоканальные характеристики в отношении (заданного) понижающего микширования исходных каналов. Сигнал понижающего микширования и пространственное представление используются в декодере для того, чтобы воссоздавать очень похожее представление исходного многоканального сигнала посредством распределения комбинации сигнала понижающего микширования и его декоррелированной версии к восстанавливаемым каналам.

Изобретение применимо в системах, где желателен обратно совместимый сигнал понижающего микширования, таких как цифровая стереорадиопередача (DAB, спутниковое радио XM и т.д.), но также в системах, которые требуют очень компактного представления многоканального сигнала. В последующих разделах настоящее изобретение описывается в применении в рамках аудиостандарта объемного звучания MPEG. Само собой разумеется, что он также применим в рамках других систем многоканального аудиокодирования, как, к примеру, вышеупомянутые системы.

Настоящее изобретение основано на следующих соображениях:

- для оптимального воспринимаемого аудиокачества стадия синтеза объемного звучания MPEG должна не только предоставлять средство декорреляции, но также иметь возможность повторно синтезировать пространственное распределение сигнала при точной степени разрешения по времени.

- Это требует передачи побочной информации объемного звучания, представляющей пространственное распределение (огибающие канала) многоканального сигнала.

- Чтобы минимизировать требуемый битрейт для передачи отдельных временных огибающих канала, эта информация кодируется нормализованным и зависимым способом относительно огибающей сигнала понижающего микширования. Дополнительный этап энтропийного кодирования следует далее, чтобы дополнительно снизить битрейт, требуемый для передачи огибающей.

- В соответствии с этой информацией декодер объемного звучания MPEG генерирует прямой и рассеянный звук (либо комбинированный прямой/рассеянный звук), с тем, чтобы он соответствовал временной целевой огибающей. Это предоставляет независимое управление отдельными огибающими канала и воссоздает восприятие пространственного распределения с точной степенью разрешения по времени, которое очень похоже на оригинал (вместо основанной на кадрах пространственной обработки с низким разрешением посредством только методик декорреляции).

Принцип направляемого генерирования огибающих может быть применен и в спектральной, и во временной области, при этом реализация в спектральной области предоставляет меньшую вычислительную сложность.

В одном варианте осуществления настоящего изобретения выбранный канал многоканального сигнала представляется посредством параметрического представления, описывающего огибающую канала, при этом канал представляется посредством кадров значений дискретизации, имеющих высокую частоту дискретизации, т.е. высокое временное разрешение. Огибающая задается как эволюция во времени энергии, содержащейся в канале, при этом огибающая типично вычисляется для интервала времени, соответствующего длине кадра. В настоящем изобретении временной отрезок, в течение которого один параметр описывает огибающую, уменьшается относительно временной шкалы, заданной посредством кадра, т.е. временной отрезок - это промежуточный временной интервал, больший интервала дискретизации и короче длины кадра. Чтобы достичь этого, вычисляется представление с промежуточным разрешением, которое описывает кадр с меньшим временным разрешением в сравнении с разрешением, предоставляемым посредством параметров дискретизации. Огибающая выбранного канала оценивается с временным разрешением представления с низким разрешением, которое, с одной стороны, повышает временное разрешение представления с низким разрешением и, с другой стороны, уменьшает объем данных и вычислительную сложность, которая тр

Временное и пространственное генерирование многоканальных аудиосигналов

Патент 2388068