Многоканальное восстановление на основе множественной параметризации
Иллюстрации
Показать всеИзобретение относится к многоканальному восстановлению звуковых сигналов, основываясь на доступном стереосигнале и дополнительных данных управления. Многоканальный синтезатор для генерации, по меньшей мере, трех выходных каналов с использованием входного сигнала, имеющего, по меньшей мере, один базовый канал, причем базовый канал получается из исходного многоканального сигнала, причем входной сигнал дополнительно включает в себя, по меньшей мере, два различных параметра смешения с увеличением числа каналов и индикацию режима модуля смешения с увеличением числа каналов, показывающую в первом состоянии, что должно выполняться первое правило смешения с увеличением числа каналов, и показывающую во втором состоянии, что должно выполняться второе правило смешения с увеличением числа каналов, использует модуль смешения с увеличением числа каналов, предназначенный для смешения с увеличением числа каналов, по меньшей мере, одного базового канала с использованием, по меньшей мере, двух различных параметров смешения с увеличением числа каналов, основанных на первом или втором правиле смешения с увеличением числа каналов, в ответ на индикацию режима модуля повышающего смешения, так что получаются, по меньшей мере, три выходных канала. Технический результат - обеспечение более высокого качества восстановленного многоканального сигнала. 17 н. и 27 з.п. ф-лы, 21 ил.
Реферат
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Настоящее изобретение относится к многоканальному восстановлению звуковых сигналов, основываясь на доступном стереосигнале и дополнительных данных управления.
УРОВЕНЬ ТЕХНИКИ
Недавнее достижение в кодировании звуковых сигналов обеспечило возможность воссоздавать многоканальное представление звукового сигнала, основываясь на стерео- (или моно-) сигнале и на соответствующих данных управления. Указанные способы значительно отличаются от прежнего основанного на матрицах решения, как например, технологии Dolby Prologic, поскольку, чтобы управлять воссозданием, которое также называется нами повышающим смешением, передаются дополнительные данные управления каналов объемного звучания, основываясь на передаваемых моно- или стереоканалах.
Следовательно, параметрические многоканальные аудиодекодеры восстанавливают N каналов на основе M передаваемых каналов, где N>M, и на основе дополнительных данных управления. Дополнительные данные управления представляют значительно более низкую скорость передачи данных, чем передача дополнительных N-M каналов, что делает кодирование очень эффективным, в то же время гарантируя совместимость с M канальными устройствами и N канальными устройствами.
Указанные параметрические способы кодирования объемного звучания обычно содержат параметризацию сигнала объемного звучания, основываясь на IID (разности интенсивности между каналами) и ICC (когерентности между каналами). Указанные параметры описывают соотношения мощности и корреляцию между парами каналов в процессе повышающего смешения. Дополнительные параметры, также используемые в уровне техники, содержат параметры прогнозирования, используемые для прогнозирования промежуточных или выходных каналов во время процедуры повышающего смешения.
Одним из наиболее привлекательных использований способа на основе прогнозирования, как описано в уровне техники, является использование его для системы, которая воссоздает 5.1 канал из двух передаваемых каналов. В данной конфигурации доступна стереопередача на стороне декодера, которая представляет собой понижающее смешение (смешение с уменьшением) исходного многоканального сигнала. В упомянутом контексте особенно интересно иметь способность как можно точнее выделять центральный канал из стереосигнала, поскольку центральный канал обычно смешивается с понижением как к левому, так и к правому каналу понижающего смешения. Последнее осуществляется посредством оценки двух коэффициентов прогнозирования, описывающих величину каждого из двух передаваемых каналов, используемых для построения центрального канала. Указанные параметры оцениваются для различных частотных областей подобно вышеупомянутым параметрам IID и ICC.
Однако, поскольку параметры прогнозирования не описывают соотношение мощности двух сигналов, но основаны на согласовании волновой формы сигнала в смысле ошибки по методу наименьших квадратов, способ становится по своему существу чувствительным к какой-либо модификации волновой формы стереосигнала после вычисления параметров прогнозирования.
В течение последних лет дальнейшие достижения в аудиокодировании заключались во введении способов высокочастотного восстановления как очень полезного инструмента в звуковых кодеках при низких скоростях передачи в битах. Одним примером является SBR (тиражирование спектральной полосы) [WO 98/57436], которое используется в MPEG стандартизированных кодеках, таких как MPEG-4 AAC (формат аудиофайлов) высокой эффективности. Общим для указанных способов является то, что они воссоздают высокие частоты на стороне декодера из узкополосного сигнала, закодированного посредством базового центрального кодека и небольшого количества дополнительной информации управления. Подобно случаю параметрического восстановления многоканальных сигналов, основываясь на одном или двух каналах, количество данных управления, требуемых для воссоздания недостающих составляющих сигнала (в случае SBR, высокие частоты), является значительно меньшим, чем количество данных, которое потребовалось бы для кодирования всего сигнала с помощью кодека волновой формы сигнала.
Однако должно быть понятно, что воссозданный сигнал полосы высоких частот по ощущению равен исходному сигналу полосы высоких частот, тогда как действительная волновая форма сигнала значительно отличается. Более того, для кодеров волновой формы сигнала кодирующих сигналы на низких скоростях передачи в битах, обычно используется предварительная обработка, что означает, что выполняется ограничение в отношении сигнала боковой полосы в “среднем/боковом” представлении стереосигнала.
Когда желательно многоканальное представление, основанное на сигнале стереокодека, использующего MPEG-4 AAC высокой эффективности, или какого-либо другого кодека, использующего методы высокочастотного восстановления, должны рассматриваться упомянутые и другие аспекты кодека, используемого для кодирования смешанного с уменьшением стереосигнала.
Далее, общим является то, что для записи, доступной в качестве многоканального аудиосигнала, доступно специальное стереосмешение, которое не является автоматической версией смешения с уменьшением многоканального сигнала. Оно вообще называется как "художественное понижающее смешение". Упомянутое понижающее смешение не может быть выражено как линейная комбинация многоканальных сигналов.
Задачей настоящего изобретения является обеспечение улучшенной концепции многоканального кодера/понижающего смешения или декодера/повышающего смешения, которая приводит к более высокому качеству восстановленного многоканального выхода.
Указанная задача достигается посредством многоканального синтезатора согласно п.1, кодера для обработки многоканального входного сигнала согласно п.19, способа генерации по меньшей мере трех выходных каналов согласно п.33, способа кодирования согласно п.34 или закодированного многоканального сигнала согласно п.35.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Настоящее изобретение основано на открытии того, что различные параметрические представления для различных частотных или временных интервалов сигнала полезны для получения ситуаций кодирования или декодирования, которые адаптируются к различным ситуациям. Упомянутые ситуации могут возникать в результате событий кодера, таких как выполнение вычисления SBR информации или вычисления измерения энергии, используемой для компенсации потерь энергии или любого другого события. Другие ситуации, которые могут привести к различным параметрическим представлениям, могут включать в себя качество повышающего смешения (смешения с увеличением числа каналов), скорость передачи в битах понижающего смешения (смешением с уменьшением числа каналов), эффективность вычислений на стороне кодера или на стороне декодера, или, например, потребление энергии, например, различных устройств с батарейным питанием, так что для некоторого поддиапазона или кадра первая параметризация лучше, чем вторая параметризация. Естественно, целевая функция также может быть комбинацией различных отдельных целей/событий, которые описаны выше.
Предпочтительно, одно параметрическое представление включает в себя параметры для прогнозирующего повышающего смешения, основываясь на модификации волновой формы смешанного с понижением многоканального сигнала. Оно включает в себя случай, когда смешанный с понижением сигнал кодируется кодеком, выполняющим предварительную стереообработку высокочастотное восстановление и другие схемы кодирования, которые значительно модифицируют волновую форму сигнала. Более того, изобретение посвящено проблеме, которая возникает, когда методы прогнозирующего повышающего смешения используются для художественного понижающего смешения, то есть сигнал понижающего смешения автоматически не получается из многоканального сигнала.
Предпочтительно, настоящее изобретение содержит следующие признаки:
- оценка параметров прогнозирования на основе модифицированной волновой формы сигнала вместо волновой формы смешанного с понижением сигнала;
- использование способов, основанных на прогнозировании, только в частотных диапазонах, где они выгодны;
- коррекция потерь энергии и неточной корреляции между каналами, вносимых в процедуре повышающего смешения, основанного на прогнозировании.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Ниже изобретение поясняется описанием конкретных вариантов его осуществления со ссылками на сопровождающие чертежи, на которых:
фиг.1 иллюстрирует основанное на прогнозировании восстановление трех каналов из двух каналов,
фиг.2 иллюстрирует прогнозирующее повышающее смешение с компенсацией энергии,
фиг.3 иллюстрирует компенсацию энергии в прогнозирующем повышающем смешении,
фиг.4 иллюстрирует устройство оценки параметра прогнозирования на стороне кодера с компенсацией энергии смешанного с понижением сигнала,
фиг.5 иллюстрирует прогнозирующее повышающее смешение с восстановлением корреляции,
фиг.6 иллюстрирует модуль смешения для смешения декоррелированного сигнала со смешанным с повышением сигналом в повышающем смешении с восстановлением корреляции,
фиг.7 иллюстрирует альтернативный модуль смешения для смешения декоррелированного сигнала с смешанным с повышением сигналом в повышающем смешении с восстановлением корреляции,
фиг.8 иллюстрирует оценку параметра прогнозирования на стороне кодера,
фиг.9 иллюстрирует оценку параметра прогнозирования на стороне кодера,
фиг.10 иллюстрирует изобретательский многопараметрический сценарий,
фиг.11 иллюстрирует устройство повышающего смешения,
фиг.12 иллюстрирует энергетическую диаграмму, показывающую результат повышающего смешения, вносящего потери энергии, и предпочтительной компенсации,
фиг.13 - таблица способов компенсации энергии,
фиг.14а - схематическая диаграмма предпочтительного многоканального кодера,
фиг.14б - блок схема способа, выполняемого устройством согласно фиг.14а,
фиг.15а - многоканальный кодер, имеющий функциональные возможности тиражирования спектральной полосы для генерации различной параметризации, сравниваемой с устройством на фиг.14а,
фиг.15б - иллюстрация в виде таблиц частотно-избирательной генерации и передачи параметрических данных, и
фиг.16а - декодер, иллюстрирующий вычисление матричных коэффициентов повышающего смешения,
фиг.16б - подробное описание вычисления параметров для прогнозирующего повышающего смешения,
фиг.17 - передатчик и приемник системы передачи и
фиг.18 - устройство звукозаписи, имеющее кодер, и аудиоплеер, имеющий декодер.
ПОДРОБНОЕ ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ
Описанные ниже варианты осуществления являются просто иллюстративными для принципов настоящего изобретения. Понятно, что для специалистов будут очевидны модификации и вариации описанных здесь компоновок и деталей. Следовательно, имеется намерение ограничиваться только рамками предстоящей формулы изобретения, а не специфическими деталями, представленными здесь описанием и объяснением вариантов осуществления.
Подчеркивается, что последующие вычисления параметров, приложение на практике, повышающее смешение (с увеличением числа каналов), понижающее смешение (с уменьшением числа каналов) или какие-либо действия могут выполняться на основе избирательной полосы частот, то есть для поддиапазонов в гребенке фильтров.
Чтобы обрисовать преимущества настоящего изобретения, сначала дается более подробное описание прогнозирующего повышающего смешения, известного в уровне техники. Предположим, имеется некоторое повышающее смешение трех каналов, основанное на двух каналах понижающего смешения (смешения с уменьшением), как показано на фиг.1, где 101 представляет собой левый исходный канал, 102 представляет собой центральный исходный канал, 103 представляет собой правый исходный канал, 104 представляет собой модуль понижающего смешения и выделения параметра на стороне кодера, 105 и 106 представляют собой параметры прогнозирования, 107 представляет собой левый смешанный с понижением канал, 108 представляет собой правый смешанный с понижением канал, 109 представляют собой модуль прогнозирующего повышающего смешения (смешения с увеличением), и 110, 111 и 112 представляют собой восстановленные левый, центральный и правый канал, соответственно.
Примем следующие определения: X представляет собой матрицу 3xL, содержащую в качестве строк три сегмента сигнала l(k), r(k), c(k), k=0,...,L-l.
Подобным образом, пусть два смешанных с понижением сигнала l0(k), r0(k) формируют строки X0. Процесс понижающего смешения описывается выражением:
где матрица понижающего смешения задается выражением:
Предпочтительный выбор матрицы понижающего смешения представляет собой:
что означает, что левый сигнал понижающего смешения l0(k) будет содержать только l(k) и αc(k), а правый сигнал понижающего смешения r0(k) будет содержать только r(k) и αc(k). Указанная матрица понижающего смешения (смешения с уменьшением) является предпочтительной, поскольку она назначает равную величину центрального канала левому и правому понижающему смешению, и поскольку она не назначает никакого исходного правого канала левому понижающему смешению или наоборот.
Повышающее смешение задается выражением:
где C представляет собой матрицу 3x2 повышающего смешения.
Прогнозирующее повышающее смешение, известное из уровня техники, основано на идее решения переопределенной системы
для C в смысле метода наименьших квадратов. Последнее приводит к нормальным уравнениям:
Умножение (6) слева на D дает DCX0X0 *=X0X0 *, что в общем случае, когда X0X0 *=DXX*D* является невырожденным, влечет за собой
где In обозначает n единичную матрицу. Это соотношение снижает пространство C параметров до размерности два.
Задавая вышеупомянутые условия, матрица
повышающего смешения может быть полностью задана на стороне декодера, если известна матрица D понижающего смешения, и передаются два элемента матрицы C, например c11 и c22.
Остаточные сигналы (ошибка прогнозирования) задаются выражением:
Умножение слева на D дает
из-за (7). Отсюда следует, что имеется сигнал xr вектора-строки 1 x L такой, что
где v представляет собой единичный вектор 3x1, стягивающий кернфункцию (нулевое пространство) D.
Например, в случае понижающего смешения (3), можно использовать выражение:
В основном, когда
и
,
это означает, что вплоть до весового множителя, остаточный сигнал является общим для всех трех каналов,
Благодаря принципу ортогональности, остаточный сигнал xr(k) является ортогональным ко всем трем прогнозированным сигналам
РЕШЕННЫЕ ПРОБЛЕМЫ И УЛУЧШЕНИЯ, ПОЛУЧЕННЫЕ ПОСРЕДСТВОМ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ НАСТОЯЩЕГО ИЗОБРЕТЕНИЯ
Очевидно, когда, согласно уровню техники используется повышающее смешение (смешение с увеличением), основанное на прогнозировании, возникают следующие проблемы, сформулированные в общих чертах выше:
- Способ основан на согласовании волновой формы сигнала в смысле ошибки по методу наименьших квадратов, что не работает для систем, где не поддерживается волновая форма сигнала смешанных с понижением сигналов.
- Способ не обеспечивает правильной структуры корреляции между восстановленными каналами (как будет описано ниже).
- Способ не восстанавливает правильное количество энергии в восстановленных каналах.
КОМПЕНСАЦИЯ ЭНЕРГИИ
Как упоминалось выше, одной из проблем с многоканальным восстановлением, основанном на прогнозировании, является то, что ошибка прогнозирования соответствует потерям энергии трех восстановленных каналов. Ниже обрисована теория для упомянутых потерь энергии и решение согласно предпочтительным вариантам осуществления. Во-первых, выполняется теоретический анализ, и затем дается предпочтительный вариант осуществления настоящего изобретения согласно описанной ниже теории.
Пусть Е, К, Еr представляют собой суммы энергий исходных сигналов в X, прогнозированных сигналов в и сигналов ошибок прогнозирования в Xr, соответственно. Из ортогональности следует, что
Суммарный коэффициент усиления прогнозирования может быть задан как
но впоследствии будет более удобно рассматривать параметр
Следовательно,
измеряет суммарную относительную энергию прогнозирующего повышающего смешения.
При заданном ρ, возможно перестраивать каждый канал путем применения коэффициента усиления компенсации,
так что
для z=l, r, c. В частности, целевая энергия дается выражением (12),
так что необходимо решить
Здесь, поскольку v - единичный вектор,
и из определения (14) параметра ρ и из выражения (13) следует, что
Складывая все, приходим к коэффициенту усиления
Очевидно, что при таком способе в дополнение к передаче ρ на декодере должно вычисляться распределение энергии декодированных каналов. Более того, энергии восстанавливаются правильно, тогда как структура корреляции вне диагонали игнорируется.
Можно получить значение коэффициента усиления, которое гарантирует, что суммарная энергия сохраняется, не гарантируя при этом, что энергия отдельных каналов является надлежащей. Общий коэффициент усиления для всех каналов gz=g, который гарантирует, что суммарная энергия консервируется, получается посредством задания уравнения g2К=E. То есть
Посредством линейности указанный коэффициент усиления может быть применен в кодере к смешиваемым с понижением сигналам, так что не нужно передавать дополнительный параметр.
Фиг.2 в общих чертах изображает предпочтительный вариант осуществления настоящего изобретения, который воссоздает три канала, при этом поддерживая надлежащую энергию выходных каналов. Смешанные с понижением сигналы l0 и r0 вводятся в модуль 201 повышающего смешения, наряду с параметрами прогнозирования c1 и c2. Модуль понижающего смешения воссоздает матрицу C повышающего смешения на основе знания о матрице D понижающего смешения и принятых параметров прогнозирования. Три выходных канала из модуля 201 вводятся в 202 наряду с параметром ρ настройки. Три канала регулируются по усилению как функция передаваемого параметра ρ, и выводятся каналы с корректированной энергии.
На фиг.3 отображается более подробный вариант осуществления модуля 202 настройки. Три смешанных с понижением сигнала вводятся в модуль 304, а также в модуль 301, 302 и 303, соответственно. Модули 301-303 оценки энергии оценивают энергию трех смешанных с повышением сигналов и вводят измеренную энергию в модуль 304 настройки. Сигнал управления ρ (представляющий коэффициент усиления прогнозирования), принятый из кодера, также водится в 304. Модуль настройки выполняет уравнение (19), описанное выше.
В альтернативном варианте воплощения настоящего изобретения коррекция энергии может быть выполнена на стороне кодера. Фиг.4 иллюстрирует воплощение кодера, в котором смешанные с понижением сигналы l0 107 и r0 108 настраиваются по усилению модулями 401 и 402 согласно значению коэффициента усиления, вычисленному модулем 403. Значение коэффициента усиления получается согласно вышеупомянутому уравнению (20). Как коротко описано выше, последнее является достоинством данного варианта осуществления настоящего изобретения, поскольку необязательно вычислять энергию трех воссозданных каналов из прогнозирующего повышающего смешения. Однако тем самым гарантируется только то, что суммарная энергия трех воссозданных каналов является надлежащей. Это не гарантирует, что энергия отдельных каналов является надлежащей.
Предпочтительный пример для матрицы понижающего смешения, соответствующей уравнению (3), приводится ниже модуля понижающего смешения на фиг.4. Однако модуль понижающего смешения может применять любую обычную матрицу понижающего смешения, как формулируется в уравнении (2).
Как описано ниже, для настоящего случая модуля понижающего смешения, имеющего в качестве ввода три канала, и имеющего в качестве вывода два канала, требуется по меньшей мере два дополнительных параметра c1, c2 смешения с уменьшением. Когда матрица D понижающего смешения является варьируемой или полностью неизвестной для декодера, со стороны кодера на сторону декодера также должна передаваться дополнительная информация об используемом понижающем смешении, в дополнение к параметрам 105 и 106.
СТРУКТУРА КОРРЕЛЯЦИИ
Одной из проблем, связанных с процедурой смешения с увеличением, описанных в уровне техники, является то, что эта процедура не восстанавливает надлежащую корреляцию между двумя воссозданными каналами. Поскольку, как описано выше, центральный канал прогнозируется в качестве линейной комбинации левого канала смешения с понижением и правого канала смешения с понижением, а левый и правый каналы восстанавливаются путем вычитания прогнозированного центрального канала из левого и правого каналов понижающего смешения. Очевидно, что ошибка прогнозирования будет приводить к остаткам исходного центрального канала в прогнозированном левом и правом канале. Тем самым подразумевается, что корреляции между тремя каналами являются неодинаковыми для восстановленных каналов и для исходных трех каналов.
Предпочтительный вариант осуществления показывает, что три прогнозированных канала могли бы быть объединены с декоррелированными сигналами согласно измеренной ошибке прогнозирования.
Ниже излагается базовая теория для достижения надлежащей структуры корреляции. Спектральная структура остатка может быть использована для восстановления полной 3х3 структуры корреляции XX* путем вычитания декоррелированного сигнала xd для остатка в декодере.
Во-первых, заметим, что нормальные уравнения (6) приводят к XrX0 * так, что
Следовательно, поскольку X=+Xr, то
где (10) и (17) применялись для последнего равенства.
Пусть xd представляет собой сигнал, декоррелированный из всех декодированных сигналов Î, ŕ, ĉ так, что xr *=0. Тогда улучшенный сигнал
имеет корреляционную матрицу
Чтобы полностью сократить исходную корреляционную матрицу (22), достаточно, чтобы
Если xd получается путем декорреляции смешанного с понижением сигнала, скажем
после чего следует коэффициент усиления γ, то должно быть понятно, что
Указанный коэффициент усиления может быть вычислен в кодере. Однако, если нужно использовать более точно определенный параметр
из выражения (14), то оценка
должна выполняться в декодере. В свете этого, есть более привлекательная альтернатива генерировать xd, используя три декоррелятора
поскольку тогда
так что равенство (25) удовлетворяется посредством выбора
Фиг.5 иллюстрирует один вариант осуществления настоящего изобретения для прогнозирующего повышающего смешения (смешения с увеличением) трех каналов из двух смешанных с понижением каналов, при этом поддерживая надлежащую структуру корреляции между каналами. На фиг.5 модули являются 109, 110, 111 и 112 такими же, как на фиг.1, и не будут здесь подробно рассматриваться. Три смешанных с повышением сигнала, которые выводятся из 109, вводятся в модули 501, 502 и 503 декорреляции. Они генерируют взаимно декоррелированные сигналы. Декоррелированные сигналы суммируются и вводятся в модули 504, 505 и 506 смешения, где они смешиваются с выходным сигналом из 109. Смешение прогнозирующих смешанных с повышением сигналов с их декоррелированными версиями является существенным признаком настоящего изобретения. На фиг.6 отображается один вариант осуществления модулей 504, 505 и 506 смешения. В этом варианте осуществления настоящего изобретения уровень декоррелированного сигнала регулируется модулем 601 на основе сигнала управления γ. Декоррелированный сигнал впоследствии прибавляется к прогнозирующему смешанному с повышением сигналу в модуле 602.
Третий предпочтительный вариант осуществления использует декорреляторы 501, 502, 503 для смешанных с повышением каналов. Декоррелированный сигнал также может генерироваться декоррелятором 501′, который принимает в качестве входного сигнала смешанный с понижением канал или даже все смешанные с понижением каналы. Более того, в случае более одного смешанного с понижением канала, как показано на фиг.5, сигнал декорреляции также может генерироваться посредством отдельных декорреляторов для левого базового канала l0 и правого базового канала r0, и посредством объединения выхода этих отдельных декорреляторов. Эта возможность по существу такая же, как возможность, показанная на фиг.5, но имеет разницу по сравнению с возможностью, показанной на фиг.5, в том, что перед повышающим смешением используются базовые каналы.
Более того, в связи с фиг.5, излагается, что модули 504, 505 и 506 смешения не только принимают множитель γ, который равен для всех трех каналов, поскольку этот множитель зависит только от измерения энергии ρ, но также принимает специфический для канала множитель νl, νc и νr, который определяется, как описано в связи с уравнениями (10) и (11). Однако данный параметр не должен передаваться из кодера в декодер, когда декодер знает понижающее смешение, используемое в кодере. Вместо этого указанные параметры в матрице v, как показано в уравнениях (10) и (11), предпочтительно предварительно программируются в модули 504, 505 и 506 смешения, так чтобы эти специфические для канала весовые множители не должны были передаваться (но конечно могли бы передаваться, когда требуется).
На фиг.6, показано, что взвешивающее устройство 601 регулирует энергию декоррелированного сигнала, используя произведение γ и параметра νz, специфического для канала и зависимого от понижающего смешения, в котором z устанавливается для l, r или c. В этом контексте можно отметить, что уравнение (26a) гарантирует, что энергия xd равна сумме энергий смешанных с повышением прогнозируемым образом левого, правого и центрального каналов. Следовательно, устройство 601 может просто быть воплощено как преобразователь масштаба, использующий масштабирующий множитель GI. Однако, когда декоррелированный сигнал генерируется альтернативно, модуль 504, 505, 506 смешения должен выполнять регулировку абсолютной энергии, сумированной суммирующим устройством 602 так, чтобы энергия сигнала, сумированная в сумматоре 602, была равна энергии остаточного сигнала, например, энергии, которая теряется за счет прогнозирующего повышающего смешения, не сохраняющего энергию.
Что касается специфического для канала и зависимого от понижающего смешения параметра νz, то те же комментарии, которые описаны относительно фиг.6, также применимы для варианта осуществления фиг.7.
Более того, следует отметить, что варианты осуществления фиг.6 и фиг.7 основаны на том, что, по меньшей мере, часть потерь энергии в прогнозирующем повышающем смешении суммируется с использованием сигнала декорреляции. Чтобы иметь надлежащие энергии сигналов и надлежащие доли «сухой» составляющей сигнала (некоррелированный сигнал) и «сырой» составляющей сигнала (декоррелированный), нужно гарантировать, что «сухой» сигнал, вводимый в модуль 504 смешения, не является предварительно масштабированным. Например, когда базовые каналы предварительно корректируются на стороне декодера (как показано на фиг.4), тогда эта предварительная коррекция (фиг.4) должна быть скомпенсирована посредством умножения канала на (относительное) измерение энергии перед вводом канала в модули 504, 505 и 506 смешения. Дополнительно, такая же процедура должна выполняться, когда такая же коррекция энергии выполняется на стороне декодера перед поступлением смешанных с понижением каналов в модуль 109 повышающего смешения, как показано на фиг.5.
Когда только часть остаточной энергии должна быть охвачена декоррелированным сигналом, предварительная коррекция должна быть удалена только частично посредством предварительного масштабирования сигнала, вводимого в модули 504, 505 и 506 смешения, посредством ρ-зависимого множителя, который ближе к единице, чем сам множитель ρ. Естественно, упомянутый частично компенсирующий предварительный масштабирующий множитель будет зависеть от генерированного кодером сигнала κ, вводимого на шаге 605 на фиг.7. Когда должно выполняться такое частичное предварительное масштабирование, тогда весовой множитель, применяемый в G2, не является обязательным. Вместо этого ответвление от входа 904 к сумматору 602 будет таким же, как на фиг.6.
УПРАВЛЕНИЕ СТЕПЕНЬЮ ДЕКОРРЕЛЯЦИИ
Предпочтительный вариант осуществления изобретения предписывает, что величина декорреляции, прибавленная к прогнозированным смешанным с повышением сигналам, может управляться из кодера, с поддержанием по-прежнему при этом надлежащей выходной энергии. Это так, поскольку в типичном примере «интервью» «сухой» речи в центральном канале, и окружения в левом и правом каналах, может быть нежелательна подстановка декоррелированного сигнала для получения ошибки прогнозирования в центральном канале.
Согласно предпочтительному варианту осуществления настоящего изобретения может быть использована процедура смешения, альтернативная описанной на фиг.5. Ниже показано, как согласно настоящему изобретению могут быть разделены проблемы сохранения суммарной энергии и воспроизведения истинной корреляции и как величина декорреляции может управляться параметром κ.
Допустим, что компенсация (20) коэффициента усиления сохранения суммарной энергии выполнялась на смешанном с понижением сигнале, так что сначала получается декодированный сигнал /ρ. Из него производится декоррелированный сигнал d с такой же суммарной энергией
например, путем использования трех декорреляторов, как в предыдущем разделе. Затем определяется суммарное повышающее смешение согласно выражению
где
представляет собой передаваемый параметр. Выбор κ=1 соответствует сохранению суммарной энергии без прибавления декоррелированного сигнала, а κ=ρ соответствует полному воспроизведению структуры корреляции 3х3. Имеется выражение
так, что суммарная энергия сохраняется для всех
как можно видеть это из вычисления следов (сумма диагональных значений) матриц в (30). Однако надлежащая отдельная энергия получается только для κ=ρ.
Фиг.7 иллюстрирует вариант осуществления модулей 504, 505 и 506 смешения по фиг.5 согласно вышеописанной теории. В этом альтернативном варианте модулей смешения параметр γ управления вводится в модули 702 и 701. Коэффициент усиления, используемый для 702, соответствует κ согласно вышеприведенному уравнению (29), и коэффициент усиления, используемый для 701, соответствует
согласно вышеприведенному уравнению (29).
Вышеописанный вариант осуществления настоящего изобретения позволяет системе использовать механизм детектирования на стороне кодера, который оценивает величину декорреляции, которая должна прибавляться в повышающем смешении, основанном на прогнозировании. Реализация, описанная на фиг.7, будет прибавлять коррекцию энергии так, чтобы суммарная энергия трех каналов была надлежащей, при этом сохраняя способность заменять произвольную величину ошибки прогнозирования на декоррелированный сигнал.
Это значит, что например, с тремя сигналами окружающего звука, например, классическая музыкальная пьеса, с большим количеством «окружающих» сигналов, кодер может детектировать недостаток «сухого» центрального канала, и декодеру необходимо заменить полную ошибку прогнозирования декоррелированным сигналом, таким образом воссоздавая окружение звука из трех каналов, способом, который не был бы возможен только со способами уровня техники, основанными на прогнозировании. Более того, для сигнала с сухим центральным каналом, например, речи в центральном канале и окружающими звуками в левом и правом каналах, кодер детектирует, что замена ошибки прогнозирования декоррелированным сигналом не является корректной с точки зрения психофизиологии слухового восприятия, и вместо этого декодеру следует регулировать уровни трех восстановленных каналов так, чтобы энергия трех каналов была надлежащей. Очевидно, два крайних вышеперечисленных примера представляют два возможных исхода изобретения. Оно не ограничивается охватом только крайних случаев, описанных в вышеперечисленных примерах.
АДАПТАЦИЯ КОЭФФИЦИЕНТОВ ПРОГНОЗИРОВАНИЯ К МОДИФИЦИРОВАННЫМ ВОЛНОВЫМ ФОРМАМ СИГНАЛОВ
Как описано выше, параметры прогнозирования оцениваются посредством минимизации среднеквадратичной ошибки, имея три исходных канала X и матрицу D понижающего смешения. Однако во многих ситуациях нельзя полагаться на то, что смешанный с понижением сигнал может быть описан как матрица D понижающего смешения, умноженная на матрицу X, описывающую исходный многоканальный сигнал.
Один из очевидных примеров этого имеет место, когда используется так называемое «художественное понижающее смешение», то есть понижающее смешение не может быть описано в виде линейной комбинации многоканального сигнала. Другой пример имеет место, когда смешанный с понижением си