Аудиокодер, аудиодекодер и связанные способы обработки многоканальных аудиосигналов с использованием комплексного предсказания

Иллюстрации

Показать все

Изобретение относится к средствам кодирования и декодирования. Технический результат заключается в повышении качества аудиосигнала. Комбинируют два аудиоканала для получения первого комбинированного сигнала в качестве среднего сигнала и остаточного сигнала, который может быть выведен с использованием предсказанного бокового сигнала, выведенного из среднего сигнала. Первый комбинированный сигнал и остаточный сигнал предсказания кодируются и записываются в поток данных вместе с информацией о предсказании, выведенной оптимизатором на основании цели оптимизации. Декодер использует остаточный сигнал предсказания, первый комбинированный сигнал и информацию о предсказании для получения декодированного сигнала первого канала и декодированного сигнала второго канала. В примере кодера или в примере декодера вещественно-мнимое преобразование может применяться для оценки мнимой части спектра первого комбинированного сигнала. Для расчета сигнала предсказания, вещественнозначный первый комбинированный сигнал умножается на вещественную часть комплексной информации о предсказании, а оцененная мнимая часть первого комбинированного сигнала умножается на мнимую часть комплексной информации о предсказании. 6 н. и 16 з.п. ф-лы, 20 ил.

Реферат

Настоящее изобретение относится к аудиообработке, в частности к многоканальной аудиообработке многоканального сигнала, содержащего сигналы двух или более каналов.

В области многоканальной или стереофонической обработки известно, что следует применять так называемое стереофоническое кодирование средним/боковым сигналами. В этой концепции комбинация сигнала левого или первого аудиоканала и сигнала правого или второго аудиоканала формируется для получения среднего или монофонического сигнала M. Дополнительно, разность между сигналом левого или первого канала и сигналом правого или второго канала формируется для получения бокового сигнала S. Этот способ кодирования средним/боковым сигналами дает в результате значительный выигрыш от кодирования, когда левый сигнал и правый сигнал до некоторой степени подобны друг другу, поскольку боковой сигнал будет становиться довольно небольшим. Типично, выигрыш от кодирования каскада квантователя/энтропийного кодера будет становиться более высоким, когда становится меньшим диапазон значений, которые должны подвергаться квантованию/энтропийному кодированию. Отсюда, что касается PCM или основанного на кодах Хаффмана, либо арифметического энтропийного кодера, выигрыш от кодирования возрастает, когда становится меньшим боковой сигнал. Однако существуют определенные ситуации, в которых кодирование средним/боковым сигналами не будет давать в результате выигрыш от кодирования. Ситуация может возникать, когда сигналы в обоих каналах сдвинуты по фазе по отношению друг к другу, например, на 90°. В таком случае средний сигнал и боковой сигнал могут быть до некоторой степени в подобном диапазоне, а потому кодирование среднего сигнала и бокового сигнала с использованием энтропийного кодера не будет давать в результате выигрыша от кодирования и даже может иметь следствием повышенную скорость передачи битов. Поэтому избирательное по частоте кодирование средним/боковым сигналами может применяться, для того чтобы деактивировать кодирование средним/боковым сигналами в полосах, например, где боковой сигнал не становится меньшим до определенной степени по отношению к исходному левому сигналу.

Хотя боковой сигнал будет становиться нулевым, когда левый и правый сигналы идентичны, давая в результате максимальный выигрыш от кодирования вследствие устранения бокового сигнала, ситуация снова становится иной, когда средний сигнал и боковой сигнал идентичны в отношении профиля или формы сигнала, но единственной разницей между обоими сигналами являются их полные амплитуды. В этом случае, когда дополнительно предполагается, что боковой сигнал не имеет фазового сдвига по отношению к среднему сигналу, боковой сигнал значительно увеличивается, хотя, с другой стороны, средний сигнал не увеличивается настолько сильно в отношении своего диапазона значений. Когда возникает такая ситуация в определенной полосе частот, то вновь следовало бы деактивировать кодирование средним/боковым сигналами вследствие потери выигрыша от кодирования. Кодирование средним/боковым сигналами может применяться избирательно по частоте или, в качестве альтернативы, может применяться во временной области.

Существуют альтернативные технологии многоканального кодирования, которые не полагаются на разновидность подхода к форме сигнала в качестве кодирования средним/боковым сигналами, но которые полагаются на параметрическую обработку, основанную на определенных бинауральных контрольных сигналах. Такие технологии известны под названием «кодирование бинауральными контрольными сигналами», «параметрическое стереофоническое кодирование» или «кодирование объемного звучания MPEG». Здесь определенное число контрольных сигналов рассчитывается для множества полос частот. Эти контрольные сигналы включают в себя межканальные разности уровней, показатели межканальной когерентности, межканальные разновременности и/или межканальные разности фаз. Эти подходы начинаются с предположения, что многоканальное впечатление, ощущаемое слушателем, не обязательно полагается на детализированные формы сигналов двух каналов, но полагается на точную избирательность по частоте при условии контрольных сигналов или межканальной информации. Это означает, что в машине воспроизведения должно быть уделено внимание воспроизведению многоканальных сигналов, которые точно отражают контрольные сигналы, но формы сигналов не имеют решающего значения.

Этот подход может быть особенно сложным в случае, когда декодер должен применять обработку декорреляцией, для того чтобы искусственно создавать стереофонические сигналы, которые декоррелированы друг от друга, хотя все эти каналы выводятся из одного и того же канала понижающего микширования. Декорреляторы для этой цели, в зависимости от своей реализации, сложны и могут привносить артефакты, особенно в случае переходных участков сигнала. Дополнительно, в противоположность кодированию формы сигнала, подход с параметрическим кодированием является вносящим потери подходом к кодированию, который неизбежно приводит к потере информации, вызванной не только типичным квантованием, но также привнесенной из-за наблюдения главным образом за бинауральными контрольными сигналами, нежели за конкретными формами сигналов. Этот подход дает в результате очень низкие скорости передачи битов, но может включать в себя ухудшения качества.

Существуют последние разработки для унифицированного кодирования речи и аудиосигналов (USAC), проиллюстрированного на фиг.7a. Основной декодер 700 выполняет операцию декодирования кодированного стереофонического сигнала на входе 701, который может быть кодирован средним/боковым сигналами. Основной декодер выдает средний сигнал на линии 702 и боковой сигнал или остаточный сигнал на линии 703. Оба сигнала преобразуются в область QMF гребенками 704 и 705 фильтров QMF. Затем декодер 706 объемного звучания MPEG применяется для формирования сигнала 707 левого канала и сигнала 708 левого канала. Эти низкополосные сигналы впоследствии вводятся в декодер 709 повторения спектральной полосы (SBR), который создает широкополосные левый и правый сигналы на линиях 710 и 711, которые затем преобразуются во временную область посредством гребенок 712, 713 фильтров синтеза QMF, так чтобы получались широкополосные левый и правый сигналы L, R.

Фиг.7b иллюстрирует ситуацию, когда декодер 706 объемного звучания MPEG выполнял бы декодирование среднего/бокового сигналов. В качестве альтернативы, блок 706 декодера объемного звучания MPEG мог бы выполнять основанное на бинауральных контрольных сигналах параметрическое декодирование для формирования стереофонических сигналов из одиночного монофонического сигнала основного декодера. Естественно, декодер 706 объемного звучания MPEG также мог бы формировать множество низкополосных выходных сигналов, которые должны вводиться в блок 709 декодера SBR, с использованием параметрической информации, такой как межканальная разность уровней, показатели межканальной когерентности или другие межканальные информационные параметры.

Когда блок 706 декодера объемного звучания MPEG выполняет декодирование среднего/бокового сигналов, проиллюстрированное на фиг.7b, может применяться вещественный коэффициент g усиления, а DMX/RES и L/R являются сигналом понижающего микширования/остаточным сигналом и левым/правым сигналами, соответственно, представленными в области комплексного гибридного QMF.

Использование комбинации блока 706 и блока 709 вызывает лишь небольшое увеличение вычислительной сложности по сравнению со стереофоническим декодером, используемым в качестве основы, так как комплексное представление QMF сигнала уже имеется в распоряжении в качестве части декодера SBR. В конфигурации без SBR, однако, основанное на QMF стереофоническое кодирование, как предложенное в контексте USAC, давало бы в результате значительное увеличение вычислительной сложности вследствие необходимых гребенок QMF, которые в этом примере потребовали бы 64-полосных гребенок анализа и 64-полосных гребенок синтеза. Эти гребенки фильтров должны были бы добавляться только с целью стереофонического кодирования.

В находящейся на стадии разработки системе USAC MPEG, однако, также существуют режимы кодирования на высоких скоростях передачи битов, где SBR типично не используется.

Цель настоящего изобретения состоит в том, чтобы предложить улучшенную концепцию обработки аудиосигналов, которая, с одной стороны, дает высокий выигрыш от кодирования, а, с другой стороны, дает в результате хорошее качество аудиосигнала и/или уменьшенную вычислительную сложность.

Эта цель достигается аудиодекодером в соответствии с пунктом 1 формулы изобретения, аудиокодером в соответствии с пунктом 15 формулы изобретения, способом декодирования аудиосигнала в соответствии с пунктом 21 формулы изобретения, способом кодирования аудиосигнала в соответствии с пунктом 22 формулы изобретения, компьютерной программой в соответствии с пунктом 23 формулы изобретения или кодированным многоканальным аудиосигналом в соответствии с пунктом 24 формулы изобретения.

Настоящее изобретение полагается на полученные сведения, что выигрыш от кодирования подхода к высококачественному кодированию формы сигнала может быть значительно увеличен за счет предсказания второго комбинированного сигнала с использованием первого комбинированного сигнала, где оба комбинированных сигнала выводятся из исходных сигналов канала с использованием правила комбинирования, такого как правило комбинирования среднего/бокового сигналов. Было обнаружено, что эта информация о предсказании, которая вычисляется предсказателем в аудиокодере так, чтобы была удовлетворена цель оптимизации, вызывает лишь небольшие издержки, но дает в результате значительное увеличение скорости передачи битов, требуемой для разностного сигнала, без потери какого бы то ни было качества аудиосигнала, поскольку предсказание согласно настоящему изобретению, тем не менее, является основанным на форме сигнала кодированием, а не основанным на параметрах подходом к стереофоническому или многоканальному кодированию. Для того чтобы снизить вычислительную сложность, предпочтительно выполнять кодирование в частотной области, причем информация о предсказании выводится из входных данных частотной области избирательным по полосе образом. Алгоритм преобразования для преобразования представления во временной области в спектральное представление предпочтительно является критически дискретизированным процессом, таким как модифицированное дискретное косинусное преобразование (MDCT) или модифицированное дискретное синусное преобразование (MDST), которое отлично от комплексного преобразования по той причине, что рассчитываются только вещественные значения или только мнимые значения, в то время как в комплексном преобразовании рассчитываются вещественные и комплексные значения спектра, давая в результате 2-кратную избыточную дискретизацию.

Предпочтительно, используется преобразование, основанное на привнесении и подавлении наложения спектров. MDCT, в частности, является таким преобразованием и предоставляет возможность перекрестного затухания между последующими блоками без каких бы то ни было издержек, обусловленных широко известным свойством подавления наложения спектров во временной области (TDAC), которое получается обработкой наложения-сложения на стороне декодера.

Предпочтительно, информация о предсказании, рассчитанная в кодере, передаваемая в декодер и используемая в декодере, содержит мнимую часть, которая преимущественно может отражать разности фаз между двумя аудиоканалами в произвольно выбранных величинах между 0° и 360°. Вычислительная сложность значительно уменьшается, только когда применяется вещественнозначное преобразование или, в общем, преобразование, которое дает только вещественный спектр или дает только мнимый спектр. Для того чтобы воспользоваться мнимой информацией о предсказании, которая указывает фазовый сдвиг между определенной полосой левого сигнала и соответствующей полосой правого сигнала, вещественно мнимый преобразователь или, в зависимости от реализации преобразования, мнимо-вещественный преобразователь предусмотрен в декодере, для того чтобы рассчитывать остаточный сигнал предсказания по первому комбинированному сигналу, который повернут по фазе относительно исходного комбинированного сигнала. Этот повернутый по фазе остаточный сигнал предсказания затем может комбинироваться с остаточным сигналом предсказания, переданным в битовом потоке, для восстановления бокового сигнала, который может комбинироваться со средним сигналом, чтобы получать декодированный левый канал в определенной полосе и декодированный правый канал в этой полосе.

Для повышения качества аудиосигнала, такой же вещественно-мнимый или мнимо-вещественный преобразователь, который применяется на стороне декодера, также реализован на стороне кодера, когда остаточный сигнал предсказания рассчитывается в кодере.

Настоящее изобретение является полезным по той причине, что оно дает улучшенное качество аудиосигнала и сниженную скорость передачи битов по сравнению с системами, имеющими такую же скорость передачи битов или имеющими такое же качество аудиосигнала.

Дополнительно, получаются преимущества в отношении вычислительной эффективности унифицированного стереофонического кодирования в системе USAC MPEG на высоких скоростях передачи битов, где типично не используется SBR. Вместо обработки сигнала в области комплексных гибридных QMF, эти подходы реализуют основанное на остаточном сигнале стереофоническое кодирование с предсказанием в унаследованной области MDCT лежащего в основе кодера стереофонического преобразования.

В соответствии с аспектом настоящего изобретения, настоящее изобретение содержит устройство или способ формирования стереофонического сигнала посредством комплексного предсказания в области MDCT, при этом комплексное предсказание выполняется в области MDCT с использованием вещественно-комплексного преобразования, причем этот стереофонический сигнал может быть либо кодированным стереофоническим сигналом на стороне кодера, либо, в качестве альтернативы, быть декодированным/переданным стереофоническим сигналом, когда устройство или способ формирования стереофонического сигнала применяются на стороне декодера.

Предпочтительные варианты осуществления настоящего изобретения впоследствии обсуждены со ссылкой на прилагаемые чертежи, на которых:

фиг.1 - схема предпочтительного варианта осуществления аудиодекодера;

фиг.2 - структурная схема предпочтительного варианта осуществления аудиокодера;

фиг.3a иллюстрирует реализацию вычислителя кодера по фиг.2;

фиг.3b иллюстрирует альтернативную реализацию вычислителя кодера по фиг.2;

фиг.3c иллюстрирует правило комбинирования среднего/бокового сигналов, которое должно применяться на стороне кодера;

фиг.4a иллюстрирует реализацию вычислителя декодера по фиг.1;

фиг.4b иллюстрирует альтернативную реализацию вычислителя декодера в виде матричного вычислителя;

фиг.4c иллюстрирует обратное правило комбинирования среднего/бокового сигналов, соответствующее правилу комбинирования, проиллюстрированному на фиг.3c;

фиг.5a иллюстрирует вариант осуществления аудиокодера, работающего в частотной области, которая предпочтительно является вещественнозначной частотной областью;

фиг.5b иллюстрирует реализацию аудиодекодера, работающего в частотной области;

фиг.6a иллюстрирует альтернативную реализацию аудиокодера, работающего в области MDCT и использующего вещественно-мнимое преобразование;

фиг.6b иллюстрирует аудиодекодер, работающий в области MDCT и использующий вещественно-мнимое преобразование;

фиг.7a иллюстрирует постпроцессор аудиосигнала, использующий стереофонический декодер и присоединенный позднее декодер SBR;

фиг.7b иллюстрирует матрицу повышающего микширования среднего/бокового сигналов;

фиг.8a иллюстрирует подробный вид касательно блока MDCT на фиг.6a;

фиг.8b иллюстрирует подробный вид касательно блока MDCT-1 по фиг.6b;

фиг.9a иллюстрирует реализацию оптимизатора, работающего на уменьшенном разрешении по отношению к выходному сигналу MDCT;

фиг.9b иллюстрирует представление спектра MDCT и соответствующие полосы более низкого разрешения, в которых рассчитывается информация о предсказании;

фиг.10a иллюстрирует реализацию вещественно-мнимого преобразователя на фиг.6a или фиг.6b; и

фиг.10b иллюстрирует возможную реализацию вычислителя мнимого спектра по фиг.10a.

Фиг.1 иллюстрирует аудиодекодер для декодирования кодированного многоканального аудиосигнала, полученного на входной линии 100. Кодированный многоканальный аудиосигнал содержит кодированный первый комбинированный сигнал, сформированный с использованием правила комбинирования для комбинирования сигнала первого канала и сигнала второго канала, представляющих многоканальный аудиосигнал, кодированный остаточный сигнал предсказания и информацию о предсказании. Кодированный многоканальный сигнал может быть потоком данных, таким как битовый поток, который имеет три составляющих в мультиплексированной форме. Дополнительная побочная информация может быть включена в кодированный многоканальный сигнал на линии 100. Сигнал вводится во входной интерфейс 102. Входной интерфейс 102 может быть реализован в качестве демультиплексора потока данных, который выдает кодированный первый комбинированный сигнал на линии 104, кодированный остаточный сигнал на линии 106 и информацию о предсказании на линии 108. Предпочтительно, информация о предсказании является коэффициентом, имеющим вещественную часть, не равную нулю, и/или мнимую часть, отличную от нуля. Кодированный комбинированный сигнал и кодированный остаточный сигнал вводятся в декодер 110 сигналов для декодирования первого комбинированного сигнала, чтобы получать декодированный первый комбинированный сигнал на линии 112. Дополнительно, декодер 110 сигнала сконфигурирован для декодирования кодированного остаточного сигнала, чтобы получать декодированный остаточный сигнал на линии 114. В зависимости от обработки кодирования на стороне аудиокодера, декодер сигнала может содержать энтропийный декодер, такой как декодер Хаффмана, арифметический декодер или любой другой энтропийный декодер, и присоединенный позже каскад деквантования для выполнения операции деквантования, соответствующей операции квантования в ассоциированном аудиокодере. Сигналы на линии 112 и 114 вводятся в вычислитель 115 декодера, который выдает сигнал первого канала на линии 117 и сигнал второго канала на линии 118, причем эти два сигнала являются стереофоническими сигналами многоканального аудиосигнала. Например, когда многоканальный аудиосигнал содержит пять каналов, тогда два сигнала являются двумя каналами из многоканального сигнала. Для того чтобы полностью кодировать такой многоканальный сигнал, имеющий пять каналов, могут применяться два декодера, проиллюстрированных на фиг.1, где первый декодер обрабатывает левый канал и правый канал, второй декодер обрабатывает левый канал объемного звучания и правый канал объемного звучания, а третий монофонический декодер использовался бы для выполнения монофонического кодирования центрального канала. Однако другие компоновки или комбинации кодеров формы сигнала и параметрических кодеров также могут применяться. Альтернативный способ обобщения схемы предсказания на более чем два канала состоял бы в том, чтобы обрабатывать три (или более) сигналов одновременно, то есть предсказывать 3-й комбинированный сигнал по 1-му и 2-му сигналам с использованием двух коэффициентов предсказания, очень похоже на модуль «два в три» объемного звучания MPEG.

Вычислитель 116 декодера сконфигурирован для расчета декодированного многоканального сигнала, содержащего декодированный сигнал 117 первого канала и декодированный сигнал 118 второго канала с использованием декодированного остаточного сигнала 114, информации 108 о предсказании и декодированного первого комбинированного сигнала 112. В частности, вычислитель 116 декодера сконфигурирован, чтобы работать таким образом, чтобы декодированный сигнал первого канала и декодированный сигнал второго канала были по меньшей мере приближением сигнала первого канала и сигнала второго канала многоканального сигнала, введенного в соответствующий кодер, которые комбинируются согласно правилу комбинирования при формировании первого комбинированного сигнала и остаточного сигнала предсказания. Более точно, информация о предсказании на линии 108 содержит вещественнозначную часть, отличную от нуля, и/или мнимую часть, отличную от нуля.

Вычислитель 116 декодера может быть реализован разными способами. Первая реализация проиллюстрирована на фиг.4a. Эта реализация содержит предсказатель 1160, вычислитель 1161 комбинированного сигнала и объединитель 1162. Предсказатель принимает декодированный первый комбинированный сигнал 112 и информацию 108 о предсказании и выдает сигнал 1163 о предсказании. Более точно, предсказатель 1160 сконфигурирован для применения информации 108 о предсказании к декодированному первому комбинированному сигналу 112 или сигналу, выведенному из декодированного первого комбинированного сигнала. Правило выведения для получения сигнала, к которому применяется информация 108 о предсказании, может быть вещественно-мнимым преобразованием или, равным образом, мнимо-вещественным преобразованием, или операцией взвешивания, или, в зависимости от реализации, операцией сдвига фазы или комбинированной операцией взвешивания/сдвига фазы. Сигнал 1163 предсказания вводится вместе с декодированным остаточным сигналом в вычислитель 1161 комбинированного сигнала, для того чтобы рассчитывать декодированный второй комбинированный сигнал 1165. Сигналы 112 и 1165 оба вводятся в объединитель 1162, который комбинирует декодированный первый комбинированный сигнал и второй комбинированный сигнал, чтобы получать декодированный многоканальный аудиосигнал, содержащий декодированный сигнал первого канала и декодированный сигнал второго канала на выходных линиях 1166 и 1167 соответственно. В качестве альтернативы, вычислитель декодера реализован в качестве матричного вычислителя 1168, который принимает, в качестве входного сигнала, декодированный первый комбинированный сигнал или сигнал M, декодированный остаточный сигнал или сигнал D и информацию 108 α о предсказании. Матричный вычислитель 1168 применяет матрицу преобразования, проиллюстрированную как 1169, к сигналам M, D, чтобы получать выходные сигналы L, R, где L - декодированный сигнал первого канала, а R - декодированный сигнал второго канала. Обозначение на фиг.4b имеет сходство со стереофоническим обозначением с левым каналом L и правым каналом R. Это обозначение было применено для того, чтобы обеспечить более легкое понимание, но специалистам в данной области техники должно быть ясно, что сигналы L, R могут быть любой комбинацией сигналов двух каналов в многоканальном сигнале, содержащем сигналы более чем двух каналов. Матричная операция 1169 унифицирует операции в блоках 1160, 1161 и 1162 по фиг.4a в некоторую разновидность «однотактного» матричного вычисления, и входные сигналы в схему фиг.4a и выходные сигналы из схемы фиг.4a идентичны входным сигналам в матричный вычислитель 1168 и выходным сигналам из матричного вычислителя 1168.

Фиг.4c иллюстрирует пример для обратного правила комбинирования, применяемого объединителем 1162 на фиг.4a. В частности, правило комбинирования является подобным правилу комбинирования стороны декодера в широко известном кодировании средним/боковым сигналами, L=M+S, и R=M-S. Должно быть понятно, что сигнал S, используемый обратным правилом комбинирования на фиг.4c, является сигналом, рассчитанным вычислителем комбинированного сигнала, то есть комбинированием сигнала предсказания на линии 1163 и декодированного остаточного сигнала на линии 114. Должно быть понятно, что в этом описании изобретения сигналы на линиях иногда называются по номерам ссылки для линий или иногда указываются номерами ссылки, которые были приписаны линиям. Поэтому обозначение является таким, что линия, имеющая определенный сигнал, является указывающей на сам сигнал. Линия может быть физической линией в реализации с жесткой логикой. В компьютеризованной реализации, однако, физической линии не существует, но сигнал, представленный линией, передается из одного вычислительного модуля в другой вычислительный модуль.

Фиг.2 иллюстрирует аудиокодер для кодирования многоканального аудиосигнала 200, содержащего сигналы двух или более каналов, где сигнал первого канала проиллюстрирован позицией 201, а второй канал проиллюстрирован позицией 202. Оба сигнала вводятся в вычислитель 203 кодера для расчета первого комбинированного сигнала 204 и остаточного сигнала 205 предсказания с использованием сигнала 201 первого канала и сигнала 202 второго канала, и информации 206 о предсказании, так что остаточный сигнал 205 предсказания, при комбинировании с сигналом предсказания, выведенным из первого комбинированного сигнала 204 и информации 206 о предсказании, дает в результате второй комбинированный сигнал, где первый комбинированный сигнал и второй комбинированный сигнал являются получаемыми из сигнала 201 первого канала и сигнала 202 второго канала с использованием правила комбинирования.

Информация о предсказании формируется оптимизатором 207 для расчета информации 206 о предсказании, так чтобы остаточный сигнал предсказания удовлетворял цели 208 оптимизации. Первый комбинированный сигнал 204 и остаточный сигнал 205 вводятся в кодер 209 сигнала для кодирования первого комбинированного сигнала 204, чтобы получать кодированный первый комбинированный сигнал 210, и для кодирования остаточного сигнала 205, чтобы получать кодированный остаточный сигнал 211. Оба кодированных сигнала 210, 211 вводятся в выходной интерфейс 212 для комбинирования кодированного первого комбинированного сигнала 210 с кодированным остаточным сигналом 211 предсказания и информацией 206 предсказания, чтобы получать кодированный многоканальный сигнал 213, который подобен кодированному многоканальному сигналу 100, введенному во входной интерфейс 102 аудиодекодера, проиллюстрированного на фиг.1.

В зависимости от реализации, оптимизатор 207 принимает любой из сигнала 201 первого канала и сигнала 202 второго канала или, как проиллюстрировано линиями 214 и 215, первый комбинированный сигнал 214 и второй комбинированный сигнал 215, выведенные из объединителя 2031 по фиг.3a, который будет обсужден позже.

Предпочтительная цель оптимизации проиллюстрирована на фиг.2, при которой максимизируется выигрыш от кодирования, то есть как можно больше снижается скорость передачи битов. При этой цели оптимизации, остаточный сигнал D минимизируется относительно α. Другими словами, это означает, что информация α о предсказании выбирается так, чтобы минимизировалось ||S-αM||2. Это дает в результате решение для проиллюстрированного на фиг.2. Сигналы S, M выдаются поблочным образом и предпочтительно являются сигналами спектральной области, где обозначение ||...|| означает норму аргумента по модулю 2 и где <...>, как обычно, иллюстрирует скалярное произведение. Когда сигнал 201 первого канала и сигнал 202 второго канала вводятся в оптимизатор 207, тогда оптимизатор должен был бы применять правило комбинирования, где примерное правило комбинирования проиллюстрировано на фиг.3c. Однако, когда первый комбинированный сигнал 214 и второй комбинированный сигнал 215 вводятся в оптимизатор 207, тогда оптимизатору 207 не нужно самостоятельно реализовывать правило комбинирования.

Другие цели оптимизации могут относиться к перцепционному качеству. Цель оптимизации может состоять в том, чтобы получалось максимальное перцепционное качество. Затем, оптимизатор требовал бы дополнительной информации из перцепционной модели. Другие реализации цели оптимизации могут относиться к получению минимальной или постоянной скорости передачи битов. В таком случае оптимизатор 207 был бы реализован, чтобы выполнять операцию квантования/энтропийного кодирования, для того чтобы определять требуемую скорость передачи битов для определенных значений, так чтобы α могло быть установлено, чтобы удовлетворять требованиям, таким как минимальная скорость передачи битов или, в качестве альтернативы, постоянная скорость передачи битов. Другие реализации цели оптимизации могут относиться к минимальному использованию ресурсов кодера или декодера. В случае реализации такой цели оптимизации, информация о требуемых ресурсах для определенной оптимизации имелась бы в распоряжении в оптимизаторе 207. Дополнительно, комбинация этих целей оптимизации или других целей оптимизации может применяться для управления оптимизатора 207, который рассчитывает информацию 206 о предсказании.

Вычислитель 203 кодера на фиг.2 может быть реализован разными способами, где примерная первая реализация проиллюстрирована на фиг.3a, в которой явное правило комбинирования выполняется в объединителе 2031. Альтернативная примерная реализация проиллюстрирована на фиг.3b, где используется матричный вычислитель 2039. Объединитель 2031 на фиг.3a может быть реализован, чтобы выполнять правило комбинирования, проиллюстрированное на фиг.3c, которое является примерным широко известным правилом кодирования средним/боковым сигналами, где весовой коэффициент 0,5 применяется к обеим ветвям. Однако другие весовые коэффициенты или полностью отсутствующие весовые коэффициенты могут быть реализованы в зависимости от реализации. Дополнительно, должно быть отмечено, что могут применяться другие правила комбинирования, такие как правила линейного комбинирования или правила нелинейного комбинирования, до тех пор пока существует соответствующее обратное правило комбинирования, которое может применяться в объединителе 1162 декодера, проиллюстрированного на фиг.4a, который применяет правило комбинирования, которое является обратным по отношению к правилу комбинирования, применяемому кодером. За счет предсказания согласно настоящему изобретению может использоваться любое обратимое правило предсказания, поскольку влияние на форму сигнала «уравновешивается» предсказанием, то есть какая-нибудь ошибка включается в переданный остаточный сигнал, поскольку операция предсказания, выполняемая оптимизатором 207 в комбинации с вычислителем 203 кодера, является сохраняющей форму сигнала последовательностью операций.

Объединитель 2031 выдает первый комбинированный сигнал 204 и второй комбинированный сигнал 2032. Первый комбинированный сигнал вводится в предсказатель 2033, а второй комбинированный сигнал 2032 вводится в вычислитель 2034 остаточного сигнала. Предсказатель 2033 рассчитывает сигнал 2035 предсказания, который комбинируется со вторым комбинированным сигналом 2032, чтобы в заключение получать остаточный сигнал 205. В частности, объединитель 2031 сконфигурирован для комбинирования сигналов 201 и 202 двух каналов многоканального аудиосигнала двумя разными способами, чтобы получать первый комбинированный сигнал 204 и второй комбинированный сигнал 2032, где два разных способа проиллюстрированы в примерном варианте осуществления на фиг.3c. Предсказатель 2033 сконфигурирован для применения информации о предсказании к первому комбинированному сигналу 204 или сигналу, выведенному из первого комбинированного сигнала, чтобы получать сигнал 2035 предсказания. Сигнал, выведенный из комбинированного сигнала, может выводиться посредством любой нелинейной или линейной операции, где предпочтительно вещественно-мнимое преобразование/мнимо-вещественное преобразование, которые могут быть реализованы с использованием линейного фильтра, такого как FIR-фильтр, выполняющий взвешенные суммирования определенных значений.

Вычислитель 2034 остаточного сигнала на фиг.3a может выполнять операцию вычитания, так чтобы сигнал предсказания вычитался из второго комбинированного сигнала. Однако возможны другие операции в вычислителе остаточного сигнала. Соответственно, вычислитель 1161 комбинированного сигнала на фиг.4a может выполнять дополнительную операцию, где декодированный остаточный сигнал 114 и сигнал 1163 предсказания складываются вместе, чтобы получать второй комбинированный сигнал 1165.

Фиг.5a иллюстрирует предпочтительную реализацию аудиокодера. По сравнению с аудиокодером, проиллюстрированным на фиг.3a, сигнал 201 первого канала является спектральным представлением сигнала 55a первого канала временной области. Соответственно, сигнал 202 второго канала является спектральным представлением сигнала 55b канала временной области. Преобразование из временной области в спектральное представление выполняется время-частотным преобразователем 50 для сигнала первого канала и время-частотным преобразователем 51 для сигнала второго канала. Предпочтительно, но не обязательно, спектральные преобразователи 50, 51 реализованы в качестве вещественнозначных преобразователей. Алгоритм преобразования может быть дискретным косинусным преобразованием, преобразованием FFT (быстрым преобразованием Фурье), где используется только вещественная часть, MDCT или любым другим преобразованием, дающим вещественнозначные спектральные значения. В качестве альтернативы, оба преобразования могут быть реализованы в качестве мнимого преобразования, такого как DST (дискретное синусное преобразование), MDST или FFT, где используется только мнимая часть, а вещественная часть отбрасывается. Любое другое преобразование, дающее только мнимые значения, также может использоваться. Одним из стремлений использования чисто вещественнозначного преобразования или чисто мнимого преобразования является вычислительная сложность, поскольку для каждого спектрального значения должно обрабатываться лишь одиночное значение, такое как модуль или вещественная часть, либо, в качестве альтернативы, фаза или мнимая часть. В противоположность полному комплексному преобразованию, такому как FFT, два значения, то есть вещественная часть и мнимая часть для каждой спектральной линии, должны были бы обрабатываться, что является увеличением вычислительной сложности согласно коэффициенту по меньшей мере 2. Еще одна причина для использования вещественнозначного преобразования здесь состоит в том, что каждое преобразование обычно критически дискретизируется, а отсюда дает пригодную (и обычно используемую) область для квантования и энтропийного кодирования сигнала (стандартной парадигмы «перцепционного кодирования аудиосигнала», реализованной в «MP3», AAC или подобных системах кодирования аудиосигнала).

Фиг.5a дополнительно иллюстрирует вычислитель 2034 остаточного сигнала в качестве сумматора, который принимает боковой сигнал на своем «плюсовом» входе и который принимает сигнал предсказания, выданный предсказателем 2033 на своем «минусовом» входе. Дополнительно, фиг.5a иллюстрирует ситуацию, что информация управления предсказателем пересылается из оптимизатора в мультиплексор 212, который выдает мультиплексированный битовый поток, представляющий кодированный многоканальный аудиосигнал. В частности, операция предсказания выполняется таким образом, чтобы боковой сигнал предсказывался по среднему сигналу, как проиллюстрировано уравнениями справа по фиг.5a.

Предпочтительно, информация 206 управления предсказателем является коэффициентом, как проиллюстрировано справа на фиг.3b. В варианте осуществления, в котором информация управления предсказанием содержит только вещественную часть, такую как вещественная часть комплексного значения α или модуль комплексного значения α, где эта часть соответствует коэффициенту, отличному от нуля, значительный выигрыш от кодирования может получаться, когда средний сигнал и боковой сигнал подобны друг другу вследствие структуры своей формы сигнала, но имеют разные амплитуды.

Однако, когда информация управления предсказанием содержит только вторую часть, которая может быть мнимой частью комплекснозначного коэффициента или информац