Аудио или видео кодер, аудио или видео и относящиеся к ним способы для обработки многоканальных аудио или видеосигналов с использованием переменного направления предсказания
Иллюстрации
Показать всеИзобретение относится к средствам обработки многоканальных аудио или видеосигналов с использованием переменного направления предсказания. Технический результат заключается в повышении качества аудио или видео. Объединяют два аудио или видео канала для получения первого сигнала объединения в качестве среднего сигнала и остаточного сигнала, который может быть получен используя предсказанный боковой сигнал, полученный из среднего сигнала. Первый сигнал объединения и остаточный сигнал предсказания кодируются и записываются в поток данных совместно с информацией предсказания, полученной оптимизатором на основе цели оптимизации, и индикатором направления предсказания, указывающим направление предсказания, ассоциированное с остаточным сигналом. Декодер использует остаточный сигнал предсказания, первый сигнал объединения, индикатор направления предсказания и информацию предсказания для получения декодированного сигнала первого канала и декодированного сигнала второго канала. В примере кодера или в примере декодера для оценки мнимой части спектра первого сигнала объединения может применяться преобразование действительного-в-мнимое. 5 н. и 14 з.п. ф-лы, 31 ил., 2 табл.
Реферат
Настоящее изобретение относится к обработке аудио или видео, и в частности, к многоканальной аудио или видео обработке многоканального сигнала, содержащего два или более сигналов канала.
В области многоканальной или стерео обработки известно применение так называемого стерео кодирования со средним/боковым сигналом. В данной концепции, для получения среднего или моно сигнала M формируется объединение сигнала левого или первого аудио канала и сигнала правого или второго аудио канала. Дополнительно, для получения бокового сигнала S формируется разность между сигналом левого или первого канала и сигналом правого или второго канала. Данный способ кодирования со средним/боковым сигналом дает значительную эффективность кодирования, когда левый сигнал и правый сигнал весьма похожи друг на друга, так как боковой сигнал становится довольно небольшим. Как правило, эффективность кодирования на этапе квантователя/энтропийного кодера становится выше, когда уменьшается диапазон значений, которые должны быть подвергнуты квантованию/энтропийному кодированию. Следовательно, применительно к PCM или основанному на методе Хаффмана или арифметическому энтропийному кодеру, эффективность кодирования увеличивается, при уменьшении бокового сигнала. Тем не менее, существуют определенные ситуации, при которых кодирование со средним/боковым сигналом, не повлияет на эффективность кодирования. Подобная ситуация может возникнуть, когда сигналы в обоих каналах имеют фазовый сдвиг по отношению друг к другу, например, на 90°. Тогда, средний сигнал и боковой сигнал могут обладать очень похожим диапазоном и, вследствие этого, кодирование среднего сигнала и бокового сигнала, используя энтропийный кодер, не приведет к эффективному кодированию, и даже может привести к увеличенному битрейту. Вследствие этого, для отключения кодирования со средним/боковым сигналом в полосах частот может применяться частотно-избирательное кодирование со средним/боковым сигналом, при котором, например, боковой сигнал не становится меньше исходного левого сигнала в определенной степени.
Несмотря на то, что боковой сигнал становится нулевым, когда левый и правый сигналы идентичны, что дает максимальную эффективность кодирования из-за исключения бокового сигнала, ситуация вновь меняется, когда средний сигнал и боковой сигнал идентичны по их форме сигнала, а разность между двумя сигналами заключается лишь в их абсолютных амплитудах. В этом случае, когда дополнительно предполагается, что боковой сигнал не имеет фазового сдвига по отношению к среднему сигналу, боковой сигнал значительно увеличивается, хотя с другой стороны, средний сигнал так сильно не уменьшается в отношении его диапазона значений. Когда такая ситуация возникает в определенной полосе частот, следовало бы отключить кодирование со средним/боковым сигналом ввиду отсутствия выигрыша от кодирования. Кодирование со средним/боковым сигналом может применяться частотно-избирательно или, в качестве альтернативы, применяться во временной области.
Существует альтернативный метод многоканального кодирования, который основывается не на подходе, который зависит от вида формы сигнала, как кодирование со средним/боковым сигналом, а основывается на параметрической обработке, которая в свою очередь основана на определенных бинауральных репликах (сигналах). Такие методы известны под названиями «кодирование бинауральных реплик», «параметрическое стерео кодирование» или «Объемное MPEG кодирование». Здесь, для множества полос частот вычисляются определенные реплики. Эти реплики включают в себя межканальные разности уровня, межканальные измерения когерентности, межканальные временные разности и/или межканальные разности фаз. Эти подходы исходят из того, что воспринимаемое слушателем ощущение многоканальности не обязательно основано на подробных формах сигнала двух каналов, а основано на точных, предоставленных с частотной избирательностью, репликах или межканальной информации. Это означает, что в машине воспроизведения, необходимо предпринять меры по воспроизведению многоканальных сигналов, которое точно отражает реплики, а формы сигналов не имеет решающего значения.
Данный подход может быть сложным в частности в случае, когда декодеру требуется применять обработку декорреляции с тем, чтобы искусственно создать стерео сигналы, которые декоррелированы друг от друга, хотя все эти каналы являются производными одного и того же канала понижающего микширования. Используемые для этих целей декорреляторы, в зависимости от их исполнения, сложны и могут привносить артефакты в частности в случае переходных частей сигнала. В дополнение, в противоположность кодированию формы сигнала, подход параметрического кодирования является подходом кодирования с потерями, который неизбежно приводит к потере информации, вызванной не только обычным квантованием, а также вызванной концентрацией на бинауральных репликах нежели на конкретных формах сигнала. Данный подход приводит к очень низким битрейтам, но может включать в себя компромиссы по качеству.
Существуют последние разработки в области унифицированного кодирования речи и аудио (USAC), проиллюстрированные на Фиг. 7a. Основной декодер 700 выполняет операцию декодирования кодированного стерео сигнала на входе 701, который может быть кодирован со средним/боковым сигналом. Основной декодер выдает средний сигнал по линии 702, а боковой или остаточный сигнал по линии 703. Оба сигнала преобразуются в область QMF банками 704 и 705 фильтров QMF. Затем, применяется декодер 706 Объемного MPEG, чтобы сформировать сигнал 707 левого канала и сигнал 708 правого канала. Эти низко-полосные сигналы последовательно подаются в декодер 709 репликации спектральной полосы (SBR), который создает широкополосные левый и правый сигналы в линиях 710 и 711, которые затем преобразуются во временную область банками 712, 713 фильтров синтеза QMF, и таким образом получают широкополосный левый и правый сигналы L, R.
Фиг. 7b иллюстрирует ситуацию, когда декодер 706 Объемного MPEG должен выполнить декодирование со средним/боковым сигналом. В качестве альтернативы, блок 706 декодера Объемного MPEG может представлять бинауральную реплику на основе параметрического декодирования для формирования стерео сигналов из одного моно сигнала основного декодера. Конечно, декодер 706 Объемного MPEG так же может формировать множество низко-полосных выходных сигналов, которые могут подаваться в блок 709 декодера SBR, используя параметрическую информацию, такую как межканальные разности уровня, межканальные измерения согласованности и прочие такие параметры межканальной информации.
Когда блок 706 декодера Объемного MPEG выполняет декодирование со средним/боковым сигналом, проиллюстрированное на Фиг. 7b, то может быть применен коэффициент g действительного усиления и при этом DMX/RES и L/R соответственно являются сигналами понижающего микширования/остаточным и левым/правым, представленными в комплексной гибридной области QMF.
Использование сочетания блока 706 и блока 709 вызывает лишь незначительное увеличение сложности вычисления в сравнении со стерео декодером, который используется в качестве основы, так как комплексное QMF представление сигнала уже доступно как часть декодера SBR. Однако в конфигурации без SBR стерео кодирование, основанное на QMF, как предлагается в контексте USAC, приведет к значительному увеличению сложности вычислений из-за необходимости обеспечения банков QMF, что потребует в данном примере 64-полосных банков анализа и 64-полосных банков синтеза. Эти банки фильтров должны добавляться только для стерео кодирования.
Однако в разрабатываемой системе USAC MPEG также существуют режимы кодирования с высокими битрейтами, в которых, как правило, SBR не используется.
Целью настоящего изобретения является предоставление улучшенной концепции обработки аудио и видео, которая, с одной стороны, показывала бы высокую эффективность кодирования, а с другой стороны, приводила к хорошему качеству аудио и видео и/или меньшей сложности вычислений.
Данная цель достигается посредством аудио или видео декодера по п. 1 формулы изобретения, аудио или видео кодера по п. 13 формулы изобретения, способу декодирования аудио или видео по п. 19 формулы изобретения, способу кодирования аудио или видео по п. 18 формулы изобретения, компьютерной программы по п. 19 формулы изобретения или кодированного многоканального аудио или видео сигнала по п.20 формулы изобретения.
Настоящее изобретение основано на выводе о том, что эффективность кодирования высококачественного подхода с кодированием формы сигнала может быть значительно улучшена посредством предсказания второго сигнала объединения, используя первый сигнал объединения, при этом оба сигнала объединения получены из исходных сигналов, используя правило объединения, такое, как правило объединения среднего/бокового сигнала. Было установлено, что данная информация предсказания вычисляется предсказателем в аудио или видео кодере таким образом, что выполняется цель оптимизации, при этом возникают лишь незначительные потери, но это приводит к значительному уменьшению битрейта, который требуется для бокового сигнала, без потери какого-либо качества аудио или видео, поскольку обладающее признаками изобретения предсказание все же является подходом кодирования, основанного на форме сигнала, а не подходом стерео или многоканального кодирования, основанным на параметрах. С тем чтобы уменьшить сложность вычислений предпочтительно выполнять кодирование в частотной области, при котором информация предсказания получается из входных данных в частотной области полосовым избирательным образом. Алгоритм преобразования для преобразования представления во временной области в спектральное представление является предпочтительно процессом с критической дискретизацией, таким как модифицированное дискретное косинус-преобразование (MDCT) или модифицированное дискретное синус-преобразование (MDST), которые отличаются от комплексного преобразования в том, что вычисляются только действительные значения или только мнимые значения, в то время как в комплексном преобразовании вычисляются действительные и комплексные значения спектра, что приводит к 2-кратной избыточной дискретизации.
Кроме того, концепция переключения направления предсказания приводит к повышению эффективности предсказания при минимальных затратах на вычисления. Для этого кодер определяет индикатор направления предсказания, указывающий направление предсказания, ассоциированное с предсказанием остаточного сигнала. В варианте осуществления первый сигнал объединения, такой как средний сигнал, используется для предсказания второго сигнала объединения, такого как боковой сигнал. Данный подход применим, когда энергия среднего сигнала выше энергии бокового сигнала. Однако когда энергия второго сигнала объединения, такого как боковой сигнал, выше энергии первого сигнала объединения, т.е. когда энергия бокового сигнала выше энергии среднего сигнала, направление предсказания реверсируется, и боковой сигнал используется для предсказания среднего сигнала. В первом случае, т.е. когда средний сигнал используется для предсказания бокового сигнала, от кодера к декодеру передаются средний сигнал, остаточный сигнал, информация предсказания и индикатор направления предсказания, указывающий данное направление предсказания. Во втором случае, где второй сигнал объединения используется для предсказания первого сигнала объединения, как тот, когда боковой сигнал используется для предсказания среднего сигнала, совместно с остаточным сигналом, информацией предсказания и индикатором направления предсказания, указывающим данное реверсированное направление, передается боковой сигнал (а не средний сигнал).
Данная процедура позволяет лучше маскировать результирующий шум квантования. Применительно к сигналам, большая часть энергии которых находится во втором сигнале объединения, таком как боковой канал, предсказание первого сигнала объединения, такого как средний сигнал, по боковому сигналу S позволяет панорамировать доминирующую часть шума квантования в соответствии с исходным источником звука. Это в свою очередь приводит к перцепционно более адекватному распределению ошибки в итоговом выходном сигнале.
Данная процедура обладает дополнительным преимуществом, которое состоит в том, что она обеспечивает эффективное многоканальное парное кодирование, которое, в случае только двух каналов, является эффективным стерео кодированием. Приспособленный к изменению сигнала выбор направления предсказания для кодирования со средним/боковым сигналом (M/S) гарантирует более высокую эффективность предсказания для сигналов с доминирующей энергией в боковом сигнале, при минимальном увеличении сложности вычислений. В дополнение, получают перцепционно лучше адаптированное маскирование результирующего шума квантования из-за панорамирования воспринимаемого пространственного направления шума квантования в направлении основного сигнала. Кроме того, уменьшается диапазон значений для коэффициентов предсказания, которые должны передаваться в битовом потоке, что позволяет получить более эффективное кодирование информации/коэффициентов предсказания. Данная процедура пригодна для всех видов приложения обработки стерео, таких как кодирование с преобразованием в объединенный сигнал двух или многоканальных аудио и видео сигналов.
Предпочтительно, используется преобразование, основанное на внесении и подавлении наложения спектров. В частности таким преобразованием является MDCT, позволяющее обеспечить перекрытие между последовательными блоками без каких-либо потерь, благодаря хорошо известному свойству подавления наложения спектров во временной области (TDAC), которое достигается путем обработки с добавлением перекрытия на стороне декодера.
Предпочтительно, информация предсказания, вычисленная в кодере, переданная декодеру и используемая в декодере, содержит мнимую часть, которая преимущественно отражает разности фаз между двумя аудио или видео каналами в произвольно выбранных величинах между 0° и 360°. Сложность вычислений значительно уменьшается, только когда применяется действительное преобразование или, в общем, преобразование, которое либо обеспечивает только действительный спектр, либо обеспечивает только мнимый спектр. Чтобы воспользоваться данной мнимой информацией предсказания, которая указывает фазовый сдвиг между определенной полосой левого сигнала и соответствующей полосой правого сигнала, в декодере представлен конвертор действительного-в-мнимое или, в зависимости от реализации преобразования, конвертор мнимого-в-действительное с тем, чтобы вычислить повернутый по фазе сигнал предсказания из первого сигнала объединения, который повернут по фазе по отношению к исходному сигналу объединения. Затем данный повернутый по фазе сигнал предсказания может быть объединен с остаточным сигналом предсказания, который передается в битовом потоке, чтобы восстановить боковой сигнал, который затем может быть объединен со средним сигналом, чтобы получить декодированный левый канал в определенной полосе и декодированный правый канал в данной полосе.
Чтобы повысить качество аудио или видео, точно такой же конвертор действительного-в-мнимое или мнимого-в-действительное, как применяемый на стороне декодера, также реализуется на стороне кодера, при вычислении остаточного сигнала предсказания в кодере.
Настоящее изобретение обладает преимуществом, которое состоит в том, что оно обеспечивает улучшенное качество аудио или видео и уменьшенный битрейт в сравнении с системами с тем же битрейтом или с тем же качеством аудио или видео.
Дополнительно получают преимущества, связанные с эффективностью вычислений унифицированного стерео кодирования, полезного в системе USAC MPEG при высоких битрейтах, где, как правило, не используется SBR. Вместо того чтобы обрабатывать сигнал в комплексной гибридной области QMF, данные подходы реализуют основанное на остатке стерео кодирование с предсказанием в естественной области MDCT базового кодера преобразования стерео.
В соответствии с аспектом настоящего изобретения, настоящее изобретение содержит устройство или способ для формирования стерео сигнала посредством комплексного предсказания в области MDCT, при этом комплексное предсказание выполняется в области MDCT, используя преобразование действительного-в-комплексное, при этом данный стерео сигнал может быть либо кодируемым стерео сигналом на стороне кодера, либо в качестве альтернативы может быть декодируемым/переданным стерео сигналом, когда аппаратура или способ для формирования стерео сигнала, применяются на стороне декодера.
Предпочтительные варианты осуществления настоящего изобретения рассматриваются далее со ссылкой на прилагаемые чертежи, на которых:
Фиг. 1 является структурной схемой предпочтительного варианта осуществления аудио или видео декодера;
Фиг. 2 является структурной схемой предпочтительного варианта осуществления аудио или видео кодера;
Фиг. 3a иллюстрирует реализацию вычислителя кодера по Фиг. 2;
Фиг. 3b иллюстрирует альтернативную реализацию вычислителя кодера по Фиг. 2;
Фиг. 3c иллюстрирует правило объединения среднего/бокового сигнала, которое должно применяться на стороне кодера;
Фиг. 4a иллюстрирует реализацию вычислителя декодера с Фиг. 1;
Фиг. 4b иллюстрирует альтернативную реализацию вычислителя декодера в виде вычислителя матриц;
Фиг. 4c иллюстрирует обратное правило объединения среднего/бокового сигнала, соответствующее правилу объединения, проиллюстрированному на Фиг. 3c;
Фиг. 5a иллюстрирует вариант осуществления аудио или видео кодера, функционирующего в частотной области, которая предпочтительно является действительной частотной областью;
Фиг. 5b иллюстрирует реализацию аудио или видео декодера, функционирующего в частотной области;
Фиг. 6a иллюстрирует альтернативную реализацию аудио или видео кодера, функционирующего в области MDCT, и использующего преобразование действительного-в-мнимое;
Фиг. 6b иллюстрирует аудио или видео декодер, функционирующий в области MDCT и использующий преобразование действительного-в-мнимое;
Фиг. 7a иллюстрирует аудио постпроцессор, использующий стерео декодер и впоследствии присоединенный декодер SBR;
Фиг. 7b иллюстрирует матрицу повышающего микширования среднего/бокового сигнала;
Фиг. 8a иллюстрирует подробный вид блока MDCT по Фиг. 6a;
Фиг. 8b иллюстрирует подробный вид блока MDCT-1 по Фиг. 6b;
Фиг. 9a иллюстрирует реализацию оптимизатора, функционирующего с уменьшенным разрешением, по отношению к выводу MDCT;
Фиг. 9b иллюстрирует представление спектра MDCT и соответствующие полосы более низкого разрешения, в которых вычисляется информация предсказания;
Фиг. 10a иллюстрирует реализацию преобразователя действительного-в-мнимое на Фиг. 6a или Фиг. 6b;
Фиг. 10b иллюстрирует возможную реализацию вычислителя мнимого спектра по Фиг. 10a;
Фиг. 11a иллюстрирует предпочтительную реализацию аудио кодера, выполненного с реверсируемым направлением предсказания;
Фиг. 11b иллюстрирует предпочтительную реализацию связанного аудио или видео декодера, выполненного с возможностью обработки остаточных сигналов, сформированных посредством реверсируемых направлений предсказаний;
Фиг. 12a иллюстрирует дополнительный предпочтительный вариант осуществления аудио или видео кодера с реверсируемым направлением предсказания;
Фиг. 12b иллюстрирует дополнительный вариант осуществления аудио или видео декодера, который управляется индикатором направления предсказания.
Фиг. 13a иллюстрирует флаг направления предсказания;
Фиг. 13b иллюстрирует реализацию других правил предсказания на стороне кодера, в зависимости от индикатора направления предсказания;
Фиг. 13c иллюстрирует правила вычисления на стороне декодера для индикатора направления предсказания в первом состоянии;
Фиг. 13d иллюстрирует правило вычисления на стороне декодера для другого индикатора направления предсказания во втором состоянии;
Фиг. 13e иллюстрирует комплексные умножения, применяемые в вариантах осуществления аудио или видео кодера или аудио или видео декодера; и
Фиг. 14а 14b иллюстрирует варианты осуществления для определения индикатора направления предсказания.
Фиг. 1 иллюстрирует аудио или видео декодер для декодирования кодированного многоканального аудио сигнала, полученного по входной линии 100. Кодированный многоканальный аудио сигнал содержит кодированный первый сигнал объединения, сформированный с использованием правила объединения для объединения сигнала первого канала и сигнала второго канала, представляющих многоканальный аудио сигнал; кодированный остаточный сигнал предсказания и информацию предсказания. Кодированный многоканальный сигнал может быть потоком данных, таким как битовый поток, с тремя мультиплексированными составляющими. В подаваемый по линии 100 кодированный многоканальный сигнал может быть включена дополнительная информация. Сигнал подается во входной интерфейс 102. Входной интерфейс 102 может быть реализован как демультиплексор потока данных, который выдает кодированный первый сигнал объединения по линии 104, кодированный остаточный сигнал по линии 106 и информацию предсказания по линии 108. Предпочтительно, информация предсказания является коэффициентом с не равной нулю действительной частью и/или отличной от нуля мнимой частью. Кодированный сигнал объединения и кодированный остаточный сигнал подаются в декодер 110 сигнала для декодирования первого сигнала объединения, чтобы получить декодированный первый сигнал объединения по линии 112. Дополнительно, декодер 110 сигнала выполнен с возможностью декодирования кодированного остаточного сигнала, чтобы получить декодированный остаточный сигнал по линии 114. В зависимости от процесса кодирования на стороне аудио кодера, декодер сигнала может быть выполнен в виде энтропийного декодера, такого как декодер Хаффмана, арифметического декодера или любого другого энтропийного декодера и соединенного с каскадом деквантования для выполнения операции деквантования, которая согласуется с операцией квантования в связанном аудио кодере. Сигналы по линиям 112 и 114 подаются в вычислитель 115 декодера, который выдает сигнал первого канала по линии 117 и сигнал второго канала по линии 118, при этом эти два сигнала являются стерео сигналами или двумя каналами многоканального аудио сигнала. Когда, например, многоканальный аудио сигнал содержит пять каналов, тогда двумя сигналами являются два канала из многоканального сигнала. Для полного кодирования такого многоканального сигнала с пятью каналами могут применяться два декодера в соответствии с Фиг. 1, при этом первый декодер обрабатывает левый канал и правый канал, второй декодер обрабатывает левый объемный канал и правый объемный канал, а третий моно декодер будет использоваться для выполнения моно декодирования центрального канала. Однако также могут применяться другие виды группировки или сочетания кодеров формы сигнала и параметрических кодеров. Альтернативным способом обобщения схемы предсказания на более чем два канала будет одновременная обработка трех (или более) сигналов, т.е. предсказание 3его сигнала объединения по 1ому и 2ому сигналу, используя два коэффициента предсказания, очень похоже на модуль «из-двух-в-три» в Объемном MPEG.
Дополнительно, кодированный многоканальный аудио сигнал, полученный по входной линии 100, содержит индикатор направления предсказания. Данный индикатор направления предсказания, такой как флаг направления предсказания, извлекается из кодированного многоканального сигнала входным интерфейсом 102 и пересылается вычислителю 116 декодера, чтобы вычислитель декодера вычислял декодированный многоканальный сигнал в зависимости от информации предсказания, декодированного первого (или второго) сигнала объединения и индикатора направления предсказания, представленного входным интерфейсом 102.
Вычислитель 116 декодера выполнен с возможностью вычисления декодированного многоканального сигнала с декодированным сигналом 117 первого канала и декодированным сигналом 118 второго канала, используя декодированный остаточный сигнал 114, информацию 108 предсказания и декодированный первый сигнал 112 объединения. В частности, вычислитель 116 декодера выполнен с возможностью функционирования таким образом, что декодированный сигнал первого канала и декодированный сигнал второго канала являются по меньшей мере аппроксимацией сигнала первого канала и сигнала второго канала многоканального сигнала, вводимого в соответствующий кодер, которые объединяются по правилу объединения при формировании первого сигнала объединения и остаточного сигнала предсказания. В частности, информация предсказания, передаваемая по линии 108, содержит отличную от нуля действительную часть и/или отличную от нуля мнимую часть.
Вычислитель 116 декодера может быть реализован различными способами. Первая реализация проиллюстрирована на Фиг. 4a. Данная реализация содержит предсказатель 1160, вычислитель 1161 сигнала объединения и объединитель 1162. Предсказатель принимает декодированный первый сигнал 112 объединения и информацию 108 предсказания и выдает сигнал 1163 предсказания. В частности, предсказатель 1160 выполнен с возможностью применения информации 108 предсказания к декодированному первому сигналу 112 объединения или сигналу, полученному из декодированного первого сигнала объединения. Правило извлечения для получения сигнала, к которому применяется информация 108 предсказания, может быть преобразованием действительного-в-мнимое, или равно, преобразованием мнимого-в-действительное, или операцией взвешивания, или, в зависимости от реализации, операцией фазового сдвига, или объединенной операцией взвешивания/фазового сдвига. Сигнал 1163 предсказания выдается совместно с декодированным остаточным сигналом в вычислитель 1161 сигнала объединения, чтобы вычислить декодированный второй сигнал 1165 объединения. Сигналы 112 и 1165 подаются в объединитель 1162, который объединяет декодированный первый сигнал объединения и второй сигнал объединения, чтобы получить декодированный многоканальный аудио сигнал с декодированным сигналом первого канала и декодированным сигналом второго канала соответственно по выходным линиям 1166 и 1167. В качестве альтернативы, вычислитель декодера реализован в качестве вычислителя 1168 матриц, который принимает, в качестве входных данных, декодированный первый сигнал объединения или сигнал M, декодированный остаточный сигнал или сигнал D и информацию 108 предсказания α. Вычислитель 1168 матриц применяет матрицу преобразования, проиллюстрированную как 1169, к сигналам M, D, чтобы получить выходные сигналы L, R, где L является декодированным сигналом первого канала, а R является декодированным сигналом второго канала. Система обозначений на Фиг. 4b сходна с системой обозначения применяемой в стереофонии, в которой присутствует левый канал L и правый канал R. Данная система обозначений была применена с тем, чтобы обеспечить более простое понимание, однако специалисту в соответствующей области очевидно, что сигналы L, R могут быть сочетанием любым двух сигналов каналов в многоканальном сигнале, у которого более двух сигналов каналов. Матричная операция 1169 объединяет в себе операции в блоках 1160, 1161 и 1162 на Фиг. 4a в своего рода «одношаговое» матричное вычисление, и при этом входные данные для схемы на Фиг. 4a и выходные данные из схемы на Фиг. 4a идентичны входным данным в вычислитель 1168 матриц или выходным данным из вычислителя 1168 матриц.
Фиг. 4c иллюстрирует пример обратного правила объединения, которое применяется объединителем 1162 на Фиг. 4a. В частности, правило объединения аналогично правилу объединения на стороне декодера в хорошо известном кодировании со средним/боковым сигналом, где L=M+S, а R=M-S. Следует понимать, что сигнал S, используемый обратным правилом объединения на Фиг. 4c, является сигналом, вычисляемым вычислителем сигнала объединения, т.е. путем объединения сигнала предсказания по линии 1163 и декодированного остаточного сигнала по линии 114. Следует понимать, что в данном описании сигналы в линиях иногда обозначаются ссылочными обозначениями для линий или иногда обозначаются своими ссылочными обозначениями, которые были отнесены к линиям. Вследствие этого схема обозначений такова, что линия с определенным сигналом указывает сам сигнал.
Линия может быть физической линией при реализации в аппаратном обеспечении. Однако в компьютеризованной реализации физической линии не существует, однако представленный линией сигнал передается от одного модуля вычислений к другому модулю вычислений.
Фиг. 11b иллюстрирует дополнительную предпочтительную реализацию вычислителя декодера, функционирующего в зависимости от индикатора направления предсказания, который предоставляется на входе 401 индикатора направления предсказания. В зависимости от состояния индикатора направления предсказания, применяется либо первое правило вычисления, проиллюстрированное как 402, либо второе правило вычисления, проиллюстрированное как 403. Дополнительное правило 402 вычисления обеспечивает на выходе сигнал первого канала и сигнал второго канала, и первое правило вычисления может быть реализовано так, как проиллюстрировано на Фиг. 13c, описываемой ниже. В конкретном варианте осуществления, где первым сигналом объединения является средний сигнал, а вторым сигналом объединения является боковой сигнал, индикатор направления предсказания имеет значение «0», и выполняется предсказание второго сигнала объединения по первому сигналу объединения. В данном случае на вход 404 подается средний сигнал, т.е. первый сигнал объединения. А когда индикатор направления предсказания равен «1», переключатель 405 соединяет вход 404 с входом устройства 403 второго правила вычисления. В этом случае выполняется предсказание первого сигнала объединения, такого как средний сигнал, по второму сигналу объединения, такому как боковой сигнал, и на вход 404 будет подаваться боковой сигнал вместо среднего сигнала. Устройство 403 второго правила вычисления будет вновь выдавать сигнал первого канала и сигнал второго канала, однако правило для вычисления этих двух сигналов, т.е. левого сигнала и правого сигнала в стерео варианте осуществления, будет другим. Конкретный вариант осуществления для второго правила вычисления проиллюстрирован на Фиг. 13d, описанной ниже.
Фиг. 2 иллюстрирует аудио кодер для кодирования многоканального аудио сигнала 200, содержащего два или более сигналов каналов, при этом сигнал первого канала проиллюстрирован как 201, а сигнал второго канала проиллюстрирован как 202. Оба сигнала подаются в вычислитель 203 кодера для вычисления первого сигнала 204 объединения и остаточного сигнала 205 предсказания, используя сигнал 201 первого канала и сигнал 202 второго канала и информацию 206 предсказания, так что остаточный сигнал 205 предсказания, при объединении с сигналом предсказания, полученным из первого сигнала 204 объединения, и информации 206 предсказания, дает второй сигнал объединения, при этом первый сигнал объединения и второй сигнал объединения получаются из сигнала 201 первого канала и сигнала 202 второго канала, используя правило объединения.
Информация предсказания формируется оптимизатором 207 для вычисления информации 206 предсказания таким образом, что остаточный сигнал предсказания выполняет цель 208 оптимизации. Первый сигнал 204 объединения и остаточный сигнал 205 подаются в кодер 309 сигнала для кодирования первого сигнала 204 объединения, чтобы получить кодированный первый сигнал 210 объединения, и для кодирования остаточного сигнала 205, чтобы получить кодированный остаточный сигнал 211. Оба кодированные сигналы 210, 211 подаются в выходной интерфейс 212 для объединения кодированного первого сигнала 210 объединения с кодированным остаточным сигналом 211 предсказания и информацией 206 предсказания, чтобы получить кодированный многоканальный сигнал 213, который аналогичен кодированному многоканальному сигналу 100, который подается во входной интерфейс 102 аудио декодера, проиллюстрированного на Фиг. 1.
В зависимости от реализации, оптимизатор 207 принимает либо сигнал 201 первого канала и сигнал 202 второго канала, либо, как проиллюстрировано линиями 214 и 215, первый сигнал 214 объединения и второй сигнал 215 объединения, полученные от объединителя 2031 на Фиг. 3a, который будет рассмотрен позже.
На Фиг. 2 проиллюстрирована предпочтительная цель оптимизации, при которой эффективность кодирования максимальна, т.е. битрейт уменьшается настолько, насколько это возможно. В данной цели оптимизации, остаточный сигнал D минимизируется по отношению к α. Другими словами, это означает, что информация α предсказания выбирается таким образом, что минимизируется ‖ S − α M ‖ 2 . Это приводит к решению для α, проиллюстрированному на Фиг. 2. Сигналы S, M заданы по блокам и являются предпочтительными сигналами в спектральной области, где запись ‖ … ‖ означает 2-норму аргумента, и <…> иллюстрирует скалярное произведение. Когда сигнал 201 первого канала и сигнал 202 второго канала подаются в оптимизатор 207, оптимизатор должен применить правило объединения, при этом характерное правило объединения проиллюстрировано на Фиг. 3c. А когда в оптимизатор 207 подаются первый сигнал 214 объединения и второй сигнал 215 объединения, оптимизатору 207 не требуется самому реализовывать правило объединения.
Прочие цели оптимизации могут относиться к перцепционному качеству. Цель оптимизации может состоять в том, чтобы получить максимальное перцепционное качество. Тогда оптимизатору потребуется дополнительная информация из перцепционной модели. Прочие реализации цели оптимизации могут относиться к получению минимального или фиксированного битрейта. Тогда оптимизатор 207 должен быть реализован для выполнения операций квантования/энтропийного кодирования, чтобы определить требуемый битрейт для определенных значений α, чтобы α могла быть установлена для выполнения требований, таких как минимальный битрейт, или, в качестве альтернативы, фиксированный битрейт. Прочие реализации цели оптимизации могут относиться к минимальному использованию ресурсов кодера или декодера. В случае реализации такой цели оптимизации, оптимизатору 207 должна быть доступна информация о требуемых ресурсах для определенной оптимизации. В дополнение, для управления оптимизатором 207, который вычисляет информацию 206 предсказания, может использоваться сочетание этих целей оптимизации или других целей оптимизации.
Кодер аудио дополнительно содержит вычислитель 219 направления предсказания, который представляет на своем выходе индикатор направления предсказания, который указывает направление предсказания, ассоциированное с остаточным сигналом 205 предсказания, который выдается вычислителем 203 кодера на Фиг. 2. Вычислитель 219 направления предсказания может быть реализован разными способами, при этом несколько примеров рассматриваются в контексте Фиг. 14.
Вычислитель 203 кодера на Фиг. 2 может быть реализован различными способами, при этом характерный первая реализация проиллюстрирована на Фиг. 3a, при которой в объединителе 2031 выполняется явное правило объединения. Альтернативная реализация проиллюстрирована на Фиг. 3b, где используется вычислитель 2039 матриц. Объединитель 2031 на Фиг. 3a может быть реализован для выполнении правила объединения, проиллюстрированного на Фиг. 3c, которое является характерным хорошо известным правилом кодирования со средним/боковым сигналом, при котором ко всем ветвям применяется весовой коэффициент равный 0.5. Тем не менее, в зависимости от реа