Аудио декодер, аудио кодер, способ обеспечения по меньшей мере четырех канальных аудио сигналов на основе кодированного представления, способ обеспечения кодированного представления на основе по меньшей мере четырех канальных аудио сигналов и компьютерная программа, использующие расширение диапазона
Иллюстрации
Показать всеИзобретение относится к средствам для кодирования и декодирования аудио. Технический результат заключается в повышении эффективности кодирования и декодирования трехмерных аудио сцен. Обеспечивают первый сигнал понижающего микширования и второй сигнал понижающего микширования на основе совместно кодированного представления первого сигнала понижающего микширования и второго сигнала понижающего микширования, используя многоканальное декодирование. Обеспечивают первый канальный аудио сигнал и второй канальный аудио сигнал на основе первого сигнала понижающего микширования. Обеспечивают третий канальный аудио сигнал и четвертый канальный аудио сигнал на основе второго сигнала понижающего микширования. Выполняют первое совместное многоканальное расширение полосы пропускания на основе первого канального аудио сигнала и третьего канального аудио сигнала для получения первого канального сигнала с расширенной полосой пропускания и третьего канального сигнала с расширенной полосой пропускания. 6 н. и 31 з.п. ф-лы, 23 ил.
Реферат
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Вариант осуществления согласно изобретению создает аудио декодер для обеспечения по меньшей мере четырех канальных сигналов с расширенной полосой пропускания (расширенным диапазоном) на основе кодированного представления.
Другой вариант осуществления согласно изобретению создает аудио кодер для обеспечения кодированного представления на основе по меньшей мере четырех канальных аудио сигналов.
Другой вариант осуществления согласно изобретению создает способ обеспечения по меньшей мере четырех канальных аудио сигналов на основе кодированного представления.
Другой вариант осуществления согласно изобретению создает способ обеспечения кодированного представления на основе по меньшей мере четырех канальных аудио сигналов.
Другой вариант осуществления согласно изобретению создает компьютерную программу для выполнения одного из способов.
В общем случае варианты осуществления согласно изобретению относятся к совместному кодированию n каналов.
УРОВЕНЬ ТЕХНИКИ
В последние годы потребность в хранении и передаче аудио контента постоянно увеличивается. Кроме того, требование к качеству при хранении и передаче аудио контента также постоянно увеличивается. Соответственно, концепции кодирования и декодирования аудио контента усовершенствуются. Например, было разработано так называемое «усовершенствованное аудио кодирование» (AAC), которое описано, например, в международном стандарте 13818-7:2003 ISO/IEC. Кроме того, были созданы некоторые пространственные расширения, как, например, так называемый «MPEG Surround» - концепция, которая описана, например, в международном стандарте 23003-1:2007 ISO/IEC. Кроме того, дополнительные усовершенствования кодирования и декодирования пространственной информации аудио сигналов описаны в международном стандарте 23003-2:2010 ISO/IEC, который относится к так называемому пространственному кодированию аудио объекта (SAOC).
Кроме того, гибкая концепция аудио кодирования/декодирования, которая обеспечивает возможность кодирования и обобщенных аудио сигналов, и речевых сигналов с хорошей эффективностью кодирования и обработки многоканальных аудио сигналов, определена в международном стандарте 23003-3:2012 ISO/IEC, который описывает так называемую концепцию «унифицированного кодирования речи и аудио» (USAC).
В MPEG USAC [1] совместное стерео кодирование двух каналов выполняется, используя комплексное предсказание, MPS 2-1-1 или унифицированное стерео с разностными сигналами с ограниченным диапазоном или полным диапазоном.
MPEG surround [2] иерархически объединяет блоки OTT и TTT для совместного кодирования многоканального аудио с передачей разностных сигналов или без нее.
Однако, существует желание обеспечить еще более продвинутую концепцию для эффективного кодирования и декодирования трехмерных аудио сцен.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
Вариант осуществления согласно изобретению создает аудио декодер для обеспечения по меньшей мере четырех канальных сигналов с расширенной полосой пропускания (расширенным диапазоном) на основе кодированного представления. Аудио декодер конфигурируется для обеспечения первого сигнала понижающего микширования и второго сигнала понижающего микширования на основе совместно кодированного представления первого сигнала понижающего микширования и второго сигнала понижающего микширования, используя (первое) многоканальное декодирование. Аудио декодер конфигурируется для обеспечения по меньшей мере первого канального аудио сигнала и второго канального аудио сигнала на основе первого сигнала понижающего микширования, используя (второе) многоканальное декодирование, и обеспечения по меньшей мере третьего канального аудио сигнала и четвертого канального аудио сигнала на основе второго сигнала понижающего микширования, используя (третье) многоканальное декодирование. Аудио декодер конфигурируется для выполнения многоканального расширения полосы пропускания (расширение диапазона) на основе первого канального аудио сигнала и третьего канального аудио сигнала для обеспечения первого канального сигнала с расширенной полосой пропускания и третьего канального сигнала с расширенной полосой пропускания. Кроме того, аудио декодер конфигурируется для выполнения многоканального расширения полосы пропускания на основе второго канального аудио сигнала и четвертого канального аудио сигнала для получения второго канального сигнала с расширенной полосой пропускания и четвертого канального сигнала с расширенной полосой пропускания.
Этот вариант осуществления согласно изобретению основан на обнаружении, что особенно хорошие результаты расширения полосы пропускания могут получаться в иерархическом аудио декодере, если канальные аудио сигналы, которые обеспечиваются на основе различных сигналов понижающего микширования на второй стадии аудио декодера, используются при многоканальном расширении полосы пропускания, причем различные сигналы понижающего микширования извлекаются из совместно кодированного представления на первой стадии аудио декодера. Было обнаружено, что особенно хорошее качество аудио может получаться, если сигналы понижающего микширования, которые связаны с перцепционно особенно важными положениями аудио сцены, отделяются на первой стадии иерархического аудио декодера, в то время как пространственные положения, которые не настолько важны для акустического впечатления, отделяются на второй стадии иерархического аудио декодера. Кроме того, было обнаружено, что сигналы аудио канала, которые связаны с различными перцепционно важными положениями аудио сцены (например, положениями аудио сцены, в которых соотношение между сигналами из указанных положений перцепционно важно) должны совместно обрабатываться при многоканальном расширении полосы пропускания, потому что многоканальное расширение полосы пропускания может последовательно рассматривать взаимозависимости и различия между сигналами из этих акустически важных положений. Это достигается с помощью выполнения многоканального расширения полосы пропускания на основе первого канального аудио сигнала (который извлекается из первого сигнала понижающего микширования на второй стадии иерархического аудио декодера), и на основе третьего канального аудио сигнала, который извлекается из второго сигнала понижающего микширования на второй стадии иерархического аудио декодера, для обеспечения двух канальных сигналов с расширенной полосой пропускания (а именно, первого канального сигнала с расширенной полосой пропускания и третьего канального сигнала с расширенной полосой пропускания). Соответственно, (совместное) многоканальное расширение полосы пропускания (диапазона) выполняется на основе канальных аудио сигналов, которые извлекаются из различных сигналов понижающего микширования на второй стадии иерархического многоканального декодера, так что соотношение между первым канальным аудио сигналом и третьим канальным аудио сигналом аналогично (или определяется с помощью) соотношения между первым сигналом понижающего микширования и вторым сигналом понижающего микширования. Таким образом, многоканальное расширение полосы пропускания (диапазона) может использовать это соотношение (например, между первым канальным аудио сигналом и третьим канальным аудио сигналом), которое по существу определяется с помощью извлечения первого сигнала понижающего микширования и второго сигнала понижающего микширования из совместно кодированного представления первого сигнала понижающего микширования и второго сигнала понижающего микширования, используя многоканальное декодирование, которое выполняется на первой стадии аудио декодера. Соответственно, многоканальное расширение полосы пропускания может применять это соотношение, которое может воспроизводится с хорошей точностью на первой стадии иерархического аудио декодера, так что достигается особенно хорошее впечатление от прослушивания.
В предпочтительном варианте осуществления первый сигнал понижающего микширования и второй сигнал понижающего микширования связаны с различными горизонтальными положениями (или азимутальными положениями) аудио сцены. Было обнаружено, что разграничение между собой с различными горизонтальными положениями (или азимутальными положениями) аудио особенно существенно, так как человеческая слуховая система особенно чувствительна по отношению к различным горизонтальным положениям. Соответственно, выгодно разделять между собой сигналы понижающего микширования, связанные с различными горизонтальными положениями аудио сцены, на первой стадии иерархического аудио декодера, потому что обработка на первой стадии иерархического аудио декодера обычно более точна, чем обработка на последующих стадиях. Кроме того, как следствие, первый канальный аудио сигнал и третий канальный аудио сигнал, которые используются совместно при (первом) многоканальном расширении полосы пропускания, связаны с различными горизонтальными положениями аудио сцены (потому что первый канальный аудио сигнал извлекается из первого сигнала понижающего микширования, а третий канальный аудио сигнал извлекается из второго сигнала понижающего микширования на второй стадии иерархического аудио декодера), что предоставляет возможность (первому) многоканальному расширению полосы пропускания хорошо настраиваться к человеческой способности различать различные горизонтальные положения. Точно так же (второе) многоканальное расширение полосы пропускания, которое выполняется на основе второго канального аудио сигнала и четвертого канального аудио сигнала, работает в канальными аудио сигналами, которые связаны с различными горизонтальными положениями аудио сцены, так что (второе) многоканальное расширение полосы пропускания может также хорошо настраиваться к психо-акустически важному соотношению между канальными аудио сигналами, связанными с различными горизонтальными положениями аудио сцены. Соответственно, может достигаться особенно хорошее впечатление от прослушивания.
В предпочтительном варианте осуществления первый сигнал понижающего микширования связан с левой стороной аудио сцены, а второй сигнал понижающего микширования связан с правой стороной аудио сцены. Следовательно, первый канальный аудио сигнал обычно также связан с левой стороной аудио сцены, а третий канальный аудио сигнал связан с правой стороной аудио сцены, так что (первое) многоканальное расширение полосы пропускания работает (предпочтительно совместно) с сигналами аудио канала от различных сторон аудио сцены и может поэтому хорошо настраиваться к человеческому восприятию «лево/право». То же самое также сохраняется для (второго) многоканального расширения полосы пропускания, которое работает на основе второго канального аудио сигнала и четвертого канального аудио сигнала.
В предпочтительном варианте осуществления первый канальный аудио сигнал и второй канальный аудио сигнал связаны с соседними по вертикали положениями аудио сцены. Точно так же третий канальный аудио сигнал и четвертый канальный аудио сигнал связаны с соседними по вертикали положениями аудио сцены. Было обнаружено, что выгодно разделять между собой канальные аудио сигналы, связанными с соседними по вертикали положениями аудио сцены, на второй стадии иерархического аудио декодера. Кроме того, было обнаружено, что сигналы аудио канала обычно не сильно ухудшаются с помощью разделения между собой канальных аудио сигналов, связанных с соседними по вертикали положениями, так что входные сигналы к многоканальному расширению полосы пропускания все еще хорошо подходят для многоканального расширения полосы пропускания (например, расширения стерео диапазона).
В предпочтительном варианте осуществления первый канальный аудио сигнал и третий канальный аудио сигнал связаны с первой общей горизонтальной плоскостью (или первой общей высотой) аудио сцены, но с различными горизонтальными положениями (или азимутальными положениями) аудио сцены, а второй канальный аудио сигнал и четвертый канальный аудио сигнал связаны со второй общей горизонтальной плоскостью (или второй общей высотой) аудио сцены, но с различными горизонтальными положениями (или азимутальными положениями) аудио сцены. В этом случае первая общая горизонтальная плоскость (или высота) отличается от второй общей горизонтальной плоскости (или высоты). Было обнаружено, что многоканальное расширение полосы пропускания может выполняться с результатами особенно хорошего качества на основе двух канальных аудио сигналов, которые связаны с одной и той же горизонтальной плоскостью (или высотой).
В предпочтительном варианте осуществления первый канальный аудио сигнал и второй канальный аудио сигнал связаны с первой общей вертикальной плоскостью (или общим азимутальным положением) аудио сцены, но с различными вертикальными положениями (или высотой) аудио сцены. Точно так же третий канальный аудио сигнал и четвертый канальный аудио сигнал связаны со второй общей вертикальной плоскостью (или общим азимутальным положением) аудио сцены, но с различными вертикальными положениями (или высотой) аудио сцены. В этом случае первая общая вертикальная плоскость (или азимутальное положение) предпочтительно отличается от второй общей вертикальной плоскости (или азимутального положения). Было обнаружено, что разбиение (или разделение) канальных аудио сигналов, связанных с общей вертикальной плоскостью (или азимутальным положением), может выполняться с хорошими результатами, используя вторую стадию иерархического аудио декодера, в то время как разделение (или разбиение) между собой канальных аудио сигналов, связанных с различными вертикальными плоскостями (или азимутальными положениями), может выполняться с высококачественными результатами, используя первую стадию иерархического аудио декодера.
В предпочтительном варианте осуществления первый канальный аудио сигнал и второй канальный аудио сигнал связаны с левой стороной аудио сцены, а третий канальный аудио сигнал и четвертый канальный аудио сигнал связаны с правой стороной аудио сцены. Такая конфигурация предусматривает особенно хорошее многоканальное расширение полосы пропускания, которое использует соотношение между канальным аудио сигналом, связанным с левой стороной, и канальным аудио сигналом, связанным с правой стороной, и поэтому хорошо настраивается к человеческой способности различать звук, приходящий с левой стороны, и звук, приходящий с правой стороны.
В предпочтительном варианте осуществления первый канальный аудио сигнал и третий канальный аудио сигнал связаны с нижней частью аудио сцены, а второй канальный аудио сигнал и четвертый канальный аудио сигнал связаны с верхней частью аудио сцены. Было обнаружено, что такое пространственное распределение канальных аудио сигналов способствует особенно хорошим результатам прослушивания.
В предпочтительном варианте осуществления аудио декодер конфигурируется для выполнения горизонтального разбиения, обеспечивая первый сигнал понижающего микширования и второй сигнал понижающего микширования на основе совместно кодированного представления первого сигнала понижающего микширования и второго сигнала понижающего микширования, используя многоканальное декодирование. Было обнаружено, что выполнение горизонтального разбиения на первой стадии иерархического аудио декодера приводит к особенно хорошему впечатлению от прослушивания, потому что обработка, выполняемая на первой стадии иерархического аудио декодера, может обычно выполняться с более высокой эффективностью, чем обработка, выполняемая на второй стадии иерархического аудио декодера. Кроме того, выполнение горизонтального разбиения на первой стадии аудио декодера приводит к хорошему впечатлению от прослушивания, потому что человеческая слуховая система более чувствительна по отношению к горизонтальному положению аудио объекта, по сравнению с вертикальным положением аудио объекта.
В предпочтительном варианте осуществления аудио декодер конфигурируется для выполнения вертикального разбиения, обеспечивая по меньшей мере первый канальный аудио сигнал и второй канальный аудио сигнал на основе первого сигнала понижающего микширования, используя многоканальное декодирование. Точно так же аудио декодер предпочтительно конфигурируется для выполнения вертикального разбиения, обеспечивая по меньшей мере третий канальный аудио сигнал и четвертый канальный аудио сигнал на основе второго сигнала понижающего микширования, используя многоканальное декодирование. Было обнаружено, что выполнение вертикального разбиения на второй стадии иерархического декодера способствует хорошему впечатлению от прослушивания, так как человеческая слуховая система не особенно чувствительна к вертикальному положению аудио источника (или аудио объекта).
В предпочтительном варианте осуществления аудио декодер конфигурируется для выполнения расширения стерео полосы пропускания (диапазона) на основе первого канального аудио сигнала и третьего канального аудио сигнала для обеспечения первого канального сигнала с расширенной полосой пропускания (диапазоном) и третьего канального сигнала с расширенным диапазоном, причем первый канальный аудио сигнал и третий канальный аудио сигнал представляют первую пару левого/правого каналов. Точно так же аудио декодер конфигурируется для выполнения расширения стерео диапазона на основе второго канального аудио сигнала и четвертого канального аудио сигнала для получения второго канального сигнала с расширенным диапазоном и четвертого канального сигнала с расширенным диапазоном, причем второй канальный аудио сигнал и четвертый канальный аудио сигнал представляют вторую пару левого/правого каналов. Было обнаружено, что расширение стерео диапазона приводит к особенно хорошему впечатлению от прослушивания, потому что расширение стерео диапазона может учитывать соотношение между левым стерео каналом и правым стерео каналом и выполнять расширение диапазона в зависимости от этого соотношения.
В предпочтительном варианте осуществления аудио декодер конфигурируется для обеспечения первого сигнала понижающего микширования и второго сигнала понижающего микширования на основе совместно кодированного представления первого сигнала понижающего микширования и второго сигнала понижающего микширования, используя основанное на предсказании многоканальное декодирование. Было обнаружено, что использование основанного на предсказании многоканального декодирования на первой стадии иерархического аудио декодера способствует хорошему компромиссу между скоростью передачи данных и качеством. Было обнаружено, что использование предсказания приводит к хорошему восстановлению различий между первым сигналом понижающего микширования и вторым сигналом понижающего микширования, что важно для различия «лево/право» аудио объекта.
Например, аудио декодер может конфигурироваться для оценки параметра предсказания, описывающего вклад компоненты сигнала, которая извлекается, используя компоненту сигнала предыдущего кадра, для обеспечения сигналов понижающего микширования текущего кадра. Соответственно, интенсивность вклада компоненты сигнала, которая извлекается, используя компоненту сигнала предыдущего кадра, может корректироваться на основе параметра, который включает в себя кодированное представление.
Например, основанное на предсказании многоканальное декодирование может функционировать в области MDCT, так что основанное на предсказании многоканальное декодирование может хорошо настраиваться и легко взаимодействовать со стадией аудио декодирования, которая обеспечивает входной сигнал к многоканальному декодированию, которое извлекает первый сигнал понижающего микширования и второй сигнал понижающего микширования. Предпочтительно, но не обязательно, основанное на предсказании многоканальное декодирование может быть USAC с комплексным стерео предсказанием, что облегчает воплощение аудио декодера.
В предпочтительном варианте осуществления аудио декодер конфигурируется для обеспечения первого сигнала понижающего микширования и второго сигнала понижающего микширования на основе совместно кодированного представления первого сигнала понижающего микширования и второго сигнала понижающего микширования, используя выполняемое с помощью разностного сигнала многоканальное декодирование. Использование выполняемого с помощью разностного сигнала многоканального декодирования предусматривает особенно точное восстановление первого сигнала понижающего микширования и второго сигнала понижающего микширования, что в свою очередь улучшает восприятие левого/правого положения на основе канальных аудио сигналов, и следовательно, на основе канальных сигналов с расширенным диапазоном.
В предпочтительном варианте осуществления аудио декодер конфигурируется для обеспечения по меньшей мере первого канального аудио сигнала и второго канального аудио сигнала на основе первого сигнала понижающего микширования, используя основанное на параметре многоканальное декодирование. Кроме того, аудио декодер конфигурируется для обеспечения по меньшей мере третьего канального аудио сигнала и четвертого канального аудио сигнала на основе второго сигнала понижающего микширования, используя основанное на параметре многоканальное декодирование. Было обнаружено, что использование основанного на параметре многоканального декодирования хорошо подходит для второй стадии иерархического аудио декодера. Было обнаружено, что основанное на параметре многоканальное декодирование способствует хорошему компромиссу между качеством аудио и скоростью передачи данных. Даже при том, что качество воспроизведения основанного на параметре многоканального декодирования обычно не столь хорошо, как качество воспроизведения основанного на предсказании (и возможно, выполняемого с помощью разностного сигнала) многоканального декодирования, было обнаружено, что использование основанного на параметре многоканального декодирования обычно достаточно, так как человеческая слуховая система не особенно чувствительна к вертикальному положению (или высоте) аудио объекта, что предпочтительно определяется с помощью расширения (или разделения) между первым канальным аудио сигналом и вторым канальным аудио сигналом, или между третьим канальным аудио сигналом и четвертым канальным аудио сигналом.
В предпочтительном варианте осуществления основанное на параметре многоканальное декодирование конфигурируется для оценки одного или большего количества параметров, описывающих желательную корреляцию (или ковариацию) между двумя каналами и/или различия уровней между двумя каналами, для обеспечения двух или большего количества аудио канальных сигналов на основе соответствующего сигнала понижающего микширования. Было обнаружено, что использование таких параметров, которые описывают, например, желательную корреляцию между двумя каналами и/или различия уровней между двумя каналами, хорошо подходит для разбиения (или разделения) между собой первого канального аудио сигнала и второго канального аудио сигнала (которые обычно связаны с различными вертикальными положениями аудио сцены), и для разбиения (или разделения) между собой третьего канального аудио сигнала и четвертого канального аудио сигнала (которые также обычно связываются с различными вертикальными положениями).
Например, основанное на параметре многоканальное декодирование может функционировать в области QMF. Соответственно, основанное на параметре многоканальное декодирование может хорошо настраиваться и легко взаимодействовать с многоканальным расширением диапазона, которое может также предпочтительно - но не обязательно - работать в области QMF.
Например, основанное на параметре многоканальное декодирование может быть декодированием MPEG Surround 2-1-2 или унифицированным стерео декодированием. Использование таких концепций кодирования может облегчать воплощение, потому что эти концепции декодирования могут уже присутствовать в унаследованных аудио декодерах.
В предпочтительном варианте осуществления аудио декодер конфигурируется для обеспечения по меньшей мере первого канального аудио сигнала и второго канального аудио сигнала на основе первого сигнала понижающего микширования, используя выполняемое с помощью разностного сигнала многоканальное декодирование. Кроме того аудио декодер может конфигурироваться для обеспечения по меньшей мере третьего канального аудио сигнала и четвертого канального аудио сигнала на основе второго сигнала понижающего микширования, используя выполняемое с помощью разностного сигнала многоканальное декодирование. С помощью использования выполняемого с помощью разностного сигнала многоканального декодирования качество аудио может даже улучшаться, так как разделение между первым канальным аудио сигналом и вторым аудио сигналом и/или разделение между третьим канальным аудио сигналом и четвертым канальным аудио сигналом может выполняться с особенно высоким качеством.
В предпочтительном варианте осуществления аудио декодер может конфигурироваться для обеспечения первого разностного сигнала, который используется для обеспечения по меньшей мере первого канального аудио сигнала и второго канального аудио сигнала, и второго разностного сигнала, который используется для обеспечения по меньшей мере третьего канального аудио сигнала и четвертого канального аудио сигнала, на основе совместно кодированного представления первого разностного сигнала и второго разностного сигнала, используя многоканальное декодирование. Соответственно, концепция иерархического декодирования может расширяться на обеспечение двух разностных сигналов, один из которых используется для обеспечения первого канального аудио сигнала и второго канального аудио сигнала (но который обычно не используется для обеспечения третьего канального аудио сигнала и четвертого канального аудио сигнала) и один из которых используется для обеспечения третьего канального аудио сигнала и четвертого канального аудио сигнала (но предпочтительно не используется для обеспечения первого канального аудио сигнала и второго канального аудио сигнала).
В предпочтительном варианте осуществления первый разностный сигнал и второй разностный сигнал могут быть связаны с различными горизонтальными положениями (или азимутальными положениями) аудио сцены. Соответственно, обеспечение первого разностного сигнала и второго разностного сигнала, которое выполняется на первой стадии иерархического аудио декодера, может выполнять горизонтальное разбиение (или разделение), причем было обнаружено, что особенно хорошее горизонтальное разбиение (или разделение) может выполняться на первой стадии иерархического аудио декодера (по сравнению с обработкой, выполняемой на второй стадии иерархического аудио декодера). Соответственно, горизонтальное разделение, которое особенно важно для человека-слушателя, выполняется на первой стадии иерархического аудио декодирования, что обеспечивает особенно хорошее воспроизведение, так что может быть достигнуто хорошее впечатление от прослушивания.
В предпочтительном варианте осуществления первый разностный сигнал связан с левой стороной аудио сцены, а второй разностный сигнал связан с правой стороной аудио сцены, что соответствует человеческой позиционной чувствительности.
Вариант осуществления согласно изобретению создает аудио кодер для обеспечения кодированного представления на основе по меньшей мере четырех канальных аудио сигналов. Аудио кодер конфигурируется для получения первого набора общих параметров расширения диапазона на основе первого канального аудио сигнала и третьего канального аудио сигнала. Аудио кодер также конфигурируется для получения второго набора общих параметров расширения диапазона на основе второго канального аудио сигнала и четвертого канального аудио сигнала. Аудио кодер конфигурируется для совместного кодирования по меньшей мере первого канального аудио сигнала и второго канального аудио сигнала, используя многоканальное кодирование, для получения первого сигнала понижающего микширования, и для совместного кодирования по меньшей мере третьего канального аудио сигнала и четвертого канального аудио сигнала, используя многоканальное кодирование, для получения второго сигнала понижающего микширования. Кроме того, аудио кодер конфигурируется для совместного кодирования первого сигнала понижающего микширования и второго сигнала понижающего микширования, используя многоканальное кодирование, для получения кодированного представления сигналов понижающего микширования.
Этот вариант осуществления основан на идее, что первый набор общих параметров расширения диапазона должен получаться на основе канальных аудио сигналов, которые представлены с помощью различных сигналов понижающего микширования, которые совместно кодируются только на второй стадии иерархического аудио кодера. Параллельно со аудио декодером, обсуждаемым выше, соотношение между канальными аудио сигналами, которые объединяются только на второй стадии иерархического аудио кодирования, может воспроизводиться с особенно высокой точностью на стороне аудио декодера. Соответственно, было обнаружено, что два аудио сигнала, которые эффективно объединяются только на второй стадии иерархического кодера, хорошо подходят для получения набора общих параметров расширения диапазона, так как многоканальное расширение диапазона может лучше всего применяться к сигналам аудио канала, соотношение между которыми хорошо восстанавливается на стороне аудио декодера. Следовательно, было обнаружено, что лучше, с точки зрения достижения качества аудио, извлекать набор общих параметров расширения диапазона из таких канальных аудио сигналов, которые объединяются только на второй стадии иерархического аудио кодера, по сравнению с получением набора общих параметров расширения диапазона из таких канальных аудио сигналов, которые объединяются на первой стадии иерархического аудио кодера. Однако, было также обнаружено, что лучшее качество аудио может получаться с помощью извлечения наборов общих параметров расширения диапазона из канальных аудио сигналов перед совместным кодированием на первой стадии иерархического аудио кодера.
В предпочтительном варианте осуществления первый сигнал понижающего микширования и второй сигнал понижающего микширования связаны с различными горизонтальными положениями (или азимутальными положениями) аудио сцены. Эта концепция основана на идее, что лучшее впечатление от прослушивания может достигаться, если сигналы, которые связаны с различными горизонтальными положениями, совместно кодируются только на второй стадии иерархического аудио кодера.
В предпочтительном варианте осуществления первый сигнал понижающего микширования связан с левой стороной аудио сцены, а второй сигнал понижающего микширования связан с правой стороной аудио сцены. Таким образом, такие многоканальные сигналы, которые связаны с различными сторонами аудио сцены, используются для обеспечения наборов общих параметров расширения диапазона. Следовательно, наборы общих параметров расширения диапазона хорошо настраиваются к возможности человека различать аудио источники с различных сторон.
В предпочтительном варианте осуществления первый канальный аудио сигнал и второй канальный аудио сигнал связаны с соседними по вертикали положениями аудио сцены. Кроме того, третий канальный аудио сигнал и четвертый канальный аудио сигнал также связаны с соседними по вертикали положениями аудио сцены. Было обнаружено, что хорошее впечатление от прослушивания может получаться, если канальные аудио сигналы, которые связаны с соседними по вертикали положениями аудио сцены, совместно кодируются на первой стадии иерархического кодера, хотя лучше извлекать наборы общих параметров расширения диапазона из канальных аудио сигналов, которые не связаны с соседними по вертикали положениями (но которые связаны с различными горизонтальными положениями или различными азимутальными положениями).
В предпочтительном варианте осуществления первый канальный аудио сигнал и третий канальный аудио сигнал связаны с первой общей горизонтальной плоскостью (или первой общей высотой) аудио сцены, но с различными горизонтальными положениями (или азимутальными положениями) аудио сцены, а второй канальный аудио сигнал и четвертый канальный аудио сигнал связаны со второй общей горизонтальной плоскостью (или второй общей высотой) аудио сцены, но с различными горизонтальными положениями (или азимутальными положениями) аудио сцены, причем первая горизонтальная плоскость отличается от второй горизонтальной плоскости. Было обнаружено, что особенно хорошие результаты аудио кодирования (и, следовательно, результаты аудио декодирования) могут достигаться, используя такую пространственную связь канальных аудио сигналов.
В предпочтительном варианте осуществления первый канальный аудио сигнал и второй канальный аудио сигнал связаны с первой вертикальной плоскостью (или первым азимутальным положением) аудио сцены, но с различными вертикальными положениями (или различными высотами) аудио сцены. Кроме того, третий канальный аудио сигнал и четвертый канальный аудио сигнал предпочтительно связаны со второй вертикальной плоскостью (или вторым азимутальным положением) аудио сцены, но с различными вертикальными положениями (или различными высотами) аудио сцены, причем первая общая вертикальная плоскость отличается от второй общей вертикальной плоскости. Было обнаружено, что такая пространственная связь канальных аудио сигналов приводит к хорошему качеству аудио кодирования.
В предпочтительном варианте осуществления первый канальный аудио сигнал и второй канальный аудио сигнал связаны с левой стороной аудио сцены, а третий канальный аудио сигнал и четвертый канальный аудио сигнал связаны с правой стороной аудио сцены. Следовательно, хорошее впечатление от прослушивания может достигаться, в то время как декодирование обычно является эффективным с точки зрения скорости передачи данных.
В предпочтительном варианте осуществления первый канальный аудио сигнал и третий канальный аудио сигнал связаны с нижней частью аудио сцены, а второй канальный аудио сигнал и четвертый канальный аудио сигнал связаны с верхней частью аудио сцены. Эта структура также помогает получать эффективное аудио кодирование с хорошим впечатлением от прослушивания.
В предпочтительном варианте осуществления аудио кодер конфигурируется для выполнения горизонтального объединения, обеспечивая кодированное представление сигналов понижающего микширования на основе первого сигнала понижающего микширования и второго сигнала понижающего микширования, используя многоканальное кодирование. Параллельно с приведенными выше объяснениями, сделанными по отношению к аудио декодеру, было обнаружено, что особенно хорошее впечатление от прослушивания может получаться, если горизонтальное объединение выполняется на второй стадии аудио кодера (по сравнению с первой стадией аудио кодера), так как горизонтальное положение аудио объекта имеет особенно высокое значение для слушателя, и так как вторая стадия иерархического аудио кодера обычно соответствует первой стадии иерархического аудио декодера, описанного выше.
В предпочтительном варианте осуществления аудио кодер конфигурируется для выполнения вертикального объединение, обеспечивая первый сигнал понижающего микширования на основе первого канального аудио сигнала и второго канального аудио сигнала, используя многоканальное декодирование. Кроме того, аудио декодер предпочтительно конфигурируется для выполнения ве