Посегментная настройка пространственного аудиосигнала к другой установке громкоговорителя для воспроизведения
Иллюстрации
Показать всеИзобретение относится к средствам посегментной настройки пространственного аудиосигнала к другой установке громкоговорителей для воспроизведения. Технический результат заключается в сохранении пространственного образа аудиосцены при перенастройке аудиосигнала к другой установке громкоговорителей. Предложено устройство для адаптации пространственного аудиосигнала, предназначенного для исходной установки громкоговорителя, к установке громкоговорителя для воспроизведения, которая отличается от исходной установки громкоговорителя. Устройство содержит блок декомпозиции на прямой звук и звук окружения, который выполнен с возможностью осуществления декомпозиции канальных сигналов в сегменте исходной установки громкоговорителя на компоненты прямого звука и окружения, и определения направления прихода для компонентов прямого звука. Блок представления прямого звука принимает информацию установки громкоговорителя для воспроизведения и настраивает компоненты прямого звука с использованием информации установки громкоговорителя для воспроизведения так, что воспринимаемое направление прихода для компонентов прямого звука в установке громкоговорителя для воспроизведения является идентичным направлению прихода для компонентов прямого звука. 3 н. и 13 з.п. ф-лы, 9 ил.
Реферат
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Настоящее изобретение в целом относится к обработке пространственного аудиосигнала и конкретно - к устройству и способу для приспосабливания пространственного аудиосигнала, намеченного для исходной (базовой) установки громкоговорителя, к установке громкоговорителя для воспроизведения, которая отличается от исходной установки громкоговорителя. Дополнительные варианты осуществления настоящего изобретения относятся к гибкому преобразованию многоканальной звуковой сцены высокого качества.
ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИ
С годами требования к современной системе воспроизведения аудио изменились. От одноканальной (моно) к двухканальной (стерео) до многоканальных систем, подобных Surround-системам (объемного звука) конфигураций 5.1 и 7.1, или синтеза однородного волнового поля, число используемых каналов громкоговорителя увеличилось. Однородные системы с громкоговорителями верхнего расположения нужно видеть в современных кинотеатрах. Это способствует предоставлению слушателю аудиовпечатления о записанной или искусственно созданной аудиосцене, по отношению к восприятию реальности, погружения и окружения звуком, каковое становится насколько возможно близким к реальной аудиосцене или альтернативно наилучшим образом отражает намерения звукооператора (см. например, M. Morimoto, “The Role of Rear Loudspeakers in Spatial Impression”, в материалах 103-th Convention of the AES (Конгресс Общества инженеров-звукотехников), 1997; D. Griesinger, “Spaciousness and Envelopment in Musical Acoustics”, в материалах 101th Convention of the AES, 1996; K. Hamasaki, K. Hiyama и R. Okumura, “The 22.2 Multichannel Sound System and Its Application” в материалах 118th Convention of the AES, 2005). Однако имеются, по меньшей мере, два недостатка: из-за множества доступных акустических систем по отношению к числу используемых громкоговорителей и рекомендуемому их позиционированию отсутствует общая совместимость между всеми этими системами. Кроме того, любое отступление от рекомендуемого позиционирования громкоговорителя приведет к нарушенной аудиосцене и, следовательно, снизит пространственное аудиовпечатление слушателя, и, следовательно, качество пространственного звука.
В применении в реальных условиях многоканальные системы воспроизведения часто не являются сконфигурированными корректно по отношению к позиционированию громкоговорителя. Чтобы не искажать исходный пространственный образ аудиосцены, что возможно произойдет вследствие неправильного позиционирования, требуется гибкая система высокого качества, которая способна компенсировать эти несоответствия установок. Современные подходы часто испытывают недостаток способности описать сложную и возможно искусственно сформированную звуковую сцену, где, например, появляется более одного прямого источника на один частотный диапазон и момент времени.
Следовательно, задача настоящего изобретения состоит в обеспечении усовершенствованного принципа для приспосабливания пространственного аудиосигнала с тем результатом, что пространственный образ аудиосцены сохраняется по существу таким же, если установка громкоговорителя для воспроизведения отличается от исходной установки громкоговорителя, то есть, установки громкоговорителя, для которой аудиоконтент пространственного аудиосигнала первоначально создавался.
КРАТКОЕ ОПИСАНИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯ
Эта задача изобретения решается посредством устройства по п. 1, способа по п. 14 или компьютерной программы по п. 15.
Согласно варианту осуществления настоящего изобретения обеспечивается устройство для адаптации пространственного аудиосигнала, предназначенного для исходной установки громкоговорителя, к установке громкоговорителя воспроизведения, которая отличается от исходной установки громкоговорителя. Пространственный аудиосигнал содержит множество канальных сигналов. Устройство содержит группирователь, выполненный с возможностью группирования, по меньшей мере, двух канальных сигналов в сегмент. Устройство также содержит блок декомпозиции на прямой звук и звук окружения (режим «прямой-окружение»), выполненный с возможностью декомпозиции, по меньшей мере, двух канальных сигналов в сегменте, по меньшей мере, на один компонент прямого звука и, по меньшей мере, один компонент окружения. Блок декомпозиции на прямой звук и звук окружения может быть дополнительно выполнен с возможностью определения направления прихода, по меньшей мере, для одного компонента прямого звука. Устройство также содержит блок представления (рендеринга) прямого звука, выполненный с возможностью приема информации установки громкоговорителя для воспроизведения для, по меньшей мере, одного сегмента воспроизведения, связанной с сегментом, и для настройки, по меньшей мере, одного компонента прямого звука с использованием информации установки громкоговорителя для воспроизведения для сегмента с тем, что воспринимаемое направление прихода, по меньшей мере, одного компонента прямого звука в установке громкоговорителя для воспроизведения является идентичным направлению прихода для сегмента или более близким к направлению прихода, по меньшей мере, одного компонента прямого звука по сравнению с ситуацией, в которой настройка не имела место. Кроме того, устройство содержит объединитель, выполненный с возможностью объединения настроенных компонентов прямого звука и компонентов окружения или модифицированных компонентов окружения, чтобы получать сигналы громкоговорителя для, по меньшей мере, двух громкоговорителей в установке громкоговорителя для воспроизведения.
Основная концепция, лежащая в основе настоящего изобретения, состоит в группировании соседних каналов громкоговорителя в сегменты (например, круговые секторы, цилиндрические секторы, или сферические секторы) и декомпозиции сигнала каждого сегмента на соответствующие части сигнала прямого звука и звука окружения. Прямые сигналы ведут к позиции фантомного источника (или нескольким позициям фантомных источников) в пределах каждого сегмента, тогда как сигналы окружения соответствуют диффузному звуку и отвечают за окружение звуком (envelopment) слушателя. В течение процесса представления прямые компоненты повторно отображаются (распределяются), взвешиваются и настраиваются при посредстве позиций фантомных источников, чтобы соответствовать фактической установке громкоговорителя для воспроизведения и сохранить исходную локализацию источников. Компоненты окружения повторно отображаются и взвешиваются, чтобы создать такую же величину окружения звуком в модифицированной установке прослушивания. По меньшей мере, часть обработки может выполняться на основе элемента разрешения по частоте-времени. С помощью этой методики можно обрабатывать даже повышенное или сниженное число громкоговорителей в выходной установке.
Сегмент в исходной установке громкоговорителя может также именоваться “исходный сегмент” для более легкой ссылки в последующем описании. Подобным образом, сегмент в установке громкоговорителя для воспроизведения может также именоваться “сегмент воспроизведения”. Сегмент обычно охвачен или ограничен двумя или большим числом громкоговорителей и позицией слушателя, то есть, сегмент обычно соответствует пространству, которое ограничивается двумя или большим числом громкоговорителей и слушателем. Данный громкоговоритель может быть назначен двум или большему числу сегментов. В двумерной установке громкоговорителей конкретный громкоговоритель обычно назначают "левому" сегменту и "правому" сегменту, то есть, громкоговоритель излучает звук прежде всего в левый и правый сегменты. Группирователь (или группирующий элемент) выполнен с возможностью сбора тех канальных сигналов, которые связаны с данным сегментом. Поскольку каждый канальный сигнал может быть назначен двум или большему числу каналов, его можно распределять этим двум или большему числу сегментов посредством группирователя или нескольких группирователей.
Блок декомпозиции на прямой звук и звук окружения может быть выполнен с возможностью определения компонентов прямого звука и компонентов окружения для каждого канала. Альтернативно, блок декомпозиции на прямой звук и звук окружения может быть выполнен с возможностью определять одиночный компонент прямого звука и одиночный компонент окружения на один сегмент. Направление(я) прихода можно определять путем анализа (например, кросскорреляции), по меньшей мере, двух канальных сигналов. В качестве альтернативы направление(я) прихода можно определять на основе информации, предоставленной на блок декомпозиции на прямой звук и звук окружения от дополнительного компонента устройства или от внешнего объекта.
Блок представления прямого звука может обычно рассматривать, каким образом различие между исходной установкой громкоговорителя и установкой громкоговорителя для воспроизведения влияет на текущий рассматриваемый сегмент исходной установки громкоговорителя, и какие меры должны быть предприняты, чтобы поддерживать восприятие компонентов прямого звука внутри упомянутого сегмента. Эти меры могут содержать (неисчерпывающий перечень):
- модифицирование амплитудного взвешивания для компонента прямого звука между громкоговорителями упомянутого сегмента;
- модифицирование фазового отношения и/или отношения задержки между специфическими для громкоговорителя компонентами прямого звука для громкоговорителей упомянутого сегмента;
- удаление компонента прямого звука для упомянутого сегмента из конкретного громкоговорителя благодаря доступности более подходящего громкоговорителя в установке громкоговорителя для воспроизведения;
- применение компонента прямого звука для соседнего сегмента в исходной установке громкоговорителя к громкоговорителю в текущем рассматриваемом сегменте, поскольку упомянутый громкоговоритель является более подходящим для воспроизведения упомянутого компонента прямого звука (например, из-за границы сегмента, пересекавшей направление прихода для фантомного источника при переходе от исходной установки громкоговорителя к установке громкоговорителя для воспроизведения);
- применение компонента прямого звука к добавленному громкоговорителю (дополнительный громкоговоритель), который является доступным в установке громкоговорителя для воспроизведения, но не в исходной установке громкоговорителя;
- возможные дополнительные меры, как описано ниже.
Блок представления прямого звука может содержать множество блоков представления сегмента, каждый блок представления сегмента выполняет обработку канальных сигналов одного сегмента.
Объединитель может объединять настроенные компоненты прямого звука, компоненты окружения и/или модифицированные компоненты окружения, которые были сгенерированы блоком представления прямого звука (или последующим блоком представления прямого звука) для одного или нескольких соседних сегментов относительно текущего рассматриваемого сегмента. Согласно некоторым вариантам осуществления компоненты окружения могут быть по существу идентичными, по меньшей мере, одному компоненту окружения, определенному посредством блока декомпозиции на прямой звук и звук окружения. Согласно альтернативным вариантам осуществления, модифицированные компоненты окружения могут быть определены на основе компонентов окружения, определенных посредством блока декомпозиции на прямой звук и звук окружения с учетом различия между исходным сегментом и сегментом воспроизведения.
Согласно дополнительному варианту осуществления установка громкоговорителя для воспроизведения может содержать дополнительный громкоговоритель внутри сегмента. Следовательно, сегмент исходной установки громкоговорителя соответствует двум или большему числу сегментов в сегменте громкоговорителя для воспроизведения, то есть, исходный сегмент в исходной установке громкоговорителя был разделен на два или большее число сегментов воспроизведения в установке громкоговорителя для воспроизведения. Блок представления прямого звука может быть выполнен с возможностью формирования настроенных компонентов прямого звука для этих, по меньшей мере, двух громкоговорителей и дополнительного громкоговорителя в установке громкоговорителя для воспроизведения.
Противоположный случай также является возможным: Согласно дополнительному варианту осуществления, в установке громкоговорителя для воспроизведения может отсутствовать громкоговоритель по сравнению с исходной установкой громкоговорителя, так что сегмент и соседний сегмент исходной установки громкоговорителя совмещают в один совмещенный сегмент установки громкоговорителя для воспроизведения. Блок представления прямого звука тогда может быть выполнен с возможностью распределения настроенных компонентов прямого звука для канального сигнала, соответствующего громкоговорителю, который отсутствует в установке громкоговорителя для воспроизведения, по меньшей мере, двум оставшимся громкоговорителям совмещенного сегмента в установке громкоговорителя для воспроизведения. Громкоговоритель, который присутствует в исходной установке громкоговорителя, но не в установке громкоговорителя для воспроизведения, может также именоваться “недостающий громкоговоритель”.
Согласно дополнительным вариантам осуществления, блок представления прямого звука может быть выполнен с возможностью перераспределения компонента прямого звука, имеющего определенное направление прихода, из сегмента в исходной установке громкоговорителя в соседний сегмент в установке громкоговорителя для воспроизведения, если граница между сегментом и соседним сегментом нарушает границу или пересекает определенное направление прихода при переходе от исходной установки громкоговорителя к установке громкоговорителя для воспроизведения.
Согласно дополнительным вариантам осуществления, блок представления прямого звука может быть дополнительно выполнен с возможностью перераспределения компонента прямого звука, имеющего определенное направление прихода, по меньшей мере, из одного первого громкоговорителя, по меньшей мере, в один второй громкоговоритель, по меньшей мере, один первый громкоговоритель, назначаемый сегменту в исходной установке громкоговорителя, но не соседнему сегменту в установке громкоговорителя для воспроизведения и, по меньшей мере, один второй громкоговоритель, назначаемый соседнему сегменту в установке громкоговорителя для воспроизведения.
Согласно дополнительным вариантам осуществления, блок представления прямого звука может быть выполнен с возможностью формирования "специфических для сегмента громкоговорителя" компонентов прямого звука для, по меньшей мере, двух действительных пар громкоговоритель-сегмент в установке громкоговорителя для воспроизведения, по меньшей мере, две действительные пары громкоговоритель-сегмент относятся к одному и тому же громкоговорителю и двум соседним сегментам в установке громкоговорителя для воспроизведения. Объединитель может быть выполнен с возможностью объединения специфических для сегмента громкоговорителя компонентов прямого звука для, по меньшей мере, двух действительных пар громкоговоритель-сегмент, относящихся к тому же громкоговорителю, чтобы получить один из сигналов громкоговорителя для, по меньшей мере, двух громкоговорителей в установке громкоговорителя для воспроизведения. Действительная пара сегмент-громкоговоритель относится к громкоговорителю и одному из сегментов, которому назначен этот громкоговоритель. Громкоговоритель может быть частью последующих действительных пар громкоговоритель-сегмент, если громкоговоритель назначают последующим сегментам (как обычно имеет место). Подобным образом, сегмент может быть (и обычно является) частью последующих действительных пар громкоговоритель-сегмент. Блок представления прямого звука может быть выполнен с возможностью рассматривать эту двойственность каждого громкоговорителя и обеспечивать специфические для сегмента компоненты прямого звука для громкоговорителя. Объединитель может быть выполнен с возможностью сбора различных специфических для сегмента компонентов прямого звука (и возможно, в зависимости от обстоятельств, специфических для сегмента компонентов окружения, также), намеченных для конкретного громкоговорителя в установке громкоговорителя для воспроизведения от различных сегментов, которым назначен этот конкретный громкоговоритель. Нужно отметить, что добавление или удаление громкоговорителя в установке громкоговорителя для воспроизведения может оказать влияние на действительные пары сегмент-громкоговоритель: добавление громкоговорителя обычно разделяет исходный сегмент, по меньшей мере, на два сегмента воспроизведения с тем, что подвергшиеся влиянию громкоговорители назначаются новым сегментам в установке громкоговорителя для воспроизведения. Удаление громкоговорителя может приводить к совмещению двух или большего числа исходных сегментов в один сегмент воспроизведения и соответствующему влиянию на действительные пары сегмент-громкоговоритель.
Дополнительные варианты осуществления настоящего изобретения обеспечивают способ для приспосабливания пространственного аудиосигнала, намеченного для исходной установки громкоговорителя, к установке громкоговорителя для воспроизведения, которая отличается от исходной установки громкоговорителя. Пространственный аудиосигнал содержит множество каналов. Способ содержит группирование, по меньшей мере, двух канальных сигналов в сегмент и декомпозицию, по меньшей мере, двух канальных сигналов в сегменте, по меньшей мере, на один компонент прямого звука и, по меньшей мере, один компонент окружения. Способ дополнительно содержит определение направления прихода для, по меньшей мере, одного компонента прямого звука. Способ также содержит настройку, по меньшей мере, одного компонента прямого звука с использованием информации установки громкоговорителя для воспроизведения для сегмента с тем, что воспринимаемое направление прихода для компонента прямого звука в установке громкоговорителя для воспроизведения является по существу идентичным направлению прихода для сегмента. По меньшей мере, воспринимаемое направление прихода для, по меньшей мере, одного компонента прямого звука является более близким к направлению прихода для сегмента по сравнению с ситуацией, в которой настройка не имела место. Способ дополнительно содержит объединение настроенных компонентов прямого звука и компонентов окружения или модифицированных компонентов окружения, чтобы получать сигналы громкоговорителя для, по меньшей мере, двух громкоговорителей в установке громкоговорителя для воспроизведения.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
В последующем варианты осуществления настоящего изобретения будут пояснены со ссылкой на сопроводительные чертежи, на которых:
Фиг. 1 показывает структурную схему возможного сценария применения.
Фиг. 2 показывает структурную схему общего представления системы для устройства и способа настройки пространственного аудиосигнала.
Фиг. 3 показывает схематичную иллюстрацию примера для модифицированной установки громкоговорителя с одним громкоговорителем, который был перемещен/смещен.
Фиг. 4 показывает схематичную иллюстрацию примера для другой модифицированной установки громкоговорителя с увеличенным числом громкоговорителей.
Фиг. 5 показывает схематичную иллюстрацию примера для другой модифицированной установки громкоговорителя с уменьшенным числом громкоговорителей.
Фиг. 6A и 6B показывают схематичные иллюстрации примеров для дополнительных модифицированных установок громкоговорителя со смещенными громкоговорителями.
Фиг. 7 показывает структурную схему устройства для настройки пространственного аудиосигнала.
Фиг. 8 показывает структурную схему способа для настройки пространственного аудиосигнала.
ПОДРОБНОЕ ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ
Прежде описания настоящего изобретения с дополнительными подробностями с использованием чертежей, отмечается, что на фигурах чертежей идентичным элементам, элементам с такой же функцией или таким же действием, даются одинаковые или сходные ссылочные позиции с тем, что описание этих элементов и их функциональность, иллюстрируемая в различных вариантах осуществления, являются взаимно заменяемыми или могут применяться одно к другому в различных вариантах осуществления.
Некоторые способы для настройки пространственного аудиосигнала не являются достаточно гибкими, чтобы обрабатывать сложную звуковую сцену, особенно те, которые основываются на глобальных физических допущениях (см. например, V. Pulkki, “Spatial Sound Reproduction with Directional Audio Coding”, J. Audio Eng. Soc, vol. 55, no. 6, pp. 503-516, 2007 и V. Pulkki и J. Herre, “Method and Apparatus for Conversion Between Multi-Channel Audio Formats”, публикация заявки на патент США №2008/0232616 A1) или которые ограничены одним локализуемым (прямым) компонентом на один частотный диапазон в полной аудиосцене (см. например, M. Goodwin и J.-M. Jot, “Spatial Audio Scene Coding”, в материалах 125-th Convention of the AES, 2008 и J. Thompson, B. Smith, A. Warner, and J.-M. Jot, “Direct-Diffuse Decomposition of Multichannel Signals Using a System of Pairwise Correlations”, в материалах 133rd Convention of the AES 2012, October 2012). Допущение одной плоской волны или прямой составляющей могут быть достаточными в некоторых специальных сценариях, но, в общем, не способны получить сложную аудиосцену с несколькими активными источниками за один раз. Это приводит к пространственному искажению и непостоянным или даже «прыгающим» источникам в течение воспроизведения.
Имеются системы, моделирующие громкоговорители входной установки, которые не соответствуют выходной установке, в виде виртуального громкоговорителя (полный сигнал громкоговорителя панорамируется соседними громкоговорителями к намеченной позиции громкоговорителя) (A. Ando, “Conversion of Multichannel Sound Signal Maintaining Physical Properties of Sound in Reproduced Sound Field”, IEEE Transactions on Audio, Speech and Language Processing, vol. 19, no. 6, pp. 1467-1475, 2011). Это также может приводить к пространственному искажению фантомных источников, в которые вносят вклад эти каналы громкоговорителя. Подход, приведенный A. Laborie, R. Bruno и S. Montoya А. в “Reproducing Multichannel Sound on any Speaker Layout”, 118th Convention of the AES, 2005, требует от пользователя сначала калибровать свои громкоговорители и впоследствии осуществлять представление сигнала для этой установки из вычислительно интенсивного преобразования сигналов.
Кроме того, система высокого качества должна быть сохраняющей форму волны. Когда входные каналы представляются на установку громкоговорителя, которая идентична входной установке, форма волны не должна изменяться значительно, иначе информация теряется, что может приводить к слышимым артефактам и снижению пространственного и аудиокачества. Основанные на объектах способы могут испытывать здесь дополнительное перекрестное искажение, которое вносится в течение извлечения объекта (F. Melchior, “Vorrichtung zum Verändern einer Audio-Szene und Vorrichtung zum Erzeugen einer Richtungsfunktion”, заявка на патент Германии № DE 10 2010 030534 A1, 2011). Глобальные физические допущения также приводят к различным формам волны (см. например, M. Goodwin и J.-M.Jot, “Spatial Audio Scene Coding”, в материалах 125-th Convention of the AES, 2008; V. Pulkki, “Spatial Sound Reproduction with Directional Audio Coding”, J. Audio Eng. Soc, vol. 55, no. 6, pp. 503-516, 2007; и V. Pulkki и J. Herre, “Method and Apparatus for Conversion Between Multi-Channel Audio Formats”, в публикации заявки на патент США № 2008/0232616 A1).
Многоканальный панорамировщик (блок панорамирования, Panner) может использоваться, чтобы помещать фантомный источник где-либо в аудиосцене. Алгоритмы, приведенные Eppolito, Pulkki и Blauert, основываются на относительно простых допущениях, которые могут вызвать серьезные неточности в пространственном расположении, к которому источник был панорамирован, и в котором источник воспринимается (A. Eppolito, “Multi-Channel Sound Panner”, публикация заявки на патент США № 2012/0170758 A1; V. Pulkki, “Virtual Sound Source Positioning Using Vector Base Amplitude Panning”, J. Audio Eng. Soc, vol. 45, no. 6, pp. 456-466, 1997; и J. Blauert, “Spatial hearing: The psychophysics of human sound localization”, 3rd ed. Cambridge and Mass: MIT Press, 2001, section 2.2.2).
Использующие повышающее микширование способы извлечения пространственной характеристики окружения (ambience) разработаны с возможностью извлекать части внешнего сигнала и распределять их среди дополнительных громкоговорителей, чтобы сформировать некоторый объем окружения звуком (J. S. Usher и J. Benesty, “Enhancement of Spatial Sound Quality: A New Reverberation-Extraction Audio Upmixer”, IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, no. 7, pp. 2141-2150, 2007; C. Faller, “Multiple-Loudspeaker Playback of Stereo Signals”, J. Audio Eng. Soc, vol. 54, no. 11, pp. 1051-1064, 2006; C. Avendano и J.-M. Jot, “Ambience extraction and synthesis from stereo signals for multi-channel audio up-mix”, в материалах Международной конференция по акустике и обработке речи и сигналов (ICASSP), 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 2, 2002, pp. II-1957 - II-1960; и R. Irwan и R. M. Aarts, “Two-to-Five Channel Sound Processing”, J. Audio Eng. Soc, vol. 50, no. 11, № 11, pp. 914-926, 2002). Извлечение основывается только на одном или двух каналах, вот почему результирующая аудиосцена более не является точным образом исходной сцены, и почему они не являются полезными подходами для целей изобретения. Это также справедливо для подходов с матрицированием, как описал Dressler в “Dolby Surround Pro Logic II Decoder Principles of Operation” (доступно в режиме онлайн, адрес указан ниже). Подход с повышающим микшированием два к трем, упомянутый Vickers в публикации заявки на патент США № 2010/0296672 A1 “Two-to-Three Channel Upmix for Center Channel Derivation”, использует некоторые предварительные сведения о позиции третьего громкоговорителя и результирующем распределении сигналов среди других двух громкоговорителей и, следовательно, не имеет способности генерировать точные сигналы для произвольной позиции введенного громкоговорителя.
Варианты осуществления настоящего изобретения направлены на обеспечение системы, которая способна сохранять исходную аудиосцену в среде воспроизведения, где установка громкоговорителя отличается от исходной, путем группирования подходящих громкоговорителей в сегменты и применения обработки повышающего микширования, понижающего микширования и/или настроечного смещения. Каскад пост-обработки к обычному аудиокодеку может быть возможным сценарием применения. Такой случай изображен на Фиг. 1, где N, ρs, ϑs, и M, , , являются числом громкоговорителей и их соответствующими позициями в полярных координатах в исходной и модифицированной/смещенной установке громкоговорителя соответственно. В общем, однако, предложенный способ применим к любому тракту аудиосигнала в качестве инструментального средства постобработки. В вариантах осуществления каждый из сегментов в установке громкоговорителя (исходной и/или установки громкоговорителя для воспроизведения) представляет подмножество направлений в пределах двумерной (2D) плоскости или в пределах трехмерного (3D) пространства. Согласно вариантам осуществления, для плоской двумерной (2D) установки громкоговорителя весь представляющий интерес диапазон полярных углов может быть разделен на множество сегментов (секторов), охватывающих уменьшенный диапазон полярных углов. Аналогично, в случае 3D полный сплошной диапазон углов (азимутальный и угол возвышения) может быть разделен на сегменты, охватывающие меньший диапазон углов.
Каждый сегмент может быть охарактеризован связанной мерой направления, которая может использоваться, чтобы указывать или обращаться к соответствующему сегменту. Мера направленности может, например, быть вектором, указывающим на центр сегмента, или азимутальным углом в случае 2D, или набором из азимута и угла возвышения в случае 3D. Сегмент может именоваться вместе подмножеством направлений в пределах плоскости 2D или в пределах пространства 3D. Для представляемой простоты последующие примеры являются примерами, описанными для случая 2D; однако расширение к конфигурациям 3D является несложным.
Фиг. 1 показывает структурную схему вышеуказанного возможного сценария применения для устройства и/или способа для настройки пространственного аудиосигнала. Пространственный аудиосигнал 1 стороны кодера кодируется кодером 10. Пространственный аудиосигнал стороны кодера имеет N каналов и был создан для исходной установки громкоговорителя, например, установки громкоговорителя конфигурации 5.0 или установки громкоговорителя конфигурации 5.1 с позициями громкоговорителей в 0 градусов, +/-30 градусов и +/-110 градусов относительно ориентации слушателя. Кодер 10 создает кодированный аудиосигнал, который может быть передан или сохранен. Обычно, кодированный аудиосигнал подвергался компрессии по сравнению с пространственным аудиосигналом 1 стороны кодера, чтобы ослабить требования к хранению и/или передаче. Декодер 20 обеспечивается для декодирования и конкретно осуществляет декомпрессию кодированного пространственного аудиосигнала. Декодер 20 создает декодированный пространственный аудиосигнал 2, который является весьма сходным или даже идентичным пространственному аудиосигналу 1 стороны кодера. В этот момент в обработке пространственного аудиосигнала могут использоваться способ или устройство 100 для настройки пространственного аудиосигнала. Назначение способа или устройства 100 состоит в том, чтобы настраивать пространственный аудиосигнал 2 к установке громкоговорителя для воспроизведения, которая отличается от исходной установки громкоговорителя. Способ или устройство обеспечивают настроенный пространственный аудиосигнал 3 или 4, который приспособлен к имеющейся установке громкоговорителя для воспроизведения.
Общее представление системы для предложенного способа изображено на Фиг. 2. Краткосрочные представления в частотной области для входных каналов группируются в K сегментов группирователем 110 (группирующий элемент) и подаются в блок 130 декомпозиции на прямой звук и звук окружения (Direct/Ambience-Decomposition), и каскад 140 оценки DOA, где A - пространственная характеристика окружения и D - прямые сигналы на один громкоговоритель и сегмент, и ϑ, ϕ являются оцененными DOA на сегмент. Эти сигналы подают в блок 170 представления окружения или блок 150 представления прямого звука соответственно, имея в результате заново представленные сигналы Â и прямого звука и окружения на один громкоговоритель и сегмент для выходной установки. Сигналы сегмента объединяются объединителем 180 в скорректированные по угловой ориентации выходные сигналы. Чтобы компенсировать смещения в выходной установке относительно расстояния, каналы масштабируются и задерживаются в каскаде 190 настройки по расстоянию, чтобы в заключение иметь результатом каналы громкоговорителя для установки воспроизведения. Упомянутый способ также может быть расширен, чтобы обрабатывать установки воспроизведения с увеличенным, а также уменьшенным числом громкоговорителей, и описывается ниже.
На первом этапе способ или устройство группирует сигналы подходящего соседнего громкоговорителя в K сегментов, тогда как каждый сигнал громкоговорителя может вносить вклад в несколько сегментов, и каждый сегмент состоит из, по меньшей мере, двух сигналов громкоговорителя. В установке громкоговорителя, подобной изображенной на Фиг. 3, сегменты входной установки, например, будут сформированы парами громкоговорителей Segin=[{L1,L2}, {L2,L3}, {L3,L4}, {L4,L5}, {L5,L1}], и выходными сегментами будут Segout=[{L1,L'2}, {L'2,L3}, {L3,L4}, {L4,L5}, {L5,L1}]. Громкоговоритель L2 в исходной установке громкоговорителя (громкоговоритель, вычерченный пунктирной линией), был модифицирован в перемещенный или смещенный громкоговоритель L'2 в установке громкоговорителя для воспроизведения.
В течение анализа выполняется нормированная, основанная на кросс-корреляции декомпозиция на прямой звук и звук окружения на каждый сегмент, имея результатом компоненты D прямого сигнала и компоненты A сигнала окружения для каждого громкоговорителя (для каждого канала) относительно каждого рассматриваемого сегмента. Это означает, предложенный способ/устройство способно оценивать сигналы прямого звука и окружения для другого источника внутри каждого сегмента. Декомпозиция на прямой звук и звук окружения не ограничивается упомянутым подходом на основе нормированной кросс-орреляции, и может выполняться с помощью любого подходящего алгоритма декомпозиции. Число созданных сигналов прямых и окружения на один сегмент имеет значение от, по меньшей мере, одного до числа вносящих вклад в рассматриваемый сегмент громкоговорителей. Например, для входной установки, данной на Фиг. 3, имеются, по меньшей мере, один прямой и один сигнал окружения или максимально два прямых и два сигнала окружения на один сегмент.
Кроме того, поскольку один конкретный сигнал громкоговорителя вносит вклад в несколько сегментов в течение декомпозиции на прямой звук и звук окружения, сигналы могут уменьшаться в масштабе или разделяться до входа в декомпозицию на прямой звук и звук окружения. Легчайшим способом выполнения этого, будем уменьшение в масштабе каждого сигнала громкоговорителя в пределах каждого сегмента согласно числу сегментов, в которые вносит вклад этот конкретный громкоговоритель. Например, для случая на Фиг. 3 каждый канал громкоговорителя вносит вклад в два сегментам, так что коэффициентом уменьшения в масштабе будет 1/2 для каналов каждого громкоговорителя. Но в общем, более сложное и несбалансированное разделение также является возможным.
Каскад оценки направления прихода (каскад оценки DOA) 140 может быть подключен к декомпозиции 130 на прямой звук и звук окружения. Оценки DOA, состоящие из азимутального угла ϑ и возможно угла ϕ возвышения, оцениваются на один сегмент и частотный диапазон и в соответствии с выбранным способом декомпозиции на прямой звук и звук окружения. Например, если используется способ декомпозиции с нормированной кросс-корреляцией, каскад оценки DOA применяет для оценки рассмотрение энергии для входных и извлеченных сигналов прямого звука. В общем, однако, можно выбирать между несколькими алгоритмами декомпозиции на прямой звук и звук окружения и обнаружения позиции.
В каскаде 170, 150 представления (блок представления окружения и прямого звука) имеет место фактическое преобразование между входной и выходной установкой громкоговорителя, причем сигналы прямые и окружения обрабатываются отдельно и различно. Любая модификация к входной установке может быть описана в виде комбинации трех основных случаев: вставка, удаление и смещение громкоговорителей. По причинам простоты эти случаи описываются индивидуально, но в реальной обстановке они происходят одновременно и, следовательно, обрабатываются также одновременно. Это выполняют суперпозицией основных случаев. Вставка и удаление громкоговорителей влияет только на рассматриваемые сегменты и должны появляться в виде основанного на сегменте способа повышающего и понижающего микширования. В течение представления прямые сигналы могут подаваться в функцию повторного панорамирования, которая гарантирует корректную локализацию фантомных источников в выходной установке. Чтобы сделать это, сигналы могут быть “панорамированными с инверсией” по отношению к входной установке и панорамированными снова относительно выходной установки. Этого можно добиться путем применения коэффициентов повторного панорамирования к прямым сигналам внутри сегмента. Возможное исполнение, например, для случая смещения, для коэффициента повторного панорамирования может быть, как изложено ниже:
(1)
где - коэффициенты усиления панорамирования во входной установке (полученной из оценок DOA) и - коэффициенты усиления панорамирования для выходной установки. k=1…K обозначает рассматриваемый сегмент и s=1…S - рассматриваемый громкоговорит