2460155 - Кодирование и декодирование звуковых объектов

Кодирование и декодирование звуковых объектов

Иллюстрации

Показать все

Изобретение относится к кодированию и декодированию звуковых объектов. Техническим результатом является улучшение кодирования звуковых объектов, улучшение управления характеристиками отдельных звуковых объектов и, в частности, уменьшение ухудшения звукового объекта, вызванное перекрестными помехами, при управлении звуковыми объектами. Аудиосистема содержит кодер (209), который кодирует звуковые объекты в кодирующем модуле (403), который генерирует звуковые сигналы, микшированные с понижением, и параметрические данные, представляющие множество звуковых объектов. Звуковые сигналы, микшированные с понижением, и параметрические данные передаются декодеру (215), который содержит декодирующий модуль (301), генерирующий приблизительные реплики звуковых объектов, и воспроизводящий модуль устройство (303), генерирующий выходной сигнал из звуковых объектов. Декодер (215) к тому же содержит процессор (501) для генерирования модификационных данных кодирования, которые посылаются кодеру (209). Кодер (209) затем модифицирует кодирование звуковых объектов, и, в частности, модифицирует параметрические данные в ответ на модификационные данные кодирования. 12 н. и 9 з.п. ф-лы. 7 ил.

Реферат

ОБЛАСТЬ ТЕХНИКИ

Изобретение относится к кодированию и декодированию звуковых объектов и особенно, но не исключительно, к обработке звуковых объектов микшированного с понижением пространственного сигнала.

УРОВЕНЬ ТЕХНИКИ

Цифровое кодирование различных звуковых сигналов стало важным за последние десятилетия, так как цифровое представление сигнала и связь все в большей степени заменяют аналоговые представление и связь.

В последнее десятилетие был взят курс на многоканальное звуковое и особенно на пространственное звуковое расширение сверх стандартных стереосигналов. Например, традиционные стереозвукозаписи содержат только два канала, тогда как современные усовершенствованные аудиосистемы обычно используют пять или шесть каналов, как в популярных 5.1 системах объемного звучания. Это обеспечивает более сложное впечатление от прослушивания, когда пользователь может быть окружен источниками звука.

Различные способы и стандарты были разработаны для передачи таких многоканальных сигналов. Например, шесть дискретных каналов, представляющих 5.1 систему объемного звучания, могут быть переданы в соответствии со стандартами, такими как стандарты Advanced Audio Coding (ААС) или Dolby Digital.

Однако, чтобы обеспечить полную (обратную) совместимость с предыдущими версиями, известно микширование с понижением более высокого числа каналов до более низкого количества числа каналов, и особенно часто используется микширование с понижением 5.1 сигнала объемного звучания до стереосигнала, позволяя стереосигналу быть воспроизведенным традиционными (стерео) декодерами и 5.1 сигналу - декодерами объемного звучания.

Одним примером является MPEG Surround способ кодирования обратной совместимости, стандартизованный с помощью стандарта Экспертной Группы по Кинематографии (MPEG). В такой системе многоканальный сигнал смикширован с понижением (сведен) в стереосигнал, и дополнительные сигналы закодированы параметрическими данными в части вспомогательных данных, позволяющих многоканальному MPEG Surround декодеру формировать представление многоканального сигнала. Традиционный моно- или стереодекодер будет игнорировать вспомогательные данные и, таким образом, будет только декодировать моно- или стереомикшированный сигнал.

Таким образом, в (параметрических) пространственных звуковых кодерах параметры извлечены из исходного звукового сигнала с тем, чтобы получить звуковой сигнал, имеющий пониженное число каналов, например только единственный канал, плюс набор параметров, описывающих пространственные свойства исходного звукового сигнала. В (параметрических) пространственных звуковых декодерах пространственные свойства, описанные переданными пространственными параметрами, используются, чтобы воссоздать исходный пространственный многоканальный сигнал.

В последнее время был проявлен значительный интерес к способам для распределения отдельных звуковых объектов, которые могут быть обработаны и которыми можно управлять на приемном конце. Например, в рамках стандарта MPEG начата работа над пространственным звуковым кодированием, основанным на объекте. Целью такой работы является исследование новой технологии и повторное использование существующих MPEG Surround компонентов и технологий для эффективного с точки зрения скорости передачи битов кодирования множества звуковых источников или объектов в число микшированных с понижением каналов и соответствующих пространственных параметров. Таким образом, цель состоит в использовании похожих способов, какие используются для микширования с понижением пространственных (окружающих) каналов до меньшего числа каналов, чтобы смикшировать с понижением независимые звуковые объекты в меньшее число каналов.

В объектно-ориентированных звуковых системах декодер может обеспечить дискретное позиционирование этих источников/объектов и адаптацию к различным установкам громкоговорителя, а также бинауральное воспроизведение. Дополнительно взаимодействие пользователя с системой может быть использовано, чтобы управлять перестановкой/панорамированием отдельных источников на стороне воспроизведения.

Другими словами, целью исследования является кодирование множества звуковых объектов в ограниченный набор микшированных с понижением каналов с сопутствующими параметрами. На стороне декодера пользователи могут взаимодействовать с контентом, например, с помощью перестановки отдельных объектов. Как конкретный пример, число отдельных инструментов может быть закодировано и распределено как звуковые объекты, таким образом, позволяя пользователю принимать кодированные данные, чтобы независимо расположить отдельные инструменты на фонограмме.

Фиг.1 иллюстрирует пример звукового объектно-ориентированного кодера и декодера в соответствии с предыдущим уровнем техники. В этом примере набор звуковых объектов (О₁ и О₂) закодированы в объектно-ориентированном кодере 101, который генерирует микшированный с понижением сигнал и параметры объекта. Они передаются объектно-ориентированному декодеру 103, который генерирует приблизительные копии сигналов звуковых объектов, используя переданные параметры объекта.

Затем воспроизводящий элемент 105 генерирует выходной сигнал, имеющий желательные характеристики. Например, воспроизводящий элемент 105 может располагать объекты на местах источников звука, указанных пользователем, например, используя закон панорамирования. Конфигурация выходного сигнала является гибкой. Например, если выходной сигнал - моносигнал, пользователь может, тем не менее, управлять соответствующей громкостью/силой звука каждого объекта. В конфигурации выходного стереосигнала простой закон панорамирования может быть применен, чтобы расположить каждый объект на требуемом месте. Очевидно, что для многоканального выходного сигнала гибкость конфигурации даже больше.

Однако, хотя система может обеспечить благоприятное функционирование, она также имеет и некоторые недостатки. Например, во многих случаях качество воспроизведения субоптимально, и полностью свободное и независимое управление отдельными звуковыми объектами невозможно. В частности, микширование с понижением кодера является, в основном, не полностью обратимым на декодере, который, следовательно, может только генерировать приближения исходных звуковых объектов. Таким образом, декодер не способен полностью восстановить сигналы отдельных объектов, но может только оценить их в соответствии с критерием восприятия. Это особенно приводит к перекрестным помехам (захлестыванию) между звуковыми объектами, вследствие чего звуковые объекты больше не являются полностью независимыми. Как результат - манипуляции над одним звуковым объектом влияют на характеристики и восприятие другого объекта.

Например, одним из наиболее важных параметров, которые пользователи обычно хотели бы регулировать, является громкость каждого звукового объекта. Однако, если проделаны большие корректировки громкости, то это приведет к значительным ложным сигналам и нежелательному захлестыванию, приводящим к заметному падению качества.

Поэтому была бы полезна усовершенствованная система для кодирования/декодирования звукового объекта, и, в частности, была бы полезна система, допускающая повышенную гибкость, улучшенное качество, облегченное осуществление и/или улучшенное функционирование.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Таким образом, изобретение стремится предпочтительно уменьшить, ослабить или устранить один или более из вышеупомянутых недостатков порознь или в любой комбинации.

В соответствии с первым аспектом изобретения представлен кодер для кодирования звуковых объектов, кодер содержит: средство для приема множества звуковых объектов; кодирующее средство для кодирования множества звуковых объектов в число звуковых сигналов и параметрических данных, представляющих множество звуковых объектов, соответствующих числу звуковых сигналов, параметрические данные содержат набор параметров объекта, по меньшей мере, для одного их разных звуковых объектов; средство для приема модификационных данных кодирования от удаленного модуля; и параметрическое средство для определения параметрических данных в ответ на модификационные данные кодирования.

Изобретение может сделать возможным улучшенное кодирование звуковых объектов и может, в частности, сделать возможным систему звукового распределения, в которой улучшенное впечатление пользователя может быть достигнуто, например, улучшенным управлением отдельным пользователем отдельными звуковыми объектами. Изобретение может сделать возможным улучшенное управление характеристиками отдельных звуковых объектов и может, в частности, уменьшать ухудшение звукового объекта, вызванное перекрестными помехами, при управлении звуковыми объектами. Кодер может разрешить эффективное удаленное контролируемое управление при модифицировании модификационных данных кодирования, так что объектно-ориентированный декодер будет правильно декодировать обрабатываемые звуковые объекты. Изобретение может разрешить улучшенное распределение управления звуковыми объектами между кодером и декодером, таким образом, приводя к улучшенной гибкости, функционированию и/или качеству.

Средство кодирования к тому же может генерировать число звуковых сигналов в ответ на модификационные данные кодирования. Параметры объекта могут быть параметрами интенсивности, например указывающими относительную разницу в интенсивности между разными звуковыми объектами и/или коэффициент преобразования энергии между одним или более звуковыми сигналами и звуковыми объектами. Параметры объекта могут содержать параметры для отдельных частотно-временных блоков.

В соответствии с дополнительным признаком изобретения кодирующее средство приспособлено для генерирования числа звуковых сигналов с помощью микширования с понижением звуковых объектов, и параметрическое средство приспособлено, чтобы модифицировать микшированный с понижением вес, по меньшей мере, одного из звуковых объектов в ответ на модификационные данные кодирования.

Это может дать высокую эффективность и/или высокое качество управления относительной громкостью звукового объекта слушателем при понижении или устранении влияния на другие звуковые объекты. Может быть получена высокая эффективность управления громкостью отдельного звукового объекта.

В соответствии с дополнительным признаком изобретения параметрическое средство приспособлено, чтобы масштабировать, по меньшей мере, первый звуковой объект в ответ на модификационные данные кодирования и модифицировать параметры объекта для первого звукового объекта в ответ на масштабирование.

Это может дать высокую эффективность и/или высокое качество управления соответствующей громкостью звукового объекта слушателем при понижении или устранении влияния на другие звуковые объекты. Может быть получена высокая эффективность управления громкостью отдельного звукового объекта.

В соответствии с дополнительным признаком изобретения, по меньшей мере, некоторые из модификационных данных кодирования являются частотной особенностью, и параметрическое средство приспособлено, чтобы определять, по меньшей мере, один параметр объекта в ответ на частотную характеристику параметра объекта.

Это может позволить улучшить управление впечатлением слушателя и может, в частности, позволить слушателю управлять частотным ответом звукового воспроизведения. Частотные характеристики отдельных объектов могут быть индивидуально и отдельно модифицированы с понижением или устранением влияния на другие звуковые объекты. В частности, может быть достигнуто эффективное и/или высококачественное выравнивание отдельных звуковых объектов.

В соответствии с дополнительным признаком изобретения средство кодирования приспособлено, чтобы модифицировать, по меньшей мере, один звуковой объект в ответ на модификационные данные кодирования прежде микширования с понижением звуковых объектов до числа звуковых сигналов.

Параметрическое средство может быть приспособлено, чтобы определить параметрические данные в ответ на характеристики модифицированного звукового объекта(тов). Это может дать высокую эффективность и/или удобное выполнение.

В соответствии с дополнительным признаком изобретения средство кодирования приспособлено, чтобы генерировать число звуковых сигналов как пространственное микширование с понижением.

Это может дать улучшенную эффективность во многих осуществлениях и может, в частности, дать усовершенствованную функциональность совместно с кодерами, не имеющими или имеющими ограниченную способность воспроизведения. Кодер может, например, быть приспособлен для воспроизведения пространственного многоканального сигнала, содержащего звуковые объекты, и может быть конкретно приспособлен генерировать пространственный бинауральный сигнал.

В соответствии с дополнительным признаком изобретения средство кодирования приспособлено, чтобы модифицировать в ответ на кодирующее модификационные данные, по меньшей мере, одну характеристику, выбранную из группы, состоящей из: пространственного расположения, по меньшей мере, одного из звуковых объектов; характеристики расстояния, по меньшей мере, одного из звуковых объектов; моды пространственного воспроизведения кодера; и частотной характеристики, по меньшей мере, одного из звуковых объектов.

Это может дать улучшенную эффективность, и параметры могут, в частности, позволить слушателю модифицировать значительные параметры восприятия пространственного воспроизведенного сигнала.

В соответствии с дополнительным признаком изобретения каждый звуковой объект связан с набором звуковых источников, которые являются независимыми от звуковых источников других звуковых объектов.

Звуковые объекты могут быть независимыми друг от друга. Звуковые объекты могут соответствовать разным и независимым источникам звука. В частности, звуковые объекты могут быть разными звуковыми объектами, которые сформированы индивидуально и отдельно от других звуковых объектов и без каких-либо особенных взаимоотношений. Например, звуковые объекты могут быть индивидуально записанными/зафиксированными музыкальными инструментами или голосами.

Звуковые объекты могут быть непространственными звуковыми объектами. Звуковые объекты могут быть простыми источниками звука, с несвязанными пространственными характеристиками или информацией, и, в частности, здесь может не быть относительных пространственных взаимоотношений, знаний или связи между звуковыми объектами.

В соответствии с дополнительным признаком изобретения кодер приспособлен для приема первого звукового объекта от удаленного модуля, и средство для приема модификационных данных кодирования приспособлено, чтобы выделять модификационные данные кодирования из данных кодирования, принятых для первого звукового объекта.

Например, модификационные данные кодирования могут быть вставлены в речь, музыку или другой звуковой сигнал. Модификационные данные кодирования могут специально быть вставлены в служебные поля или поля пользовательских данных кодированного звукового сигнала, принятого от удаленного модуля, такого как, например, MPEG 4 битовый поток. Это может дать эффективную, обратно совместимую и с невысокой сложностью передачу управляющих данных и может, в частности, быть полезным в системах, использующих двунаправленные передачи между устройством, содержащим кодер, и удаленным модулем.

В соответствии с дополнительным признаком изобретения кодер приспособлен, чтобы принимать модификационные данные кодирования от множества удаленных модулей и чтобы генерировать разные параметрические данные для разных удаленных модулей в ответ на прием разных модификационных данных кодирования от разных удаленных модулей.

Это может дать улучшенную функциональность и/или дополнительные услуги во многих осуществлениях. Кодирующее средство может к тому же быть приспособлено, чтобы генерировать разные звуковые сигналы для разных удаленных модулей. Таким образом, этот поход может позволить, например, централизованному кодеру звукового объекта подгонять переданные данные под требования и предпочтения отдельных пользователей удаленных модулей.

В соответствии с другим аспектом изобретения предусмотрен декодер для декодирования звуковых объектов, декодер, содержащий: приемник для приема от кодера числа звуковых сигналов, являющихся микшированием с понижением множества звуковых объектов и параметрических данных, представляющих множество звуковых объектов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объекта для, по меньшей мере, одного из разных звуковых объектов; декодирующее средство для декодирования звуковых объектов из числа звуковых сигналов в ответ на параметрические данные; воспроизводящее средство для генерирования пространственного многоканального выходного сигнала из звуковых объектов; средство для генерирования модификационных данных кодирования для кодера объекта; и средство для передачи модификационных данных кодирования кодеру объекта.

Декодирующее средство и воспроизводящее средство могут в некоторых осуществлениях быть комбинированными, и пространственный многоканальный выходной сигнал может быть сформирован непосредственно из звуковых сигналов без детального генерирования звукового объекта. Например, матричное перемножение может быть применено к значениям сигнала звуковых сигналов, чтобы генерировать значения сигнала звукового объекта. Второе перемножение матриц затем может быть применено к значениям сигнала звукового объекта, чтобы генерировать значения пространственного многоканального звукового сигнала. Альтернативно первое и второе матричное перемножение могут быть объединены в единое матричное перемножение. Таким образом, единое матричное перемножение может быть применено к значениям сигнала звуковых сигналов для непосредственного генерирования значений пространственного многоканального звукового сигнала. Таким образом, декодирование звуковых объектов может быть присуще воспроизведению/матричному перемножению, и нет необходимости в явном/прямом генерировании значений звукового объекта.

В соответствии с другим аспектом изобретения предусмотрен центр телеконференции для поддержания телеконференции между множеством модулей связи, центр телеконференции содержит: средство для приема первого множества речевых сигналов от множества модулей связи; кодирующее средство для кодирования для первого модуля связи первого множества речевых сигналов в число звуковых сигналов и параметрические данные, представляющие множество речевых сигналов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объекта, по меньшей мере, одного из разных речевых сигналов, средство для приема модификационных данных кодирования от первого модуля связи и параметрическое средство для определения параметрических данных в ответ на модификационные данные; и средство для передачи числа звуковых сигналов и параметрических данных первому модулю связи.

В соответствии с другим аспектом изобретения предусмотрен передатчик для передачи звуковых сигналов, передатчик содержит: средство для приема множества звуковых объектов; кодирующее средство для кодирования множества звуковых объектов в число звуковых сигналов и параметрических данных, представляющих множество звуковых объектов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объекта для, по меньшей мере, одного из разных звуковых объектов; средство для приема модификационных данных кодирования от удаленного модуля; и параметрическое средство для приема параметрических данных в ответ на модификационные данные.

В соответствии с другим аспектом изобретения предусмотрен приемник для приема масштабированного звукового битового потока, приемник содержит: приемный элемент для приема от кодера числа звуковых сигналов, являющихся микшированием с понижением множества звуковых объектов и параметрических данных, представляющих множество звуковых объектов, соответствующих числу звуковых сигналов, параметрические данные, содержащие набор параметров объекта для, по меньшей мере, одного из различных звуковых объектов; декодирующее средство для декодирования звуковых объектов от числа звуковых сигналов в ответ на параметрические данные; воспроизводящее средство для генерирования пространственного многоканального выходного сигнала из звуковых объектов; средство для генерирования модификационных данных кодирования для кодера объекта; и средство для передачи модификационных данных кодирования кодеру объекта.

В соответствии с другим аспектом изобретения предусмотрена система связи для передачи звуковых сигналов, система связи содержит: передатчик содержит: средство для приема множества звуковых объектов, кодирующее средство для кодирования множества звуковых объектов в число звуковых сигналов и параметрических данных, соответствующих множеству звуковых сигналов, причем параметрические данные содержат набор параметров объекта для, по меньшей мере, одного из различных звуковых объектов, и средство для передачи числа звуковых сигналов и параметрических данных приемнику; и приемник, содержащий: приемный элемент для приема от передатчика числа звуковых сигналов и параметрических данных, декодирующее средство для декодирования звуковых объектов из числа звуковых сигналов в ответ на параметрические данные, воспроизводящее средство для генерирования пространственного многоканального выходного сигнала из звуковых объектов, средство для генерирования модификационных данных кодирования для кодирующего средства и средство для передачи модификационных данных кодирования передатчику; и где передатчик содержит средство для приема модификационных данных кодирования от приемника, параметрическое средство для определения параметрических данных в ответ на модификационные данные кодирования.

В соответствии с другим аспектом изобретения предусмотрен способ кодирования звуковых сигналов, способ содержит: прием множества звуковых объектов; кодирование множества звуковых объектов в число звуковых сигналов и параметрических данных, представляющих множество звуковых объектов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объекта для, по меньшей мере, одного из различных звуковых объектов; прием модификационных данных кодирования от удаленного модуля; и определение параметрических данных в ответ на модификационные данные.

В соответствии с другим аспектом изобретения предусмотрен способ декодирования звуковых сигналов, способ содержит: прием от кодера числа звуковых сигналов, являющихся микшированием с понижением множества звуковых объектов, и параметрических данных, отражающих множество звуковых объектов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объекта для, по меньшей мере, одного из разных звуковых объектов; декодирование звуковых объектов из числа звуковых сигналов в ответ на параметрические данные; генерирование пространственного многоканального выходного сигнала из звуковых объектов; генерирование модификационных данных кодирования для кодера объекта; и передачу модификационных данных кодирования кодеру объекта.

В соответствии с другим аспектом изобретения предусмотрен способ передачи звуковых сигналов способ содержит: прием множества звуковых объектов; кодирование множества звуковых объектов в число звуковых сигналов и параметрических данных, представляющих множество звуковых объектов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объектов для, по меньшей мере, одного из различных звуковых объектов; прием модификационных данных кодирования от удаленного модуля; определение параметрических данных в ответ на модификационные данные, и передачу числа звуковых сигналов и параметрических данных.

В соответствии с другим аспектом изобретения предусмотрен способ приема звуковых сигналов, способ содержит: прием от кодера числа звуковых сигналов, являющихся микшированием с понижением множества звуковых объектов, и параметрических данных, представляющих множество звуковых объектов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объектов для, по меньшей мере, одного из звуковых объектов; декодирование звуковых объектов из числа звуковых сигналов в ответ на параметрические данные; генерирование пространственного многоканального выходного сигнала из звуковых объектов; генерирование модификационных данных кодирования для кодера объекта; и передачу модификационных данных кодирования кодеру объекта.

В соответствии с другим аспектом изобретения предусмотрен способ передачи и приема звуковых сигналов, способ содержит: передатчик (101), выполняющий этапы: прием множества звуковых объектов, кодирование множества звуковых объектов в число звуковых сигналов и параметрических данных, представляющих множество звуковых объектов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объекта для, по меньшей мере, одного из различных звуковых объектов, и передачу числа звуковых сигналов и параметрических данных приемнику; и приемник, выполняющий этапы: прием от передатчика числа звуковых сигналов и параметрических данных; декодирование звуковых объектов из числа звуковых сигналов в ответ на параметрические данные; генерирование пространственного многоканального выходного сигнала из звуковых объектов; генерирование модификационных данных кодирования для кодирующего средства; и передачу модификационных данных кодирования кодеру объекта, и в котором передатчик далее выполняет этапы: прием модификационных данных кодирования от приемника и определение параметрических данных в ответ на модификационные данные кодирования.

В соответствии с другим аспектом изобретения предусмотрен компьютерный программный продукт для выполнения описанного выше способа.

В соответствии с другим аспектом изобретения предусмотрено звукозаписывающее устройство, содержащее описанный выше кодер.

В соответствии с другим аспектом изобретения предусмотрено звукопроигрывающее устройство, содержащее описанный выше декодер.

Эти и другие аспекты, признаки и преимущества изобретения будут видны из и объяснены со ссылкой на осуществление(я), описанные далее.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Варианты осуществления изобретения будут описаны, только в качестве примера, со ссылкой на чертежи, на которых:

Фиг.1 - это иллюстрация аудиосистемы предыдущего уровня техники;

Фиг.2 иллюстрирует пример системы связи для передачи звукового сигнала в соответствии с некоторыми осуществлениями изобретения;

Фиг.3 иллюстрирует взаимодействие между кодером и декодером в соответствии с некоторыми осуществлениями изобретения;

Фиг.4 иллюстрирует пример кодера в соответствии с некоторыми осуществлениями изобретения;

Фиг.5 иллюстрирует пример декодера в соответствии с некоторыми осуществлениями изобретения;

Фиг.6 иллюстрирует пример способа кодирования звуковых сигналов в соответствии с некоторыми осуществлениями изобретения;

Фиг.7 иллюстрирует пример способа декодирования звуковых объектов в соответствии с некоторыми осуществлениями изобретения.

ПОДРОБНОЕ ОПИСАНИЕ НЕКОТОРЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ

Следующее описание сфокусировано на осуществлениях изобретения, подходящих для кодирования и/или декодирования звукового объекта для применения при проведении телеконференций. Однако будет понятно, что изобретение не ограничивается этим применением, но может быть применено во многих других применениях, включающих в себя, например, применения музыкального звукового распределения.

Фиг.2 иллюстрирует систему 200 связи для передачи звукового сигнала в соответствии с некоторыми осуществлениями изобретения. Передающая система 200 содержит передатчик 201, который связан с приемником 203 через сеть 205, которая может быть, в частности, Интернетом.

В конкретном примере передатчик 201 является частью центра телеконференции. В применении для проведения телеконференции, речевые сигналы нескольких удаленных абонентов микшируются в центре телеконференции. Затем для каждого участника телеконференции смесь всех сигналов, кроме его/ее собственного, передается всем приемникам. Таким образом, передатчик 201 может принимать речевые сигналы от множества удаленных модулей связи, принимающих участие в телеконференции, и может генерировать и распределять речевые сигналы удаленным модулем связи. В этом примере приемник 203 - это устройство проигрывания сигнала, которое может генерировать выходной речевой сигнал участникам телефонной конференции. В частности, приемник 203 является частью удаленного модуля связи, такого как телефон.

Будет понятно, что в других осуществлениях передатчик и приемник могут быть использованы в других применениях и для других целей. Например, передатчик 201 и/или приемник 203 могут быть частью функциональных средств перекодирования и могут, например, обеспечивать связи с другими источниками сигнала или адресатами.

В конкретном примере передатчик 201 содержит приемник 207, который принимает речевые сигналы от удаленных модулей связи, включенные в сигнал телеконференции. Каждый из сигналов речи обрабатывается как отдельный и независимый звуковой объект.

Приемник 207 соединен с кодером 209 на фиг.2, которому подаются отдельные речевые звуковые объекты и который кодирует звуковые объекты в соответствии с алгоритмом кодирования. Кодер 209 соединен с сетевым передатчиком 211, который принимает кодированный сигнал и связывает с Интернетом 205. Сетевой передатчик может передавать кодированный сигнал приемнику 203 через Интернет 205.

Приемник 203 содержит сетевой приемник 213, который соединяет с Интернетом 205 и который приспособлен, чтобы принимать кодированный сигнал от передатчика 201.

Сетевой приемник 213 объединен с декодером 215. Декодер 215 принимает кодированный сигнал и декодирует его в соответствии с алгоритмом декодирования. В частности, декодер 215 представляет собой объектно-ориентированный декодер, который может декодировать отдельные звуковые объекты и воспроизводить выходной звуковой сигнал, основанный на декодированных звуковых объектах.

В конкретном примере, в котором поддерживается функция проигрывания сигнала, приемник 203 далее содержит проигрыватель 217 сигнала, который принимает декодированный звуковой сигнал от декодера 215 и представляет его пользователю. В частности, проигрыватель 217 сигнала может содержать цифроаналоговый преобразователь, усилитель и громкоговоритель, которые требуются для вывода декодированного звукового сигнала.

Фиг.3 иллюстрирует взаимодействие между кодером 209 и декодером 215 более подробно.

Как показано, объектно-ориентированный кодер 209 принимает множество звуковых объектов от приемника 207. Звуковые объекты представляют собой отдельные звуковые сигналы, которые не зависят друг от друга и которые конкретно соответствуют отдельным и независимым источникам звука. В некоторых осуществлениях звуковые объекты могут быть отдельно записанными звуковыми сигналами. Более того, звуковые сигналы не имеют какого-либо пространственного совмещения, и в частности не существует пространственных взаимоотношений между различными звуковыми объектами.

Однако в противоположность примеру записи звукового окружения, в котором та же самая фонограмма (и источники звука) записаны с разных позиций, чтобы сформировать разные каналы одного и того же пространственного сигнала, звуковые объекты настоящего примера представляют собой отдельные и изолированные источники звука.

В применении проведения телеконференции каждый звуковой объект соответствует речевому сигналу, принятому от одного участника телеконференции. Таким образом, кодер 209 принимает звуковые объекты в форме речевых сигналов, принятых от множества удаленных модулей связи, принимающих участие в телеконференции.

Объектно-ориентированный кодер 209 кодирует звуковые объекты в ограниченное число каналов и дополнительно генерирует параметрические данные, которые позволяют и облегчают восстановление исходных звуковых объектов из генерированных звуковых каналов на стороне декодера. В частности, звуковой кодер 209 может генерировать микширование с понижением звуковых объектов похожим образом, чтобы генерировать микширование с понижением пространственного сигнала объемного звучания для, например, стереосигнала. Например, кодер 209 может генерировать микширование с понижением путем перемножения значений образца звукового объекта с помощью матрицы микширования с понижением, чтобы генерировать значения образца микширования с понижением.

Кодер 209 генерирует битовый поток, содержащий как данные кодирования для ограниченного числа каналов, так и ассоциированные параметрические данные. Эти данные передаются декодеру 215.

Декодер 215 содержит модуль 303 объектно-ориентированного декодера, который генерирует локальные приблизительные реплики исходных звуковых объектов, основанные на принятых звуковых каналах и принятых параметрических данных. В частности, модуль 303 объектно-ориентированного декодера объекта может генерировать звуковые объекты с помощью применения матрицы микширования с повышением для принятых звуковых образцов. Коэффициенты матрицы микширования с повышением определяются в ответ на параметрические данные, принятые от кодера 209.

Декодер 215 к тому же содержит воспроизводящий модуль 305, который приспособлен, чтобы генерировать выходной сигнал, основанный на входных звуковых сигналах. Воспроизводящий модуль 305 может свободно обрабатывать и микшировать принятые звуковые объекты, чтобы генерировать желаемый выходной сигнал. Например, воспроизводящий модуль 305 может генерировать пятиканальный сигнал объемного звучания и может свободно располагать каждый отдельный звуковой объект в генерированной фонограмме. В качестве другого примера воспроизводящий модуль 305 может генерировать бинауральный стереосигнал, который обеспечивает пространственное впечатление через, например, набор наушников.

Во многих существующих системах функциональные возможности декодирующего модуля 303 и воспроизводящего модуля 305 объединены в едином этапе обработки. Например, работа декодирующего модуля 303 обычно соответствует матричному перемножению с помощью матрицы микширования с повышением, и работа воспроизводящего модуля 305 подобным образом соответствует матричному перемножению, выполненному на выходе матричного перемножения микширования с повышением. Таким образом, объединяя микшированную с повышением и воспроизводящую матрицы в единую матрицу, каскадное матричное перемножение может быть объединено в единое матричное перемножение.

В конкретном примере восстанавливающий модуль 305 может расположить каждого отдельного говорящего абонента в телефонной конференции на разных местах в фонограмме с особым положением каждого говорящего абонента, являющимся свободно выбранным, например, пользователем, управляющим воспроизводящим модулем 305. В качестве другого примера, если звуковой объект соответствует разным музыкальным инструментам из фрагмента музыки, пользователь может свободно микшировать, выравнивать и т.д. отдельные инструменты так же, как и свободно располагать их в фонограмме. Таким образом, описанный подход допускает высокую степень свободы отдельного пользователя при управлении разными звуковыми объектами, чтобы генерировать заказанны

Кодирование и декодирование звуковых объектов

Патент 2460155