Устройство кодирования звука, устройство декодирования звука, устройство кодирования и декодирования звука и система проведения телеконференций
Иллюстрации
Показать всеИзобретение относится к устройству, которое реализует кодирование и декодирование с уменьшенной задержкой, используя методику многоканального кодирования и декодирования звука соответственно. Устройство кодирования звука включает в себя: модуль формирования сигнала понижающего микширования (410), который формирует во временной области первый сигнал понижающего микширования, который является одним из 1-канального звукового сигнала и 2-канального звукового сигнала, из входного многоканального звукового сигнала; модуль кодирования сигнала понижающего микширования (404), который кодирует первый сигнал понижающего микширования; первый модуль преобразования t-f (401), который преобразует входной многоканальный звуковой сигнал в многоканальный звуковой сигнал частотной области; и модуль вычисления пространственной информации (409), который формирует пространственную информацию для формирования многоканального звукового сигнала из сигнала понижающего микширования. Технический результат - обеспечивает передачу и прием сигнала с более высоким качеством и меньшей задержкой и меньшей скоростью битового потока. 8 н. и 9 з.п. ф-лы, 9 ил.
Реферат
[Область техники]
Настоящее изобретение относится к устройству, которое реализует кодирование и декодирование с уменьшенной задержкой, используя методику многоканального кодирования звука и методику многоканального декодирования звука соответственно. Настоящее изобретение применимо, например, к системе домашнего кинотеатра, стереосистеме автомобиля, системе электронных игр, системе проведения телеконференций и сотовому телефону.
[Предшествующий уровень техники]
Стандарты для кодирования многоканальных звуковых сигналов включают в себя стандарт Dolby digital и стандарт Экспертной группы по движущимся изображениям-Перспективного звукового кодирования (MPEG-AAC). Эти стандарты кодирования реализуют передачу многоканальных звуковых сигналов в основном с помощью кодирования в отдельности звукового сигнала каждого канала в многоканальных звуковых сигналах. Эти стандарты кодирования называются дискретным многоканальным кодированием, и дискретное многоканальное кодирование дает возможность кодирования сигналов для каналов 5.1 практически со скоростью битового потока около 384 Кбит/с в качестве нижнего предела.
С другой стороны, Пространственное кодирование звука (SAC) используется для кодирования и передачи многоканальных звуковых сигналов совершенно другим способом. Примером SAC является стандарт MPEG Surround. Как описано в NPL 1, стандарт MPEG Surround предназначен для (i) понижающего микширования многоканального звукового сигнала в один из: 1-канальный звуковой сигнал и 2-канальный звуковой сигнал, (ii) кодирования результирующего сигнала понижающего микширования, который является одним из: 1-канальный звуковой сигнал и 2-канальный звуковой сигнал, используя, например, стандарт MPEG-AAC (NPL 2) и стандарт AAC Высокой эффективности (HE-AAC, NPL 3) для формирования кодированного потока понижающего микширования, и (iii) добавления пространственной информации (пространственных меток), одновременно сформированной из сигнала каждого канала, в кодированный поток понижающего микширования.
Пространственная информация включает в себя информацию о разделении каналов, которая разделяет сигнал понижающего микширования на сигналы, включенные в многоканальный звуковой сигнал. Информация о разделении является информацией, указывающей соотношения между сигналами понижающего микширования и сигналами каналов, которые являются источниками сигналов понижающего микширования, например значения корреляции, отношения мощностей и разности между их фазами. Устройства декодирования звука декодируют кодированные смешанные сигналы, используя пространственную информацию, и формируют многоканальные звуковые сигналы из сигналов понижающего микширования и пространственной информации, которые декодируются. Таким образом могут передаваться многоканальные звуковые сигналы.
Поскольку пространственная информация, которую нужно использовать в стандарте MPEG Surround, имеет небольшой объем данных, то минимизируется увеличение информации в одном из 1-канального кодированного потока понижающего микширования и 2-канального кодированного потока понижающего микширования. Таким образом, поскольку многоканальные звуковые сигналы могут кодироваться с использованием информации, имеющей такой же объем данных, как и у одного из 1-канального звукового сигнала и 2-канального звукового сигнала, в соответствии со стандартом MPEG Surround, многоканальные звуковые сигналы могут передаваться с меньшей скоростью битового потока по сравнению с таковой у стандарта MPEG-AAC и стандарта Dolby digital.
Например, система связи с реалистичными ощущениями существует в виде полезного применения стандарта кодирования для кодирования сигналов с высококачественным звуком на низкой скорости битового потока. Как правило, два или более узла взаимосвязаны посредством двусторонней связи в системе связи с реалистичными ощущениями. Тогда кодированные данные взаимно передаются и принимаются между узлами. Устройство кодирования звука и устройство декодирования звука в каждом из узлов кодирует и декодирует переданные и принятые данные соответственно.
Фиг.7 иллюстрирует конфигурацию традиционной многоузловой системы проведения телеконференций, которая показывает пример кодирования и декодирования звуковых сигналов, когда телеконференция проводится на 3 узлах.
На фиг.7 каждый из узлов (узлы с 1 по 3) включает в себя устройство кодирования звука и устройство декодирования звука, и двусторонняя связь реализуется путем обмена звуковыми сигналами по каналам связи, имеющим заранее определенную ширину.
Другими словами, узел 1 включает в себя микрофон 101, устройство 102 многоканального кодирования, устройство 103 многоканального декодирования, которое реагирует на узел 2, устройство 104 многоканального декодирования, которое реагирует на узел 3, устройство 105 визуализации, динамик 106 и эхокомпенсатор 107. Узел 2 включает в себя устройство 110 многоканального декодирования, которое реагирует на узел 1, устройство 111 многоканального декодирования, которое реагирует на 3, устройство 112 представления, динамик 113, эхокомпенсатор 114, микрофон 108 и устройство 109 многоканального кодирования. Узел 3 включает в себя микрофон 115, устройство 116 многоканального кодирования, устройство 117 многоканального декодирования, которое реагирует на узел 2, устройство 118 многоканального декодирования, которое реагирует на узел 1, устройство 119 представления, динамик 120 и эхокомпенсатор 121.
Существует много случаев, где составляющие элементы в каждом узле включают в себя эхокомпенсатор для подавления эха, возникающего в общении посредством системы проведения телеконференций. Кроме того, когда составляющие элементы в каждом узле могут передавать и принимать многоканальные звуковые сигналы, существуют случаи, где каждый узел включает в себя устройство представления, использующее Функцию передачи, учитывающую строение головы (HRTF), чтобы многоканальные звуковые сигналы могли быть ориентированы в различных направлениях.
Например, микрофон 101 улавливает звуковой сигнал, а устройство 102 многоканального кодирования кодирует звуковой сигнал с заранее определенной скоростью битового потока на узле 1. В результате кодированный звуковой сигнал преобразуется в битовый поток bs1, и битовый поток bs1 передается узлам 2 и 3. Устройство 110 многоканального декодирования для декодирования многоканального звукового сигнала декодирует переданный битовый поток bs1 в многоканальный звуковой сигнал. Устройство 112 представления представляет декодированный многоканальный звуковой сигнал. Динамик 113 воспроизводит представленный многоканальный звуковой сигнал.
Аналогичным образом, на узле 3 устройство 118 многоканального декодирования декодирует кодированный многоканальный звуковой сигнал, устройство 119 представления представляет декодированный многоканальный звуковой сигнал, и динамик 120 воспроизводит представленный многоканальный звуковой сигнал.
Хотя узел 1 является отправителем, а узлы 2 и 3 являются получателями в вышеупомянутом описании, существуют случаи, где (i) узел 2 может быть отправителем, а узлы 1 и 3 могут быть получателями, и (ii) узел 3 может быть отправителем, а узлы 1 и 2 могут быть получателями. Эти процессы все время параллельно повторяются, и поэтому работает система связи с реалистичными ощущениями.
Основная цель системы связи с реалистичными ощущениями - представить общение с реалистичными ощущениями. Таким образом, любой из 2 узлов, которые взаимосвязаны друг с другом, должен уменьшить неудобные ощущения от двусторонней связи. Более того, другая проблема в том, что двусторонняя связь является дорогостоящей.
Выполнение двусторонней связи с менее неудобными ощущениями и с меньшей стоимостью должно удовлетворять некоторым требованиям. Требования для стандарта кодирования, в котором кодируется звуковой сигнал, включают в себя (1) более короткий период времени для кодирования звукового сигнала с помощью устройства кодирования звука и для декодирования звукового сигнала с помощью устройства декодирования звука, то есть меньшая задержка алгоритма по стандарту кодирования, (2) разрешение передачи звукового сигнала с меньшей скоростью битового потока и (3) соответствие более высокому качеству звука.
Поскольку звук очень ухудшается в соответствии с уменьшением скорости битового потока в соответствии, например, со стандартом MPEG-AAC и стандартом Dolby digital, трудность заключается в поддержании качества звука достаточно высоким, чтобы передавать реалистичные ощущения и обеспечивать меньшую стоимость связи. В отличие от этого, стандарт SAC, включающий в себя стандарт MPEG Surround, дает возможность уменьшения скорости битового потока передачи наряду с сохранением качества звука. Таким образом, стандарт SAC является стандартом кодирования, относительно подходящим для достижения системы связи с реалистичными ощущениями с меньшей стоимостью связи.
В частности, основная идея стандарта MPEG Surround, который является лучшим по качеству звука и который принадлежит к стандарту SAC, состоит в том, что пространственная информация входного сигнала представляется параметрами с меньшим объемом информации, и многоканальный звуковой сигнал синтезируется с помощью параметров и сигнала понижающего микширования, который претерпел понижающее микширование в один из 1-канального звукового сигнала и 2-канального звукового сигнала, и передается. Сокращение количества каналов звукового сигнала, который нужно передать, может уменьшить скорость битового потока в соответствии со стандартом SAC, что удовлетворяет требованию (2), которое важно в системе связи с реалистичными ощущениями, то есть разрешение передачи звукового сигнала с меньшей скоростью битового потока. По сравнению с традиционным стандартом многоканального кодирования, например стандартом MPEG-AAC и стандартом Dolby digital, стандарт SAC дает возможность передачи сигнала с более высоким качеством звука на очень низкой скорости битового потока, в частности, 192 Кбит/с в каналах 5.1, например.
Таким образом, стандарт SAC является полезным средством для системы связи с реалистичными ощущениями.
[Список ссылок]
[Непатентная литература]
[NPL 1]
ISO/IEC-23003-1
[NPL 2]
ISO/IEC-13818-3
[NPL 3]
ISO/IEC-14496-3:2005
[NPL 4]
ISO/IEC-14496-3:2005/Amd 1:2007
[Сущность изобретения]
[Техническая проблема]
В действительности, стандарт SAC обладает значительной проблемой, чтобы применяться к системе связи с реалистичными ощущениями. Проблема в том, что величина задержки кодирования в соответствии со стандартом SAC становится значительно больше по сравнению с традиционным дискретным многоканальным кодированием, например стандартом MPEG-AAC и стандартом Dolby digital. Чтобы решить проблему увеличенной задержки кодирования в соответствии с MPEG-AAC, например, стандарт MPEG-AAC-Малая задержка (LD) стандартизован в качестве методики уменьшения этой величины (NPL 4).
Когда частота дискретизации равна 48 кГц, устройство кодирования звука кодирует звуковой сигнал с задержкой приблизительно в 42 миллисекунды при кодировании, а устройство декодирования звука декодирует звуковой сигнал с задержкой приблизительно в 21 миллисекунду при декодировании, в соответствии с общим стандартом MPEG-AAC. В отличие от этого, в соответствии со стандартом MPEG-AAC-LD звуковой сигнал может быть обработан с величиной задержки кодирования в половину от таковой в общем стандарте MPEG-AAC. Система связи с реалистичными ощущениями, которая применяет стандарт MPEG-AAC-LD, может беспрепятственно осуществлять связь с собеседником из-за небольшой величины задержки кодирования. Однако стандарт MPEG-AAC-LD, допускающий меньшую задержку кодирования, является методикой многоканального кодирования исключительно на основе стандарта MPEG-AAC. Таким образом, он не может ни эффективно уменьшить скорость битового потока, ни удовлетворить требования меньшей скорости битового потока, более высокого качества звука и меньшей задержки кодирования, как по стандарту MPEG-AAC.
Другими словами, традиционное дискретное многоканальное кодирование, например стандарт MPEG-AAC-LD и стандарт Dolby digital, испытывает трудность в кодировании сигналов с меньшей скоростью битового потока, более высоким качеством звука и меньшей задержкой кодирования.
Фиг.8 иллюстрирует анализ величины задержки кодирования в соответствии со стандартом MPEG Surround, который является типичным представителем стандарта SAC. NPL 1 описывает подробности стандарта MPEG Surround.
Как проиллюстрировано на фиг.8, устройство SAC-кодирования (кодер SAC) включает в себя модуль 201 преобразования t-f, модуль 202 анализа SAC, модуль 204 преобразования f-t, модуль кодирования сигнала понижающего микширования 205 и устройство 207 мультиплексирования. Модуль 202 анализа SAC включает в себя модуль 203 понижающего микширования и модуль 206 вычисления пространственной информации.
Устройство SAC-декодирования (декодер SAC) включает в себя устройство 208 демультиплексирования, модуль 209 декодирования сигнала понижающего микширования, модуль 210 преобразования t-f, модуль 211 синтеза SAC и модуль 212 преобразования f-t.
На фиг.8 модуль 201 преобразования t-f преобразует многоканальный звуковой сигнал в сигнал частотной области в устройстве SAC-кодирования. Существуют случаи, где модуль 201 преобразования t-f преобразует многоканальный звуковой сигнал в сигнал только частотной области с использованием, например, конечного преобразования Фурье (FFT) и модифицированного дискретного косинусного преобразования (MDCT), и преобразует многоканальный звуковой сигнал в сигнал составной частотной области с использованием, например, гребенки квадратурных зеркальных фильтров (QMF).
Многоканальный звуковой сигнал, преобразованный в один в частотной области, подключается к 2 трактам в модуле 202 анализа SAC. Один из трактов подключается к модулю 203 понижающего микширования, который формирует промежуточный сигнал понижающего микширования IDMX, который является одним из 1-канального звукового сигнала и 2-канального звукового сигнала. Другой из трактов подключается к модулю 206 вычисления пространственной информации, который извлекает и квантует пространственную информацию. Во многих случаях пространственная информация обычно формируется с использованием, например, разностей уровней, отношений мощностей, корреляций и связностей между каналами каждого входного многоканального звукового сигнала.
После того как модуль 206 вычисления пространственной информации извлекает и квантует пространственную информацию, модуль 204 преобразования f-t снова преобразует промежуточный сигнал понижающего микширования IDMX в сигнал временной области.
Модуль 205 кодирования сигнала понижающего микширования кодирует сигнал понижающего микширования DMX, полученный с помощью модуля 204 преобразования f-t.
Стандарт кодирования для кодирования сигнала понижающего микширования DMX является стандартом для кодирования одного из 1-канального звукового сигнала и 2-канального звукового сигнала. Стандарт может быть стандартом сжатия с потерями, например стандартом MPEG Audio Layer-3 (MP3), MPEG-AAC, стандартом адаптивного акустического кодирования с преобразованием (ATRAC), стандартом Dolby digital и стандартом Windows Media Audio (WMA), а может быть стандартом сжатия без потерь, например стандартом MPEG4-Audio Lossless (ALS), стандартом сжатия без потерь с предсказанием (LPAC) и стандартом сжатия без потерь с преобразованием (LTAC). Кроме того, стандарт кодирования может быть стандартом сжатия, который специализируется в области сжатия речи, например голосовой аудиокодек для Интернета (iSAC), кодек с низкой скоростью битового потока для Интернета (iLBC) и линейное предсказание с алгебраическим кодовым возбуждением (ACELP).
Устройство 207 мультиплексирования является мультиплексором, включающим механизм для предоставления одиночного сигнала из двух или более входов. Устройство 207 мультиплексирования мультиплексирует кодированный сигнал понижающего микширования DMX и пространственную информацию и передает кодированный битовый поток устройству декодирования звука.
Устройство декодирования звука принимает кодированный битовый поток, сформированный устройством 207 мультиплексирования. Устройство 208 демультиплексирования демультиплексирует принятый битовый поток. Здесь устройство 208 демультиплексирования является демультиплексором, который предоставляет сигналы из одиночного входного сигнала, и является разделяющим модулем, который разделяет одиночный входной сигнал на сигналы.
Затем модуль 209 декодирования сигнала понижающего микширования декодирует кодированный сигнал понижающего микширования, включенный в битовый поток сигналов, в один из 1-канального звукового сигнала и 2-канального звукового сигнала.
Модуль 210 преобразования t-f преобразует декодированный сигнал в сигнал частотной области.
Модуль 211 синтеза SAC синтезирует многоканальный звуковой сигнал с помощью пространственной информации, разделенной устройством 208 демультиплексирования, и декодированного сигнала частотной области.
Модуль 212 преобразования f-t преобразует результирующий сигнал частотной области в сигнал временной области, чтобы в результате сформировать многоканальный звуковой сигнал временной области.
Учитывая конфигурацию SAC, описанную выше, величины задержек алгоритма, сформированные составляющими элементами на фиг.8 в соответствии со стандартом кодирования SAC, могут быть классифицированы на следующие 3 набора модулей.
(1) модуль 202 анализа SAC и модуль 211 синтеза SAC
(2) модуль 205 кодирования сигнала понижающего микширования и модуль 209 декодирования сигнала понижающего микширования
(3) модули преобразования t-f и модули преобразования f-t (201, 204, 210, 212)
Фиг.9 иллюстрирует величины задержек алгоритма в традиционной методике кодирования SAC. Каждая величина задержки алгоритма для удобства обозначается следующим образом.
Величины задержек в модуле 201 преобразования t-f и модуле 210 преобразования t-f соответственно обозначаются как D0, величина задержки в модуле 202 преобразования f-t обозначается как D1, величины задержек в модуле 204 преобразования f-t и модуле 212 преобразования f-t соответственно обозначаются как D2, величина задержки в модуле 205 кодирования сигнала понижающего микширования обозначается как D3, величина задержки в модуле 209 декодирования сигнала понижающего микширования обозначается как D4, и величина задержки в модуле 211 синтеза SAC обозначается как D5.
Как проиллюстрировано на фиг.9, общая величина задержки D путем объединения величин задержек устройства кодирования звука и устройства декодирования звука равна
D=2*D0+D1+2*D2+D3+D4+D5.
Задержка алгоритма из 2240 отсчетов возникает в устройстве кодирования звука и устройстве декодирования звука в соответствии со стандартом MPEG Surround, который является типичным примером стандарта кодирования SAC. Общая величина задержки алгоритма, включающая величину, возникающую в сигналах понижающего микширования из устройства кодирования звука и устройства декодирования звука, становится огромной. Задержка алгоритма, когда устройство кодирования понижающего микширования и устройство декодирования понижающего микширования применяют стандарт MPEG-AAC, равна приблизительно 80 миллисекундам. Однако, чтобы система связи с реалистичными ощущениями, которая обычно отдает предпочтение величине задержки, выполняла связь, не обращая внимания на величину задержки, величина задержки в каждом из устройства кодирования звука и устройства декодирования звука должна поддерживаться равной не более 40 миллисекундам.
Таким образом, существует важная проблема в том, что величина задержки значительно больше, когда к системе связи с реалистичными ощущениями применяется стандарт кодирования SAC и другие, которые требуют меньшей скорости битового потока, более высокого качества звука и меньшей задержки кодирования.
Таким образом, цель настоящего изобретения - предоставить устройство кодирования звука и устройство декодирования звука, которые могут уменьшить задержку алгоритма, возникающую в традиционном устройстве кодирования и традиционном устройстве декодирования для обработки многоканального звукового сигнала.
[Решение проблемы]
Чтобы решить проблемы, устройство кодирования звука в соответствии с аспектом настоящего изобретения является устройством кодирования звука, которое кодирует входной многоканальный звуковой сигнал, причем устройство включает в себя: модуль формирования сигнала понижающего микширования, сконфигурированный с возможностью формирования первого сигнала понижающего микширования путем осуществления понижающего микширования входного многоканального звукового сигнала во временной области, причем первый сигнал понижающего микширования является одним из 1-канального звукового сигнала и 2-канального звукового сигнала; модуль кодирования сигнала понижающего микширования, сконфигурированный с возможностью кодирования первого сигнала понижающего микширования, сформированного модулем формирования сигнала понижающего микширования; первый модуль преобразования t-f, сконфигурированный с возможностью преобразования входного многоканального звукового сигнала в многоканальный звуковой сигнал частотной области; и модуль вычисления пространственной информации, сконфигурированный с возможностью формирования пространственной информации путем анализа многоканального звукового сигнала в частотной области, причем многоканальный звуковой сигнал получают с помощью первого модуля преобразования t-f, и пространственная информация является информацией для формирования многоканального звукового сигнала из сигнала понижающего микширования.
С помощью этой конфигурации устройство кодирования звука может выполнять процесс понижающего микширования и кодирования многоканального звукового сигнала без ожидания завершения процесса формирования пространственной информации из многоканального звукового сигнала. Другими словами, процессы могут выполняться параллельно. Таким образом, задержка алгоритма в устройстве кодирования звука может быть уменьшена.
Кроме того, устройство кодирования звука может дополнительно включать в себя: второй модуль преобразования t-f, сконфигурированный с возможностью преобразования первого сигнала понижающего микширования, сформированного модулем формирования сигнала понижающего микширования, в первый сигнал понижающего микширования частотной области; модуль понижающего микширования, сконфигурированный с возможностью понижающего микширования многоканального звукового сигнала частотной области, чтобы сформировать второй сигнал понижающего микширования частотной области, причем многоканальный звуковой сигнал получают с помощью первого модуля преобразования t-f; и схему компенсации понижающего микширования, которая вычисляет информацию о компенсации понижающего микширования путем сравнения (i) первого сигнала понижающего микширования, полученного с помощью второго модуля преобразования t-f, и (ii) второго сигнала понижающего микширования, сформированного модулем понижающего микширования, причем информация о компенсации понижающего микширования является информацией для регулирования сигнала понижающего микширования, и первый сигнал понижающего микширования и второй сигнал понижающего микширования находятся в частотной области.
С помощью этой конфигурации информация о компенсации понижающего микширования может формироваться для регулирования сигнала понижающего микширования, сформированного без ожидания завершения процесса формирования пространственной информации. Кроме того, устройство декодирования звука может формировать многоканальный звуковой сигнал с более высоким качеством звука, используя сформированную информацию о компенсации понижающего микширования.
Кроме того, устройство кодирования звука дополнительно может включать в себя устройство мультиплексирования, сконфигурированное с возможностью сохранения информации о компенсации понижающего микширования и пространственной информации в одном и том же кодированном потоке.
Эта конфигурация позволяет поддерживать совместимость с традиционным устройством кодирования звука и традиционным устройством декодирования звука.
Кроме того, схема компенсации понижающего микширования может вычислять отношение мощностей между сигналами в качестве информации о компенсации понижающего микширования.
С помощью этой конфигурации устройство декодирования звука, которое принимает сигнал понижающего микширования и информацию о компенсации понижающего микширования от устройства кодирования звука в соответствии с аспектом настоящего изобретения, может регулировать сигнал понижающего микширования с использованием отношения мощностей, которое является информацией о компенсации понижающего микширования.
Кроме того, схема компенсации понижающего микширования может вычислять разность между сигналами в качестве информации о компенсации понижающего микширования.
С помощью этой конфигурации устройство декодирования звука, которое принимает сигнал понижающего микширования и информацию о компенсации понижающего микширования от устройства кодирования звука в соответствии с аспектом настоящего изобретения, может регулировать сигнал понижающего микширования с использованием разности, которая является информацией о компенсации понижающего микширования.
Кроме того, схема компенсации понижающего микширования может вычислять коэффициент предсказывающего фильтра в качестве информации о компенсации понижающего микширования.
С помощью этой конфигурации устройство декодирования звука, которое принимает сигнал понижающего микширования и информацию о компенсации понижающего микширования от устройства кодирования звука в соответствии с аспектом настоящего изобретения, может регулировать сигнал понижающего микширования с использованием коэффициента предсказывающего фильтра, которое является информацией о компенсации понижающего микширования.
Кроме того, устройство декодирования звука в соответствии с аспектом настоящего изобретения может быть устройством декодирования звука, которое декодирует принятый битовый поток в многоканальный звуковой сигнал, причем устройство включает в себя: разделяющий модуль, сконфигурированный с возможностью разделения принятого битового потока на информационную часть и часть с параметрами, причем информационная часть включает в себя кодированный сигнал понижающего микширования, а часть с параметрами включает в себя (i) пространственную информацию для формирования многоканального звукового сигнала из сигнала понижающего микширования и (ii) информацию о компенсации понижающего микширования для регулирования сигнала понижающего микширования; схему регулирования понижающего микширования, которая регулирует сигнал понижающего микширования, используя информацию о компенсации понижающего микширования, включенную в часть с параметрами, причем сигнал понижающего микширования получают из информационной части и находится в частотной области; модуль формирования многоканального сигнала, сконфигурированный с возможностью формирования многоканального звукового сигнала частотной области из сигнала понижающего микширования, отрегулированного схемой регулирования понижающего микширования, используя пространственную информацию, включенную в часть с параметрами, причем сигнал понижающего микширования находится в частотной области; и модуль преобразования f-t, сконфигурированный с возможностью преобразования многоканального звукового сигнала, который формируется модулем формирования многоканального сигнала и находится в частотной области, в многоканальный звуковой сигнал временной области.
Конфигурация позволяет формировать многоканальный звуковой сигнал с более высоким качеством звука из сигнала понижающего микширования, принятого от устройства кодирования звука, которое уменьшает задержку алгоритма.
Кроме того, устройство декодирования звука может дополнительно включать в себя: модуль понижающего микширования промежуточного декодирования, сконфигурированный с возможностью формирования сигнала понижающего микширования в частотной области путем деквантования кодированного сигнала понижающего микширования, включенного в информационную часть; и модуль преобразования областей, сконфигурированный с возможностью преобразования сигнала понижающего микширования, который формируется модулем понижающего микширования промежуточного декодирования и находится в частотной области, в сигнал понижающего микширования в частотной области, имеющий компонент в направлении оси времени, где схема регулирования понижающего микширования может регулировать сигнал понижающего микширования, полученный с помощью модуля преобразования областей, используя информацию о компенсации понижающего микширования, причем сигнал понижающего микширования находится в частотной области, имеющей компонент в направлении оси времени.
С помощью этой конфигурации процессы перед процессом формирования многоканального звукового сигнала выполняются в частотной области. Таким образом может быть уменьшена задержка в процессах.
Кроме того, схема регулирования понижающего микширования может получить отношение мощностей между сигналами в качестве информации о компенсации понижающего микширования и отрегулировать сигнал понижающего микширования путем умножения сигнала понижающего микширования на отношение мощностей.
С помощью этой конфигурации сигнал понижающего микширования, принятый устройством декодирования звука, регулируют до сигнала понижающего микширования, подходящего для формирования многоканального звукового сигнала с более высоким качеством звука, используя отношение мощностей, вычисленное устройством кодирования звука.
Кроме того, схема регулирования понижающего микширования может получить разность между сигналами в качестве информации о компенсации понижающего микширования и отрегулировать сигнал понижающего микширования путем прибавления разности к сигналу понижающего микширования.
С помощью этой конфигурации сигнал понижающего микширования, принятый устройством декодирования звука, регулируют до сигнала понижающего микширования, подходящего для формирования многоканального звукового сигнала с более высоким качеством звука, используя разность, вычисленную устройством кодирования звука.
Кроме того, схема регулирования понижающего микширования может получить коэффициент предсказывающего фильтра в качестве информации о компенсации понижающего микширования и отрегулировать сигнал понижающего микширования путем применения к сигналу понижающего микширования предсказывающего фильтра, используя коэффициент предсказывающего фильтра.
С помощью этой конфигурации сигнал понижающего микширования, принятый устройством декодирования звука, регулируют до сигнала понижающего микширования, подходящего для формирования многоканального звукового сигнала с более высоким качеством звука, используя коэффициент предсказывающего фильтра, вычисленный устройством кодирования звука.
Кроме того, устройство кодирования и декодирования звука в соответствии с аспектом настоящего изобретения может быть устройством кодирования и декодирования звука, включающим в себя (i) устройство кодирования звука, которое кодирует входной многоканальный звуковой сигнал; и (ii) устройство декодирования звука, которое декодирует принятый битовый поток сигналов в многоканальный звуковой сигнал, причем устройство кодирования звука включает в себя: модуль формирования сигнала понижающего микширования, сконфигурированный с возможностью формирования первого сигнала понижающего микширования путем понижающего микширования входного многоканального звукового сигнала во временной области, причем первый сигнал понижающего микширования является одним из 1-канального звукового сигнала и 2-канального звукового сигнала; модуль кодирования сигнала понижающего микширования, сконфигурированный с возможностью кодирования первого сигнала понижающего микширования, сформированного модулем формирования сигнала понижающего микширования; первый модуль преобразования t-f, сконфигурированный с возможностью преобразования входного многоканального звукового сигнала в многоканальный звуковой сигнал частотной области; модуль вычисления пространственной информации, сконфигурированный с возможностью формирования пространственной информации путем анализа многоканального звукового сигнала в частотной области, причем многоканальный звуковой сигнал получают с помощью первого модуля преобразования t-f, и пространственная информация является информацией для формирования многоканального звукового сигнала из сигнала понижающего микширования; второй модуль преобразования t-f, сконфигурированный с возможностью преобразования первого сигнала понижающего микширования, сформированного модулем формирования сигнала понижающего микширования, в первый сигнал понижающего микширования частотной области; модуль понижающего микширования, сконфигурированный с возможностью понижающего микширования многоканального звукового сигнала частотной области, чтобы сформировать второй сигнал понижающего микширования частотной области, причем многоканальный звуковой сигнал получают с помощью первого модуля преобразования t-f; и схему компенсации понижающего микширования, которая вычисляет информацию о компенсации понижающего микширования путем сравнения (i) первого сигнала понижающего микширования, полученного с помощью второго модуля преобразования t-f, и (ii) второго сигнала понижающего микширования, сформированного модулем понижающего микширования, причем информация о компенсации понижающего микширования является информацией для регулирования сигнала понижающего микширования, и первый сигнал понижающего микширования и второй сигнал понижающего микширования находятся в частотной области, и причем устройство декодирования звука включает в себя: разделяющий модуль, сконфигурированный с возможностью разделения принятого битового потока сигналов на информационную часть и часть с параметрами, причем информационная часть включает в себя кодированный сигнал понижающего микширования, а часть с параметрами включает в себя (i) пространственную информацию для формирования многоканального звукового сигнала из сигнала понижающего микширования и (ii) информацию о компенсации понижающего микширования для регулирования сигнала понижающего микширования; схему регулирования понижающего микширования, которая регулирует сигнал понижающего микширования, используя информацию о компенсации понижающего микширования, включенную в часть с параметрами, причем сигнал понижающего микширования получают из информационной части и находится в частотной области; модуль формирования многоканального сигнала, сконфигурированный с возможностью формирования многоканального звукового сигнала частотной области из сигнала понижающего микширования, отрегулированного схемой регулирования понижающего микширования, используя пространственную информацию, включенную в часть с параметрами, причем сигнал понижающего микширования находится в частотной области; и модуль преобразования f-t, сконфигурированный с возможностью преобразования многоканального звукового сигнала, который формируется модулем формирования многоканального сигнала и находится в частотной области, в многоканальный звуковой сигнал временной области.
С помощью этой конфигурации устройство кодирования и декодирования звука может использоваться в качестве устройства кодирования и декодирования звука, которое соответствует меньшей задержке, меньшей скорости битового потока и более высокому качеству звука.
Кроме того, система проведения телеконференций в соответствии с аспектом настоящего изобретения может быть системой проведения телеконференций, включающей в себя (i) устройство кодирования звука, которое кодирует входной многоканальный зву