Классификатор многоканального звукового сигнала

Иллюстрации

Показать все

Изобретение относится к классификации многоканального или стереофонического звукового сигнала для кодера звукового сигнала и, в частности, к кодеру многоканального или стереофонического звукового сигнала, предназначенного для использования в портативном устройстве. Технический результат – обеспечение оптимального режима кодирования входного звукового сигнала. Данный способ включает: оценку значения энтропии для многоканального звукового сигнала; определение конфигурации каналов многоканального звукового сигнала на основе значения энтропии; и кодирование многоканального звукового сигнала, при этом режим кодирования зависит от конфигурации канала. 3 н. и 18 з.п. ф-лы, 6 ил.

Реферат

ОБЛАСТЬ ТЕХНИКИ

Настоящая заявка относится к классификации многоканального или стереофонического звукового сигнала для кодера звукового сигнала и, в частности, но не исключительно, к кодеру многоканального или стереофонического звукового сигнала, предназначенного для использования в портативном устройстве.

УРОВЕНЬ ТЕХНИКИ

Звуковые сигналы, такие как речь или музыка, кодируются, например, для обеспечения возможности эффективной передачи или хранения звуковых сигналов.

Кодеры и декодеры звуковых сигналов (также называемые кодеками) используются для представления сигналов, основанных на звуковых колебаниях, таких как музыка и звуковое сопровождение (которое в терминах кодирования речи может называться фоновым шумом).

Кодек звукового сигнала также может быть сконфигурирован для работы с различными битовыми скоростями. На низких битовых скоростях такой кодек звукового сигнала может быть оптимизирован для работы с речевыми сигналами на скорости кодирования, эквивалентной скорости кодека, ориентированного исключительно на обработку речевого сигнала. На более высоких битовых скоростях кодек звукового сигнала может эффективно и с высоким качеством выполнять кодирование любого сигнала, включая музыку, фоновый шум и речь. Кодек звукового сигнала с переменной скоростью также может реализовывать встроенную масштабируемую структуру кодирования и битовый поток, в котором дополнительные биты (конкретное количество битов, часто называемых уровнем) улучшают кодирование на более низких скоростях, причем битовый поток с более высокой скоростью может урезаться для получения битового потока с более низкой скоростью кодирования. Такой кодек звукового сигнала в качестве базового уровня или кодирования с наименьшей битовой скоростью может использовать схему кодека, разработанную исключительно для речевых сигналов.

Кодек звукового сигнала разрабатывается для поддержки высокого (воспринимаемого) качества и одновременного улучшения коэффициента сжатия. Таким образом, кодек звукового сигнала обычно использует многорежимный подход для кодирования входного звукового сигнала, при этом конкретный режим кодирования выбирается в соответствии с конфигурацией каналов входного звукового сигнала.

Кодек звукового сигнала может быть сконфигурирован для работы с входным многоканальным звуковым сигналом, и, в частности, с двухканальным звуковым сигналом. Одна из таких двухканальных конфигураций может представлять собой стереофонический звуковой сигнал, включающий два одинаковых звуковых сигнала, разнесенных по фазе и обладающих различным уровнем звукового давления. Эти различия могут характеризовать стереофонический сигнал, поступающий на два всенаправленных микрофона, размещенных на приемлемом расстоянии друг от друга. К другой двухканальной конфигурации может относиться бинауральный сигнал, который отличается от стереофонического сигнала тем, что принимается двумя всенаправленными микрофонами, размещенными на относительно малом расстоянии друг от друга. Обычно расстояние, на котором принимается бинауральный сигнал, составляет порядка нескольких сантиметров, что соизмеримо с расстоянием между правым и левым ухом типичной головы человека.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Настоящее изобретение предлагает способ, включающий: оценку значения энтропии для многоканального звукового сигнала; определение конфигурации каналов многоканального звукового сигнала на основе значения энтропии; и кодирование многоканального звукового сигнала, при этом режим кодирования зависит от конфигурации канала.

Многоканальный звуковой сигнал включает по меньшей мере звуковой сигнал первого канала и звуковой сигнал второго канала, при этом оценка значения энтропии для многоканального звукового сигнала может включать: преобразование как звукового сигнала первого канала, так и звукового сигнала второго канала в звуковой сигнал в частотной области, содержащий множество частотных полос; определение относительного уровня звукового сигнала путем определения уровня звукового сигнала в полосе частот звукового сигнала первого канала относительно уровня звукового сигнала в полосе частот звукового сигнала второго канала; и определение значения энтропии на основе относительного уровня звукового сигнала.

Определение конфигурации каналов многоканального звукового сигнала может включать: сравнение значения энтропии с пороговым значением; классификацию конфигурации канала как первого типа конфигурации канала, когда значение энтропии не превышает порогового значения или равно пороговому значению; и классификацию конфигурации канала как второго типа конфигурации канала, когда значение энтропии превышает пороговое значение.

Определение значения энтропии на основе относительного уровня звукового сигнала может включать определение вероятности относительного уровня звукового сигнала путем определения гистограммы множества относительных уровней звуковых сигналов в звуковом кадре многоканального звукового сигнала.

В альтернативном варианте определение значения энтропии на основе относительного уровня звукового сигнала может включать оценку среднего количества значений относительного уровня звукового сигнала между появлением двух одинаковых значений относительного уровня звукового сигнала путем последовательного наблюдения за последовательностью значений относительного уровня звукового сигнала в звуковом кадре многоканального звукового сигнала.

Многоканальный звуковой сигнал может включать двухканальный звуковой сигнал, при этом первый тип конфигурации канала может представлять собой бинауральный звуковой канал, а второй тип конфигурации канала - стереофонический звуковой канал.

Уровень звукового сигнала может включать амплитуду звукового сигнала в частотной полосе.

Относительный уровень звукового сигнала может представлять собой интерауральное различие в уровнях.

В соответствии со вторым аспектом предлагается устройство, сконфигурированное для: оценки значения энтропии для многоканального звукового сигнала; определения конфигурации каналов многоканального звукового сигнала на основе значения энтропии; и кодирования многоканального звукового сигнала, при этом режим кодирования зависит от конфигурации канала.

Многоканальный звуковой сигнал может включать по меньшей мере звуковой сигнал первого канала и звуковой сигнал второго канала, при этом устройство, сконфигурированное для оценки значения энтропии для многоканального звукового сигнала, может быть также сконфигурировано для: преобразования как звукового сигнала первого канала, так и звукового сигнала второго канала в звуковой сигнал в частотной области, содержащий множество частотных полос; определения относительного уровня звукового сигнала посредством устройства, сконфигурированного для определения уровня звукового сигнала в полосе частот звукового сигнала первого канала относительно уровня звукового сигнала в полосе частот звукового сигнала второго канала; и определения значения энтропии на основе относительного уровня звукового сигнала.

Устройство, сконфигурированное для определения конфигурации каналов многоканального звукового сигнала, может быть также сконфигурировано для: сравнения значения энтропии с пороговым значением; классификации конфигурации канала как первого типа конфигурации канала, когда значение энтропии не превышает порогового значения или равно пороговому значению; и классификации конфигурации канала как второго типа конфигурации канала, когда значение энтропии превышает пороговое значение.

Устройство, сконфигурированное для определения значения энтропии на основе относительного уровня звукового сигнала, может быть также сконфигурировано для определения вероятности относительного уровня звукового сигнала путем конфигурирования для определения гистограммы множества относительных уровней звукового сигнала в звуковом кадре многоканального звукового сигнала.

В альтернативном варианте устройство, сконфигурированное для определения энтропии на основе относительного уровня звукового сигнала, может быть также сконфигурировано для оценки среднего количества значений относительного уровня звукового сигнала между появлением двух одинаковых значений относительного уровня звукового сигнала путем последовательного наблюдения за последовательностью значений относительного уровня звукового сигнала в звуковом кадре многоканального звукового сигнала.

Многоканальный звуковой сигнал может включать двухканальный звуковой сигнал, при этом первый тип конфигурации канала может представлять собой бинауральный звуковой канал, а второй тип конфигурации канала - стереофонический звуковой канал.

Уровень звукового сигнала может включать амплитуду звукового сигнала в частотной полосе.

Относительный уровень звукового сигнала может представлять собой интерауральное различие в уровнях.

В соответствии с третьим аспектом предлагается устройство, содержащее по меньшей мере один процессор и по меньшей мере одну память, содержащую код компьютерной программы, при этом по меньшей мере одна память и код компьютерной программы сконфигурированы таким образом, чтобы при взаимодействии по меньшей мере с одним процессором устройство выполняло по меньшей мере следующие операции: оценка значения энтропии для многоканального звукового сигнала; определение конфигурации каналов многоканального звукового сигнала на основе значения энтропии; и кодирование многоканального звукового сигнала, при этом режим кодирования зависит от конфигурации канала.

Многоканальный звуковой сигнал может включать по меньшей мере звуковой сигнал первого канала и звуковой сигнал второго канала, при этом устройство, выполняющее оценку значения энтропии для многоканального звукового сигнала, также может выполнять: преобразование как звукового сигнала первого канала, так и звукового сигнала второго канала в звуковой сигнал в частотной области, содержащий множество частотных полос; определение относительного уровня звукового сигнала посредством устройства, выполняющего определение уровня звукового сигнала в полосе частот звукового сигнала первого канала относительно уровня звукового сигнала в полосе частот звукового сигнала второго канала; и определение значения энтропии на основе относительного уровня звукового сигнала.

Устройство, выполняющее определение конфигурации каналов многоканального звукового сигнала, также может выполнять: сравнение значения энтропии с пороговым значением; классификацию конфигурации канала как первого типа конфигурации канала, когда значение энтропии не превышает порогового значения или равно пороговому значению; и классификацию конфигурации канала как второго типа конфигурации канала, когда значение энтропии превышает пороговое значение.

Устройство, выполняющее определение значения энтропии на основе относительного уровня звукового сигнала, также может выполнять определение вероятности относительного уровня звукового сигнала путем определения гистограммы множества относительных уровней звукового сигнала в звуковом кадре многоканального звукового сигнала.

В альтернативном варианте устройство, выполняющее определение значения энтропии на основе относительного уровня звукового сигнала, также может выполнять оценку среднего количества значений относительного уровня звукового сигнала между появлением двух одинаковых значений относительного уровня звукового сигнала путем последовательного наблюдения за последовательностью значений относительного уровня звукового сигнала в звуковом кадре многоканального звукового сигнала.

Многоканальный звуковой сигнал может включать двухканальный звуковой сигнал, при этом первый тип конфигурации канала может представлять собой бинауральный звуковой канал, а второй тип конфигурации канала - стереофонический звуковой канал.

Уровень звукового сигнала может включать амплитуду звукового сигнала в частотной полосе.

Относительный уровень звукового сигнала может представлять собой интерауральное различие в уровнях.

В соответствии с четвертым аспектом предлагается компьютерный программный код, который при выполнении процессором реализует следующие операции: оценку значения энтропии для многоканального звукового сигнала; определение конфигурации каналов многоканального звукового сигнала на основе значения энтропии; и кодирование многоканального звукового сигнала, при этом режим кодирования зависит от конфигурации канала.

Электронный прибор может включать описанное выше устройство.

Чипсет может включать описанное выше устройство.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Для лучшего понимания сути настоящего изобретения и способа осуществления настоящего изобретения далее в примерах приводятся ссылки на прилагаемые чертежи, на которых:

на фиг. 1 схематично показан электронный прибор, в котором используются некоторые варианты осуществления настоящего изобретения;

на фиг. 2 схематично показана система кодека звукового сигнала в соответствии с некоторыми вариантами осуществления настоящего изобретения;

на фиг. 3 схематично показан кодер, изображенный на фиг. 2, в соответствии с некоторыми вариантами осуществления настоящего изобретения;

на фиг. 4 схематично и более подробно показан классификатор звуковых сигналов, изображенный на фиг. 3, в соответствии с некоторыми вариантами осуществления настоящего изобретения;

на фиг. 5 показан алгоритм работы кодера, показанного на фиг. 3, в соответствии с некоторыми вариантами осуществления настоящего изобретения; и

на фиг. 6 показан алгоритм работы классификатора звуковых сигналов, показанного на фиг. 4, в соответствии с некоторыми вариантами осуществления настоящего изобретения.

ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

Ниже более подробно описываются возможные кодеки стереофонического и многоканального речевого и звукового сигналов, включая многорежимные кодеки звуковых сигналов.

Некоторые многорежимные кодеки звуковых сигналов могут конфигурироваться для кодирования стереофонических звуковых сигналов способом, отличающимся от кодирования бинауральных звуковых сигналов, и без предварительных сведений о представлении двух типов многоканального звукового сигнала кодек не способен предварительно выбрать наилучший режим кодирования. Вследствие этого может возникнуть проблема, связанная с тем, что кодек звукового сигнала, кодирующий входной звуковой сигнал, поступающий по двум каналам (или двухканальный звуковой сигнал), как в стереофоническом, так и в бинауральном режиме работы, не может обеспечить наилучший режим кодирования входного многоканального звукового сигнала.

Эта проблема, в еще большей степени может проявляться, если часто происходит переключение входного звукового сигнала между стереофоническим и бинауральный звучанием, в результате чего кодеку требуется постоянно выполнять кодирование в двух режимах работы, для того чтобы обеспечить оптимальный режим кодирования входного звукового сигнала.

Описываемая концепция вариантов осуществления настоящего изобретения может исходить из того аспекта, что некоторые признаки бинаурального и стереофонического сигналов могут различаться вследствие различия в физическом разнесении микрофонов при приеме соответствующих сигналов. Эти признаки могут использоваться для того, чтобы отличить один сигнал от другого. Это позволяет многорежимному кодеру звукового сигнала вводить этап предварительной классификации, на котором конкретный входной звуковой сигнал вначале может быть идентифицирован для выбора наилучшего режима кодирования перед началом кодирования входного звукового сигнала.

В этом отношении, вначале со ссылкой на фиг. 1 рассматривается блок-схема типового электронного прибора или устройства 10, которое может включать кодек, соответствующий варианту осуществления изобретения, представленного в настоящем изобретении.

Устройство 10 может, например, представлять собой мобильный терминал или пользовательское оборудование системы беспроводной связи. В других вариантах осуществления устройство 10 может представлять собой аудио-видео оборудование, такое как видеокамера, телевизионный (TV) приемник, устройство звукозаписи или воспроизведения звуковых сигналов, например устройство записи/воспроизведения файлов формата mp3, устройство записи мультимедийных файлов (также известное как устройство записи/воспроизведения файлов формата mp4) или любой компьютер, подходящий для обработки звуковых сигналов.

Электронный прибор или устройство 10 в некоторых вариантах осуществления содержит микрофон 11, который через аналого-цифровой преобразователь (ADC, Analogue-to-Digital Converter) 14 соединяется с процессором 21. Процессор 21 далее, через цифро-аналоговый преобразователь (DAC, Digital-to-Analogue Converter) 32 соединяется с громкоговорителем 33. Процессор 21 также соединяется с приемопередатчиком (RX/TX) 13, пользовательским интерфейсом (UI, User Interface) 15 и памятью 22.

Процессор 21 в некоторых вариантах осуществления может быть сконфигурирован для выполнения различных программных кодов. Реализуемые программные коды в некоторых вариантах осуществления, как описывается ниже, могут содержать коды для кодирования или декодирования многоканального или стереофонического звукового сигнала. Реализуемые программные коды 23 могут в некоторых вариантах осуществления храниться, например, в памяти 22, из которой они при необходимости считываются процессором 21. В памяти 22 также может быть отведен раздел 24 для хранения данных, например данных, закодированных в соответствии с вариантами осуществления настоящего изобретения.

Код для кодирования и декодирования в вариантах осуществления настоящего изобретения может быть реализован аппаратным и/или микропрограммным способом.

Пользовательский интерфейс 15 позволяет пользователю вводить команды, управляющие устройством 10, например, с помощью клавиатуры, и/или получать информацию от устройства 10, например, на дисплее. В некоторых вариантах осуществления функции ввода и вывода пользовательского интерфейса может выполнять сенсорный экран. Устройство 10 в некоторых вариантах осуществления содержит приемопередатчик 13, позволяющий осуществлять связь с другим устройством, например, через сеть беспроводной связи.

Следует понимать, что структура устройства 10 может быть дополнена или изменена различными способами.

Пользователь устройства 10, например, может применять микрофон 11, используемый для ввода речевого или других звуковых сигналов, которые должны передаваться в некоторое другое устройство или сохраняться в разделе 24 данных памяти 22. Для этого в некоторых вариантах осуществления изобретения пользователь через пользовательский интерфейс 15 может активировать соответствующее приложение. Это приложение, которое может запускаться процессором 21, в этих вариантах осуществления инициирует выполнение процессором 21 закодированного кода, хранящегося в памяти 22.

Аналого-цифровой преобразователь (ADC) 14 в некоторых вариантах осуществления преобразует входной аналоговый звуковой сигнал в цифровой звуковой сигнал и подает этот сигнал в процессор 21. В некоторых вариантах осуществления микрофон 11 может содержать интегрированный микрофон и функциональный блок ADC и подавать цифровые звуковые сигналы для обработки непосредственно в процессор.

Процессор 21 в таких вариантах осуществления затем обрабатывает цифровой звуковой сигнал таким же образом, как описывается со ссылкой на систему, показанную на фиг. 2, и кодер, показанный на фиг. 3.

Результирующий битовой поток может в некоторых вариантах осуществления подаваться в приемопередатчик 13 для передачи в другое устройство. В альтернативном варианте закодированные данные звукового сигнала в некоторых вариантах осуществления могут сохраняться в разделе 24 данных памяти 22, например, для последующей передачи или последующего представления тем же устройством 10.

Устройство 10 в некоторых вариантах осуществления также может через приемопередатчик 13 принимать от другого устройства битовый поток, содержащий соответствующим образом закодированные данные. В этом примере процессор 21 может выполнять программный код для декодирования, хранимый в памяти 22. Процессор 21 в таких вариантах осуществления декодирует принятые данные и подает декодированные данные в цифро-аналоговый преобразователь 32. Цифро-аналоговый преобразователь 32 преобразует цифровые декодированные данные в аналоговый звуковой сигнал и в некоторых вариантах осуществления может выводить аналоговый звуковой сигнал через громкоговорители 33. В некоторых вариантах осуществления выполнение программного кода декодирования также может активироваться приложением, запускаемым пользователем через пользовательский интерфейс 15.

Кроме того, принятые закодированные данные в некоторых вариантах осуществления могут не сразу выводиться через громкоговорители 33, а сохраняться в разделе 24 данных памяти 22, например, для последующего декодирования и воспроизведения или для декодирования и пересылки в другое устройство.

Следует принимать во внимание, что схематические структуры, описываемые со ссылкой на фиг. 1-4, и шаги способа, описываемые со ссылкой на фиг. 5 и 6, представляют только часть операций, выполняемых кодеком звукового сигнала, а конкретно - ту часть устройства или способа кодирования стереофонического сигнала, показанную в качестве примера реализации в устройстве, изображенном на фиг. 1.

Основные операции, выполняемые кодеками звуковых сигналов согласно вариантам осуществления настоящего изобретения, показаны на фиг. 2. Основные системы кодирования/декодирования звукового сигнала содержат как кодер, так и декодер, как схематично показано на фиг. 2. Однако следует принимать во внимание, что согласно некоторым вариантам осуществления в системе может быть реализован либо только кодер, либо только декодер, либо как кодер, так и декодер. Показанная на фиг. 2 система 102 содержит кодер 104, в частности, кодер 151 стереофонического сигнала, запоминающее устройство или мультимедийный канал 106, и декодер 108. Следует принимать во внимание, что, как было описано выше, в некоторых вариантах осуществления система может содержать или в ней может быть реализован один кодер 104 или один декодер 108, или как кодер 104, так и декодер 108.

Кодер 104 сжимает входной звуковой сигнал 110 и формирует битовый поток 112, который в некоторых вариантах осуществления может сохраняться или передаваться через мультимедийный канал 106. Кроме того, кодер 104 в некоторых вариантах осуществления может содержать многоканальный кодер 151, выполняющий часть общей операции кодирования. Следует понимать, что многоканальный кодер может входить в состав общего кодера 104 или представлять собой отдельный модуль кодирования.

Битовый поток 112 может приниматься в декодере 108. Декодер 108 распаковывает битовый поток 112 и формирует выходной звуковой сигнал 114. Декодер 108 может содержать многоканальный декодер, выполняющий часть общей операции декодирования. Следует понимать, что многоканальный декодер может быть включен в общий декодер 108 или представлять собой отдельный модуль декодирования. Скорость передачи битового потока 112 и качество выходного звукового сигнала 114 относительно входного сигнала 110 являются основными характеристиками, которые определяют производительность системы 102 кодирования.

На фиг. 3 схематично показан кодер 104 в соответствии с некоторыми вариантами осуществления настоящего изобретения.

На фиг. 5 показан алгоритм работы кодера 104 в соответствии с некоторыми вариантами осуществления настоящего изобретения.

Описываемая концепция вариантов осуществления настоящего изобретения заключается в классификации входного многоканального звукового сигнала перед его кодированием. В этом отношении на фиг. 3 показан пример кодера 104 в соответствии с некоторыми вариантами осуществления. Кроме того, со ссылкой на фиг. 5 более подробно описывается функционирование кодера 104.

Кодер 104 в некоторых вариантах осуществления содержит классификатор 301 звукового сигнала. Классификатор 301 звукового сигнала сконфигурирован для приема многоканального звукового сигнала и для генерации представлений этого звукового сигнала в частотной области. Эти представления в частотной области могут передаваться в анализатор/монофонический кодер 303 канала для последующей обработки и кодирования.

Классификатор 301 звукового сигнала сконфигурирован для анализа представлений звуковых сигналов в частотной области для получения значения классификации звукового сигнала для входного многоканального звукового сигнала. Полученное значение классификации звукового сигнала указывает конфигурацию каналов для входного многоканального звукового сигнала. Значение классификации звукового сигнала затем может передаваться в анализатор/монофонический кодер 303 канала и в кодер 305 многоканальных параметров, посредством чего оно может использоваться для идентификации конкретного режима кодирования для анализатора/монофонического кодера 303 канала и кодера 305 многоканальных параметров.

В первой группе вариантов осуществления классификатор 301 звукового сигнала кодера 104 может быть сконфигурирован для приема многоканального звукового сигнала, содержащего по меньшей мере двухканальный входной звуковой сигнал с левым и правым каналами. В этих вариантах осуществления настоящего изобретения классификатор 301 звукового сигнала может определять значение классификации звукового сигнала, которое указывает, содержит ли входной звуковой сигнал двухканальный звуковой сигнал, который является либо стереофоническим, либо бинауральным.

Со ссылкой на фиг. 4 далее более подробно описывается пример классификатора 301 звукового сигнала в соответствии с некоторыми вариантами осуществления. Кроме того, на фиг. 6 показан алгоритм работы классификатора 301 звукового сигнала, показанного на фиг. 4, в соответствии с некоторыми вариантами осуществления изобретения.

В некоторых вариантах осуществления классификатор 301 звукового сигнала содержит блок 401 кадрового секционирования/преобразования. Блок 401 кадрового секционирования/преобразования может быть сконфигурирован для секционирования или сегментации звукового сигнала из левого и правого каналов 110 на секции или кадры, подходящие для преобразования в частотной области. Блок 401 кадрового секционирования/преобразования в некоторых вариантах осуществления также может быть сконфигурирован для создания окна с этими кадрами или секциями данных звукового сигнала, поступающего из левого и правого каналов, с использованием любой подходящей функции организации окна. Например, блок 401 кадрового секционирования/преобразования может конфигурироваться для генерации кадров длительностью 20 мс, которые на 10 мс перекрывают каждый предшествующий и последующий кадр.

В некоторых вариантах осуществления блок 401 кадрового секционирования/преобразования может быть сконфигурирован для выполнения со звуковыми сигналами левого и правого каналов любого подходящего преобразования из временной области в частотную. Например, преобразование из временной области в частотную может представлять собой дискретное преобразование Фурье (DFT, Discrete Fourier Transform), быстрое преобразование Фурье (FFT, Fast Fourier transform) и модифицированное дискретное косинусное преобразование (MDCT, Modified Discrete Cosine Transform). В последующих примерах используется быстрое преобразование Фурье (FFT). Кроме того, выход преобразователя из временной области в частотную также может обрабатываться для формирования отдельных представлений в области диапазона частот (представлений поддиапазона) данных звукового сигнала каждого входного канала. Эти диапазоны могут размещаться любым удобным способом. Например, эти диапазоны могут располагаться линейно или распределяться в соответствии с восприятием или психоакустикой.

Операция формирования представления в частотной области для звуковых кадров каждого канала выполняется на шаге 601, изображенном на фиг. 6.

В некоторых вариантах осуществления представления в частотной области подаются на определитель 403 относительного энергетического уровня звукового сигнала, который может быть сконфигурирован для определения относительных уровней звуковых сигналов или интераурального различия в уровнях (энергии) (ILD, Interaural Level Difference) между парами каналов для каждого поддиапазона. Относительный уровень сигнала для поддиапазона может определяться путем поиска уровня звукового сигнала в частотном диапазоне звукового сигнала первого канала относительно уровня звукового сигнала в соответствующем частотном диапазоне звукового сигнала второго канала.

Следует принимать во внимание, что в последующих примерах анализируется и обрабатывается одна пара левого и правого каналов.

В некоторых вариантах осуществления относительный уровень для каждого диапазона (или интерауральное различие в уровнях) может рассчитываться с использованием следующего кода:

В этом коде переменная L_FFT является длиной FFT, a EPSILON представляет собой небольшое значение, большее нуля, предотвращающее возникновение проблем, связанных с делением на ноль. Определитель относительного энергетического уровня звукового сигнала в таких вариантах осуществления эффективно выполняет процессы определения амплитуды для каждого канала (L и R) в каждом поддиапазоне, а затем делит значение для одного канала на значение для другого канала для формирования относительного значения.

Операция определения относительных энергетических уровней звуковых сигналов (или интераурального различия в уровнях (энергии)) выполняется на шаге 603, показанном на фиг. 6.

Согласно некоторым вариантам осуществления может выполняться любая подходящая оценка интераурального различия в уровнях (энергии) (ILD). Например, для каждого кадра могут существовать два окна, для которых оценивается задержка и уровни. Таким образом, например, в том случае, если длительность каждого кадра составляет 10 мс, могут существовать два окна, которые могут перекрываться и задерживаться относительно друг друга на 5 мс. Другими словами, для каждого кадра могут определяться два отдельных значения различия в уровнях, которые могут передаваться в кодер для кодирования.

Кроме того, в некоторых вариантах осуществления различия для каждого окна могут оцениваться для каждого из соответствующих поддиапазонов. Разделение на поддиапазоны может в некоторых вариантах осуществления выполняться в соответствии с любым подходящим способом.

Например, в некоторых вариантах осуществления разделение на поддиапазоны, которое затем определяет количество оценок интераурального различия в уровнях (энергии) (ILD), может выполняться в соответствии с выбранным определением полосы частот. Например, генерация звуковых сигналов может основываться на том, рассматривается ли выходной сигнал как широкополосный (WB, WideBand), сверхширокополосный (SWB, SuperWideBand) или полнодиапазонный (FB, FullBand) (при этом требования к полосе частот последовательно возрастают, начиная от широкополосного и до полнодиапазонного сигнала). Для выбора возможной полосы частот в некоторых вариантах осуществления может применяться конкретный способ разделения на поддиапазоны. Таким образом, например, разделение на поддиапазоны для области FFT для оценок интераурального различия в уровнях (энергии) может выглядеть следующим образом:

поддиапазоны ITD для широкополосного (WB) сигнала:

const short scale1024_WB[]=

{1, 5, 8, 12, 20, 34, 48, 56, 120, 512};

поддиапазоны ITD для сверхширокополосного (SWB) сигнала:

const short scale1024_SWB[]=

{1, 2, 4, 6, 10, 14, 17, 24, 28, 60, 256, 512};

поддиапазоны ITD для полнодиапазонного (FB) сигнала:

const short scale1024_FB[]=

{1,2, 3, 4, 7, 11, 16, 19, 40, 171, 341, 448/* ~21 кГц */};

поддиапазоны ILD для широкополосного (WB) сигнала:

const short scf_band_WB[]=

{1, 8, 20, 32, 44, 60, 90, 110, 170, 216, 290, 394, 512};

поддиапазоны ILD для сверхширокополосного (SWB) сигнала:

const short scf_band_SWB[]=

(1, 4, 10, 16, 22, 30, 45, 65, 85, 108, 145, 197, 256, 322, 412, 512};

поддиапазоны ILD для полнодиапазонного (FB) сигнала:

const short scf_band_FB[]=

{1, 3, 7, 11, 15, 20, 30, 43, 57, 72, 97, 131, 171, 215, 275, 341, 391, 448/* ~21 кГц */}.

Другими словами, в некоторых вариантах осуществления могут существовать различные поддиапазоны для различий в уровнях.

Определитель 403 относительного энергетического уровня звукового сигнала может быть сконфигурирован для вывода относительных энергетических уровней звуковых сигналов для каждого поддиапазона или элемента разрешения по частоте в блок 405 оценки энтропии.

В некоторых вариантах осуществления блок 405 оценки энтропии выполнен с возможностью определения оценки энтропии нулевого порядка для принятых относительных энергетических уровней звуковых сигналов. Блок 405 оценки энтропии затем может использовать значение энтропии принятых относительных энергетических уровней звуковых сигналов для определения конфигурации или типа многоканального звукового сигнала, переданного в качестве входного сигнала 110.

В некоторых вариантах осуществления значение энтропии, определенное на основе относительных энергетических уровней звуковых сигналов (ILD) для многоканального звукового сигнала, включающего конфигурации левого и правого звуковых каналов, может использоваться для определения, являются ли левый и правый звуковые каналы стереофоническими или бинауральными.

Следует также принимать во внимание, что стереофонический звуковой сигнал может отличаться от бинаурального звукового сигнала физическим разделением между микрофонами при приеме указанных сигналов. Кроме того, это различие может отражаться в энтропии значений относительных энергетических уровней звуковых сигналов (ILD) для соответствующих звуковых сигналов.

В некоторых вариантах осуществления энтропия относительных энергетических уровней звуковых сигналов (ILD) для звуковых сигналов левого и правого каналов обычно может определяться следующим образом:

,

где X представляет алфавит возможных значений ILD, H(XILd) представляет энтропию значений ILD, P(XILDi) является вероятностью конкретного значения ILD, a n - количество возможных результатов для набора значений ILD.

Энтропия Н(XILD) может определяться для конечного количества n возможных значений диапазона значений ILD. Этого в некоторых вариантах осуществления можно добиться путем скалярного квантования значений ILD в один из n возможных уровней квантования перед определением значения H(XILD) энтропии.

Операция скалярного квантования относительного энергетического уровня звукового сигнала или интераурального различия в уровнях (энергии) (ILD) выполняется на шаге 605, показанном на фиг. 6.

В некоторых вариантах осуществления значение H(XILD) энтропии может определяться с использованием гистограммы на основе способа, реализуемого посредством следующего кода:

Где выражение 2*max_value+1 определяет количество возможных уровней квантования для значений ILD, которое может соответствовать n в приведенной выше формуле, а переменная scales является массивом, содержащим квантованные значения ILD, с использованием которых должно определяться значение H(XILD) энтропии. Блок 405 оценки энтропии в таких вариантах осуществления эффективно определяет вероятность P(XILDi) конкретного квантованного значения ILD путем определения частоты появления конкретного квантованного ILD в наборе данных квантованных значений ILD, с использованием которых должно вычисляться значение энтропии. Фактически блок 405 оценки энтропии определяет вероятность каждого квантованного значения ILD путем определения его гистограммы в пределах набора конечных квантованных значений ILD. Значение H(XILD) соответствует параметру h0 в приве