2452042 - Способ и устройство для обработки аудиосигнала

Способ и устройство для обработки аудиосигнала

Иллюстрации

Показать все

Изобретение относится к устройству обработки аудиосигналов для эффективного кодирования и декодирования аудиосигналов разных видов и способу для этого. Техническим результатом является повышение эффективности кодирования/декодирования аудиосигналов. Указанный результат достигается тем, что способ обработки аудиосигнала содержит этапы, на которых идентифицируют, является ли тип кодирования аудиосигнала типом кодирования музыкального сигнала, с использованием первой информации типа. Если тип кодирования аудиосигнала не является типом кодирования музыкального сигнала, идентифицируют, является ли тип кодирования аудиосигнала типом кодирования речевого сигнала или типом кодирования смешанного сигнала, с использованием второй информации типа. Если тип кодирования аудиосигнала является типом кодирования смешанного сигнала, извлекают спектральные данные и коэффициент линейного предсказания из аудиосигнала, формируют разностный сигнал для линейного предсказания посредством выполнения обратного частотного преобразования над спектральными данными, восстанавливают аудиосигнал посредством выполнения кодирования с линейным предсказанием над коэффициентом линейного предсказания и разностным сигналом и восстанавливают сигнал высокочастотной области с использованием базового сигнала расширения, соответствующего частичной области воссозданного аудиосигнала, и информации расширения диапазона. 4 н. и 11 з.п. ф-лы, 11 ил.

Реферат

УРОВЕНЬ ТЕХНИКИ

Область техники

Настоящее изобретение имеет отношение к устройству обработки аудиосигналов для эффективного кодирования и декодирования аудиосигналов разных видов и способу для этого.

Описание предшествующего уровня техники

Обычно технологии кодирования традиционно разделяются на два типа, такие как перцепционные звуковые кодеры и кодеры на основе линейного предсказания. Например, перцепционный звуковой кодер, оптимизированный для музыки, применяет схему сокращения размера информации в процессе кодирования с использованием маскирующего принципа, который представляет собой психоакустическую теорию человеческого слуха, на оси частот. Напротив, кодер на основе линейного предсказания, оптимизированный для речи, применяет схему сокращения размера информации посредством моделирования звуков речи на оси времени.

Однако каждая из описанных выше технологий хорошо проявляет себя для каждого оптимизированного аудиосигнала (например, речевого сигнала, музыкального сигнала), но им не удается обеспечивать адекватную работу для аудиосигнала, сформированного из сложного смешения различных типов аудиосигналов или речевого и музыкального сигналов вместе.

Сущность изобретения

В соответствии с этим, настоящее изобретение направлено на устройство и способ обработки аудиосигнала, которые в значительной степени устраняют одну или более проблем вследствие ограничений и недостатков предшествующего уровня техники.

Цель настоящего изобретения состоит в том, чтобы обеспечить устройство и способ обработки аудиосигнала, посредством которых различные типы аудиосигналов могут быть сжаты и/или воссозданы с более высокой эффективностью.

Другая цель настоящего изобретения состоит в том, чтобы обеспечить схему кодирования аудиосигнала, подходящую для характеристик аудиосигнала.

Дополнительные отличительные признаки и преимущества изобретения будут изложены в последующем описании и частично будут понятны из описания или могут быть изучены посредством применения изобретения на практике. Цели и другие преимущества изобретения могут быть осуществлены и достигнуты посредством структуры, подробно показанной в описании и формуле изобретения, а также в приложенных чертежах.

Чтобы достигнуть этих и других преимуществ, и в соответствии с целью настоящего изобретения, воплощенного и подробно описанного здесь, способ обработки аудиосигнала в соответствии с настоящим изобретением включает в себя этапы, на которых идентифицируют, является ли тип кодирования аудиосигнала типом кодирования музыкального сигнала, с использованием первой информации типа, если тип кодирования аудиосигнала не является типом кодирования музыкального сигнала, идентифицируют, является ли тип кодирования аудиосигнала типом кодирования речевого сигнала или типом кодирования смешанного сигнала, с использованием второй информации типа, если тип кодирования аудиосигнала является типом кодирования смешанного сигнала, извлекают спектральные данные и коэффициент линейного предсказания из аудиосигнала, формируют разностный сигнал для линейного предсказания посредством выполнения обратного частотного преобразования над спектральными данными, восстанавливают аудиосигнал посредством выполнения кодирования с линейным предсказанием над коэффициентом линейного предсказания и разностным сигналом и восстанавливают сигнал высокочастотной области с использованием базового сигнала расширения, соответствующего частичной области воссозданного аудиосигнала, и информации расширения диапазона.

Далее, для достижения этих и других преимуществ и в соответствии с целью настоящего изобретения устройство для обработки аудиосигнала включает в себя демультиплексор, извлекающий первую информацию типа и вторую информацию типа из битового потока, блок определения декодера, идентифицирующий, является ли тип кодирования аудиосигнала типом кодирования музыкального сигнала, с использованием первой информации типа, если тип кодирования аудиосигнала не является типом кодирования музыкального сигнала, декодер идентифицирует, является ли тип кодирования аудиосигнала типом кодирования речевого сигнала или типом кодирования смешанного сигнала, с использованием второй информации типа, затем декодер определяет схему декодирования, блок извлечения информации, извлекающий из аудиосигнала спектральные данные и коэффициент линейного предсказания, если тип кодирования аудиосигнала является типом кодирования смешанного сигнала, блок частотного преобразования, формирующий разностный сигнал для линейного предсказания посредством выполнения обратного частотного преобразования над спектральными данными, модуль линейного предсказания, воссоздающий аудиосигнал посредством выполнения кодирования с линейным предсказанием над коэффициентом линейного предсказания и разностным сигналом, и блок декодирования с расширением диапазона частот, воссоздающий сигнал высокочастотной области с использованием базового сигнала расширения, соответствующего частичной области воссозданного аудиосигнала, и информации расширения диапазона.

Предпочтительно аудиосигнал включает в себя множество субкадров, и вторая информация типа существует для каждого субкадра.

Предпочтительно диапазон частот сигнала высокочастотной области не равен диапазону частот базового сигнала расширения. Предпочтительно информация расширения диапазона включает в себя по меньшей мере один элемент множества, состоящего из диапазона фильтра, применяемого к воссозданному аудиосигналу, начальной частоты базового сигнала расширения и конечной частоты базового сигнала расширения.

Предпочтительно, если тип кодирования аудиосигнала является типом кодирования музыкального сигнала, аудиосигнал содержит сигнал частотной области, если тип кодирования аудиосигнала является типом кодирования речевого сигнала, аудиосигнал содержит сигнал временной области, и если тип кодирования аудиосигнала является типом кодирования смешанного сигнала, аудиосигнал содержит сигнал области модифицированного дискретного косинусного преобразования (MDCT).

Предпочтительно извлечение коэффициента линейного предсказания включает в себя извлечение режима коэффициента линейного предсказания и извлечение коэффициента линейного предсказания, имеющего переменный размер в битах, соответствующий извлеченному режиму коэффициента линейного предсказания.

Следует понимать, что как предшествующее общее описание, так и последующее подробное описание являются иллюстративными и разъяснительными и предназначены для обеспечения дополнительного объяснения заявленного изобретения.

Краткое описание чертежей

Сопроводительные чертежи, которые приложены для обеспечения дополнительного понимания изобретения и включены в состав этого описания и являются ее частью, иллюстрируют варианты воплощения изобретения и вместе с описанием служат для разъяснения принципа изобретения.

На чертежах:

Фиг.1 - блок-схема устройства кодирования аудиосигнала в соответствии с одним вариантом воплощения настоящего изобретения;

Фиг.2 - блок-схема устройства кодирования аудиосигнала согласно другому варианту воплощения настоящего изобретения;

Фиг.3 - подробная блок-схема блока 150 предварительной обработки диапазона частот в соответствии с вариантом воплощения настоящего изобретения;

Фиг.4 - блок-схема последовательности операций для способа кодирования аудиосигнала с использованием информации типа аудиосигнала в соответствии с одним вариантом воплощения настоящего изобретения;

Фиг.5 - диаграмма для примера структуры битового потока аудиосигнала, закодированного в соответствии с настоящим изобретением;

Фиг.6 - блок-схема устройства декодирования аудиосигнала в соответствии с одним вариантом воплощения настоящего изобретения;

Фиг.7 - блок-схема устройства декодирования аудиосигнала в соответствии с другим вариантом воплощения настоящего изобретения;

Фиг.8 - подробная блок-схема блока 250 расширения диапазона частот в соответствии с вариантом воплощения настоящего изобретения;

Фиг.9 - диаграмма для конфигурации продукта, реализованного с помощью устройства декодирования аудиосигнала в соответствии с вариантом воплощения настоящего изобретения;

Фиг.10 - диаграмма для примера отношений между продуктами, реализованными с помощью устройства декодирования аудиосигнала в соответствии с вариантом воплощения настоящего изобретения; и

Фиг.11 - блок-схема последовательности операций для способа декодирования аудиосигнала в соответствии с одним вариантом воплощения настоящего изобретения.

Подробное описание изобретения

Теперь будет дано подробное описание предпочтительных вариантов воплощения настоящего изобретения, примеры которых проиллюстрированы на сопроводительных чертежах.

В настоящем изобретении терминология может быть истолкована следующим образом. Прежде всего, "кодирование" может иногда рассматриваться как кодирование или декодирование. "Информация" - термин, который включает в себя значения, параметры, коэффициенты, элементы и т.п.

В настоящем изобретении "аудиосигнал" концептуально отличается от видеосигнала. Аудиосигнал обозначает все сигналы, которые при воспроизведении могут быть идентифицированы на слух. Таким образом, аудиосигналы могут быть подразделены на речевой сигнал, главным образом относящийся к звукам человеческой речи или сигналу, подобному речевому сигналу (в дальнейшем называемый "речевым сигналом"), музыкальный сигнал, главным образом относящийся к механическому шуму и звуку или сигналу, подобному сигналу музыки (в дальнейшем называемый "музыкальным сигналом"), и "смешанный сигнал", сформированный из смешения речевого сигнала и музыкального сигнала. Настоящее изобретение направлено на обеспечение устройства для кодирования/декодирования упомянутых выше трех типов аудиосигналов и способ для этого, чтобы кодировать/декодировать аудиосигналы, подходящие для характеристик аудиосигналов. Однако аудиосигналы классифицированы только для описания настоящего изобретения. И очевидно, что техническая идея настоящего изобретения тождественно применима к случаю классификации аудиосигнала в соответствии с другим способом.

Фиг.1 является блок-схемой устройства кодирования аудиосигнала в соответствии с одним предпочтительным вариантом воплощения настоящего изобретения. В частности, фиг.1 показывает процесс классификации введенного аудиосигнала в соответствии с предварительно заданным эталоном и затем кодирования классифицированного аудиосигнала посредством выбора схемы кодирования аудиосигнала, подходящей для соответствующего аудиосигнала.

Как показано на фиг.1, устройство кодирования аудиосигнала в соответствии с одним предпочтительным вариантом воплощения настоящего изобретения включает в себя блок 100 классификации сигнала (датчик звуковой активности), классифицирующий введенный аудиосигнал по типам речевого сигнала, музыкального сигнала или смешанного музыкально-речевого сигнала, посредством анализа характеристики введенного аудиосигнала, блок 110 моделирования с линейным предсказанием, кодирующий речевой сигнал, определенный модулем 100 классификации сигнала, блок 120 психоакустической модели, кодирующий музыкальный сигнал, и блок 130 моделирования смешанного сигнала, кодирующий смешанный музыкально-речевой сигнал. Устройство кодирования аудиосигнала может дополнительно включать в себя блок 101 переключения, выполненный с возможностью выбирать схему кодирования, подходящую для аудиосигнала, классифицированного блоком 200 классификации сигнала. Блок 101 переключения управляется с использованием информации типа кодирования аудиосигнала (например, первой информации типа и второй информации типа, которые будут подробно описаны со ссылкой на фиг.2 и фиг.3), сформированной блоком 100 классификации сигнала в качестве управляющего сигнала. Кроме того, блок 130 моделирования смешанного сигнала может включать в себя блок 131 линейного предсказания, блок 132 извлечения разностного сигнала и блок 133 частотного преобразования. В последующем описании подробно описываются соответствующие элементы, показанные на фиг.1.

Прежде всего, блок 100 классификации сигнала классифицирует тип введенного аудиосигнала и затем формирует управляющий сигнал для выбора схемы кодирования аудиосигнала, подходящей для классифицированного типа. Например, блок 100 классификации сигнала определяет, является ли введенный аудиосигнал музыкальным сигналом, речевым сигналом или смешанным музыкально-речевым сигналом. Таким образом, тип введенного аудиосигнала определяется для выбора оптимальной схемы кодирования для каждого типа аудиосигнала из схем кодирования аудиосигнала, которые будут описаны позже. Таким образом, блок 100 классификации сигнала выполняет процесс анализа введенного аудиосигнала и затем выбора схемы кодирования аудиосигнала, оптимальной для введенного аудиосигнала. Например, блок 100 классификации сигнала формирует информацию типа кодирования аудиосигнала посредством анализа введенного аудиосигнала. Сформированная информация типа кодирования аудиосигнала используется в качестве основания для выбора схемы кодирования. Сформированная информация типа кодирования аудиосигнала в виде битового потока включается в окончательно закодированный аудиосигнал и затем передается устройству декодирования или приема. Кроме того, способ и устройство декодирования, использующие информацию типа кодирования аудиосигнала, будут подробно описаны со ссылкой на фиг.6-8 и фиг.11. Кроме того, информация типа кодирования аудиосигнала, формированная посредством блока 100 классификации сигнала, может включать в себя, например, первую информацию типа и вторую информацию типа. Это будет описано со ссылкой на фиг.4 и фиг.5.

Блок 100 классификации сигнала определяет тип аудиосигнала в соответствии с характеристикой введенного аудиосигнала. Например, если введенный аудиосигнал представляет собой сигнал, который лучше моделируется с помощью заданного коэффициента и разностного сигнала, блок 100 классификации сигнала определяет введенный аудиосигнал как речевой сигнал. Если введенный аудиосигнал представляет собой сигнал, который плохо моделируется с помощью заданного коэффициента и разностного сигнала, блок 100 классификации сигнала определяет введенный аудиосигнал как музыкальный сигнал. Если трудно определить введенный аудиосигнал как речевой сигнал или музыкальный сигнал, блок 100 классификации сигнала определяет введенный аудиосигнал как смешанный сигнал. Относительно подробного эталона определения, например, когда сигнал моделируется с помощью заданного коэффициента и разностного сигнала, если отношение уровней энергии разностного сигнала к сигналу меньше предварительно заданного эталонного значения, сигнал может быть определен как хороший для моделирования сигнал. Поэтому сигнал может быть определен как речевой сигнал. Если сигнал имеет высокую избыточность по оси времени, сигнал может быть определен как хороший для моделирования посредством линейного предсказания для предсказания текущего сигнала на основе прошедшего сигнала. Поэтому сигнал может быть определен как музыкальный сигнал.

Если введенный сигнал в соответствии с этим эталоном определяется как речевой сигнал, можно закодировать входной сигнал с использованием речевого кодера, оптимизированного для речевого сигнала. В соответствии с настоящим вариантом воплощения блок 110 моделирования с линейным предсказанием используется для схемы кодирования, подходящей для речевого сигнала. Блок 110 моделирования с линейным предсказанием обеспечивается с помощью различных схем. Например, к блоку 110 моделирования с линейным предсказанием применимы схема кодирования ACELP (линейное предсказание с возбуждением по алгебраической кодовой книге), схема кодирования AMR (адаптивная многоскоростная) или схема кодирования AMR-WB (широкополосная адаптивная многоскоростная).

Блок 110 моделирования с линейным предсказанием может выполнять кодирование с линейным предсказанием над введенным аудиосигналом по кадрам. Блок 110 моделирования с линейным предсказанием извлекает коэффициент предсказания для каждого кадра и затем выполняет квантование извлеченного коэффициента предсказания. Обычно широко используется, например, схема извлечения коэффициента предсказания с использованием "алгоритма Левинсона-Дарбина".

В частности, например, если введенный аудиосигнал построен с помощью множества кадров, или имеется множество суперкадров, каждый из которых имеет единичный элемент в виде множества кадров, то возможно определить, следует ли применять схему моделирования с линейным предсказанием для каждого кадра. Можно применять разные схемы моделирования с линейным предсказанием для каждого единичного кадра, имеющегося в одном суперкадре, или для каждого субкадра единичного кадра. Это может повысить эффективность кодирования аудиосигнала.

Между тем, если введенный аудиосигнал классифицирован блоком 100 классификации сигнала как музыкальный сигнал, возможно закодировать входной сигнал с использованием музыкального кодера, оптимизированного для музыкального сигнала. Блок 120 психоакустического моделирования выполнен на основе перцепционного звукового кодера.

Между тем, если введенный аудиосигнал классифицирован блоком 100 классификации сигнала как смешанный сигнал, в котором вместе смешаны речь и музыка, возможно закодировать входной сигнал с использованием кодера, оптимизированного для смешанного сигнала. В соответствии с настоящим вариантом воплощения блок 120 моделирования смешанного сигнала используется для схемы кодирования, подходящей для смешанного сигнала.

Блок 130 моделирования смешанного сигнала может выполнять кодирование в соответствии со смешанной схемой, полученной в результате смешивания вместе упомянутой схемы моделирования с линейным предсказанием и схемы психоакустического моделирования. В частности, блок 130 моделирования смешанного сигнала выполняет кодирование с линейным предсказанием над входным сигналом, получает разностный сигнал, величина которого представляет собой разность между результирующим сигналом линейного предсказания и исходным сигналом, и затем кодирует разностный сигнал посредством схемы кодирования с частотным преобразованием.

Например, фиг.1 показывает пример, в котором блок 130 моделирования смешанного сигнала включает в себя блок 131 линейного предсказания, блок 132 извлечения разностного сигнала и блок 133 частотного преобразования.

Блок 131 линейного предсказания выполняет анализ линейного предсказания над введенным сигналом и затем извлекает коэффициент линейного предсказания, указывающий характеристику сигнала. Блок 132 извлечения разностного сигнала извлекает из введенного сигнала разностный сигнал, из которого удален компонент избыточности с использованием извлеченного коэффициента линейного предсказания. Поскольку из разностного сигнала удалена избыточность, соответствующий разностный сигнал может иметь тип белого шума. Блок 131 линейного предсказания может выполнить кодирование с линейным предсказанием над введенным аудиосигналом по кадрам. Блок 131 линейного предсказания извлекает коэффициент предсказания для каждого кадра и затем выполняет квантование извлеченного коэффициента предсказания. Например, в частности, если введенный аудиосигнал построен с помощью множества кадров, или имеется множество суперкадров, каждый из которых имеет единичный элемент в виде множества кадров, возможно определить, следует ли применять схему моделирования с линейным предсказанием для каждого кадра. Можно применять разные схемы моделирования с линейным предсказанием для каждого единичного кадра, имеющегося в одном суперкадре, или для каждого субкадра единичного кадра. Это может повысить эффективность кодирования аудиосигнала.

Блок 132 извлечения разностного сигнала принимает ввод остающегося сигнала, закодированного блоком 131 линейного предсказания, и ввод первоначального аудиосигнала, прошедшего через блок 100 классификации сигнала, и затем извлекает разностный сигнал, который представляет собой разностный сигнал между двумя введенными сигналами.

Блок 133 частотного преобразования вычисляет маскирующий порог или отношение сигнала к маске (SMR) посредством выполнения преобразования в частотной области над введенным разностным сигналом с помощью преобразования MDCT и т.п. и затем кодирует разностный сигнал. Блок 133 частотного преобразования может закодировать сигнал разностной звуковой тенденции с использованием TCX, а также психоакустического моделирования.

Поскольку блок 110 моделирования с линейным предсказанием и блок 131 линейного предсказания извлекают отраженный коэффициент линейного предсказания звуковой характеристики (LPC) посредством выполнения линейного предсказания и анализа над введенным аудиосигналом, можно рассмотреть схему использования переменных битов для способа передачи данных коэффициента LPC.

Например, режим данных коэффициента LPC определяется посредством рассмотрения схемы кодирования для каждого кадра. Тогда можно назначить коэффициент линейного предсказания, имеющий переменное количество битов для каждого режима данных коэффициента LPC. С помощью этого сокращается общее количество битов аудиосигнала. Поэтому кодирование и декодирование аудиосигнала могут быть выполнены более эффективно.

Между тем, как упомянуто в предшествующем описании, блок 100 классификации сигнала формирует информацию типа кодирования аудиосигнала посредством классификации аудиосигнала на один из двух типов информации типа кодирования, дает возможность включить информацию типа кодирования в битовый поток и затем передает битовый поток устройству декодирования. В последующем описании информация типа кодирования аудиосигнала в соответствии с настоящим изобретением подробно описывается со ссылкой на фиг.4 и фиг.5.

Фиг.4 является блок-схемой последовательности операций для способа кодирования аудиосигнала с использованием информации типа аудиосигнала в соответствии с одним предпочтительным вариантом воплощения настоящего изобретения.

Прежде всего, настоящее изобретение предлагает способ представления типа аудиосигнала посредством использования первой информации типа и второй информации типа для классификации. Например, если введенный аудиосигнал определяется как музыкальный сигнал [этап S100], блок 100 классификации сигнала заставляет блок 101 переключения выбрать схему кодирования (например, схему психоакустического моделирования, показанную на фиг.2), подходящую для музыкального сигнала, и затем дает возможность выполнить кодирование в соответствии с выбранной схемой кодирования [этап S110]. После этого соответствующая управляющая информация формируется как первая информация типа и затем передается включенной в закодированный битовый поток аудиосигнала. Таким образом, первая информация типа играет роль идентифицирующей информации кодирования, указывающей, что тип кодирования аудиосигнала представляет собой тип кодирования музыкального сигнала. Первая информация типа используется при декодировании аудиосигнала в соответствии со способом и устройством декодирования.

Кроме того, если введенный сигнал определяется как речевой сигнал [этап S120], блок 100 классификации сигнала заставляет блок 101 переключения выбрать схему кодирования (например, моделирование с линейным предсказанием, показанное на фиг.1), подходящую для речевого сигнала, и затем дает возможность выполнить кодирование в соответствии с выбранной схемой кодирования [этап S130]. Если введенный сигнал определяется как смешанный сигнал [этап S120], блок 100 классификации сигнала заставляет блок 101 переключения выбрать схему кодирования (например, моделирование смешанного сигнала, показанное на фиг.2), подходящую для смешанного сигнала, и затем дает возможность выполнить кодирование в соответствии с выбранной схемой кодирования [этап S140]. Затем управляющая информация, указывающая либо тип кодирования речевого сигнала, либо тип кодирования смешанного сигнала, формируется во вторую информацию типа. Вторая информация типа затем передается включенной в закодированный битовый поток аудиосигнала вместе с первой информацией типа. Таким образом, вторая информация типа играет роль идентифицирующей информации кодирования, указывающей, что тип кодирования аудиосигнала представляет собой либо тип кодирования речевого сигнала, либо тип кодирования смешанного сигнала. Вторая информация типа используется вместе с упомянутой выше первой информацией типа при декодировании аудиосигнала в соответствии со способом и устройством декодирования.

Что касается первой информации типа и второй информации типа, имеется два случая в соответствии с характеристиками введенных аудиосигналов. А именно, должна быть передана либо только первая информация типа, либо и первая информация типа, и вторая информация типа. Например, если тип введенного аудиосигнала представляет собой тип кодирования музыкального сигнала, передается только первая информация типа, включенная в битовый поток, а вторая информация типа не может быть включена в битовый поток [фиг.5(a)]. Вторая информация типа включается в битовый поток, только если тип кодирования введенного аудиосигнала представляет собой тип кодирования речевого сигнала или тип кодирования смешанного сигнала. Таким образом, можно предотвратить излишнее количество битов для представления типа кодирования аудиосигнала.

Хотя пример настоящего изобретения показывает, что первая информация типа указывает наличие или отсутствие музыкального сигнала, он является лишь иллюстративным. Очевидно, что первая информация типа пригодна для использования в качестве информации, указывающей тип кодирования речевого сигнала или тип кодирования смешанного сигнала. Таким образом, при использовании типа кодирования аудиосигнала, имеющего более высокую вероятность появления в соответствии со средой кодирования, к которой применяется настоящее изобретение, возможно сократить общее количество битов в битовом потоке.

Фиг.5 является схемой для примера структуры битового потока аудиосигнала, закодированного в соответствии с настоящим изобретением.

На фиг.5(a) введенный аудиосигнал соответствует музыкальному сигналу. В битовый поток включена только первая информация 301 типа, а вторая информация типа в него не включена. В битовый поток включены звуковые данные, закодированные посредством типа кодирования, соответствующего первой информации 301 типа (например, битовый поток 302 AAC).

На фиг.5(b) введенный аудиосигнал соответствует речевому сигналу. В битовый поток включена и первая информация 311 типа, и вторая информация 312 типа. В битовый поток включены звуковые данные, закодированные посредством типа кодирования, соответствующего второй информации 312 типа (например, битовый поток 313 AMR).

На фиг.5(c) введенный аудиосигнал соответствует смешанному сигналу. В битовый поток включена и первая информация 321 типа, и вторая информация 322 типа. В битовый поток включены звуковые данные, закодированные посредством типа кодирования, соответствующего второй информации 322 типа (например, битовый поток 323 TCX AAC).

Что касается этого описания, информация, включенная в битовый поток аудиосигнала, закодированный в соответствии с настоящим изобретением, иллюстративно показана на фиг.5(a)-(c). Очевидно, что в пределах объема настоящего изобретения возможны различные применения. Например, в настоящем изобретении примеры AMR и AAC взяты в качестве примеров схем кодирования посредством добавления информации для идентификации соответствующей схемы кодирования. Кроме того, могут применяться различные схемы кодирования, и информация для идентификации различных схем кодирования также доступна разным образом. Кроме того, настоящее изобретение, показанное на фиг.5(a)-(c), может быть применено к одному суперкадру, единичному кадру и субкадру. А именно, настоящее изобретение может обеспечить информацию типа кодирования аудиосигнала для каждого предварительно заданного кадра.

В последующем описании со ссылкой на фиг.2 и фиг.3 описываются способ кодирования аудиосигнала и устройство, в которые включен процесс кодирования в соответствии с другим вариантом воплощения настоящего изобретения.

Прежде всего, в качестве процесса предварительной обработки входного сигнала с использованием блока 110 моделирования с линейным предсказанием, блока 120 психоакустического моделирования и блока 130 моделирования смешанного сигнала могут быть выполнены процесс расширения диапазона частот и процесс изменения количества каналов.

Например, в качестве одного варианта воплощения процесса расширения диапазона частот блок (150 на фиг.2) предварительной обработки диапазона частот может формировать высокочастотный компонент с использованием низкочастотного компонента. В качестве примера блока обработки диапазона частот можно использовать SBR (репликацию спектрального диапазона) и HBE (расширение высокочастотного диапазона), которые модифицированы и улучшены.

Кроме того, процесс изменения количества каналов уменьшает размер распределяемых битов посредством кодирования информации канала аудиосигнала во вспомогательную информацию. В качестве одного варианта воплощения процесса изменения количества каналов можно использовать блок (140 на фиг.2) формирования канала с низведением. Блок 140 формирования канала с низведением может применять систему параметрического стерео (PS). В этом случае система PS представляет собой схему кодирования стереосигнала и низводит стереосигнал в моносигнал. Блок 140 формирования канала с низведением формирует низведенный сигнал и пространственную информацию, относящуюся к воссозданию низведенного сигнала.

В соответствии с одним вариантом воплощения, если стереосигнал с частотой дискретизации 48 кГц передается с использованием SBR и PS (параметрического стерео), после SBR/PS остается моносигнал с частотой дискретизации 24 кГц. Этот моносигнал может быть закодирован кодером. Таким образом, выходной сигнал кодера имеет частоту дискретизации 24 кГц. Это справедливо потому, что высокочастотный компонент кодируется посредством SBR и субдискретизируется на половину от предыдущей частоты. Таким образом, входной сигнал становится моносигналом. Это справедливо потому, что стереоаудиосигнал извлекается как параметр через PS (параметрическое стерео) для замены на сумму моносигнала и дополнительного аудиосигнала.

Фиг.2 имеет отношение к процессу предварительной обработки кодирования и показывает устройство кодирования, включающее в себя описанный выше блок 140 формирования канала с низведением и описанный выше блок 150 предварительной обработки диапазона частот.

Операции блока 110 моделирования с линейным предсказанием, блока 120 психоакустического моделирования, блока 130 моделирования смешанного сигнала и блока 101 переключения, которые описаны со ссылкой на фиг.1, тождественно применяются к операциям соответствующих элементов, показанных на фиг.2. Кроме того, блок 100 классификации сигнала формирует управляющий сигнал для управления активацией блока 140 формирования канала с низведением и блока 150 предварительной обработки диапазона частот.

Другими словами, блок 100 классификации сигнала дополнительно формирует управляющий сигнал 100a для управления наличием или отсутствием активации блока 140 формирования канала с низведением и рабочим диапазоном блока 140 формирования канала с низведением и управляющий сигнал 100b для управления наличием или отсутствием активации блока 150 предварительной обработки диапазона частот и рабочим диапазоном блока 150 предварительной обработки диапазона частот.

Фиг.3 является подробной блок-схемой блока 150 предварительной обработки диапазона частот в соответствии с вариантом воплощения настоящего изобретения.

На фиг.3 блок 150 предварительной обработки диапазона частот для расширения диапазона включает в себя блок 151 удаления высокочастотной области, блок 152 формирования информации расширения и блок 153 вставки пространственной информации. Блок 151 удаления высокочастотной области принимает низведенный сигнал и пространственную информацию от блока 140 формирования канала с низведением. Блок 151 удаления высокочастотной области формирует низкочастотный низведенный сигнал, который получается в результате удаления высокочастотного сигнала, соответствующего высокочастотной области, из частотного сигнала низведенного сигнала, и информацию воссоздания, включающую в себя начальную частоту и конечную частоту базового сигнала расширения (описан позже).

В этом случае возможно определить информацию воссоздания на основе характеристики входного сигнала. Обычно начальная частота высокочастотного сигнала представляет собой частоту, составляющую половину всего диапазона частот. Напротив, в соответствии с характеристикой входного сигнала, информация воссоздания может определить начальную частоту как частоту выше или ниже половины всего диапазона частот. Например, если использование всего диапазона частот низведенного сигнала является более эффективным, чем кодирование низведенного сигнала посредством удаления высокочастотной области с использованием методики расширения диапазона частот, информация воссоздания может представлять начальную частоту как частоту, расположенную в конце диапазона частот. Возможно определить информацию воссоздания с использованием по меньшей мере одного элемента множества, состоящего из размера сигнала, длины сегмента, используемого для кодирования, и типа источника, чем настоящее изобретение не ограничивается.

Блок 152 формирования информации расширения формирует информацию расширения для определения базового сигнала расширения, который будет использоваться для декодирования, с использованием низведенного сигнала и пространственной информации, сформированных блоком 140 формирования канала с низведением. Базовый сигнал расширения представляет собой частотный сигнал низведенного сигнала, который используется для воссоздания высокочастотного сигнала низведенного сигнала, удаленного блоком 151 удаления высокочастотной области, при декодировании. Базовый сигнал расширения может являться низкочастотным сигналом или частичным сигналом низкочастотного сигнала. Например, можно разделить низкочастотный сигнал на область низкочастотного диапазона и область среднечастотного диапазона вновь посредством выполнения полосной фильтрации над низведенным сигналом. Посредством этого можно сформировать информацию расширения с использованием только области низкочастотного диапазона. Граничная частота для различения области низкочастотного диапазона и области среднечастотного диапазона может быть установлена равной случайному фиксированному значению. В качестве альтернативы, граничная частота может устанавливаться как переменная для каждого кадра в соответствии с информацией для анализа отношения речи и музыки для смешанного сигнала.

Информация расширения может соответствовать информации относительно низведенного сигнала, не удаленной блоком 151 удаления высокочастотной области, чем настоящее изобретение не ограничивается. Информация расширения может представлять собой информацию относительно частичного сигнала низведенного сигнала. Если информация расширения представляет собой информацию относительно частичного сигнала низведенного сигнала, она может включать в себя начальную частоту и конечную частоту базового сигнала расширения, и также может включать в себя диапазон фильтра, примененного к частотному сигналу низведенного сигнала.

Блок 153 вставки пространственной информации формирует новую пространственную информацию, полученную в резуль

Способ и устройство для обработки аудиосигнала

Патент 2452042