2483366 - Устройство и способ декодирования кодированного звукового сигнала

Устройство и способ декодирования кодированного звукового сигнала

Иллюстрации

Показать все

Изобретение относится к устройство для декодирования (100) кодированного аудиосигнала (102), а также к устройству и способу кодирования звукового сигнала. Устройство включает в себя первый декодер (110а), второй декодер (110b), BWE модуль (130) и контроллер (140). Первый декодер (110а) декодирует первую часть (104а) в соответствии с первым алгоритмом декодирования для первой временной части кодированного сигнала (102) для получения первого декодированного сигнала (114а). Второй декодер (110b) декодирует вторую часть (104b) в соответствии со вторым алгоритмом декодирования для второй временной части кодированного сигнала (102) для получения второго декодированного сигнала (114b). BWE модуль (130) имеет управляемую частоту переключения (FX) и предназначен для выполнения алгоритма расширения ширины спектра, используя первый декодированный сигнал (114а) и BWE параметры (106) для первой части (104b), а также для выполнения алгоритма расширения ширины спектра, используя второй декодированный сигнал (114b) и параметр расширения ширины спектра (106) для второй части (104b). Контроллер (140) управляет частотой переключения (FX) для BWE модуля (130) в соответствии с информацией о режиме кодирования (108). Технический результат - обеспечение получения адаптированной частоты переключения вместе с гибким выбором используемого основного кодера, при этом кодированный сигнал обеспечивает повышение качества восприятия. 6 н. и 8 з.п. ф-лы, 11 ил.

Реферат

Заявляемое изобретение относится к устройству декодирования кодированного аудиосигнала, а также к устройству и способу кодирования звукового сигнала.

Широко известны такие схемы кодирования частотной области, как МР3 или ААС. Эти кодеры частотной области основаны на преобразовании из временной в частотную область, последующем этапе квантования, в ходе которого ошибка квантования контролируется с помощью информации из психоакустического модуля, и этапе кодирования, в ходе которого квантованные спектральные коэффициенты и соответствующая дополнительная информация энтропийно кодируются с помощью кодовых таблиц.

С другой стороны, существуют кодеры, которые очень хорошо подходят для обработки речи, такие как AMR-WB+, как описано в 3GPP TS 26,290. Такие схемы кодирования речи используют линейно предсказуемую LP фильтрацию временной области. Такая LP фильтрация основывается на линейном предиктивном анализе входного сигнала временной области. Полученные в результате коэффициенты фильтрации линейного предсказания затем кодируются и передаются в виде дополнительной информации. Этот процесс известен как линейное кодирование с предсказанием (LPC). На выходе фильтра предсказанный остаточный сигнал или сигнал с ошибкой предсказания, который также известен как возбуждающий сигнал, кодируется с помощью анализа через синтез в ACELP кодере или, наоборот, кодируется с помощью кодера с преобразованием, который использует преобразование Фурье с перекрытием. Выбор между ACELP кодированием и кодированием с преобразованием инициирующего сигнала, который также называют ТСХ кодированием, осуществляется с помощью алгоритма замкнутой петли или алгоритма открытой петли.

Схемы аудиокодирования частотной области, такие как высокоэффективная схема кодирования ААС, которая сочетает в себе схемы кодирования ААС и технику спектральной репликации диапазона частот, также могут использоваться вместе с приемом стерео- или многоканального кодирования, который известен как " MPEG Surround". С другой стороны, кодеры речи, такие как AMR-WB+ также включают этап повышения частот и являются функциональными с точки зрения стереосигнала.

Упомянутая репликация спектрального диапазона (SBR) включает в себя метод, который завоевал популярность в качестве дополнения к популярным кодерам аудио восприятия, таким как МР3 и Advanced Audio Coding (ААС). Репликация спектрального диапазона (SBR) включают в себя метод расширения диапазона (BWE), в котором нижний диапазон (базовый диапазон или основной диапазон) спектра кодируется с использованием существующих кодеров, в то время как верхний диапазон (или высший диапазон) подвергается анализу с использованием меньшего числа параметров. В SBR используется корреляция между нижним диапазоном и верхним диапазоном, для того чтобы прогнозировать сигнал высокого диапазона, извлекая его из характеристик сигнала нижнего диапазона.

SBR, например, используется в НЕ-ААС или ААС+SBR. В SBR можно динамически изменять частоту разделения (BWE начальную частоту), а также временное разрешение, то есть число наборов параметров (конвертов) на кадр. AMR-WB+осуществляет расширение ширины спектра сигнала вместе с кодером, который выполняет преобразование из временной в частотную область, обеспечивая хорошее качество звука, особенно для речевых сигналов. Фактором, ограничивающим AMR-WB+ качество звука, является ширина спектра звукового сигнала, общая для обоих основных кодеков и начальной частоты BWE, которая составляет одну четверть от внутренней частоты дискретизации системы. Хотя модель речи в ACELP способна моделировать сигналы речи достаточно хорошо для всего спектра сигнала, аудиокодер частотной области не может предоставить достойного качества для некоторых общих аудиосигналов. Таким образом, схемы кодирования речи демонстрируют высокое качество для речевых сигналов даже при низкой скорости передачи, но показывают низкое качество для музыкальных сигналов при низкой скорости передачи данных.

Схемы кодирования частотной области, такие как НЕ-ААС, полезны тем, что они показывают высокое качество при низкой скорости передачи данных для музыкальных сигналов. Проблематично, однако, качество речевых сигналов при низкой скорости передачи данных.

Таким образом, различные классы аудиосигналов требуют различных характеристик расширения ширины спектра.

Задачей данного изобретения является обеспечение улучшения концепции кодирования/декодирования.

Эта задача достигается тем, что аудиодекодер выполнен согласно п.1 формулы изобретения, способ декодирования реализован согласно п.13 формулы изобретения, кодер выполнен согласно п.8, способ кодирования - согласно п.14, кодированный сигнал реализован согласно п.15 и компьютерная программа - согласно п.16.

Настоящее изобретение основано на том, что частота разделения или начальная частота BWE является параметром, влияющим на качество звука. Хотя кодеки временной области (речевые) обычно кодируют весь частотный диапазон для данной частоты дискретизации, ширина спектра аудиосигнала является изменяемым параметром для кодеров, использующих преобразования (например, кодеры для музыки), так как уменьшение общего числа спектральных линий для кодирования будет, в то же время, увеличивать число битов на спектральную линию, готовую для кодирования, то есть происходит поиск компромисса между качеством звука и шириной спектра. Следовательно, в новом подходе, различные совпадающие кодеры с переменной шириной спектра аудиосигнала объединяются в коммутируемую систему с одним общим BWE модулем, при этом BWE модуль должен учитывать разную ширину спектра аудиосигнала.

Простым способом было бы найти самую низкую из всех основных ширину спектра кодера и использовать ее как начальную частоту BWE, но это ухудшит качество воспринимаемого звука. Кроме того, эффективность кодирования снизится, так как во временных отрезках, где основной кодер активен и имеет более высокую ширину спектра, чем начальная частота BWE, некоторые частотные области будут представлены два раза: основным кодером и BWE, что вызовет избыточность. Поэтому лучшим решением будет адаптировать начальную частоту BWE к ширине спектра аудиосигнала, используемой основным кодером.

Поэтому в соответствии со способами использования настоящего изобретения, система кодирования аудиосигнала сочетает в себе инструмент для расширения ширины спектра и основной кодер, который определяется сигналом (например, переключаемый кодер речи/звука), причем частота разделения включает переменный параметр. Классификатор выходного сигнала, который управляет переключением между различными режимами основного кодирования, может также использоваться для переключения характеристик системы BWE, таких как временное разрешение и размытие, спектральное разрешение и частота разделения каналов.

Таким образом, одним из аспектов настоящего изобретения является аудиодекодер для кодированного звукового сигнала; кодированный звуковой сигнал, включающий первую часть, кодированную в соответствии с первым алгоритмом кодирования, и вторую часть, кодированную в соответствии со вторым алгоритмом кодирования; параметр BWE для первой части и для второй части; информацию о режиме кодирования, указывающую на первый алгоритм декодирования или второй алгоритм декодирования, включая первый декодер, второй декодер, BWE модуль и контроллер. Первый декодер декодирует первую часть в соответствии с первым алгоритмом декодирования для первой временной части кодированного сигнала для того, чтобы получить первый декодированный сигнал. Второй декодер декодирует вторую часть в соответствии со вторым алгоритмом декодирования для второй временной части кодированного сигнала для получения второго декодированного сигнала. BWE модуль имеет контролируемую частоту разделения и сконфигурирован для выполнения алгоритма расширения ширины спектра при помощи первого декодированного сигнала и параметров BWE для первой части; и для выполнения алгоритма расширения ширины спектра при помощи второго декодированного сигнала и параметра расширения ширины спектра для второй части. Контроллер управляет частотой разделения для BWE модуля в соответствии с информацией о режиме кодирования.

В соответствии с другим аспектом настоящего изобретения, устройство для кодирования звукового сигнала включает первый и второй кодеры, блок выбора и BWE модуль. Первый кодер предназначен для кодирования в соответствии с первым алгоритмом кодирования, при этом первый алгоритм кодирования имеет первую частоту ширины спектра. Второй кодер предназначен для кодирования в соответствии со вторым алгоритмом кодирования, при этом второй алгоритм кодирования имеет вторую частоту ширины спектра, которая меньше, чем первая частота ширины спектра. Блок выбора задает первый алгоритм кодирования для первой части звукового сигнала и второй алгоритм кодирования для второй части звукового сигнала, при этом вторая часть отличается от первой части. Модуль расширения ширины спектра рассчитывает параметры BWE для аудиосигнала, при этом BWE модуль сконфигурирован блоком выбора для расчета параметров BWE для полосы спектра, исключая первую частоту ширины спектра в первой части звукового сигнала и исключая вторую частоту ширины спектра во второй части звукового сигнала.

В отличие от данного изобретения и согласно предыдущей практике SBR применяется только к некоммутируемому аудиокодеку, что приводит к следующим недостаткам: и временное разрешение, и частота переключения может применяться динамически, но последние изобретения, такие как 3GPP источник обычно применяют только изменение временного разрешения для переходных сигналов, как, например, кастаньеты. Кроме того, более точное временное разрешение может быть выбрано на более высокой скорости передачи в качестве изменяемого параметра, определяемого скоростью передачи данных. Не проводится явная классификация для определения временного разрешения или порога выбора, управляющего временным разрешением, наиболее подходящего для типа сигнала, как, например, для стационарного сигнала, тональной музыки или речи. Использование данного изобретения помогает преодолеть эти недостатки. Данное изобретение позволяет получить специально адаптированную частоту переключения вместе с гибким выбором используемого основного кодера так, что кодированный сигнал обеспечивает значительно лучшее качество восприятия по сравнению с ранее известными кодерами/декодерами.

Предпочтительные варианты использования изобретения описаны ниже в соответствии с прилагаемыми изображениями:

На Фиг.1 показана блок-схема устройства для декодирования в соответствии с первым вариантом заявляемого изобретения;

На Фиг.2 показана блок-схема устройства для кодирования в соответствии с первым вариантом заявляемого изобретения;

На Фиг.3 более подробно показана блок-схема кодирования;

На Фиг.4 более подробно показана блок-схема декодирования;

На Фиг.5 показана схема кодирования в соответствии со вторым вариантом реализации изобретения;

На Фиг.6 показана схема декодирования в соответствии со вторым вариантом реализации изобретения;

На Фиг.7 проиллюстрирован этап линейного кодирования с предсказанием со стороны кодера для получения краткосрочного прогнозирования информации и сигнала ошибки прогнозирования;

На Фиг.8 проиллюстрирован иной способ использования устройства LPC для получения взвешенного сигнала;

На Фиг.9а-9b показан кодер, включающий в себя переключатель звука/речи для получения различного временного разрешения звукового сигнала, и

На Фиг.10 проиллюстрировано представление кодированного аудиосигнала.

Фиг.1 показывает устройство декодера 100 для декодирования кодированного аудиосигнала 102. Кодированный аудиосигнал 102 состоит из первой части 104а, кодированной в соответствии с первым алгоритмом кодирования, второй части 104b, кодированной в соответствии со вторым алгоритмом кодирования, BWE параметра 106 для первой временной части 104а и для второй временной части 104b и информации о режиме кодирования 108, указывающей на первый алгоритм декодирования или второй алгоритм декодирования для соответствующих временных частей. Аппарат для декодирования 100 включает первый декодер 110а, второй декодер 110b, BWE модуль 130 и контроллер 140. Первый декодер 110а адаптирован для декодирования первой части 104а в соответствии с первым алгоритмом декодирования для первой временной части кодированного сигнала 102 для получения первого декодированного сигнала 114а. Второй декодер 110b предназначен для декодирования второй части 104b в соответствии со вторым алгоритмом декодирования для второй временной части кодированного сигнала для получения второго декодированного сигнала 114b. BWE модуль 130 имеет управляемую частоту переключения FX, которая регулирует поведение модуля BWE 130. BWE модуль 130 предназначен для выполнения алгоритма расширения ширины спектра для того, чтобы генерировать компоненты звукового сигнала в верхней частоте полосы на основе первого декодированного сигнала 114а и параметров BWE 106 для первой части, и чтобы генерировать компоненты звукового сигнала в верхней частоте полосы на основе второго декодированного сигнала 114b и параметра расширения ширины спектра 106 для второй части. Контроллер 140 предназначен для контроля частоты переключения FX в BWE модуле 130 в соответствии с информацией о режиме кодирования 108.

BWE модуль 130 может включать также блок объединения компонентов аудиосигнала нижнего и верхнего диапазонов частот и в результате генерировать звуковой сигнал 105.

Информация о режиме кодирования 108 указывает, например, какая временная часть кодированного аудиосигнала 102 кодируется каким алгоритмом кодирования. Эта информация может в то же время указывать на декодер, который будет использоваться для различных временных частей. Кроме того, информация о режиме кодирования 108 может контролировать переключатель для переключения между различными декодерами для разных временных частей.

Следовательно, частота переключения FX - это регулируемый параметр, который корректируется в соответствии с используемым декодером, который может, например, содержать речевой кодер в качестве первого декодера 110а и аудиодекодер в качестве второго декодера 110b. Как было сказано выше, частота переключения FX для речевого декодера (как, например, на основе LPC) может быть выше, чем частота переключения, используемая для аудиодекодера (например, для музыки). Таким образом, в других способах использования изобретения, контроллер 220 предназначен для увеличения частоты переключения FX или для уменьшения частоты переключения FX в одной из временных частей (например, во второй временной части), так что частота переключения может быть изменена без изменения алгоритма декодирования. Это означает, что изменение частоты переключения может быть не связано с изменением используемого декодера: частота переключения может быть изменена без изменения используемого декодера или наоборот декодер может быть изменен без изменения частоты переключения.

BWE модуль 130 может также включать переключатель, который управляется контроллером 140 и/или параметром BWE 106 так, что первый декодированный сигнал 114а обрабатывается с помощью BWE модуля во время первой временной части и второй декодированный сигнал 114b обрабатывается с помощью BWE модуля во время второй временной части. Этот переключатель может быть активирован с помощью изменения частоты переключения FX или с помощью заданного бита в кодированном аудиосигнале 102, указывающего на используемый алгоритм кодирования в соответствующей временной части.

В других способах использования изобретения, переключатель предназначен для переключения между первой и второй временной частью из первого декодера ко второму декодеру так, что алгоритм расширения ширины спектра применяется либо к первому декодированному сигналу, либо ко второму декодированному сигналу. Кроме того, алгоритм расширения ширины спектра применяется к первому и/или второму декодированному сигналу, а переключатель ставится после этого так, что один из сигналов с расширенным спектром пропускается.

Фиг.2 показывает блок-схему устройства 200 для кодирования аудиосигнала 105. Это устройство для кодирования 200 включает в себя первый кодер 210а, второй кодер 210b, блок управления (выбора) 220 и модуль расширения ширины спектра (BWE модуль) 230. Первый кодер 210а работает для кодирования в соответствии с первым алгоритмом кодирования, имея первую частоту ширины спектра. Второй кодер 210b работает для кодирования в соответствии со вторым алгоритмом кодирования, имея вторую частоту ширины спектра, которая меньше, чем первая частота ширины спектра. Первый кодер может, например, быть речевым кодером, основанным на LPC, в то время как второй кодер 210b может содержать аудио (музыкальный) кодер. Блок управления 220 предназначен для того, чтобы указать первый алгоритм кодирования для первой части 204а звукового сигнала 105 и указать второй алгоритм кодирования для второй части 204b звукового сигнала 105, при этом вторая временная часть отличается от первой временной части. Первая часть 204а может соответствовать первой временной части, а вторая часть 204b может соответствовать второй временной части, которая отличается от первой временной части.

BWE модуль 230 предназначен для расчета параметров BWE 106 для аудиосигнала 105 и контролируется блоком управления 220 для расчета параметра BWE 106 для первой полосы, исключая первую частоту ширины спектра в первой временной части 204а звукового сигнала 105. BWE модуль 230 дополнительно сконфигурирован для расчета параметра BWE 106 для второй полосы, исключая вторую частоту ширины спектра во второй временной части 204b аудиосигнала 105. Следовательно, первая (вторая) полоса включает в себя компоненты частоты звукового сигнала 105, которые находятся вне первой (второй) частоты ширины спектра и ограничены по отношению к нижней части спектра частотой переключения FX. Первая или вторая ширина спектра может быть определена по переменной частоты переключения, которая контролируется блоком управления 220.

Кроме того, BWE модуль 230 может включать в себя переключатель, который контролируется блоком управления 220. Блок управления 220 может определить предпочтительный алгоритм кодирования для данной временной части и контролирует переключатель так, что в течение данной временной части используется предпочтительный кодер. Измененная информация о режиме кодирования 108' включает в себя соответствующий сигнал о переключении. Кроме того, BWE модуль 230 может также содержать фильтр для получения компонентов звукового сигнала 105 в нижней/верхней частоте полосы, которые отделены от частоты переключения FX, что может составлять около 4 кГц или 5 кГц. Наконец, BWE модуль 130 может также включать инструмент для анализа, чтобы определить параметр BWE 106. Измененная информация о режиме кодирования 108' может быть эквивалентной (или равной) информации о режиме кодирования 108. Информация о режиме кодирования 108 указывает, например, на используемый алгоритм кодирования для соответствующих временных частей в потоке кодированного аудио сигнала 105.

В соответствии с другими способами использования изобретения, модуль управления 220 содержит инструмент для классификации сигнала, который анализирует исходный входной сигнал 105 и создает управляющую информацию 108, которая вызывает выбор различных режимов кодирования. Анализ входного сигнала 105 зависит от варианта изобретения и используется с целью выбора оптимального основного режима кодирования для данного входного сигнала. Выход классификатора сигнала может (опционально) использоваться для изменения работы других инструментов, например MPEG Surround, расширения SBR, измененной шкалы времени в фильтрах и др. Вход для инструмента классификатора сигнала включает в себя, например, оригинальный/первоначальный неизмененный входной сигнал 105, но также необязательно дополнительные параметры, зависящие от способа использования. Выход классификатора сигнала включает в себя контрольный сигнал 108 для контроля за выбором основных кодеков (например, не-LP обработанные частотные области или LP обработанные временные или частотные области кодирования или следующие алгоритмы кодирования).

В соответствии со способами использования изобретения, частота переключения FX корректируется в зависимости от сигнала, что сопровождается решением о переключении для использования другого алгоритма кодирования. Таким образом, простое переключение сигнала может быть просто изменением (скачком) в частоте переключения FX. Кроме того, информация о режиме кодирования 108 может также содержать изменение частоты переключения FX, указывающее в то же время на предпочтительную схему кодирования (например, речь/аудио/музыка).

В соответствии с использованием изобретения, модуль управления 220 используется для того, чтобы анализировать аудиосигнал 105, или первый выходной сигнал первого кодера 210а, или второй выходной сигнал второго кодера 210b, или сигнал, полученный в результате декодирования выходного сигнала кодера 210а или второго кодера 210b no отношению к целевой функции. Модуль (блок) управления (выбора) 220 может быть использован для разграничения речи/музыки таким образом, что решению в пользу речи отдается предпочтение по сравнению с решением в пользу музыки. Решение в пользу речи принимается, например, даже если меньше 50% блока данных для первого переключателя является речью, а более 50% данных для первого переключателя является музыкой. Таким образом, модуль управления 220 может включать в себя инструмент для анализа, который анализирует аудиосигнал и приходит к выводу, является ли звуковой сигнал в основном речью или музыкой, для того чтобы на основе результатов этапа выбора можно было решить, какой кодек лучше использовать для проанализированной временной части из звукового сигнала.

Фиг.1 и 2 не показывают многие из этих деталей кодирования/декодирования. Возможные подробные примеры для кодирования/декодирования представлены на следующих рисунках. В дополнение к первому и второму декодерам 110а, b на фиг.1, могут быть представлены другие декодеры, которые могут быть использованы или нет, например алгоритмы дальнейшего кодирования. Таким же образом кодер 200 на фиг.2 может содержать дополнительные кодеры, которые могут использовать дополнительные алгоритмы кодирования. Далее пример с двумя кодерами/декодерами будет описан более подробно.

Фиг.3 иллюстрирует более подробно кодер с двумя каскадными коммутаторами. Моносигнал, стереосигнал или многоканальный сигнал являются входным сигналом для блока управления 220 и для переключателя 232, который является частью BWE модуля 230 на фиг.2. Переключатель 232 управляется на этапе выбора 220. Кроме того, модуль управления 220 может получить дополнительную информацию, которая включена в моносигнал, стереосигнал или многоканальный сигнал или, по крайней мере, связана с этим сигналом, где существует информация, которая была, например, создана при первоначальном производстве моносигнала, стереосигнала или многоканального сигнала.

Модуль управления 220 приводит в действие переключатель 232, чтобы передать сигнал либо в частотную кодированную часть 210b, которая проиллюстрирована на верхней ветви фиг.3, или в LPC-область кодированной части 210а, которая проиллюстрирована в нижней ветви на фиг.3. Одним из ключевых элементов ветви кодирования частотной области является блок спектрального преобразования 410, который активируется для преобразования выходного сигнала на стадии предварительной обработки (как описано ниже) в спектральную область. Блок спектрального преобразования может включать MDCT алгоритм, квадратурный зеркальный фильтр QMF, алгоритм быстрого преобразования Фурье FFT, вейвлет-анализ или банк фильтров, такой как дискретный банк с определенным числом каналов, где поддиапазонные сигналы могут быть вещественно значимыми или комплекснозначимыми сигналами. Выход блока спектрального преобразования 410 кодируется с помощью спектрального аудиокодера 421, который может включать обработку блоков, как известно из схемы кодирования ААС.

Как правило, обработка в ветви 210b использует метод обработки по модели, основанной на восприятии, или по информационной модели. Таким образом, эта ветвь построена по модели слуховой системы человека, воспринимающего звук. В противоположность этому, обработка в ветви 210а ведет к получению сигнала в инициирующей, остаточной или LPC области. Как правило, обработка в ветви 210а - это обработка, основанная на модели речи или модели порождения информации. Для речевых сигналов, эта модель является моделью человеческой речи/системой порождения звука. Однако если звук из другого источника, требующий другую систему порождения звука, должен быть закодирован, то обработка в ветви 210а может быть другой. В дополнение к показанным ветвям кодирования другие способы использования изобретения содержат дополнительные ветви или основные кодеры. Например, разные кодеры могут необязательно присутствовать для различных источников, так что звук от каждого источника может быть кодирован, используя предпочтительный кодер.

В нижней ветви кодирования 210а, ключевым элементом является устройство LPC 510, которое выводит LPC информацию, которая используется для контроля характеристик фильтра LPC. Эта информация LPC передается на декодер. На этапе LPC 510 выходной сигнал является сигналом LPC области, который состоит из сигнала возбуждения и/или взвешенного сигнала.

Устройство LPC обычно выводит сигнал LPC области, который может быть любым сигналом в области LPC или любым другим сигналом, который был сформирован путем применения коэффициентов LPC фильтра для аудиосигнала. Кроме того, устройство LPC также может определить эти коэффициенты, а также может квантовать/кодировать эти коэффициенты.

Выбор в блоке управления 220 может быть скорректирован сигналом так, что на этапе выбора происходит разграничение музыки/речи и осуществляется управление переключателем 232 таким образом, что музыкальные сигналы входят в верхнюю ветвь 210b, а речевые сигналы входят в нижнюю ветвь 210а. В одном из вариантов использования изобретения, на этапе выбора 220 информация о выборе передается в выходной поток битов так, что декодер может использовать эту информацию для того, чтобы произвести правильные операции декодирования. Эта информация о выборе может, например, включать информацию о режиме кодирования 108, которая также может включать информацию о частоте переключения FX или изменении частоты переключения FX.

Такой декодер показан на фиг.4. Выходной сигнал спектрального аудиокодера 421, после передачи, входит в спектральный аудиодекодер 431. Выход из спектрального аудио декодера 431 направляется на вход конвертера временной области 440 (конвертер временной области может быть в общем конвертером из первой области во вторую область). Аналогично, выход из ветви кодирования области LPC 210а на фиг.3 получен на стороне декодера и обработан элементами 531, 533, 534 и 532 для получения сигнала возбуждения LPC. Сигнал возбуждения LPC вводится на стадии LPC синтеза 540, которая получает, в качестве еще одного входа, информацию LPC, полученную на соответствующей стадии анализа LPC 510. Выходной сигнал из конвертера временной области 440 и/или выход из стадии синтеза LPC 540 направляется в переключатель 132, который может быть частью BWE модуля 130 на фиг.1. Переключатель 132 управляется с помощью сигнала управления переключателем (например, информации о режиме кодирования 108 и/или параметра BWE 106), который был, например, получен блоком управления 220, или который был получен извне от источника исходного моносигнала, стереосигнала или многоканального сигнала.

На фиг.3, входной сигнал переключателя 232 и блока управления 220 может быть моносигналом, стереосигналом, многоканальным сигналом или вообще любым аудиосигналом. Переключатель переключает между ветвью кодирования частот 210b и ветвью кодирования LPC 210а в зависимости от выбора, который может быть сделан с помощью переключателя 232 входного сигнала или с помощью любого внешнего источника, такого как источник аудио сигнала, лежащего в основе входного сигнала на стадии 232. Ветвь кодирования частоты 210b включает стадию спектрального преобразования 410 и последующую стадию квантования/кодирования 421. Стадия квантования/кодирования может включать любое из функциональных средств, известных для современных кодеров временной области, таких как кодер ААС. Кроме того, операции квантования на стадии квантования/ кодирования 421 могут управляться с помощью психоакустического модуля, который генерирует психоакустическую информацию, такую как психоакустический порог маскирования по частоте, где эта информация вводится на стадии 421.

В ветви кодирования LPC 210а выходной сигнал обрабатывается с помощью стадии анализа LPC 510, где генерируется служебная информация LPC и сигнал области LPC. Кодер возбуждения может содержать дополнительный переключатель для переключения дальнейшей обработки сигнала области LPC между операцией квантования/кодирования 522 в области LPC или стадии квантования/кодирования 524, которое обрабатывает значения в LPC-спектральной области. Для этой цели спектральный преобразователь 523 осуществляется на входе стадии квантования/кодирования 524. Переключатель 521 управляется в форме открытой петли или закрытой петли в зависимости от конкретных условиях, как, например, описано в технической спецификации AMR-WB+.

В режиме управления закрытой петлей, кодер дополнительно включает обратный квантователь/кодер 531 для сигнала области LPC, обратный квантователь/кодер 533 для сигнала спектральной области LPC и обратный спектральный преобразователь 534 для сигнала на выходе блока 533. И кодированные, и снова декодированные сигналы в обрабатывающих ветвях второй ветви кодирования вводятся в устройство управления переключателем 525. В устройстве управления переключателем 525 эти два выходных сигнала сравниваются друг с другом и/или целевой функцией или целевая функция рассчитывается на основе сравнения искажений в обоих сигналах таким образом, что сигнал с меньшими искажениями используется для выбора, какую позицию должен занять переключатель 521. Кроме того, в случае, если обе ветви представляют непостоянную скорость передачи, ветвь, представляющая более низкую скорость передачи, может быть выбрана, даже если искажение или искажение восприятия этой ветви ниже, чем искажение или искажение восприятия другой ветви (примером искажения может быть соотношение сигнал/шум). Кроме того, целевая функция может использовать в качестве входа искажение каждого сигнала и скорость передачи данных каждого сигнала и/или дополнительные критерии для того, чтобы найти лучшее решение для конкретной цели. Если, например, цель состоит в том, чтобы скорость передачи была как можно ниже, то целевая функция будет очень сильно зависеть от скорости передачи двух сигналов выхода из элементов 531, 534. Однако когда основной целью является лучшее качество для определенной скорости передачи данных, то блок управления переключателем 525 может, например, отвергнуть каждый сигнал, скорость которого выше допустимой скорости и, когда скорость обоих сигналов ниже допустимой скорости передачи, переключатель выберет сигнал, имеющий лучшее предполагаемое субъективное качество, т.е. имеющий меньшие искажения квантования/кодирования или лучшее соотношение сигнал/шум.

Схема декодирования в соответствии с вариантом использования изобретения, как отмечалось выше, показана на фиг.4. Для каждого из трех возможных видов выходного сигнала существует особая стадия декодирования/повторного квантования 431, 531 или 533. Модуль 431 имеет на выходе частотный спектр, который преобразуется в спектр временной области с помощью конвертера частоты/времени 440, модуль 531 имеет на выходе сигнал области LPC, а модуль 533 выводит спектр LPC. Для того чтобы убедиться, что входные сигналы в переключателе 532 находятся в области LPC, предусмотрен конвертер LPC-spectrum/LPC 534. Выходные данные переключателя 532 преобразуются обратно во временную область с помощью стадии синтеза LPC 540, которая контролируется через LPC информацию, которая генерируется и передается на стороне кодера. Тогда, после блока 540, обе ветви имеют информацию временной области, которая переключается в соответствии с сигналом управления переключателя, чтобы в итоге получить аудиосигнала, такой как моносигнал, стереосигнал или многоканальный сигнал, что зависит от входного сигнала в схеме кодирования на фиг.3.

Фиг.5 и 6 показывают дальнейшие возможные способы использования изобретения для кодера/декодера, в которых стадии BWE в рамках модулей BWE 130, 230 представляют общий блок обработки.

Фиг.5 иллюстрирует схему кодирования, в которой общая схема предварительной обработки, подключенная к входу переключателя 232, может содержать блок сигнала surround/joint stereo 101, который генерирует на выходе параметры совмещенного стереосигнала Joint Stereo и выходной моносигнал, который генерируется в результате микширования с понижением входного сигнала, имеющего два или более каналов. Как правило, сигналом на выходе блока 101 может быть сигнал, имеющий больше каналов, но в результате применения микширования блоком 101 количество каналов на выходе блока 101 будет меньше, чем число входных каналов блока 101.

Общая схема предварительной обработки может включать в дополнение к блоку 101 стадию расширения ширины спектра 230. На фиг.5 сигнал на выходе блока 101 поступает на вход блока расширения ширины спектра 230, из которого выходит сигнал с ограниченной полосой, например сигнал низкого диапазона или низкий сигнал прохождения. Предпочтительно, чтобы этот сигнал был подвергнут процессу квантования (например, с коэффициентом два). Кроме того, для верхнего диапазона входного сигнала в блоке 230 параметры расширения ширины спектра 106, такие как параметры спектрального конверта, параметры обратной фильтрация, параметры собственного шума и т.д., как известно из профиля НЕ-ААС из MPEG-4, формируются и направляются к мультиплексору потока данных 800.

Предпочтительно, чтобы модуль управления 220 получал входной сигнал в блоке 101 или входной сигнал в блоке 230 для того, чтобы выбрать между, например, режимом музыки или режимом речи. В режиме прослушивания музыки выбирается верхняя ветвь кодирования 210b (второй кодер на фиг.2), а в режиме речи выбирается нижняя ветвь кодирования 210а. Предпочтительно, чтобы модуль управления дополнительно контролировал совместный стереоблок 101 и/или блок расширения ширины спектра 230 для того, чтобы корректировать функциональность этих блоков на определенный сигнал. Таким образом, когда на этапе выбора 220 определяется, что определенная временная часть входного сигнала соответствует первому режиму, т.е. режиму воспроизведения музыки, тогда специальными свойствами блока 101 и/или блока 230 можно управлять с помощью этапа выбора 220. Кроме того, когда на этапе выбора 220 определяется, что сигнал соответствует режиму речи или, вообще, второму режиму области LPC, тогда специальными свойствами блоков 101 и 230 можно управлять в соответствии с выходом этапа выбора. Модуль управления 220 дает также информацию управления 108 и/или частоту переключения FX, которые могут также быть переданы в BWE блок 230 и, кроме того, в мультиплексор потока данных 800 так, что он будет передан на стороны декодера.

Предпочтительно, чтобы спектральное преобразование ветви кодирования 210b осуществлялось с помощью MDCT операции, которая, еще более предпочтительно, является операцией с изменением шкалы времени MDCT, причем силу или, вообще, силу деформации/коробления/изменения шкалы времени можно контролировать в значении между нулем и высокой силой деформации/коробления/изменения шкалы времени. При нулевой силе деформации, операция MDCT в блоке 411 является прямолинейной/обычной/ широко известной операцией MDCT, известной в данной области науки. Сила изменения шкалы времени вместе с дополнительной информацией о изменении шкалы времени может быть передана/введена в мультиплексор потока данных 800 в качестве дополнительной информации.

В ветви кодирования LPC, кодер области LPC может включать в себя ос

Устройство и способ декодирования кодированного звукового сигнала

Патент 2483366