2483364 - Схема аудиокодирования/декодирования с переключением байпас

Схема аудиокодирования/декодирования с переключением байпас

Иллюстрации

Показать все

Настоящее изобретение относится к области кодирования звука. Устройство для кодирования включает в себя преобразователь первой области (510), переключаемый байпас (50), преобразователь второй области (410), первый процессор (420) и второй процессор (520) для получения кодированного аудио сигнала, который содержит различные части сигнала, представленные кодированными данными в различных областях, которые были закодированы согласно различным алгоритмам кодирования. Этот чрезвычайно гибкий принцип кодирования особенно полезен для высокого качества и высокоэффективного битового кодирования звука. 5 н. и 15 з.п. ф-лы, 32 ил., 1 табл.

Реферат

Настоящее изобретение относится к области, связанной с кодированием звука и, в частности, со схемами аудио кодирования низкоскоростного цифрового потока.

В данной области техники схемы частотной области кодирования, такие как МР3 или ААС, достаточно известны. Такие кодеры частотной области основаны на области временного или частотного преобразования, последующей стадии оцифровки, в которой ошибка оцифровки контролируется с помощью использования информации из психоакустического модуля и этапа кодирования, в котором оцифрованные спектральные коэффициенты и соответствующая дополнительная информация энтропийно закодированы с помощью кодовых таблиц.

С другой стороны, существуют кодеры, которые очень хорошо подходят для обработки речи, такие как AMR-WB+, как описано в 3GPP TS 26.290. Такие схемы кодирования речи представляют фильтрацию с линейным предсказанием (LP) сигнала временной области. Такая LP фильтрация является производной анализа линейного предсказания входящего сигнала временной области. В результате коэффициенты фильтра LP затем кодируются и передаются в виде дополнительной информации. Процесс известен как процесс кодирования с линейным предсказанием (LPC). На выходе фильтра прогнозирование остаточного сигнала или сигнал ошибки прогнозирования, который также известен как возбуждающий сигнал, кодируемый при использовании стадий анализа - синтеза кодера ACELP, или как вариант, "кодируемый с помощью кодера преобразования, в котором используется преобразование Фурье с наложением. Выбор между ACELP кодированием и кодированием с преобразованием возбуждающего сигнала, который также называют ТСХ кодированием, осуществляется с использованием алгоритма без обратной связи или с обратной связью.

Схемы кодирования звука в частотной области, такие как высокоэффективная ААС схема кодирования, которая сочетает в себе схему кодирования ААС и спектральный метод репликации, могут также быть объединены для совместного стерео или многоканального инструмента кодирования, который известен под термином "MPEG Surround"/ «MPEG объемная акустическая система».

С другой стороны, речевые кодеры, такие как AMR-WB+ также включают стадию расширения полосы высоких частот и функцию стерео.

Схемы кодирования в частотной области выгодны тем, что они показывают высокое качество для музыкальных сигналов при низких битрейтах. Однако обеспечить качество речевых сигналов при низких битрейтах проблематично.

Схемы речевого кодирования демонстрируют высокое качество для речевых сигналов даже при низких битрейтах, но при этом проявляют низкое качество для музыкальных сигналов при низких битрейтах.

Задачей настоящего изобретения является улучшение концепции кодирования/декодирования.

Это достигается в устройстве для кодирования аудио сигнала по п.1, способе кодирования аудио сигнала по п.12, устройстве для декодирования закодированного аудио сигнала по п.13, способе декодирования закодированного аудио сигнала по п.21 или компьютерной программе по п.22.

В кодере в соответствии с настоящим изобретением используются два преобразователя, при этом преобразователь первой области преобразует аудио сигнал из первой области, такой как временная область во вторую область, такую как область LPC. Преобразователь второй области работает, чтобы осуществлять преобразование из входной области в область выхода, и преобразователь второй области получает как входящий исходящий сигнал преобразователя первой области или исходящий сигнал переключаемого байпаса, который подключен в обход преобразователя первой области. Другими словами, это означает, что преобразователь второй области получает на входе аудио сигнал в первой области, такой как временная область, или в качестве альтернативы исходящий сигнал преобразователя первой области, т.е. аудио сигнал, который уже был преобразован из одной области в другую область. Результат преобразователя второй области обрабатывается первым процессором в целях получения первого обработанного сигнала, и результат преобразователя первой области обрабатывается вторым процессором в целях получения второго обработанного сигнала. Предпочтительно, чтобы переключаемый байпас мог быть также дополнительно подключен ко второму процессору так, чтобы информация на входе во второй процессор являлась звуковым сигналом временной области, нежели результатом преобразователя первой области.

Этот чрезвычайно гибкий принцип кодирования особенно полезен для высокого качества и высокоэффективного битового кодирования звука, поскольку он позволяет кодировать аудио сигнал, по крайней мере, в трех различных областях, и, когда переключаемый байпас дополнительно подключен ко второму процессору, даже в четырех областях. Это может быть достигнуто за счет управляемого переключения переключаемого байпаса, чтобы обойти или перекрыть преобразователь первой области для определенной части аудио сигнала временной области или нет. Даже если преобразователь первой области будет обойден, две различные возможности для кодирования аудио сигнала во временной области все еще остаются, то есть через первый процессор, подключенный к преобразователю второй области или второму процессору.

Предпочтительно, чтобы первый процессор и преобразователь второй области вместе образовывали кодер модели информационного погружения, такой как психоакустически-управляемый аудио кодер, известный как MPEG 1 3-го уровня или MPEG 4 (ААС).

Предпочтительно, чтобы другой кодер, т.е. второй процессор был кодером временной области, который, например, может быть остаточным, известным по кодеру ACELP, где LPC остаточный сигнал кодируется с помощью остаточного кодера, такого как кодер векторного цифрования для остаточного сигнала LPC или сигнала временной области. В этом варианте данный кодер временной области получает в качестве входящего сигнал LPC области, когда байпас открыт. Такой кодер является кодером модели информационного источника, поскольку в отличие от кодера модели информационного погружения кодер модели информационного источника разработан специально для использования особенностей модели формирования речи. Когда, однако, байпас закрыт, входящий сигнал во второй процессор будет скорее сигналом временной области, а не сигналом области LPC.

Если, однако, переключаемый байпас отключен, а это означает, что звуковой сигнал из первой области преобразуется во вторую область перед дальнейшей обработкой, две различные возможности снова остаются, т.е. либо код выхода преобразователя первой области во вторую область, которая может, например, быть область LPC или альтернативное преобразование сигнала второй области в третью область, которая может, например, быть спектральной областью.

Преимущественно преобразователь спектральной области, т.е. преобразователь второй области приспособлен к выполнению такого же алгоритма независимо от того, является ли входящий сигнал преобразователя второй области сигналом в первой области, такой как временная область, или же во второй области, такой как область LPC.

С точки зрения декодирования две различные ветви декодирования существуют там, где одна ветвь включает в себя преобразователь области, т.е. преобразователь второй области, в то время как другая ветвь декодирования включает только инверсный процессор, но не включает преобразователь области. В зависимости от фактической настройки байпаса со стороны кодера, т.е. в зависимости от того, активен или нет байпас, первый преобразователь в декодере игнорируется или нет. В частности, первый преобразователь в декодере игнорируется, когда выход второго преобразователя уже находится в области, являющейся целью (область-цель), такой как первая или временная области. Если, однако, выход второго преобразователя в декодере находится в области отличной от первой области, то декодирующий байпас отключен и сигнал преобразуется из другой области в область-цель, то есть первая область в предпочтительной модификации. Второй обработанный сигнал в одной модификации находится в той же области, т.е. во второй области, но в других модификациях, в которых переключаемый байпас расположен на стороне кодера, также подключается ко второму процессору, выход второго процессора на стороне декодера может находиться также уже в первой области. В этом случае первый преобразователь игнорируется за счет использования переключаемого байпаса на стороне декодера таким образом, что выход декодирующего сумматора получает входящие сигналы, которые представляют различные части аудио сигнала и которые находятся в той же области. Эти сигналы могут быть временно уплотнены сумматором или могут быть перекрестно погашены декодирующим выходным сумматором.

В предпочтительной модификации устройство для кодирования включает в себя стадию общей предварительной обработки для сжатия входящего сигнала. Эта общая стадия предварительной обработки может включать в себя многоканальный процессор и/или процессор спектральной полосы пропускания так, что на стадии выхода общей предварительной обработки для всех отличных друг от друга кодирующих мод является сжатой версией по отношению к входу общей стадии предварительной обработки. Соответственно, выходной сигнал декодирующего дополнительного сумматора может быть пост - обработан на общей стадии пост-обработки, которая, например, выполняется, чтобы осуществить синтез спектральной полосы пропускания и/или многоканальную расширяющую операцию, такую как операцию многоканального повышения микширования, при выполнении которых предпочтительно руководствоваться использованием параметрической многоканальной информацией, переданной со стороны кодера на сторону декодера.

В предпочтительной модификации первая область, в которой аудио сигнал входит в кодер и аудио сигнал, выработанный размещенным декодером, является временной областью. В предпочтительной модификации вторая область, в которой выход преобразователя первой области установлен в заданном положении, является область LPC так, что преобразователь первой области представляет собой стадию анализа LPC. В последующей модификации третья область, т.е. в которой выход преобразователя второй области установлен в заданном положении, является спектральной областью или спектральной областью сигнала области LPC, сформированного преобразователем первой области. Первый процессор, соединенный с преобразователем второй области, предпочтительно дополняется как кодер информационного погружения, такой как квантователь/делитель частоты вместе с кодом энтропийного сокращения, такой как психоакустический работающий квантователь, подключенный к кодеру Хаффмана или к арифметическому кодеру, который выполняет те же функции, независимо от того, находится входящий сигнал в спектральной области или в LPC спектральной области.

В последующей предпочтительной модификации второй процессор для обработки выхода преобразователя первой области или для обработки выхода переключаемого байпаса в полноценное функциональное устройство представляет собой кодер временной области, такой как кодер остаточного сигнала, используемый в ACELP кодере или же в любых других CELP кодерах.

Предпочтительные модификации настоящего изобретения описаны ниже в соответствии с приложенными чертежами, где:

Фиг.1а - блок-схема последовательности операций кодирования в соответствии с первой особенностью настоящего изобретения;

Фиг.1b - блок-схема последовательности операций декодирования в соответствии с первой особенностью настоящего изобретения;

Фиг.1с - блок-схема последовательности операций кодирования в соответствии со следующей особенностью настоящего изобретения;

Фиг.1d - блок-схема последовательности операций декодирования в соответствии со следующей особенностью настоящего изобретения;

Фиг.2а - блок-схема последовательности операций кодирования в соответствии со второй особенностью настоящего изобретения; и

Фиг.2b - принципиальная схема последовательности операций декодирования в соответствии со второй особенностью настоящего изобретения;

Фиг.2с - блок-схема предпочтительной общей предварительной обработки фиг.2а; и

Фиг.2d - блок-схема предпочтительной общей пост-обработки фиг.2b;

Фиг.3а представляет блок-схему последовательности операций кодирования в соответствии со следующей особенностью настоящего изобретения;

Фиг.3b представляет блок-схему последовательности операций декодирования в соответствии со следующей особенностью настоящего изобретения;

Фиг.3с представляет схематическое изображение устройства кодирования / способ каскадно-включенных переключателей;

Фиг.3d представляет схему устройства или способ декодирования, в котором каскадно включенные сумматоры используются;

Фиг.3е представляет иллюстрацию сигнала временной области и соответствующее воспроизведение кодированного сигнала, показывающих области перекрестного затухания, которые включены в оба кодированных сигнала;

Фиг.4а представляет блок-схему с переключателем расположенным перед ветвями кодирования;

Фиг.4b представляет блок-схему последовательности операций кодирования с помощью переключателя, расположенного после ветвей кодирования;

Фиг.4с представляет блок-схему предпочтительной модификации сумматора;

Фиг.5а представляет форму волны речевого сегмента временной области как квазипериодического или импульсно-подобного сегмента сигнала;

Фиг.5b представляет спектр сегмента фиг.5а;

Фиг.5с представляет речевой сегмент временной области невокализированной речи, как, например, для шумоподобного или стационарного сегмента;

Фиг.5d представляет спектр формы волны временной области фиг.5 с;

Фиг.6 представляет блок-схему анализа посредством синтеза CELP кодера;

Фиг.7а - 7d представляют вокализированные/ невокализированные возбуждающие сигналы, как, например, для импульсно подобных и стационарных сигналов;

Фиг.7е представляет кодер на стороне LPC стадии, которая предоставляет краткосрочное информационное предсказание и предсказание сигнала ошибки;

Фиг.7f представляет другую модификацию устройства LPC для получения взвешенного сигнала;

Фиг.7g представляет осуществление преобразования взвешенного сигнала в возбуждающий сигнал, применяя обратную операцию взвешивания и последующий анализ возбуждения в соответствии с требованиями преобразователя 537, фиг.2b;

Фиг.8 представляет блок-схему совместного многоканального алгоритма в соответствии с вариантом модификации настоящего изобретения;

Фиг.9 представляет предпочтительный вариант модификации алгоритма расширения пропускной способности;

Фиг.10а представляет подробное описание переключателя при выполнении решения разомкнутого цикла; и

Фиг.10b представляет иллюстрацию переключателя при выполнении решения моды закрытого цикла.

Фиг.1а представляет модификацию изобретения, где существует два преобразователя области 510, 410 и переключаемый байпас 50. Переключаемый байпас 50 сконструирован так, что может быть активным или неактивным в ответ на контрольный сигнал 51, который является входом в переключаемый контрольный вход переключаемого байпаса 50. Если переключаемый байпас активен, аудио сигнал на входе аудио сигнала 99, 195 не подается в преобразователь первой области 510, но подается в переключаемый байпас 50 так, что преобразователь второй области 410 получает аудио сигнал непосредственно на входе 99, 195. При одной модификации, которая будет обсуждаться в связи с фиг.1 с и Id, переключаемый байпас 50 попеременно подключается ко второму процессору 520 без подключения к преобразователю второй области 410 таким образом, что сигнал на выходе переключаемого байпаса 50 обрабатывается только с помощью второго процессора 520.

Если, однако, переключаемый байпас 50 не активен из-за контрольного сигнала 51, аудио сигнал на входе аудио сигнала 99 или 195 является входом в преобразователь первой области 510 и является выходом преобразователя первой области 510, либо входом в преобразователь второй области 410 или второй процессор 520. Решение состоит в том, будет ли выходящий сигнал преобразователя первой области входом в преобразователь второй области 410 или же будет выбран второй процессор 520, основываясь также на переключении контрольного сигнала, или же, напротив, будет осуществлено при помощи других средств, таких как метаданные или на основе анализа сигналов. Кроме того, сигнал преобразователя первой области 510 может быть даже входом в оба устройства 410, 520 и выбор, который из обработанных сигналов является входом в выходной интерфейс для представления аудио сигнала в определенную временную часть, осуществляется с помощью переключателя, подключенного между процессорами и выходным интерфейсом, как обсуждалось в связи с фиг.4b. С другой стороны, решение о том, какой сигнал является входящим в поток выходных данных, может быть принято непосредственно выходным интерфейсом 800.

Как представлено на фиг.1а, предложенное устройство кодирования аудио сигнала для получения закодированного аудио сигнала, где звуковой сигнал на входе 99/195 находится в первой области, включает в себя преобразователь первой области для преобразования аудио сигнала из первой области во вторую область. Кроме того, переключаемый байпас 54 минует преобразователь первой области 510 или, что предусмотрено, для осуществления преобразования аудио сигнала преобразователем первой области в ответ на байпас переключение контрольного сигнала 51. Таким образом, в активном состоянии переключаемый байпас минует преобразователь первой области, и в неактивном состоянии аудио сигнал является входом в преобразователь первой области,

Фиг.1b представляет декодер соответствующего кодера на фиг.1а в предпочтительной модификации. Устройство для декодирования закодированного аудио сигнала на фиг.1b получает на входе закодированный аудио сигнал, включающий в себя первый обработанный сигнал, находящийся в третьей области, и второй обработанный сигнал, находящийся во второй области, учитывая то, что вторая область и третья область отличаются друг от друга. В частности, входящий сигнал во входной интерфейс 900 является сходным с выходным сигналом из интерфейса 800 на фиг.1а. Устройство для декодирования включает в себя первый инверсный процессор 430, использующийся для инверсной обработки первого обработанного сигнала, и второй инверсный процессор 530, использующийся для инверсной обработки второго обработанного сигнала. Кроме того, предусмотрен второй преобразователь 440, применяемый для областного преобразования первого инверсного обработанного сигнала из третьей области в другую область. В дополнение к этому применяется первый преобразователь 540, использующийся для преобразования второго инверсного обработанного сигнала в первую область либо для преобразования первого инверсного обработанного сигнала в первую область притом, что другая область отличается от первой области. Таким образом, первый инверсный обработанный сигнал может быть преобразован только при использовании первого преобразователя, когда первый обработанный сигнал еще не находится в первой области, то есть в области цели, которая предусматривает наличие декодированного аудио сигнала либо промежуточного аудио сигнала в случае использования цепи предварительной обработки/пост-обработки данных. Кроме того, декодер содержит байпас 52 для байпасинга первого преобразователя 540, когда другая область отличается от первой области. Схема на фиг.1b также содержит сумматор 600 для объединения выхода первого преобразователя 540 и выхода байпаса, т.е. выходной сигнал от байпаса 52 для получения комбинированного декодированного аудио сигнала 699, который может быть использован сам по себе или который может даже быть декомпрессирован, используя стадию общей пост-обработки, о чем будет описано позднее.

Фиг.1 с представляет предпочтительный вариант модификации изобретенного аудио кодера, в которой сигнал классификатора в психоакустической модели 300 предназначен для классификации входящего аудио сигнала в стадии общей предварительной обработки, сформированной кодером MPEG Surround 101 и процессором расширения спектральной полосы пропускания 102. Кроме того, преобразователь первой области 510 представляет собой стадию анализа LPC и переключаемый байпас, соединенный между входом и выходом стадии анализа LPC 510, который является преобразователем первой области.

Обычно устройство LPC вырабатывает сигнал области LPC, которая может быть любым сигналом в области LPC, таким как, например, возбуждающий сигнал на фиг.7е или взвешенный сигнал на фиг.7f, или любой другой сигнал, который был сформирован при применении коэффициентов фильтра LPC для аудио сигнала. Кроме того, устройство LPC также может определять эти коэффициенты, а также может квантовать/кодировать эти коэффициенты.

Более того, переключатель 200 размещен на выходе преобразователя первой области таким образом, что сигнал на общем выходе байпаса 50 и стадии LPC 510 направляется либо по первой ветви кодирования 400 или по второй ветви кодирования 500. Первая ветвь кодирования 400 содержит преобразователь второй области 410 и первый процессор 420 с фиг.1а, и вторая ветвь кодирования 500 содержит второй процессор 520 с фиг.1а. На фиг.1с модификация кодера, в котором вход преобразователя первой области 510 соединен с входом переключаемого байпаса 50 и выход переключаемого байпаса 50 соединен с выходом преобразователя первой области 510 для создания общего выхода, где этот общий выход является входом в переключатель 200 и где переключатель содержит два выхода, но также может содержать дополнительные выходы для дополнительных кодирующих процессоров.

Предпочтительно, чтобы преобразователь второй области 410 в первой ветви кодирования 400 содержал MDCT преобразование, которое, кроме того, объединено с переключаемой функцией временной деформации (TW). MDCT спектр кодируется при использовании скалера (блока масштабирования)/квантователя, который выполняет квантование входящих значений, основанных на информации, полученной от психоакустичекой модели, расположенной в блоке классификатора 300. С другой стороны, второй процессор содержит кодер временной области кодирования входящего сигнала временной области. В одной модификации переключатель 200 контролируется таким образом, что в случае активного/закрытого байпаса 50 переключатель 200 автоматически переходит на верхнюю ветвь кодирования 400. В другом варианте, однако, переключатель 200 может контролироваться независимо от переключаемого байпаса 50, даже когда байпас активен/закрыт таким образом, что кодер временной области 520 может напрямую получать входной аудио сигнал временной области.

Фиг.1d представляет соответствующий декодер, где блок синтеза LPC 540 соответствует первому преобразователю фиг.1b и может быть проигнорирован посредством байпаса 52, который предпочтительно представляет собой переключаемый байпас, контролируемый посредством сигнала байпаса, выработанного битовым де-мультиплексором цифрового потока 900. Битовый демультиплексор цифрового потока 900 может вырабатывать этот сигнал и другие контрольные сигналы для ветвей кодирования 430, 530 или блок синтеза SBR 701, или блок декодера MPEG Surround 702 из входящего битового потока 899 или может получать данные для эти контрольных линий из анализа сигнала или любого другого отдельного источника информации.

Впоследствии будет представлено более подробное описание модификации на фиг.1 с для кодера и на фиг.Id для декодера.

Предпочтительная модификация состоит из гибридного аудио кодера, который сочетает в себе преимущества успешной технологии MPEG, такой как ААС, SBR и MPEG Surround с успешной технологией речевого кодера. В результате кодек включает в себя общую предварительную обработку для сигналов всех категорий, состоящих из MPEG Surround и расширения SBR (eSBR). Контролируемая психоакустической моделью и основанная на категории сигнала соответствующая модель информационного погружения или источник информации, являясь производной от структуры кодера, будет выбрана на основании каждого шага (пошаговой основе).

Предлагаемый кодек выгодно использует средства кодирования, такие как MPEG Surround, SBR и базовый кодер ААС. Таковые были изменены и усовершенствованы для повышения речепроизводства и с очень низкими битрейтами. При более высоких битрейтах производительность ААС равноценна, так как новый кодек может снизиться до уровня, очень близкого к ААС. Вводится расширенный бесшумный режим кодирования, который предусматривает в среднем чуть лучшее бесшумное выполнение кодирования. Для битрейтов с показателями около 32 кбит/с и ниже активируются дополнительные инструменты для улучшения производительности базового кодера для передачи речи и других сигналов. Основными компонентами этих инструментов являются частота формирования, основанная на LPC, несколько альтернативных вариантов длины импульса для кодера с MDCT основой и кодер временной области. В качестве расширения полосы к инструменту SBR, которое лучше подходят для низких частот кроссовера и речи, используется новая техника расширения пропускной способности. Инструмент Surround MPEG обеспечивает параметрическое воспроизведение стерео- или многоканального сигнала путем микширования низких частот и параметризованного стерео изображения. Для данного тестирования он (инструмент) используется для кодирования только стерео сигналов, но также подходит для многоканальных входящих сигналов при использовании существующей MPEG Surround функциональности от MPEG-D.

Все инструменты в цепи кодека, за исключением MDCT-кодера, предпочтительно использовать только для низких битрейтов.

Технология MPEG Surround используется для передачи входных аудио каналов N с помощью аудио каналов передачи М. Таким образом, система изначально является многоканальной. Технология MPEG Surround была усовершенствована для повышения производительности при низких битрейтах и речеподобных сигналов.

Основной режим обработки это создание высококачественного мономикширования с низкими частотами из входящего стерео сигнала. При этом извлекается множество пространственных параметров. Со стороны декодера генерируется выходящий стерео сигнал при использовании декодированного мономикширования с низкими частотами в сочетании с извлеченными и переданными пространственными параметрами. Низкоскоростной режим с показателями 2-1-2 был добавлен к существующим 5-х-5 или 7-х-7 операционным точкам в формате MPEG Surround, используя простую древовидную структуру, которая состоит из одной ОТТ (от одного до двух) диаграммы в формате MPEG Surround микширования с высокими частотами. Некоторые компоненты были модифицированы для лучшей адаптации к речи. Для более высоких скоростей передачи данных, такие как 64 кбит/с и выше, основной код использует дискретное стерео кодирование (Mid/Side или L/R); формат MPEG Surround не используется для этой операционной точки.

Расширение полосы, представленное в этой технологии, основано на технологии MPEG SBR. Используемый блок фильтров идентичен блоку фильтров в форматах MPEG Surround и SBR, предлагая возможность разделить образцы области QMF между MPEG Surround и SBR без дополнительного синтеза/анализа. По сравнению с стандартизированным инструментом SBR eSBR представляет расширенный алгоритм обработки, которая является оптимальной для обеих составляющих: речевого и аудио-содержания. Включено расширение SBR, которое подходит лучше для очень низких битрейтов и низких перекрестных частот.

Как известно из сочетания SBR и ААС, данная функция может быть деактивирована полностью, оставляя кодирование всего частотного диапазона для основного кодера.

Часть основного кодера предлагаемой системы можно рассматривать как сочетание дополнительного LPC фильтра и переключаемой области частоты/основной кодер временной области.

Как известно из структур речевых кодеров, LPC фильтр обеспечивает основу для исходной модели для человеческой речи. Обработка LPC может быть включена или выключена (проигнорирована) полностью или на основании пошагового решения.

После LPC фильтра сигнал области LPC кодируется с использованием либо временной области или преобразования основанного на структуре кодера частотной области. Переключение между этими двумя ветвями контролируется расширенной психоакустической моделью.

Структура кодера временной области основана на ACELP технологии, обеспечивая оптимальную производительность кодирования особенно для речевых сигналов при низких битрейтах.

Ветвь кодека, основанного на частотной области, базируется на MDCT структуре с скалярным квантователем и энтропийным кодированием.

Как вариант инструмент временной деформации доступен для повышения эффективности кодирования речевых сигналов на более высоких битрейтах (таких, как 64 кбит/с и выше) за счет более компактного воспроизведения сигнала.

MDCT структура обеспечивает хорошее качество при более низких битрейтах и шкалах в отношении четкости, как известно из существующих технологий MPEG. Это также применимо к режиму ААС на более высоких битрейтах.

Требования буфера совпадают с ААС, т.е. максимальное количество бит на входе буфера составляет 6144 на канал основного кодера: 6144 бит на элемент моноканала, 12288 бит на элемент парного канала.

Битовый резервуар контролируется на кодере, который позволяет адаптацию процесса кодирования для текущего битового требования. Характеристики битового резервуара идентичны ААС.

Кодер и декодер являются контролируемыми для работы при разных битрейтах от 12 Кбит/с моно до 64 кбит/с стерео.

Степень сложности схемы декодера отображена в терминах PCU. Для базового декодера требуемая степень сложности составляет около 11.7 PCU. В случае использования инструмента временной деформации, как для 64 кбит /с в тестовом режиме, степень сложности декодера увеличивается до 22.2 PCU.

Требования к RAM и ROM для предпочтительной конфигурации стерео декодера:

RAM: ~ 24 kWords/килослов

ROM: ~ 150 kWords/килослов.

По уведомлению энтропийного кодера, общий размер, который может быть достигнут для всего ROM ~ 98 kWords/килослов.

В случае использования инструмента временной деформации требование RAM увеличивается на ~ 3 kWords/килослов, требование ROM увеличился на ~ 40 kWords/килослов.

Теоретическая алгоритмическая задержка зависит от инструментов, используемых в кодек цепи (например, MPEG Surround и т.д.) Алгоритмическая задержка предлагаемой технологии отображается в рабочей точке на кодек частотой дискретизации. Значения, указанные ниже, не включают кадровую задержку, т.е. задержку, необходимую для заполнения входа буфера числом образцов, необходимых для обработки первого пакета. Такая кадровая задержка составляет 2048 образцов для всех указанных режимов. Последующая таблица содержат как минимальную алгоритмическую задержку, так и задержку для использованного применения. Дополнительная задержка для частоты 48 кГц РСМ входных файлов для кодека частотой дискретизации указана в '(.)'.

Номер испытания	Теоретический минимум алгоритмической задержкой (образцы)	Реализация алгоритмической задержки (образцы)
Тест 1, 64 кбит/с стерео	8278	8278 (+44)
Тест 2, 32 кбит/с стерео	9153	11201 (+44)
Тест 3, 24 kbps стерео	9153	11200 (+45)
Тест 4, 20 kbps стерео	9153	9153 (+44)
Тест 5, 16 kbps стерео	11201	11201 (+44)
Тест 6, 24 kbps моно	4794	5021 (+45)
Тест 7, 20 kbps моно	4794	4854 (+44)
Тест 8, 16 kbps моно	6842	6842 (+44)
Тест 9, 12 kbps моно	6842	6842 (+44)

Основные признаки данного кодека можно обобщить следующим образом. Предлагаемая технология преимущественно использует речь современного уровня развития и технологию кодирования аудио сигналов без нанесения ущерба выполнению кодирования независимо от речевого или музыкального содержания. Это сводится к кодеку, который способен передать современное качество речевого, музыкального и смешанного содержания для битрейтов в диапазоне от очень низких показателей (12 кбит/с) до высокой скорости передачи данных, такой как 128 кбит/с и выше, на которой кодек достигает очевидного качества.

Моно сигнал, стерео сигнал или многоканальный сигнал представляют собой ввод в стадию общей предварительной обработки 100, изображенную на фиг.2а. Общая схема предварительной обработки может содержать совместную стерео функциональность, обрамленную функциональность и/или функциональность расширения полосы. На выходе из блока 100 расположен моно канал, стерео канал или нескольких каналов, которые вводят набор байпасов 50 и преобразователь 510 или множество наборов этого типа.

Набор байпасов 50 и преобразователь 510 могут существовать для каждого выхода из стадии 100, когда стадия 100 содержит два или более выхода, т.е. когда стадия 100 выводит стерео сигнал или многоканальный сигнал. Например, первый канал стерео сигнала может быть каналом речевой связи, а второй канал стерео сигнала может быть музыкальным каналом. В этой ситуации решение на стадии принятия решения может быть отличным между двумя каналами в одно и то же время.

Байпас 50 контролируется стадией принятия решения 300. Блок стадии принятия решения получает в качестве входа входящий сигнал блока 100 или выходной сигнал, произведенный блоком 100. Кроме того, блок стадии принятия решения 300 может также получать дополнительную информацию, которая включена в моно сигнал, стерео сигнал или многоканальный сигнал или, по крайней мере, связана с таким сигналом, в котором существует информация, которая, например, была сгенерирована, изначально образовывая моно сигнал, стерео сигнал или многоканальный сигнал.

В одной из модификаций стадия принятия решения не контролирует стадию предварительной обработки 100, а указатель между блоком 300 и 100 отсутствует. В другой модификации обработка в блоке 100 контролируется в определенной степени решением блока 300, чтобы установить один или несколько параметров в блоке 100 на основании решения. Однако это не влияет на общий алгоритм в блоке 100, так что основная функциональность в блоке 100 является активной независимо от решения на стадии 300.

Блок стадии принятия решения 300 приводит в действие байпас 50 для того, чтобы загрузить выход стадии общей предварительной обработки либо с частотой кодирования 400, изображенной на верхней ветви фиг.1а, либо в области LPC преобразователя 510, которая может быть составляющей второго сегмента кодирования 500, изображенного на нижней ветви фиг.2а и содержащего элементы 510, 520.

В одной из модификаций байпас обходит преобразователь единой области. В другой модификации могут существовать преобразователи дополнительных областей для различных ветвей кодирования, таких как третья ветвь кодирования, или даже четвертая ветвь кодирования или даже еще большее количество ветвей кодирования. В модификации с тремя ветвями кодирования третья ветвь кодирования может быть похожа на вторую ветвь кодирования, но может содержать возбуждающий кодер, который отличается от возбуждающего кодера 520 во второй ветви 500. В данной модификации вторая ветвь включает в себя стадию LPC 510 и кодовую книгу, основанную на возбуждающем кодере, таком как в ACELP, а третья ветвь включает в себя стадию LPC и возбуждающий кодер, действующий на основе спектральной репрезентации выходного сигнала стадии LPC.

Одним из ключевых элементов ветви кодирования области частот является спектральный конверсионный блок 410, который действует для преобразования выходного сигнала общей стадии предварительной обработки в спектральную область. Спектральный конверсионный блок преобразования может содержать MDCT алгоритм, QMF алгоритм, FFT алгоритм, вейвлет-анализ или фильтр-банк, такой как критически отобранный фильтр-банк, имеющий определенное число каналов, где участок полосы частот в данном фильтр-банке могут представлять собой действительные значимые сигналы или составные значимые сигналы. Выход из спектрального конверсионного блока 410 кодируется путем использования спектрального аудио кодера 410, который может содержать блоки обработки, как показано на схеме кодирования ААС.

В нижне

Схема аудиокодирования/декодирования с переключением байпас

Патент 2483364