Кодер аудиосигнала, декодер аудиосигнала, способ кодированного представления аудиоконтента, способ декодированного представления аудиоконтента и компьютерная программа для приложений с малой задержкой
Иллюстрации
Показать всеИзобретение относится к вычислительной технике. Технический результат заключается в повышении эффективности кодирования последовательных фрагментов аудиоконтента. Кодер аудиосигнала содержит тракт области трансформанты для выведения набора спектральных коэффициентов и информации о формировании искажения на основе представления во временной области фрагмента аудиоконтента, кодируемого в трансформанте. Тракт области трансформанты содержит время-частотный преобразователь, выполняющий оконное взвешивание представления аудиоконтента во временной области и выводящий набор спектральных коэффициентов с помощью время-частотного преобразования оконно-взвешенного временного представления аудиоконтента. Кодер аудиосигнала содержит тракт области линейного предсказания с кодовым возбуждением (CELP), который извлекает информацию о кодовом возбуждении и параметрах области линейного предсказания из фрагмента аудиоконтента, закодированного в режиме CELP. Кодер аудиосигнала предусматривает возможность избирательного формирования антиалиасинговой информации, когда за текущим фрагментом аудиоконтента следует фрагмент аудиоконтента, кодируемый в режиме CELP. 6 н. и 22 з.п. ф-лы, 32 ил.
Реферат
Область техники
Предлагаемое изобретение относится к кодеру аудиосигнала, формирующему кодированное представление аудиоконтента на базе входного представления аудиоконтента.
Предлагаемое изобретение относится к декодеру аудиосигнала, формирующему декодированное представление аудиоконтента на базе кодированного представления аудиоконтента.
Предлагаемое изобретение относится к способу формирования кодированного представления аудиоконтента на базе входного представления аудиоконтента.
Предлагаемое изобретение относится к способу формирования декодированного представления аудиоконтента на базе кодированного представления аудиоконтента.
Реализация заявляемого изобретения относится к компьютерным программам осуществления названных способов.
Реализация заявляемого изобретения относится к новой гибридной схеме кодирования речи и звука с малой задержкой.
Предшествующий уровень техники
Обзорно рассмотрим предпосылки к созданию изобретения, чтобы отчетливо выделить его новизну и преимущества.
Последние десять лет активные усилия направлены на реализацию возможностей хранения и передачи в цифровом формате звуковых данных при оптимизации использования вычислительного ресурса. Одним из важных достижений на этом пути стало оформление Международного стандарта ISO/IEC 14496-3. Часть 3 Стандарта посвящена кодированию и декодированию звукоданных, а в подразделе 4 части 3 изложены основы кодирования обычного звука. В части 3, подразделе 4 Стандарта ISO/IEC 14496 сформулирована концепция кодирования и декодирования общезвуковых данных. Кроме прочего, внесены предложения по совершенствованию качества и/или снижению скорости передачи данных (битрейта).
Наряду с этим были разработаны аудиокодеры и аудиодекодеры, предназначенные специально для речи. Подобного рода целевые речевые аудиокодеры описаны, в частности, в спецификациях "Партнерского проекта третьего поколения" (Third Generation Partnership Project) "3GPP TS 26.090", 3GPP TS 26.190" и "3GPP TS 26.290".
Выявлено, что в ряде прикладных программ необходимо, чтобы задержка при кодировании и декодировании была небольшой. В частности, короткая задержка желательна в мультимедийных приложениях в реальном времени, так как значительная задержка в таких случаях вызывает у пользователя отрицательные ощущения.
Между тем, было установлено, что сбалансированное соотношение между качеством и скоростью передачи данных требует время от времени переключения между разными режимами кодирования в зависимости от аудиоконтента. На практике замечено, что изменения аудиоконтента требуют изменения режимов кодирования, например, переключения между режимом линейного предсказания с кодовым возбуждением из трансформанты и режимом линейного предсказания с кодовым возбуждением (например, режимом области линейного предсказания с кодовым алгебраическим возбуждением), или между режимом частотной области и режимом области линейного предсказания с кодовым возбуждением. Это происходит в силу того, что некоторый аудиоконтент (или некоторые составляющие непрерывного потока звуковых данных) кодируется с высокой эффективностью в одном режиме, в то время как другой аудиоконтент (или другие составляющие этого же непрерывного потока звуковых данных) более эффективно кодируется в другом режиме.
В контексте сложившейся ситуации было сделано заключение о целесообразности коммутации между разными режимами, которая не требует большого избыточного битрейта значительных уступок по качеству (например, „щелчков" при переключении). Кроме того, к основной цели уменьшения задержки при кодировании и декодировании добавилась задача переключение между режимами.
Таким образом, целью изобретения является концепция мультирежимного аудиокодирования, обеспечивающего сбалансированное соотношение между эффективной скоростью передачи данных, качеством звука и задержкой при коммутация между различными режимами кодирования.
Краткое описание изобретения
Предлагаемое изобретение является основой для создания кодера аудиосигнала (аудиокодера) для формирования кодированного представления звуковых данных (аудиоконтента) на базе входящего (вводимого) представления звукового материала (аудиоконтента). Кодер аудиосигнала включает в свою схему тракт области трансформанты (области спектральных преобразований), предназначенный для выведения ряда спектральных коэффициентов и параметров формирования искажения (ограничения шума) (например, информации о коэффициентах масштабирования или информации о параметрах области линейного предсказания) на базе представления во временной области части входящего потока звукоданных, подлежащей кодированию в режиме трансформанты, таким образом, что спектральные коэффициенты (коэффициенты трансформанты) описывают спектр ограниченной по шуму версии аудиоконтента (например, пересчитанный с использованием масштабного коэффициента или преобразованный с формированием искажения в области линейного предсказания). В схему тракта области трансформанты включен преобразователь из временной области в частотную область (время-частотный преобразователь), предназначенный для оконного взвешивания временного представления аудиоконтента или его предварительно обработанной версии и формирования оконно-взвешенного представления аудиоконтента с дальнейшим применением время-частотного преобразования для выведения из оконно-взвешенного временного представления аудиоконтента ряда спектральных коэффициентов. Кроме этого, кодер аудиосигнала включает в свою схему тракт области линейного предсказания с кодовым возбуждением (кратко - тракт ACELP), предназначенный для формирования данных кодового возбуждения (например, возбуждения алгебраическими кодами) и данных области линейного предсказания на базе части аудиоконтента, подлежащего кодированию в режиме области линейного предсказания с кодовым возбуждением (кратко - режим CELP) (в частности, в режиме области линейного предсказания с алгебраическим кодовым возбуждением). Преобразователь из временной области в частотную область предназначен для применения расчетного асимметричного окна анализа для взвешивания текущего фрагмента аудиоконтента, подлежащего кодированию в режиме трансформанты и следующего за фрагментом аудиоконтента, закодированным в режиме трансформанты, в обоих случаях, если за текущим фрагментом аудиоконтента следует фрагмент аудиоконтента, подлежащий кодированию в режиме трансформанты, и если за текущим фрагментом аудиоконтента следует фрагмент аудиоконтента, подлежащий кодированию в режиме CELP. Кодер аудиосигнала выполнен с возможностью избирательного формирования информации по устранению эффекта наложения спектров (данных антиалиасинга) в том случае, когда за текущим фрагментом аудиоконтента (закодированным в режиме трансформанты) следует порция звукоданных, подлежащая кодированию в режиме CELP.
Реализация заявляемого изобретения в этой части основывается на заключении, что надлежащий баланс между эффективностью кодирования (например, в пересчете на средний битрейт), акустическим качеством и задержкой при кодирования может быть достигнут посредством коммутации режимов трансформанты и CELP, когда оконное взвешивание фрагмента звуковых данных, подлежащих кодированию в режиме трансформанты, не зависит от режима кодирования следующего фрагмента звукоданных, и когда благодаря выборочной подготовке антиалиасинговой информации возможно ослабление или устранение артефактов алиасинга, результирующих из применения весового алгоритма, не рассчитанного на переход к фрагменту аудиоконтента, закодированному в режиме CELP. Таким образом, избирательная подготовка антиалиасинговой информации позволяет взвешивать элементы звуковых данных (например, фреймы или подфреймы), закодированные в режиме трансформанты, с использованием окон, обеспечивающих перекрывание по времени (или даже перекрывание, компенсирующее алиасинг) очередных фрагментов аудиоконтента. В силу этого достигается надлежащая эффективность кодирования последовательных фрагментов аудиоконтента, закодированных в режиме трансформанты, поскольку использование окон с временным наложением последовательных фрагментов аудиоконтента обеспечивает особенно эффективное сложение наложением на стороне декодера. Более того, задержка сохраняется на низком уровне благодаря использованию того же самого окна для взвешивания фрагмента аудиоконтента, кодируемого в режиме трансформанты, и идущего за фрагментом аудиоконтента, закодированным в режиме трансформанты, в обоих случаях, когда за текущим фрагментом аудиоконтента следует фрагмент аудиоконтента, подлежащий кодированию в режиме трансформанты, и когда за текущим фрагментом аудиоконтента следует фрагмент аудиоконтента, подлежащий кодированию в режиме CELP. Другими словами, нет необходимости знать, в каком режиме закодирован последующий элемент звуковых данных, чтобы выбрать оконную функцию для взвешивания текущего фрагмента аудиоконтента. Таким образом, задержка при кодировании остается небольшой, поскольку текущий фрагмент аудиоконтента может быть взвешен до того, как определен режим кодирования следующей составляющей аудиоконтента. Тем не менее, артефакты, которые могут проявиться при использовании оконной функции, которая не полностью удовлетворяет условиям перехода от фрагмента аудиоконтента, закодированного в области трансформанты, к фрагменту аудиоконтента, закодированному в режиме CELP, могут быть устранены на стороне декодера благодаря использованию антиалиасинговой информации.
Из этого следует, что надлежащая общая эффективность кодирования достигается даже при потребности в некоторой дополнительной антиалиасинговой информации при переходе от фрагмента аудиоконтента, закодированного в режиме трансформанты, к фрагменту аудиоконтента, закодированному в режиме CELP. Акустическое качество сохраняется на высоком уровне благодаря формированию антиалиасинговой информации, при этом задержки остаются небольшими благодаря подбору оконной функции независимо от режима, в котором закодирована очередная порция звуковых данных.
Исходя из сказанного, аудиокодер сочетает в себе надлежащую эффективность использования вычислительного ресурса при низкой задержке кодирования с сохранением подобающего качества звука.
Время-частотный преобразователь в предпочтительном техническом исполнении характеризуется применением одного и того же окна для взвешивания текущего фрагмента аудиоконтента, подлежащего кодированию в режиме трансформанты и следующего за фрагментом аудиоконтента, закодированным в режиме трансформанты, в обоих случаях - как при смене текущего фрагмента аудиоконтента фрагментом аудиоконтента, кодируемьм в режиме трансформанты, так и при смене текущего фрагмента аудиоконтента фрагментом аудиоконтента, кодируемьм в режиме CELP.
В предпочтительном варианте реализации подобранное асимметричное окно состоит из левой половины окна и правой половины окна. Левая половина окна включает в себя левосторонний скос перехода, где значения оконной функции равномерно возрастают от нуля до центрального значения окна (значения в середине окна), и область всплеска, в которой величины оконной функции превышают значение центра окна, и в которую входит максимальное значение окна. Правая половина окна включает в себя правосторонний скат перехода, где значения оконной функции равномерно убывают от срединного оконного значения до нуля, и правостороннюю нулевую область. Применяя такое асимметричное окно, задержку кодирования можно сохранять на заметно низком уровне. Более того, выделяя левую половину окна за счет участка всплеска, на сравнительно небольшом уровне можно удерживать артефакты алиасинга на переходе к фрагменту аудиоконтента, закодированному в режиме CELP. Следовательно, антиалиасинговую информацию можно закодировать при эффективном битрейте.
Левая половина окна предпочтительно содержит не более 1% нулевых значений окна, а правосторонняя нулевая область имеет длину не менее 20% от оконных значений правой половины окна. Было определено, что подобная оконная функция хорошо соответствует применению в аудиокодере для коммутации между режимом трансформанты и режимом CELP.
Правая половина выбранного асимметричного аналитического окна
преимущественно содержит значения, меньшие, чем центральное значение окна, и не содержит область всплеска. Установлено, что такая форма окна обеспечивает относительно небольшое наличие артефактов алиасинга на переходе к фрагменту аудиоконтента, закодированному в режиме CELP.
Ненулевая область заданного асимметричного окна анализа в соответствии с предпочтительным техническим решением, по меньшей мере, на 10% короче длины фрейма. Следовательно, задержка остается небольшой.
Аудиокодер в предпочтительном варианте схемотехнически решен так, что последовательные фрагменты аудиоконтента, подлежащие кодированию в режиме трансформанты, содержат временное наложение, как минимум, порядка 40%. В таком случае предпочтительная компоновка кодера аудиосигнала подразумевает также, что текущий фрагмент аудиоконтента, кодируемый в режиме трансформанты, и последующий фрагмент аудиоконтента, подлежащий кодированию в линейно-предиктивном режиме с кодовым возбуждением, имеют перекрывание по времени. Аудиокодер выполнен с возможностью селективно формировать антиалиасинговую информацию, содержащую команду на нейтрализацию алиасинга, по которой на стороне аудиодекодера должны быть устранены артефакты алиасинга при переходе от фрагмента аудиоконтента, закодированного в режиме трансформанты, к фрагменту аудиоконтента, закодированному в режиме CELP. Значительное взаимное перекрывание последовательных фрагментов (например, фреймов или субфреймов) аудиоконтента, подлежащих кодированию в режиме трансформанты, обеспечивает возможность преобразования с наложением, такого как модифицированное дискретное косинусное преобразование, для трансформации из временной области в частотную область, при котором алиасинг во временной области будет редуцирован или даже полностью купирован за счет наличия перекрытия между следующими друг за другом фреймами, закодированными в режиме трансформанты. Тем не менее, при переходе от фрагмента аудиоконтента, закодированного в режиме трансформанты, к фрагменту аудиоконтента, закодированному в режиме CELP, также образуется определенное временное наложение, которое, однако, не способствует полной компенсации алиасинга (или даже совершенно не способствует компенсации алиасинга). Временное наложение используют во избежание чрезмерного видоизменения фреймов при фрагментировании на переходах между фрагментами аудиоконтента, закодированными, в разных режимах. Между тем, для того, чтобы ослабить или нейтрализовать артефакты наложения спектров (алиасинга), возникающие при перекрывании на переходе между фрагментами аудиоконтента, закодированными в разных режимах, дозируется антиалиасинговая информация. Более того, алиасинг
удерживается в сравнительно небольших пределах благодаря асимметрии расчетного окна анализа, при этом информация по устранению алиасинга кодируется в эффективном режиме.
Кодер аудиосигнала согласно изобретению предпочтительно выполнен с возможностью выбора весового окна для текущего фрагмента звуковых данных (который преимущественно кодируют в режиме трансформанты) независимо от режима кодирования следующего фрагмента звукоданных, который имеет временное наложение с текущим фрагментом звукоданных таким образом, что оконное представление текущего фрагмента звуковых данных (который преимущественно кодируется в режиме трансформанты) перекрывается с очередным фрагментом звукоданных, даже если очередной фрагмент звукоданных кодируется в режиме CELP. Аудиокодер выполнен с возможностью отклика на распознавание очередного фрагмента аудиоконтента, подлежащего кодированию в режиме CELP, в виде антиалиасинговой информации, содержащей компоненты сигнала антиалиасинга, введенные в представление следующего фрагмента аудиоконтента в режиме трансформанты. Соответственно, устранение алиасинга, получаемое (альтернативно, то есть при наличии последующих фрагментов аудиоконтента, закодированных в режиме трансформанты) путем сложения наложением представлений во временной области двух фрагментов аудиоконтента, закодированных в режиме трансформанты, достигают за счет антиалиасинговой информации при переходе от фрагмента аудиоконтента, закодированного в режиме трансформанты, к фрагменту аудиоконтента, закодированному в режиме CELP. В силу этого при использовании целевой (специальной) антиалиасинговой информации оконное взвешивание фрагмента аудиоконтента, предшествующего переключению режимов, можно оставить без изменения, что позволяет уменьшить задержку.
Время-частотный преобразователь в предпочтительной аппаратной версии рассчитывает и применяет асимметричное окно для взвешивания текущего фрагмента аудиоконтента, кодируемого в режиме трансформанты и следующего за фрагментом аудиоконтента, закодированным в режиме CELP, таким образом, что фрагменты аудиоконтента, подлежащие кодированию в режиме трансформанты, взвешивают с использованием одного и того же расчетного асимметричного окна анализа, независимо от режима кодирования предыдущего фрагмента аудиоконтента и независимо от режима кодирования последующего фрагмента аудиоконтента. Кроме того, оконное взвешивание выполняется так, что оконное представление текущего фрагмента аудиоконтента, кодируемого в режиме трансформанты, перекрывает по времени предыдущий фрагмент аудиоконтента, закодированный в режиме CELP. Из этого может быть выведена упрощенная схема весового алгоритма, согласно которому фрагменты аудиоконтента, закодированные в режиме трансформанты, постоянно (допустим, в продолжение некоторого отрывка фонограммы) кодируются с использованием одного и того же заданного асимметричного окна анализа. Благодаря этому отпадает необходимость сигнализировать тип используемого аналитического окна, что повышает эффективность битрейта. Более того, в умеренных пределах сохраняется сложность конструкции кодера (и декодера). Согласно полученным результатам, как рассматривалось выше, асимметричное окно анализа хорошо отвечает требованиям переходов от режима трансформанты к режиму CELP и, наоборот, от режима CELP к режиму трансформанты.
Аудиокодер согласно изобретению выполнен с возможностью избирательного формирования антиалиасинговой информации в случаях, когда текущий фрагмент звуковых данных следует за сегментом аудиоконтента, закодированным в режиме CELP. Опыт показывает, что дозирование антиалиасинговой информации в отношении таких переходов также целесообразно и позволяет добиваться хорошего качества звука.
Время-частотный преобразователь в предпочтительной схемотехнической версии задействует целевое асимметричное окно анализа перехода, отличное от расчетного асимметричного окна анализа, для оконного взвешивания текущего фрагмента аудиоконтента, подлежащего кодированию в области трансформанты и идущего следом за фрагментом аудиоконтента, закодированным в режиме CELP. Было выявлено, что применение целевой оконной функции после перехода помогает сократить избыточность битрейта при переходе. Еще было определено, что использование специального асимметричного анализирующего окна перехода после перехода не ведет к существенной дополнительной задержке, потому что решение о применении специального асимметричного окна анализа перехода может быть принято на основе информации, которая уже доступна в момент принятия решения. В силу этого объем антиалиасинговой информации может быть сокращен, а в некоторых случаях необходимость в какой-либо антиалиасинговой информации может быть исключена вообще.
Тракт области линейного предсказания с кодовым возбуждением (тракт CELP) в предпочтительной схемотехнической версии представляет собой тракт области линейного предсказания с алгебраическим кодовым возбуждением (тракт ACELP), формирующий на выходе информацию о алгебраическом кодовом возбуждении и информацию о параметрах области линейного предсказания, на основе фрагмента звуковых данных, подлежащего кодированию в режиме области линейного предсказания с алгебраическим кодовым возбуждением (в режиме ACELP) (используемом как режим области линейного предсказания с кодовым возбуждением). Использование тракта области линейных предикторов, возбуждаемых алгебраическими кодами, для выполнения функций тракта области возбуждаемого кодами линейного предсказания во многих случаях дает особенно эффективный результат при кодировании.
Предлагаемое изобретение служит основой для осуществления декодера, предназначенного для формирования декодированного представления звуковых данных на базе кодированного представления звуковых данных. Декодер аудиосигнала (аудиодекодер) включает в свой состав тракт области трансформанты, формирующий представление во временной области фрагмента аудиоконтента, закодированного в режиме трансформанты, исходя из набора спектральных коэффициентов и информации о формировании искажения. В тракт области трансформанты входит частотно-временной преобразователь, трансформирующий данные из частотной области во временную область и выполняющий оконное взвешивание с выведением оконно-взвешенного представления аудиоконтента во временной области на основе набора спектральных коэффициентов или их предварительно обработанной интерпретации. Далее, в состав аудиодекодера входит тракт области линейного предсказания с кодовым возбуждением, формирующий представление во временной области фрагмента аудиоконтента, закодированного в режиме области линейного предсказания с кодовым возбуждением на основе информации о кодовом возбуждении и информации о параметрах области линейного предсказания. Частотно-временной преобразователь характеризуется возможностью применения заданного асимметричного окна синтеза для оконного взвешивания текущего фрагмента аудиоконтента, закодированного в режиме трансформанты и следующего непосредственно за фрагментом аудиоконтента, закодированным в режиме трансформанты, для обоих случаев, когда за текущим фрагментом аудиоконтента следует фрагмент аудиоконтента, закодированный в режиме трансформанты, и когда за текущим фрагментом аудиоконтента следует фрагмент аудиоконтента, закодированный в режиме CELP. Аудиодекодер предусматривает возможность избирательной инициации сигнала антиалиасинга, исходя из антиалиасинговой информации, когда текущий фрагмент аудиоконтента сменяется фрагментом аудиоконтента, закодированным в режиме CELP.
Данный декодер аудиосигнала базируется на заключении о возможности достижения сбалансированного соотношения между эффективностью кодирования, акустическим качеством и задержкой при кодировании при использовании одного и того же заданного асимметричного окна синтеза для оконного взвешивания фрагмента аудиоконтента, закодированного в режиме трансформанты, независимо от того, в каком режиме закодирован очередной фрагмент аудиоконтента - области трансформанты или области CELP. Благодаря применению асимметричного окна синтеза могут быть улучшены характеристики низкой продолжительности задержки аудиодекодера. Высокая эффективность кодирования может поддерживаться за счет перекрывания между окнами, налагаемыми на следующие друг за другом фрагменты аудиоконтента, закодированные в режиме трансформанты. Тем не менее, артефакты наложения спектров (алиасинга), проявляющиеся при перекрывании на переходах между фрагментами аудиоконтента, закодированными в разных режимах, нейтрализуют сигналом антиалиасинга, который селективно инициируется при переходе от фрагмента (например, фрейма или подфрейма) аудиоконтента, закодированного в режиме трансформанты, к фрагменту аудиоконтента, закодированному в режиме CELP. В дополнение следует подчеркнуть, что описываемый здесь аудиодекодер имеет те же преимущества, что и представленный выше кодер, при том что оба эти устройства полностью совместимы.
Частотно-временной преобразователь характеризуется тем, что задействует одну и ту же оконную функцию для взвешивания текущего фрагмента звуковых данных, закодированного в режиме трансформанты и следующего непосредственно за фрагментом звукоданных, закодированным в режиме трансформанты, в обоих случаях, когда за текущим фрагментом звукоданных следует фрагмент звукоданных, закодированный в режиме трансформанты, и когда за текущим фрагментом звуковых данных следует фрагмент звукоданных, закодированный в режиме CELP.
В предпочтительном варианте реализации заданное асимметричное окно состоит из левой половины окна и правой половины окна. Левая половина окна включает в себя левостороннюю нулевую область и левосторонний скос перехода, где значения оконной функции равномерно возрастают от нуля центрального значения окна. Правая половина окна включает в себя область всплеска, в которой величины оконной функции превышают значение центра окна, и в которую входит максимальное значение окна. Правая половина окна включает в себя правосторонний скат перехода, где значения оконной функции равномерно убывают от срединного оконного значения до ноля. Было установлено, что такой выбор задаваемого асимметричного окна синтеза дает в результате особенно низкую задержку, в силу того, что наличие левосторонней нулевой области позволяет реконструировать аудиосигнал (предыдущего фрагмента аудиоконтента) вплоть до (правостороннего) конца указанной нулевой области, независимо от аудиосигнала временной области текущего фрагмента звукоданных. Благодаря этому акустический материал может быть воспроизведен со сравнительно короткой задержкой.
Левостороння нулевая область предпочтительно имеет длину не менее 20% от значений оконной функции левой половины окна, а правая половина окна содержит не более 1% от нулевых значений окна. Было подтверждено, что подобная асимметричная оконная функция полностью соответствует требованиям малой задержки, и что такое заданное асимметричное окно синтеза полностью совместимо с описанным выше предпочтительным задаваемым асимметричным окном анализа.
Левая половина заданного асимметричного окна преимущественно содержит значения, меньшие, чем центральное значение окна и не содержит область всплеска. В комбинации с рассмотренной выше асимметричной аналитической оконной функцией это обеспечивает качественную реконструкцию акустического материала с небольшой задержкой. В дополнение к этому такое окно имеет хорошую частотную характеристику.
Ненулевая область расчетного асимметричного окна синтеза преимущественно короче длины фрейма, как минимум, на 10%.
Аудиодекодер в предпочтительной конфигурации предусматривает временное перекрывание следующих друг за другом фрагментов аудиоконтента, закодированных в режиме трансформанты, не менее, чем на 40%,. Кроме того, конфигурация аудиодекодера предусматривает временное наложение между текущим фрагментом аудиоконтента, закодированным в режиме трансформанты, и следующим фрагментом аудиоконтента, закодированным в режиме CELP. Конфигурация аудиодекодера выстроена с возможностью избирательно инициировать на основе антиалиасинговой информации сигнал нейтрализации алиасинга, ослабляющий или подавляющий артефакты наложения спектров при переходе от текущего фрагмента аудиоконтента (закодированного в режиме трансформанты) к последующему фрагменту аудиоконтента, закодированному в режиме CELP. Существенный „нахлест" между последовательными фрагментами аудиоконтента, закодированными в режиме трансформанты, обеспечивает плавность переходов и устранение артефактов алиасинга, результирующих из преобразования с наложением (например, обратного модифицированного дискретного косинусного преобразования). Таким образом, значительное перекрывание способствует повышению эффективности кодирования и сглаживанию переходов между последовательными фрагментами (например, фреймами или подфреймами) звуковых данных, закодированными в режиме трансформанты. Во избежание разнородности разбиения на фреймы и для обеспечения приложения заданного асимметричного окна синтеза независимо от режима кодирования очередной порции звукоданных применено временное наложение между текущим фрагментом аудиоконтента, закодированным в режиме трансформанты, и последующим фрагментом аудиоконтента, закодированным в режиме CELP. Вместе с тем, артефакты, возникающие на таких переходах, нейтрализуют сигналом антиалиасинга. В силу этого, сохранение короткой задержки при кодировании и поддержание высокой средней эффективности кодирования помогают добиваться на переходах надлежащего качества звука.
Аудиодекодер в предпочтительной схемотехнической версии предусматривает подбор оконной функции для взвешивания текущего фрагмента аудиоконтента независимо от режима кодирования следующего фрагмента аудиоконтента, который накладывается по времени на текущий фрагмент аудиоконтента таким образом, что оконное представление текущего фрагмента аудиоконтента перекрывается следующим фрагментом аудиоконтента, даже если следующий фрагмент аудиоконтента закодирован в режиме CELP. В дополнение к этому аудиодекодер предусматривает отклик на распознавание кодировки CELP в очередном фрагменте аудиоконтента в виде сигнала антиалиасинга, ослабляющего или устраняющего артефакты алиасинга на переходе от текущего фрагмента аудиоконтента, закодированного в режиме трансформанты, к очередному (последовательному) фрагменту аудиоконтента, закодированному в режиме CELP. Следовательно, артефакты алиасинга, которые могли бы быть нейтрализованы представлением во временной области следующего аудиофрейма, закодированного в трансформанте, если бы за текущим фрагментом аудиоконтента следовал фрагмент аудиоконтента, закодированный в режиме трансформанты, в описываемой ситуации, когда за текущим фрагментом аудиоконтента в действительности следует фрагмент аудиоконтента, закодированный в режиме CELP, устраняют с использованием сигнала антиалиасинга. Этот механизм помогает избежать деградацию качества перехода даже в случае, когда следующий фрагмент аудиоконтента закодирован в режиме CELP.
Преобразователь из частотной области во временную область в предпочтительном исполнении предусматривает возможность приложения заданного асимметричного окна синтеза для взвешивания текущего фрагмента аудиоконтента, закодированного в режиме трансформанты и сменяющего фрагмент аудиоконтента, закодированный в режиме CELP, таким образом, что фрагменты аудиоконтента, закодированные в режиме трансформанты, взвешиваются одним и тем же заданным асимметричным окном синтеза независимо от режима кодирования предшествующего фрагмента аудиоконтента и независимо от режима кодирования последующего фрагмента аудиоконтента. Расчетное асимметричное окно синтеза задают таким образом, что оконно-взвешенное представление во временной области текущего фрагмента аудиоконтента, закодированного в режиме трансформанты, перекрывает по времени представление во временной области предшествующего фрагмента аудиоконтента, закодированного в режиме CELP. Таким образом, одно и то же заданное асимметричное окно синтеза применяют к фрагментам аудиоконтента, закодированным в режиме трансформанты, независимо от режимов кодирования смежных - предыдущих и последующих - фрагментов аудиоконтента. Благодаря этому обеспечивается простота схемотехнической реализации декодера аудиосигнала. Кроме этого, отпадает необходимость подачи сигнала идентификации типа окна синтеза, что снижает требования к скорости обработки данных.
Аудиодекодер преимущественно выполнен с возможностью избирательной инициации сигнала компенсации алиасинга на основе антиалиасинговой информации в случае, если текущий фрагмент аудиоконтента следует за фрагментом аудиоконтента, закодированным в режиме CELP. Установлено, что противоалиасинговые действия на основе антиалиасинговой информации иногда необходимы также при переходе от фрагмента аудиоконтента, закодированного в режиме CELP, к фрагменту аудиоконтента, закодированному в режиме трансформанты. На практике определено, что эта концепция обеспечивает баланс между эффективностью битрейта и величиной задержки.
Частотно-временной преобразователь в предпочтительной схемотехнической версии задействует целевое (специальное) асимметричное окно синтеза перехода, отличное от заданного асимметричного окна синтеза, для оконного взвешивания текущего фрагмента аудиоконтента, подлежащего кодированию в области трансформанты и сменяющего фрагмент аудиоконтента, закодированный в режиме CELP. Определено, что при осуществлении этой концепции возможно предупреждение артефактов алиасинга. Кроме того, было подтверждено, что применение специальной оконной функции после перехода не влияет отрицательно на низкую длительность задержки в силу того, что информация, требуемая для подбора такой целевой оконной функции, уже доступна в момент приложения целевого окна синтеза.
В предпочтительном схемотехническом варианте тракт области линейного предсказания с кодовым возбуждением (тракт CELP) представляет собой тракт области линейного предсказания с алгебраическим кодовым возбуждением (тракт ACELP), формирующий временное представление аудиоконтента, закодированного в режиме области линейного предсказания с алгебраическим кодовым возбуждением (в режиме ACELP) (используемый в качестве режима области линейного предсказания с кодовым возбуждением), на основе информация об алгебраических кодах возбуждения и информации о параметрах области линейного предсказания. Использование тракта области линейных предикторов, возбуждаемых алгебраическими кодами, для выполнения функций тракта области возбуждаемого кодами линейного предсказания во многих случаях дает особенно эффективный результат при кодировании.
Предлагаемое изобретение осуществляется также в виде способа формирования кодированного представления звуковых данных на основе входного представления массива акустических данных и способа формирования декодированного представления аудиоконтента на основе кодированного представления звуковых данных. Еще одной формой реализации заявляемого изобретения является компьютерная программа осуществления, по меньшей мере, одного из названных способов.
Обозначенные способы и компьютерная программа основаны на тех же представленных выше аспектах концепции, на которых построены описанные ранее аудиокодер и аудиодекодер, и могут быть дополнены за счет любого из существенных признаков и функциональных возможностей, относящихся к кодеру и декодеру аудиосигнала.
Краткое описание фигур
Конструктивные решения в соответствии с настоящим изобретением будут рассмотрены в дальнейшем со ссылкой на прилагаемые фигуры, где на фиг.1 представлена принципиальная блочная схема реализации кодера аудиосигнала в соответствии с настоящим изобретением; на фиг.2A-2C представлены принципиальные блочные схемы вариантов тракта области трансформанты в составе аудиокодера на фиг.1;
на фиг.3 представлена принципиальная блочная схема реализации декодера аудиосигнала в соответствии с данным изобретением; на фиг.4A-4C представлены принципиальные блочные схемы вариантов тракта области трансформанты в составе аудиодекодера на фиг.3; на фиг.5 дано сравнение окна анализа G.718 (сплошная линия), используемого в вариантах реализации изобретения, с синусным окном (пунктир); на фиг.6 дано сравнение окна синтеза G.718 (сплошная линия), используемого в вариантах реализации изобретения, с синусным окном (пунктир); на фиг.7 графически представлена последовательность синусных окон; на фиг.8 графически представлена последовательность окон анализа G.718; на фиг.9 графически представлена последовательность о