Классификация и кодирование аудиосигналов

Иллюстрации

Показать все

Изобретение относится к кодированию аудио, более конкретно к анализу и согласованию характеристик входных сигналов для кодирования. Технический результат – повышение качества восстановленного аудиосигнала. Вариант осуществления способа, который должен осуществляться посредством декодера, содержит для кадра m: определение значения D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1. Каждый такой диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Способ дополнительно содержит выбор режима декодирования, из множества режимов декодирования, на основе значения D(m) стабильности и применение выбранного режима декодирования. 4 н. и 15 з.п. ф-лы, 19 ил.

Реферат

Область техники, к которой относится изобретение

Изобретение относится к кодированию аудио, а более конкретно, к анализу и согласованию характеристик входных сигналов для кодирования.

Уровень техники

Сети сотовой связи развиваются в направлении более высоких скоростей передачи данных, повышенной пропускной способности и улучшенного покрытия. В организации по стандартизации Партнерский проект третьего поколения (3GPP) разработаны, а также в данный момент разрабатываются несколько технологий.

LTE (стандарт долгосрочного развития) является примером стандартизированной технологии. В LTE, технология доступа на основе OFDM (мультиплексирования с ортогональным частотным разделением каналов) используется для нисходящей линии связи и FDMA с одной несущей (SC-FDMA) для восходящей линии связи. Выделение ресурсов для беспроводных терминалов, также известных как абонентские устройства (UE), как в нисходящей линии связи, так и в восходящей линии связи, в общем, выполняется адаптивно с использованием быстрой диспетчеризации с учетом мгновенного шаблона трафика и характеристик распространения радиосигнала каждого беспроводного терминала. Один тип данных по LTE представляют собой аудиоданные, например, для речевой связи или потокового аудио.

Чтобы повышать производительность кодирования речи и аудио с низкой скоростью передачи битов, общеизвестно использовать априорные знания относительно характеристик сигналов и использовать моделирование прохождения сигналов. Для более сложных сигналов, несколько моделей кодирования или режимов кодирования могут использоваться для различных частей сигнала. Эти режимы кодирования также могут заключать в себе различные стратегии обработки канальных ошибок и потерянных пакетов. Предпочтительно выбирать надлежащий режим кодирования в любой момент.

Сущность изобретения

Решение, описанное в данном документе, относится к стабильной адаптации с низкой сложностью для классификации или различения сигналов, которая может использоваться как для выбора способа кодирования, так и для выбора способа маскирования ошибок, которые в данном документе обобщены в качестве выбора режима кодирования. В случае маскирования ошибок, решение относится к декодеру.

Согласно первому аспекту, предусмотрен способ для декодирования аудиосигнала. Способ содержит, для кадра m: определение значения D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1. Каждый такой диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Способ дополнительно содержит выбор режима декодирования, из множества режимов декодирования, на основе значения D(m) стабильности; и применение выбранного режима декодирования.

Согласно второму аспекту, предусмотрен декодер для декодирования аудиосигнала. Декодер выполнен с возможностью, для кадра m: определять значение D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1. Каждый такой диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Декодер дополнительно выполнен с возможностью выбирать режим декодирования, из множества режимов декодирования, на основе значения D(m) стабильности; и применять выбранный режим декодирования.

Согласно третьему аспекту, предусмотрен способ для кодирования аудиосигнала. Способ содержит, для кадра m: определение значения D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1. Каждый такой диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Способ дополнительно содержит выбор режима кодирования, из множества режимов кодирования, на основе значения D(m) стабильности; и применение выбранного режима кодирования.

Согласно четвертому аспекту, предусмотрен кодер для кодирования аудиосигнала. Кодер выполнен с возможностью, для кадра m: определять значение D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1. Каждый такой диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Кодер дополнительно выполнен с возможностью выбирать режим кодирования, из множества режимов кодирования, на основе значения D(m) стабильности; и применять выбранный режим кодирования.

Согласно пятому аспекту, предусмотрен способ для классификации аудиосигналов. Способ содержит, для кадра m аудиосигнала: определение значения D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Способ дополнительно содержит классификацию аудиосигнала на основе значения D(m) стабильности.

Согласно шестому аспекту, предусмотрен классификатор аудиосигналов. Классификатор аудиосигналов выполнен с возможностью, для кадра m аудиосигнала: определять значение D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала; и дополнительно классифицировать аудиосигнал на основе значения D(m) стабильности.

Согласно седьмому аспекту, предусмотрено хост-устройство, содержащее декодер согласно второму аспекту.

Согласно восьмому аспекту, предусмотрено хост-устройство, содержащее кодер согласно четвертому аспекту.

Согласно девятому аспекту, предусмотрено хост-устройство, содержащее классификатор сигналов согласно шестому аспекту.

Согласно десятому аспекту, предусмотрена компьютерная программа, которая содержит инструкции, которые при выполнении по меньшей мере на одном процессоре инструктируют по меньшей мере одному процессору осуществлять способ согласно первому, третьему и/или шестому аспекту.

Согласно одиннадцатому аспекту, предусмотрен несущий элемент, содержащий компьютерную программу девятого аспекта, при этом несущий элемент представляет собой одно из электронного сигнала, оптического сигнала, радиосигнала или машиночитаемого носителя хранения данных.

Краткое описание чертежей

Далее изобретение описывается, в качестве примера, со ссылкой на прилагаемые чертежи, на которых:

Фиг. 1 является принципиальной схемой, иллюстрирующей сотовую сеть, в которой могут применяться варианты осуществления, представленные в данном документе;

Фиг. 2a и 2b являются блок-схемами последовательности операций, иллюстрирующими способы, осуществляемые посредством декодера согласно иллюстративным вариантам осуществления.

Фиг. 3a является схематичным графиком, иллюстрирующим кривую преобразования из фильтрованного значения стабильности в параметр стабильности;

Фиг. 3b является схематичным графиком, иллюстрирующим кривую преобразования из фильтрованного значения стабильности в параметр стабильности, причем кривая преобразования получается из дискретных значений;

Фиг. 4 является схематичным графиком, иллюстрирующим спектральную огибающую сигналов принимаемых аудиокадров;

Фиг. 5a-b являются блок-схемами последовательности операций, иллюстрирующими способы, осуществляемые в хост-устройстве для выбора процедуры маскирования потерь пакетов;

Фиг. 6a-c являются принципиальными блок-схемами, иллюстрирующими различные реализации декодера согласно иллюстративным вариантам осуществления;

Фиг. 7a-c являются принципиальными блок-схемами, иллюстрирующими различные реализации кодера согласно иллюстративным вариантам осуществления;

Фиг. 8a-c являются принципиальными блок-схемами, иллюстрирующими различные реализации классификатора согласно иллюстративным вариантам осуществления;

Фиг. 9 является принципиальной схемой, показывающей некоторые компоненты беспроводного терминала;

Фиг. 10 является принципиальной схемой, показывающей некоторые компоненты узла транскодирования; и

Фиг. 11 показывает один пример компьютерного программного продукта, содержащего машиночитаемое средство.

Подробное описание изобретения

Далее настоящее изобретение подробнее описывается со ссылкой на прилагаемые чертежи, на которых показаны определенные варианты осуществления изобретения. Тем не менее, это изобретение может быть осуществлено во множестве различных форм и не должно рассматриваться как ограниченное примерными вариантами осуществления, изложенными в данном документе; наоборот, эти варианты осуществления предоставляются в качестве примера, так что это раскрытие сущности является полным и всеобъемлющим и полностью передает объем изобретения специалистам в данной области техники. Аналогичные номера ссылаются на аналогичные элементы во всем описании.

Фиг. 1 является принципиальной схемой, иллюстрирующей сотовую сеть 8, в которой могут применяться варианты осуществления, представленные в данном документе. Сотовая сеть 8 содержит базовую сеть 3 и одну или более базовых радиостанций 1, здесь в форме усовершенствованных узлов B, также известных как усовершенствованные узлы B или eNB. Базовая радиостанция 1 также может иметь форму узлов B, BTS (базовых приемо-передающих станций) и/или BSS (подсистем базовой станции) и т.д. Базовая радиостанция 1 предоставляет радиоподключения для множества беспроводных терминалов 2. Термин "беспроводной терминал" также известен как терминал мобильной связи, абонентское устройство (UE), мобильный терминал, пользовательский терминал, пользовательский агент, беспроводное устройство, межмашинные устройства и т.д. и, например, может представлять собой то, что сегодня общеизвестно в качестве мобильного телефона или планшетного компьютера/переносного компьютера с беспроводным подключением либо стационарно установленного терминала.

Сотовая сеть 8, например, может соответствовать любому или комбинации LTE (стандарта долгосрочного развития), W-CDMA (широкополосного мультиплексирования с кодовым разделением каналов), EDGE (развития стандарта GSM (глобальной системы мобильной связи) с увеличенной скоростью передачи данных), GPRS (общей службы пакетной радиопередачи), CDMA2000 (множественного доступа с кодовым разделением каналов 2000) либо любой другой текущей или будущей беспроводной сети, такой как усовершенствованный стандарт LTE, при условии, что принципы, описанные далее, являются применимыми.

Связь по восходящей линии 4a связи (UL) из беспроводного терминала 2 и связь по нисходящей линии 4b связи (DL) в беспроводной терминал 2 между беспроводным терминалом 2 и базовой радиостанцией 1 выполняется по беспроводному радиоинтерфейсу. Качество беспроводного радиоинтерфейса для каждого беспроводного терминала 2 может варьироваться во времени и в зависимости от позиции беспроводного терминала 2, вследствие таких эффектов, как затухание, многолучевое распространение, помехи и т.д.

Базовая радиостанция 1 также соединяется с базовой сетью 3 для подключения к центральным функциям и внешней сети 7, к примеру, к коммутируемой телефонной сети общего пользования (PSTN) и/или к Интернету.

Аудиоданные могут кодироваться и декодироваться, например, посредством беспроводного терминала 2 и узла 5 транскодирования, представляющего собой сетевой узел, размещаемый с возможностью осуществлять транскодирование аудио. Узел 5 транскодирования, например, может реализовываться в MGW (медиашлюзе), SBG (граничном сеансовом шлюзе)/BGF (функции граничного шлюза) или MRFP (процессоре функции мультимедийных ресурсов). Следовательно, как беспроводной терминал 2, так и узел 5 транскодирования представляют собой хост-устройства, которые содержат соответствующий аудио-кодер и декодер.

Использование набора способов восстановления после ошибок или маскирования ошибок и выбор соответствующей стратегии маскирования в зависимости от мгновенных характеристик сигналов во многих случаях позволяет повышать качество восстановленного аудиосигнала.

Чтобы выбирать наилучший режим кодирования/декодирования, кодер и/или декодер может пробовать все доступные режимы в анализе через синтез, также называемом методом с замкнутым контуром, либо он может основываться на классификаторе сигналов, который принимает решение относительно режима кодирования на основе анализа сигналов, также называемого решением с разомкнутым контуром. Типичные классы сигналов для речевых сигналов представляют собой вокализованную и невокализованную речевую активность. Для общих аудиосигналов обычная практика заключается в том, чтобы различать между речью, музыкой и потенциально фоновыми шумовыми сигналами. Аналогичная классификация может использоваться для управления способом восстановления после ошибок или маскирования ошибок.

Тем не менее, классификатор сигналов может заключать в себе анализ сигналов с высокими затратами с точки зрения вычислительной сложности и ресурсов запоминающего устройства. Нахождение подходящей классификации для всех сигналов также представляет собой сложную проблему.

Проблема вычислительной сложности может исключаться посредством использования способа классификации сигналов с использованием параметров кодека, которые уже доступны в способе кодирования или декодирования, в силу этого добавляя очень незначительную дополнительную вычислительную сложность. Способ классификации сигналов также может использовать различные параметры в зависимости от используемого режима кодирования, чтобы предоставлять надежный управляющий параметр в момент, когда изменяется режим кодирования. Это обеспечивает низкую сложность, стабильную адаптацию классификации сигналов, что может использоваться как для выбора способа кодирования, так и для выбора способа маскирования ошибок.

Варианты осуществления могут применяться в аудиокодеке, работающем в частотной области или области преобразования. В кодере, входные выборки разделяются на временные сегменты или кадры фиксированной или варьирующейся длины. Чтобы обозначать выборки кадра , записывается . Обычно, используется фиксированная длина в 20 мс, с вариантом использования меньшей длины окна кодирования со взвешиванием или длины кадра, для быстрых временных изменений; например, в переходных звуках. Входные выборки преобразуются в частотную область посредством преобразования частоты. Множество аудиокодеков используют модифицированное дискретное косинусное преобразование (MDCT) вследствие его пригодности для кодирования. Также могут использоваться другие преобразования, такие как DCT (дискретное косинусное преобразование) или DFT (дискретное преобразование Фурье). Спектральные MDCT-коэффициенты кадра m находятся с использованием отношения:

,

где представляет MDCT-коэффициент k в кадре m. Коэффициенты MDCT-спектра разделяются на группы или полосы частот. Эти полосы частот типично являются неравномерными по размеру, с использованием более узких полос частот для низких частот и более широкой полосы пропускания для верхних частот. Это предназначено для того, чтобы имитировать частотное разрешение слухового восприятия человека и релевантного проектирования для схемы кодирования с потерями. Коэффициенты полосы b частот в таком случае представляют собой вектор MDCT-коэффициентов:

где и обозначают начальный и конечный индексы полосы b частот. Значение энергии или среднеквадратическое (RMS) значение каждой полосы частот затем вычисляется следующим образом:

.

Энергии полосы частот формируют приблизительную спектральную структуру или огибающую MDCT-спектра. Она квантуется с использованием подходящих технологий квантования, например, с использованием дифференциального кодирования в комбинации с энтропийным кодированием или векторным квантователем (VQ). Шаг квантования формирует индексы квантования, которые должны сохраняться или передаваться в декодер, а также воспроизводит соответствующие квантованные значения огибающей. MDCT-спектр нормализуется с квантованными энергиями полосы частот, чтобы формировать нормализованный MDCT-спектр :

.

Нормализованный MDCT-спектр дополнительно квантуется с использованием подходящих технологий квантования, таких как скалярные квантователи, в комбинации с технологиями дифференциального кодирования и энтропийного кодирования или векторного квантования. Типично, квантование заключает в себе формирование выделения битов для каждой полосы b частот, которое используется для кодирования каждой полосы частот. Выделение битов может формироваться с включением перцепционной модели, которая назначает биты отдельным полосам частот на основе перцепционной важности.

Может быть желательным дополнительно направлять процессы кодера и декодера посредством адаптации к характеристикам сигналов. Если адаптация выполняется с использованием квантованных параметров, которые доступны как в кодере, так и в декодере, адаптация может синхронизироваться между кодером и декодером без передачи дополнительных параметров.

Решение, описанное в данном документе, в основном относится к адаптации процесса кодера и/или декодера к характеристикам сигнала, который должен быть кодирован или декодирован. Короче говоря, значение/параметр стабильности определяется для сигнала, и соответствующий режим кодирования и/или декодирования выбирается и применяется на основе определенного значения/параметра стабильности. При использовании в данном документе, "режим кодирования" может означать режим кодирования и/или режим декодирования. Как описано выше, режим кодирования может заключать в себе различные стратегии обработки канальных ошибок и потерянных пакетов. Дополнительно, при использовании в данном документе, выражение "режим декодирования" имеет намерение означать способ декодирования и/или способ для маскирования ошибок, который должен использоваться в ассоциации с декодированием и восстановлением аудиосигнала. Иными словами, при использовании в данном документе, различные режимы декодирования могут быть ассоциированы с идентичным способом декодирования, но с различными способами маскирования ошибок. Аналогично, различные режимы декодирования могут быть ассоциированы с идентичным способом маскирования ошибок, но с различными способами декодирования. Решение, описанное в данном документе, когда применяется в кодеке, относится к выбору способа кодирования и/или способа маскирования ошибок на основе нового показателя, связанного со стабильностью аудиосигнала.

Иллюстративные варианты осуществления

Ниже описываются иллюстративные варианты осуществления, связанные со способом для декодирования аудиосигнала, со ссылкой на фиг. 2a и 2b. Способ должен осуществляться посредством декодера, который может быть выполнен с возможностью совместимости с одним или более стандартов для декодирования аудио. Способ, проиллюстрированный на фиг. 2a, содержит определение 201 значения D(m) стабильности, в области преобразования, для кадра m аудиосигнала. Значение D(m) стабильности определяется на основе разности между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1. Каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. На основе значения D(m) стабильности, может выбираться 204 режим декодирования из множества режимов декодирования. Например, может выбираться способ декодирования и/или способ маскирования ошибок. Выбранный режим декодирования затем может применяться 205 для декодирования и/или восстановления по меньшей мере кадра m аудиосигнала.

Как проиллюстрировано на чертеже, способ дополнительно может содержать фильтрацию 202 нижних частот значения D(m) стабильности, за счет этого достигая фильтрованного значения стабильности. Фильтрованное значение стабильности затем может преобразовываться 203 в скалярный диапазон [0,1] посредством использования, например, сигмоидальной функции, за счет этого достигая параметра S(m) стабильности. Выбор режима декодирования на основе D(m) затем должен быть реализован посредством выбора режима декодирования на основе параметра S(m) стабильности, который извлекается из D(m). Определение значения стабильности и извлечение параметра стабильности могут рассматриваться в качестве способа классификации сегмента аудиосигнала, при этом стабильность служит признаком определенного класса или типа сигналов.

В качестве примера, адаптация описанной процедуры декодирования может быть связана с выбором способа для маскирования ошибок из множества способов для маскирования ошибок на основе значения стабильности. Множество способов маскирования ошибок, содержащихся, например, в декодере, могут быть ассоциированы с одним способом декодирования или с различными способами декодирования. Как указано выше, термин "режим декодирования", используемый в данном документе, может означать способ декодирования и/или способ маскирования ошибок. На основе значения стабильности или параметра стабильности и возможно еще других критериев, может выбираться способ маскирования ошибок, который является самым подходящим для рассматриваемой части аудиосигнала. Значение и параметр стабильности могут служить признаком того, содержит рассматриваемый сегмент аудиосигнала речь или музыку, и/или, когда аудиосигнал содержит музыку: параметр стабильности может служить признаком различных типов музыки. По меньшей мере один из способов маскирования ошибок может быть более подходящим для речи, чем для музыки, и по меньшей мере еще один способ маскирования ошибок из множества способов маскирования ошибок может быть более подходящим для музыки, чем для речи. Затем, когда значение стабильности или параметр стабильности, возможно в комбинации с дополнительной детализацией, например, как проиллюстрировано ниже, указывают то, что рассматриваемая часть аудиосигнала содержит речь, может выбираться способ маскирования ошибок, который является более подходящим для речи, чем для музыки. Соответственно, когда значение или параметр стабильности указывает то, что рассматриваемая часть аудиосигнала содержит музыку, может выбираться способ маскирования ошибок, который является более подходящим для музыки, чем для речи.

Новизна способа для адаптации кодека, описанной в данном документе, заключается в том, чтобы использовать диапазон квантованной огибающей сегмента аудиосигнала (в области преобразования) для определения параметра стабильности. Разность D(m) между диапазоном огибающей в смежных кадрах может вычисляться следующим образом:

.

Полосы частот обозначают диапазон полос частот, который используется для показателя разности огибающих. Он может представлять собой непрерывный диапазон полос частот, либо полосы частот могут быть непересекающимися, и в этом случае выражение должно быть заменено корректным числом полос частот в диапазоне. Следует отметить, что при вычислении для самого первого кадра, значения не существуют и в силу этого инициализируются, например, как значения огибающей, соответствующие пустому спектру.

Фильтрация нижних частот определенной разности D(m) выполняется для того, чтобы достигать более стабильного управляющего параметра. Одно решение состоит в том, чтобы использовать AR (авторегрессионный) фильтр первого порядка или коэффициент отсутствия последействия формы

,

где является конфигурационным параметром AR-фильтра.

Чтобы упрощать использование фильтрованной разности или значения стабильности, в кодеке/декодере, может быть желательным преобразовывать фильтрованную разность в более подходящий диапазон использования. Здесь, сигмоидальная функция используется для того, чтобы преобразовывать значение в диапазон [0,1], следующим образом

,

где обозначает преобразованное значение стабильности. В иллюстративном варианте осуществления, константы могут задаваться равными , и , но b, c и d могут задаваться равными любому подходящему значению. Параметры сигмоидальной функции могут задаваться экспериментально таким образом, что она адаптирует наблюдаемый динамический диапазон входного параметра к требуемому выходному решению . Сигмоидальная функция предлагает хороший механизм для реализации порогового значения на основе мягких решений, поскольку могут управляться как точка перегиба, так и рабочий диапазон. Кривая преобразования показана на фиг 3a, где находится на горизонтальной оси, а находится на вертикальной оси. Поскольку показательная функция является вычислительно сложной, может быть желательным заменять функцию преобразования таблицей поиска. В этом случае, кривая преобразования должна быть дискретизирована в дискретных точках для пар и , как указано посредством окружностей на фиг. 3b. В дискретизированном случае, в предпочтительном аспекте, и могут обозначаться, например, как и , в этом случае подходящее значение в таблице поиска находится посредством определения местоположения ближайшего значения, , к , например, посредством использования евклидова расстояния. Можно также отметить, что сигмоидальная функция может быть представлена только с одной половиной кривой перехода вследствие симметрии функции. Средняя точка Smid сигмоидальной функции задается как Smid=c/b+d. Посредством вычитания средней точки Smid следующим образом

,

можно получать соответствующий односторонний преобразованный параметр стабильности с использованием квантования и поиска, как описано выше, и конечный параметр стабильности, извлекаемый в зависимости от позиции относительно средней точки следующим образом:

.

Дополнительно, может быть желательным применять логику хвостов сигнала или гистерезис к показателю стабильности огибающей. Также может быть желательным дополнять показатель с помощью детектора переходных частей. Пример детектора переходных частей с использованием логики хвостов сигнала подробнее указывается ниже.

Дополнительный вариант осуществления удовлетворяет потребность формировать показатель стабильности огибающей, который сам по себе является более стабильным и меньше подверженным статистическим флуктуациям. Как упомянуто выше, один вариант состоит в том, чтобы применять логику хвостов сигнала или гистерезис к показателю стабильности огибающей. Тем не менее, во многих случаях это может быть недостаточным, и с другой стороны, в некоторых случаях, достаточно только формировать дискретный вывод с ограниченным числом степеней стабильности. Для такого случая, обнаружено преимущество того, чтобы использовать сглаживающую функцию с использованием модели Маркова. Такая сглаживающая функция должна предоставлять более стабильные, т.е. менее флуктуирующие выходные значения, чем значения, которые могут достигаться с применением логики хвостов сигнала или гистерезиса к показателю стабильности огибающей. Например, возвращаясь к иллюстративным вариантам осуществления на фиг. 2a и/или 2b, выбор режима декодирования, например, способа декодирования и/или способа маскирования ошибок, на основе значения или параметра стабильности дополнительно может быть основан на модели Маркова, задающей вероятности перехода состояния, связанные с переходами между различными свойствами сигнала в аудиосигнале. Различные состояния, например, могут представлять речь и музыку. Далее описывается подход использования модели Маркова для формирования дискретного вывода с ограниченным числом степеней стабильности.

Модель Маркова

Используемая модель Маркова содержит M состояний, при этом каждое состояние представляет определенную степень стабильности огибающей. В случае если M выбирается равным 2, одно состояние (состояние 0) может представлять сильно флуктуирующие спектральные огибающие, в то время как другое состояние (состояние 1) может представлять стабильные спектральные огибающие. Без концептуальной разности можно расширять эту модель на большее число состояний, например, для промежуточных степеней стабильности огибающей.

Эта модель состояния Маркова характеризуется посредством вероятностей перехода состояния, которые представляют вероятности того, чтобы переходить из каждого данного состояния в предыдущий момент времени в данное состояние в текущий момент времени. Например, моменты времени могут соответствовать индексам кадров m для текущего кадра и m-1 для ранее корректно принимаемого кадра. Следует отметить, что в случае потерь кадров вследствие ошибок при передаче, они могут представлять собой кадр, отличающийся от предыдущего кадра, который должен быть доступен без потерь кадров. Вероятности перехода состояния могут записываться в математическом выражении в качестве матрицы T переходов, в которой каждый элемент представляет вероятность для перехода в состояние j при возникновении из состояния i. Для предпочтительной модели Маркова с 2 состояниями, матрица вероятностей перехода выглядит следующим образом

.

Можно отметить, что требуемый эффект сглаживания достигается посредством задания правдоподобий для пребывания в данном состоянии равными относительно большим значениям, в то время как правдоподобие (правдоподобия) для выхода из этого состояния получает небольшие значения.

Помимо этого, каждое состояние ассоциировано с вероятностью в данный момент времени. В момент предыдущего корректно принимаемого кадра m-1, вероятности состояний задаются посредством вектора:

.

Чтобы вычислять априорные правдоподобия для возникновения каждого состояния, вектор вероятностей состояний умножается на матрицу вероятностей перехода:

.

Тем не менее, истинные вероятности состояний зависят не только от этих априорных правдоподобий, но также и от правдоподобий, ассоциированных с текущим наблюдением Pp(m) в момент m времени текущего кадра. Согласно вариантам осуществления, представленным в данном документе, значения измерения спектральной огибающей, которые должны быть сглажены, ассоциированы с такими правдоподобиями наблюдения. Поскольку состояние 0 представляет флуктуирующие спектральные огибающие, а состояние 1 представляет стабильные огибающие, низкое значение измерения стабильности огибающей означает высокую вероятность для состояния 0 и низкую вероятность для состояния 1. С другой стороны, при измерении или наблюдении, стабильность огибающей является большой, это ассоциировано с высокой вероятностью для состояния 1 и низкой вероятностью для состояния 0. Преобразование значений измерения стабильности огибающей в правдоподобия наблюдения состояний, которые оптимально подходят для предпочтительной обработки значений стабильности огибающей посредством вышеописанной сигмоидальной функции, является преобразованием "один к одному" в вероятность наблюдения состояния для состояния 1 и преобразования "один к одному" в вероятность наблюдения состояния для состояния 0. Иными словами, вывод преобразования сигмоидальной функции может быть вводом в сглаживающую функцию Маркова:

.

Следует отметить, что это преобразование сильно зависит от используемой сигмоидальной функции. Изменение этой функции может требовать введения функций повторного преобразования из и в соответствующие вероятности наблюдения состояний. Простое повторное преобразование, которое также может выполняться в дополнение к сигмоидальной функции, представляет собой применение аддитивного смещения и коэффициента масштабирования.

На следующем этапе обработки, вектор вероятностей наблюдения состояний комбинируется с вектором априорных вероятностей, который дает новый вектор