Способ и устройство для получения спектральных коэффициентов для заменяющего кадра аудиосигнала, декодер аудио, приемник аудио и система для передачи аудиосигналов
Иллюстрации
Показать всеИзобретение относится к акустике, в частности, к способам обработки аудиоинформации. Способ получения спектральных коэффициентов для заменяющего кадра аудиосигнала осуществляется следующим образом: детектируют тональные компоненты спектра аудиосигнала на основании пика, который присутствует в спектрах кадров, предшествующих заменяющему кадру, для тонального компонента спектра осуществляют предсказание спектральных коэффициентов для пика и его окружения в спектре заменяющего кадра и для нетонального компонента спектра используют непредсказываемый спектральный коэффициент для заменяющего кадра или соответствующего спектрального коэффициента кадра, предшествующего заменяющему кадру. Спектральные коэффициенты для пика и его окружения в спектре заменяющего кадра предсказывают на основании амплитуды комплексного спектра кадра, предшествующего заменяющему кадру, и предсказанной фазы комплексного спектра заменяющего кадра, и фазу комплексного спектра заменяющего кадра предсказывают на основании фазы комплексного спектра кадра , предшествующего заменяющему кадру, и фазового сдвига между кадрами, предшествующими заменяющему кадру. Технический результат – повышение точности декодирования. 7 н. и 32 з.п. ф-лы, 8 ил.
Реферат
Описание
Настоящее изобретение относится к области передачи кодированных аудиосигналов, более конкретно - к способу и устройству для получения спектральных коэффициентов для заменяющего кадра аудиосигнала, декодеру аудио, приемнику аудио и системе для передачи аудиосигналов. Варианты осуществления относятся к подходу для создания спектра для заменяющего кадра на основе ранее принятых кадров.
В известном уровне техники описаны некоторые подходы, рассматривающие вопросы потери кадра в приемнике аудио. Например, когда кадр теряется на стороне приемника аудиокодека или речевого кодека, могут использоваться простые способы маскирования потери кадра, как описано в ссылке [1], такие как:
- повторение последнего принятого кадра,
- подавление потерянного кадра или
- скремблирование со знаком.
Кроме того, в ссылке [1] представлен усовершенствованный способ, использующий блоки предсказания (экстраполяторы) в поддиапазонах. Методика блока предсказания затем объединяется со «скремблированием со знаком», и коэффициент усиления по предсказанию используется в качестве критерия принятия решения на основе поддиапазона, чтобы определять способ, который будет использоваться для спектральных коэффициентов этого поддиапазона.
В ссылке [2] экстраполяция аналогового сигнала (волновой формы) во временной области используется для кодека области модифицированного дискретного косинусного преобразования (MDCT). Этот вид подхода может быть хорошим для монофонических сигналов, включая речь.
Если допускается задержка в один кадр, может использоваться интерполяция кадров окружения для создания потерянного кадра. Такой подход описан в ссылке [3], где амплитуды тональных компонентов в потерянном кадре с индексом m интерполируют, используя соседние кадры с индексами m-1 и m+1. Вспомогательная информация, которая задает знаки коэффициентов MDCT для тональных компонентов, передается в потоке битов. Скремблирование со знаком используется для других нетональных коэффициентов MDCT. Тональные компоненты определяют как предварительно определенное фиксированное число спектральных коэффициентов с наибольшими амплитудами. Этот подход выбирает n спектральных коэффициентов с наибольшими амплитудами в качестве тональных компонентов.
Фиг.7 показывает блок-схему, представляющую интерполяционный подход без передаваемой вспомогательной информации, как это, например, описано в ссылке [4]. Интерполяционный подход работает на основе аудио кадров, кодированных в частотной области, с использованием MDCT (модифицированное дискретное косинусное преобразование). Блок 700 кадровой интерполяции принимает коэффициенты MDCT для кадра, предшествующего потерянному кадру, и кадра, следующего после потерянного кадра, более конкретно в подходе, описанном в отношении Фиг.7, MDCT-коэффициенты предыдущего кадра и MDCT-коэффициенты последующего кадра принимают на этапе 700 кадровой интерполяции. Блок 700 кадровой интерполяции генерирует интерполированный MDCT коэффициент для текущего кадра, который либо был потерян в приемнике, либо не может быть обработан в приемнике по другим причинам, например, из-за ошибок в принятых данных и т.п. Интерполированный MDCT-коэффициент, выводимый блоком 700 кадровой интерполяции, подается на блок 702, вынуждая масштабирование амплитуды в диапазоне масштабирующих коэффициентов, и на блок 704, вынуждая масштабирование амплитуды в рамках набора индексов, и соответственные блоки 702 и 704 выводят MDCT-коэффициент, масштабированный множителем и, соответственно. Выходной сигнал блока 702 вводится на блок 706 псевдоспектра, генерирующий на основе принятого входного сигнала псевдо спектр , который вводится на блок 708 детектирования пика, генерирующий сигнал, указывающий детектированные пики. Сигнал, обеспечиваемый блоком 702, также подается на блок 712 произвольного изменения знака, который, в ответ на сигнал детектирования пика, сгенерированный блоком 708, вызывает изменение знака принятого сигнала и выводит измененный MDCT-коэффициент на блок 710 составления спектра. Масштабированный сигнал, обеспечиваемый блоком 704, подается на блок 714 коррекции знака, вынуждая в ответ на сигнал детектирования пика, обеспечиваемый блоком 708, коррекцию знака масштабированного сигнала, обеспечиваемого блоком 704, и вывод модифицированного MDCT-коэффициента на блок 710 составления спектра, который на основе принятых сигналов генерирует интерполированный MDCT-коэффициент , который выводится блоком 710 составления спектра. Как показано на Фиг.7, сигнал детектирования пика, обеспечиваемый блоком 708, также предоставляется на блок 704, генерирующий масштабированный MDCT-коэффициент.
Фиг.7 показывает формирование на выходе блока 714 спектральных коэффициентов для потерянного кадра, связанных с тональными компонентами, и на выходе блока 712 спектральные коэффициенты для нетональных компонентов обеспечиваются с тем результатом, что на этапе 710 составления спектра на основе спектральных коэффициентов, принятых для тональных и нетональных компонентов, обеспечиваются спектральные коэффициенты для спектра, связанного с потерянным кадром.
Действие способа FLC (маскирование потери кадра), описанного на блок-схеме по Фиг.7, теперь будет описана более подробно.
На Фиг.7, в основном могут быть выделены четыре модуля:
модуль вставки формируемого шума (включая интерполяцию кадра 700, масштабирование амплитуды в рамках диапазона 702 масштабирующих коэффициентов и произвольное изменение 712 знака),
модуль классификации элемента выборки MDCT (включая псевдоспектр 706 и детектирование 708 пиков),
модуль операций тонального маскирования (включая масштабирование амплитуды в рамках набора индексов 704 и коррекцию 714 знака), и
модуль 710 составления спектра.
Подход основывается на следующей общей формуле:
выводят путем интерполяции по элементам выборки (см. блок 700 “Кадровая интерполяция”),
Значение получают путем интерполяции значений энергии, используя среднее геометрическое:
на основе диапазона масштабирующих коэффициентов для всех компонентов, (см. блок 702 “Масштабирование амплитуды в диапазоне масштабирующих коэффициентов”), и
на основе поднабора индексов для тональных компонентов (см. этап, 704 “Масштабирование амплитуды в рамках набора индексов”):
для тональных компонентов можно показать что , при , являющейся частотой тонального компонента.
Значения энергии получают на основании энергетического псевдоспектра, получаемого простой операцией сглаживания:
устанавливают произвольным образом в ±1 для нетональных компонентов (см. блок 712 “Произвольное изменение знака”), и либо в +1 или -1 для тональных компонентов (см. блок 714 “коррекция знака”).
Детектирование пиков выполняется в виде поиска локальных максимумов в энергетическом псевдоспектре, чтобы детектировать точные местоположения спектральных пиков, соответствующих нижележащим синусоидам. Это основывается на процессе идентификации тона, принятом в предложенной Экспертной группой по вопросам движущегося изображения психоакустической модели MPEG 1, описанной в ссылке [5]. Из этого, поднабор индексов задается имеющим ширину спектра, соответствующую основному лепестку окна анализа в терминах элементов выборки MDCT и детектированным пиком в его центре. Эти элементы выборки обрабатывают как тональные доминантные элементы выборки MDCT для синусоиды, и поднабор индексов обрабатывается как отдельный тональный компонент.
Коррекция знака переключает либо знаки всех элементов выборки некоторого тонального компонента, либо ни одного. Определение выполняют, используя метод анализа через синтез, то есть, SFM получают выводом для обеих версий и выбирают версии с более низким SFM. Для вывода SFM требуется энергетический спектр, которому в свою очередь требуются коэффициенты модифицированного дискретного синусного преобразования (MDST). Для поддержания поддающейся управлению сложности, выводят только коэффициенты MDST для тонального компонента, используя также только коэффициенты MDCT этого тонального компонента.
Фиг.8 иллюстрирует блок-схему общего способа FLC, который уточнен по сравнению с подходом по Фиг.7, и который описан в ссылке [6]. На Фиг.8 MDCT-коэффициенты и последнего кадра, предшествующего потерянному кадру, и первого кадра после потерянного кадра, принимают на этапе 800 классификации элемента выборки MDCT. Эти коэффициенты также предоставляются на этап 802 вставки формируемого шума и на этап 804 оценивания MDCT для тональных компонентов. На этапе 804 кроме того принимают выходной сигнал, обеспечиваемый этапом 800 классификации, а также принимают MDCT-коэффициенты и предпоследнего кадра, предшествующего потерянному кадру, и второго кадра после потерянного кадра, соответственно. Этап 804 формирует MDCT коэффициенты потерянного кадра для тональных компонентов, и этап 802 вставки формируемого шума формирует спектральные MDCT-коэффициенты потерянного кадра для нетональных компонентов. Эти коэффициенты подаются на этап 806 составления спектра, генерирующий на выходе спектральные коэффициенты для потерянного кадра. Этап 802 вставки формируемого шума работает в ответ на системный , сформированный этапом 804 оценивания.
Последующие модификации представляют интерес относительно ссылки [4]:
Энергетический псевдоспектр, используемый для детектирования пика, выводят в виде
Для устранения по восприятию нерелевантных или паразитных пиков, детектирование пиков применяют только к ограниченному спектральному диапазону и рассматриваются только локальные максимумы, которые превышают относительное пороговое значение по отношению к абсолютному максимуму энергетического псевдоспектра. Остающиеся пики сортируют в порядке убывания их величины (высоты), и предварительно-указанное число высоко ранжированных максимумов классифицируют как тональные пики.
Подход основывается на следующей общей формуле (при со знаком в этот момент):
выводят, как указано выше, но вывод становится более усовершенствованным, следуя подходу
Замена и на
тогда как
дает выражение, которое является квадратичным относительно α. Следовательно, для данной оценки MDCT имеются два кандидата (с противоположными знаками) для мультипликативного поправочного коэффициента ( являются матрицами преобразования). Выбор лучшей оценки выполняют подобно тому, как описано в ссылке [4].
Этот усовершенствованный подход требует двух кадров до и после потери кадра для того, чтобы вывести коэффициенты MDST для предыдущего и последующего кадра.
Не имеющая задержку версия подхода предложена в ссылке [7]:
В качестве начальной точки, повторно используется интерполяционная формула , но применяется для кадра m-1, приводя к:
Затем результат интерполяции заменяют истинной оценкой (здесь, множитель 2 становится частью поправочного коэффициента: , каковое приводит к
Поправочный коэффициент определяют путем ведения наблюдения энергии двух предыдущих кадров. Исходя из вычисления энергии коэффициенты MDST предыдущего кадра аппроксимируют в виде
Затем вычисляют синусоидальную энергию в виде
Подобным образом вычисляют синусоидальную энергию для кадра m-2 и обозначают , которая не зависит от α.
Применение требования к энергии
снова дает выражение, которое является квадратичным относительно α.
Процесс выбора для вычисленных кандидатов выполняют, как и ранее, но правило принятия решения учитывает только энергетический спектр предыдущего кадра.
Другое маскирование потери кадра без задержки в частотной области описано в ссылке [8]. Указания по ссылке [8] могут быть упрощены без потери общности в виде:
Предсказание с использованием дискретного преобразования Фурье (DFT) для сигнала (отметки) времени:
(a) Получить спектр DFT из декодированного сигнала во временной области, который соответствует принятым кодированным коэффициентам частотной области.
(b) Модулировать амплитуды DFT, полагая линейное изменение фазы, чтобы предсказать недостающие коэффициенты частотной области в следующем кадре
Предсказание с использованием оценивания амплитуды из принятого частотного спектра:
(a) Найти и , используя в качестве входа, так что
где - амплитуда коэффициента DFT, который соответствует .
(b) Вычислить:
(c) Выполнить линейную экстраполяцию амплитуды и фазы:
Использовать фильтры, чтобы вычислить и из и затем продолжить, как указано выше, чтобы получить
Использовать адаптивный фильтр для вычисления :
Выбор спектральных коэффициентов, подлежащих предсказанию, упоминается в ссылке [8], но не описан подробно.
В ссылке [9] было выявлено, что для квазистационарных сигналов разность фаз между последовательными кадрами является почти постоянной и зависит только от дробной частоты. Однако используется только линейная экстраполяция из последних двух комплексных спектров.
В адаптивном многоскоростном широкополосном (AMR-WB+) кодере (см. ссылку [10]) используется способ, описанный в ссылке [11]. Способ в ссылке [11] является расширением способа, описанного в ссылке [8] в том смысле, что использует также доступные спектральные коэффициенты текущего кадра, полагая, что потеряна только часть текущего кадра. Однако ситуация полной потери кадра не рассматривается в ссылке [11].
Другое маскирование потери кадра без задержки в области MDCT описывается в ссылке [12]. В ссылке [12] сначала определяют, является ли потерянный P-й кадр кратно-гармоническим кадром. Потерянный P-й кадр является кратно-гармоническим кадром, если более чем K0 кадров из числа K кадров перед P-м кадром имеют сглаженность спектра меньше чем пороговое значение. Если потерянный P-й кадр является кратно-гармоническим кадром то кадры от (P−K)-го до (P−2)-го кадров в области MDCT-MDST используются для предсказания потерянного P-ого кадра. Спектральный коэффициент является пиком, если его энергетический спектр больше чем два соседних коэффициента энергетического спектра. Псевдо спектр как описан в ссылке [13] используется для (P−1)-ого кадра.
Множество спектральных коэффициентов Sc строится из L1 кадров энергетического спектра, как изложено ниже:
Получение L1 множеств S1..., SL1, составленных из пиков в каждом из L1 кадров, числом пиков в каждом множестве является N1..., NL1 соответственно. Выбор множества Si из L1 множеств S1...,SL1. Для каждого коэффициента mj, j=1...Ni, пика в множестве S1, принятие решения, имеется ли какой-либо частотный коэффициент среди mj, mj±1..., mj±k, принадлежащий всем другим множествам пиков. Если какой-либо коэффициент имеется, помещение всех частот mj, mj±1..., mj±k в множество SC частот. Если не имеется частотного коэффициента, принадлежащего всем другим множествам пиков, непосредственное помещение всех частотных коэффициентов в кадре в множество SC частот. Упомянутый k является неотрицательным целым числом. Для всех спектральных коэффициентов в множестве SC фазу предсказывают, используя L2 кадров среди кадров MDCT-MDST от (P−K)-ого до (P−2)-ого. Предсказание делают, используя линейную экстраполяцию (когда L2=2) или линейное приближение (когда L2>2). Для линейной экстраполяции:
где p, t1 и t2 являются индексами кадров.
Спектральные коэффициенты, не находящиеся в множестве SC, получают, используя множество кадров до (P−1)-ого кадра, без конкретного пояснения каким образом.
Объект настоящего изобретения состоит в обеспечении улучшенного подхода для получения спектральных коэффициентов для заменяющего кадра аудиосигнала.
Этот объект достигается посредством способа по п.1, некратковременного компьютерного программного продукта по п.34, устройства по п.35 или по п.36, кодера аудио по п.37, приемника аудио по п.38 и системы для передачи аудиосигналов по п.39.
Настоящее изобретение обеспечивает способ получения спектральных коэффициентов для заменяющего кадра аудиосигнала, способ содержит:
детектирование тонального компонента спектра аудиосигнала на основании пика, который присутствует в спектрах кадров, предшествующих заменяющему кадру;
для тонального компонента спектра, предсказание спектральных коэффициентов для пика и его окружения в спектре заменяющего кадра; и
для нетонального компонента спектра, использование непредсказываемого спектрального коэффициента для заменяющего кадра или соответствующего спектрального коэффициента для кадра, предшествующего заменяющему кадру.
Настоящее изобретение обеспечивает устройство для получения спектральных коэффициентов для заменяющего кадра аудиосигнала, устройство содержит:
детектор, сконфигурированный для детектирования тонального компонента спектра аудиосигнала на основании пика, который присутствует в спектрах кадров, предшествующих заменяющему кадру; и
блок предсказания, сконфигурированный для предсказания для тонального компонента спектра спектральных коэффициентов для пика и его окружения в спектре заменяющего кадра;
при этом для нетонального компонента спектра используется непредсказываемый спектральный коэффициент для заменяющего кадра или соответствующий спектральный коэффициент кадра, предшествующего заменяющему кадру.
Настоящее изобретение обеспечивает устройство для получения спектральных коэффициентов для заменяющего кадра аудиосигнала, устройство, конфигурируемое для действия по новому способу получения спектральных коэффициентов для заменяющего кадра аудиосигнала.
Настоящее изобретение обеспечивает декодер аудио, содержащий новое устройство для получения спектральных коэффициентов для заменяющего кадра аудиосигнала.
Настоящее изобретение обеспечивает приемник аудио, содержащий новый декодер аудио.
Настоящее изобретение обеспечивает систему для передачи аудиосигналов, система содержит:
кодер, сконфигурированный для генерирования кодированного аудиосигнала; и
новый декодер, сконфигурированный для приема кодированного аудиосигнала и декодирования кодированного аудиосигнала.
Настоящее изобретение обеспечивает невременный компьютерный программный продукт, содержащий компьютерно-читаемый носитель, сохраняющий инструкции, которые при исполнении на компьютере выполняют новый способ получения спектральных коэффициентов для заменяющего кадра аудиосигнала.
Новый подход является полезным, поскольку он обеспечивает хорошее маскирование потери кадра для тональных сигналов с хорошим качеством и без внесения дополнительной задержки. Новый кодек с малой задержкой является полезным, поскольку он работает хорошо и на речевых, и на звуковых сигналах и извлекает преимущество, например, в предрасположенной к ошибкам среде, из хорошего маскирования потери кадра, которое достигается конкретно для стационарных тональных сигналов. Предложено маскирование потери кадра без задержки для монофонических и полифонических сигналов, которое дает хорошие результаты для тональных сигналов без ухудшения качества нетональных сигналов.
В соответствии с вариантами осуществления настоящего изобретения, обеспечивается улучшенное маскирование тональных компонентов в области MDCT. Варианты осуществления относятся к кодированию аудио и речи, которое включает в себя кодек частотной области или коммутируемый кодек речи/частотной области, в частности к маскированию потери кадра в области MDCT (модифицированное дискретное косинусное преобразование). Изобретение, в соответствии с вариантами осуществления, предлагает не имеющий задержки способ создания спектра MDCT для потерянного кадра на основании ранее принятых кадров, где последний принятый кадр кодирован в частотной области с использованием MDCT.
В соответствии с предпочтительными вариантами осуществления, новый подход включает в себя детектирование частей спектра, которые являются тональными, например, с использованием предпоследнего комплексного спектра, чтобы получить корректное местоположение или место пика, с использованием последнего действительного спектра для уточнения решения, если элемент сигнала является тональным, и с использованием информации основного тона для лучшего детектирования либо начала, либо смещения тона, причем информация основного тона является либо уже присутствующей в потоке битов, или выводимой на стороне декодера. Кроме того, новый подход включает в себя предоставление адаптивной к сигналу ширины гармоники, подлежащей маскированию. Вычисление фазового сдвига или разности фаз между кадрами каждого спектрального коэффициента, являющегося частью гармоники, также обеспечивается, причем это вычисление основано на последнем доступном спектре, например, спектре Комплексного модифицированного дискретного косинусного преобразования (CMDCT), без предпоследнего CMDCT. В соответствии с вариантами осуществления, разность фаз уточняют, используя последний принятый спектр MDCT, и уточнение может быть адаптируемым, зависеть от числа последовательно потерянных кадров. Спектр CMDCT может строиться из декодированного сигнала во временной области, каковое является полезным, поскольку устраняет потребность какой-либо синхронизации с кадрированием кодека, и это позволяет создание комплексного спектра насколько возможно близким к потерянному кадру путем применения характеристик окон с малым перекрытием. Варианты осуществления изобретения обеспечивают покадровое принятие решения относительно использования маскирования или во временной области, или в частотной области.
Подход согласно настоящему изобретению является полезным, поскольку он работает полностью на основе информации, уже доступной на стороне приемника, при определении, что кадр был потерян или подлежит замене, и нет необходимости в дополнительной вспомогательной информации, которая должна быть получена так, чтобы не было также какого-либо источника для дополнительных задержек, которые имеют место в подходах предшествующего уровня техники, при условии необходимости или принимать дополнительную вспомогательную информацию, или выводить дополнительную вспомогательную из имеющейся в распоряжении информации.
Новый подход является полезным в сравнении с вышеописанными подходами известного уровня техники, поскольку изложенные далее в общих чертах недостатки таких подходов, которые были выявлены авторами настоящего изобретения, устраняются путем применения нового подхода.
Способы маскирования потери кадра, описанные в ссылке [1], не являются достаточно устойчивыми и не дают достаточно хорошие результаты для тональных сигналов.
Экстраполяция формы волны сигнала во временной области, как описано в ссылке [2], не может обрабатывать полифонические сигналы и требует повышенной сложности для маскирования весьма стационарных тональных сигналов, поскольку должен быть определен точный интервал запаздывания основного тона.
В ссылке [3] вносится дополнительная задержка и требуется значительная вспомогательная информация. Выбор тонального компонента является очень простым и будет выбирать многие пики из числа нетональных компонентов.
Способ, описанный в ссылке [4], требует упреждения на стороне декодера и, следовательно, вносит дополнительную задержку в один кадр. Использование сглаженного энергетического псевдоспектра для детектирования пика снижает точность определения позиции пиков. Это также снижает надежность детектирования, поскольку будет обнаруживать из шума пики, которые появляются только в одном кадре.
Способ, описанный в ссылке [6], требует упреждения на стороне декодера и, следовательно, вносит дополнительную задержку в два кадра. Выбор тонального компонента не проверяет тональные компоненты в двух кадрах отдельно, а основывается на усредненном спектре, и таким образом будет иметь или слишком много ложных утверждений или ложных отрицаний, делая невозможным подстройку пороговых значений детектирования пиков. Определение местоположения пиков не будет точным, поскольку используется энергетический псевдоспектр. Ограниченный спектральный диапазон для поиска пиков похож на прием с обходом для описываемых проблем, которые возникают, поскольку используется энергетический псевдоспектр.
Способ, описанный в ссылке [7], основан на способе, описанном в ссылке [6], и, следовательно, имеет такие же недостатки; он лишь устраняет дополнительную задержку.
В ссылке [8] нет подробного описания решения относительно принадлежности спектрального коэффициента тональной части сигнала. Однако синергическая связь между детектированием тональных спектральных коэффициентов и маскированием является важной, и таким образом важно хорошее детектирование тональных компонентов. Кроме того, не было выявлено использование фильтров, зависимых от и , и (то есть, и , поскольку можно вычислить, если доступны и ) для вычисления и . Кроме того, не было выявлено использование возможности вычислять комплексный спектр, который не синхронизирован с кадрированием кодированного сигнала, которое дается при окнах с малым перекрытием. Кроме того, не было выявлено использование возможности вычислять разность фаз между кадрами только на основании предпоследнего комплексного спектра.
В ссылке [12], по меньшей мере, три предшествующих кадра должны сохраняться в памяти, тем самым значительно повышая требования к памяти. Решение, использовать ли тональное маскирование, может быть ошибочным, и кадр с одной или большим числом гармоник может быть классифицирован как кадр без кратных гармоник. Последний принятый кадр MDCT напрямую не используется для улучшения предсказания потерянного спектра MDCT, а только в поиске тональных компонентов. Число коэффициентов MDCT, подлежащих маскированию для гармоники, является фиксированным, однако, в зависимости от уровня шума, желательно иметь переменное число коэффициентов MDCT, которые составляют одну гармонику.
В последующем варианты осуществления настоящего изобретения будут описаны с дополнительными подробностями со ссылкой на сопроводительные чертежи, на которых:
Фиг.1 - иллюстрация упрощенной блок-схемы системы для передачи аудиосигналов, реализующей новый подход на стороне декодера,
Фиг.2 - иллюстрация структурной схемы нового подхода в соответствии с вариантом осуществления воплощением,
Фиг.3 - схематичное представление перекрывающихся окон MDCT для соседних кадров,
Фиг.4 - иллюстрация структурной схемы, представляющей этапы для отбора пика в соответствии с вариантом осуществления,
Фиг.5 - схематичное представление энергетического спектра кадра, из которого детектируют один или несколько пиков,
Фиг.6 - иллюстрация примера для “промежуточного кадра”,
Фиг.7 - иллюстрация блок-схемы, представляющей интерполяционный подход без передаваемой вспомогательной информации, и
Фиг.8 - иллюстрация блок-схемы общего способа FLC, уточненного по сравнению с Фиг.7.
В последующем варианты осуществления нового подхода будут описаны с дополнительными подробностями, и отмечается, что на сопроводительных чертежах элементы, имеющие одинаковую или сходную функциональность, обозначаются одинаковыми ссылочными знаками. В последующих вариантах осуществления нового подхода будет описано, в соответствии с каковым маскирование выполняют в частотной области, только если последние два принятых кадра кодированы с использованием MDCT. Подробности принятия решения об использовании маскирования во временной или частотной области относительно потери кадра после приема двух кадров MDCT также будут описаны. Относительно вариантов осуществления, описанных в последующем, отмечается, что требование кодирования последних двух кадров в частотной области не снижает применимость нового подхода поскольку в коммутируемом кодеке частотная область будет использоваться для стационарных тональных сигналов.
Фиг.1 иллюстрирует упрощенную блок-схему системы для передачи аудиосигналов, реализующей новый подход на стороне декодера. Система содержит кодер 100, принимающий на входе 102 аудиосигнал 104. Кодер сконфигурирован, чтобы формировать на основе принятого аудиосигнала 104 кодированный аудиосигнал, который обеспечивается на выходе 106 кодера 100. Кодер может обеспечивать кодированный аудиосигнал таким образом, что кадры аудиосигнала кодированы с использованием MDCT. В соответствии с вариантом осуществления кодер 100 содержит антенну 108, чтобы позволять беспроводную передачу аудиосигнала, как указано в ссылочном знаке 110. В других вариантах осуществления кодер может выводить кодированный аудиосигнал, обеспечиваемый на выходе 106, через линию проводного соединения, как это, например, указано в ссылочном знаке 112.
Система дополнительно содержит декодер 120, имеющий вход 122, на котором принимают кодированный аудиосигнал, обеспечиваемый кодером 106. Кодер 120 может содержать, в соответствии с вариантом осуществления, антенну 124 для приема беспроводной передачи 110 от кодера 100. В другом варианте осуществления вход 122 может обеспечивать соединение с проводной передачей 112 для приема кодированного аудиосигнала. Аудиосигнал, принятый на входе 122 декодера 120, подается на детектор 126, который определяет, нуждается ли в замене кодированный кадр принятого аудиосигнала, подлежащий декодированию декодером 120. Например, в соответствии с вариантами осуществления, это может быть случаем, когда детектор 126 определяет, что кадр, который должен следовать за предшествующим кадром, не принят в декодере, или когда определяют, что принятый кадр имеет ошибки, каковое препятствует его декодированию на стороне декодера 120. В случае если в детекторе 126 определено, что кадр, представленный для декодирования, является пригодным, кадр будет пересылаться на блок 128 декодирования, где декодирование кодированного кадра выполняется с тем результатом, что на выходе декодера 130 может выводиться поток декодированных аудио кадров или декодированного аудиосигнала 132.
В случае если в блоке 126 определено, что кадр, который в настоящий момент подлежит обработке, нуждается в замене, кадры, предшествующие текущему кадру, требующему замены, и которые могут буферизоваться в схеме 126 детектора, предоставляются на тональный детектор 134, определяющий, включает или не включает спектр замены тональные компоненты. В случае если тональные компоненты обеспечены, это указывается на блок 136 памяти/генератора шума, который формирует спектральные коэффициенты, являющиеся непредсказываемыми коэффициентами, которые могут формироваться с использованием генератора шума или другого традиционного способа генерирования шума, например, скремблирования со знаком и т.п. Альтернативно, также предварительно определенные спектральные коэффициенты для нетональных компонентов спектра могут быть получены из памяти, например, из таблицы поиска. Альтернативно, когда определяют, что спектр не содержит тональные компоненты, вместо генерирования непредсказываемых спектральных коэффициентов, могут быть выбраны соответствующие спектральные характеристики одного из кадров, предшествующих замене.
В случае если тональный детектор 134 обнаруживает, что спектр включает в себя тональные компоненты, соответственный сигнал указывается блоку 138 предсказания, предсказывающему, в соответствии с вариантами осуществления настоящего изобретения, описанными далее, спектральные коэффициенты для заменяющего кадра. Соответственные коэффициенты, определенные для заменяющего кадра, предоставляются на блок 128 декодирования, где на основе этих спектральных коэффициентов выполняется декодирование потерянного или заменяющего кадра