Аудиокодер, аудиодекодер и аудиопроцессор, имеющий динамически изменяющуюся характеристику перекоса
Иллюстрации
Показать всеИзобретение относится к обработке аудиоданных с использованием фильтров с перекошенной характеристикой и, в частности, к многоцелевому кодированию аудиоданных. Аудиокодер, аудиодекодер или аудиопроцессор включают в себя фильтр (12) для генерирования фильтрованного аудиосигнала, фильтр имеет переменную характеристику перекоса, характеристикой управляют в соответствии с изменяющимся во времени сигналом (16) управления, сигнал управления указывает малую характеристику перекоса или ее отсутствие, или сравнительно большую характеристику перекоса. Кроме того, контроллер (18) подключен для предоставления изменяющегося во времени сигнала управления, который зависит от аудиосигнала. Фильтрованный аудиосигнал может быть подан в процессор (22) кодирования, имеющий разные алгоритмы кодирования, один из которых представляет собой алгоритм кодирования, адаптированный к конкретной структуре сигнала. В качестве альтернативы фильтр представляет собой постфильтр, принимающий декодированный аудиосигнал. Технический результат - получение улучшенной концепции кодирования общего назначения, обеспечивающей высокое качество и низкую скорость передачи битов. 9 н. и 40 з.п. ф-лы, 12 ил.
Реферат
Область техники, к которой относится изобретение
Настоящее изобретение относится к обработке аудиоданных с использованием фильтров с перекошенной характеристикой и, в частности, к многоцелевому кодированию аудиоданных.
Уровень техники
Для обеспечения низкой скорости передачи битов аудиоданных в технологии кодирования речи традиционно использовали несколько разных технологий кодирования, направленных на достижение кодирования с низкой скоростью передачи битов таких сигналов с наилучшим возможным субъективным качеством при заданной скорости передачи битов. Кодеры для общих музыкальных/звуковых сигналов направлены на оптимизацию субъективного качества путем формирования спектральной (и временной) формы ошибки квантования в соответствии с кривой порога маскирования, оценку которой получают по входному сигналу с использованием модели восприятия ("перцептивное кодирование аудиоданных"). С другой стороны, кодирование речи с очень низкими скоростями передачи битов, как было показано, очень эффективно работает, когда оно основано на модели формирования речи человека, то есть при использовании линейного предикативного кодирования (LPC, ЛПК) для моделирования резонансных эффектов вокального тракта человека, вместе с эффективным кодированием остаточного сигнала возбуждения.
Как следствие этих двух разных подходов, обычные аудиокодеры (такие, как MPEG-1 Уровень 3 или MPEG-2/4 усовершенствованное звуковое кодирование, AAC (УЗК)) обычно не работают также хорошо для речевых сигналов при очень низких скоростях передачи данных, как специализированные речевые кодеры на основе ЛПК, ввиду неиспользования ими модели речевого источника. И наоборот, речевые кодеры на основе ЛПК обычно не позволяют достичь убедительных результатов, когда их применяют для обработки общих музыкальных сигналов, из-за их неспособности гибко формировать спектральную огибающую искажения кодирования в соответствии с кривой порога маскирования. Задача настоящего изобретения состоит в том, чтобы создать концепцию, которая комбинирует преимущества, как кодирования на основе ЛПК, так и перцепционного кодирования звука в одних рамках и, таким образом, описывает унифицированное кодирование аудиоданных, которое является эффективным, как для общих звуковых, так и для речевых сигналов.
В следующем разделе описан набор соответствующих технологий, которые были предложены для эффективного кодирования звуковых и речевых сигналов.
Перцепционное кодирование аудиоданных (фиг.9)
Традиционно, в перцепционных кодерах аудиоданных используют подход на основе гребенки фильтров, для эффективного кодирования аудиосигналов и формирования искажений квантования в соответствии с оценкой кривой маскирования.
На фиг.9 показана основная блок-схема монофонической системы перцепционного кодирования. Гребенка фильтров анализа используется для отображения выборок в области времени на вспомогательные выбранные спектральные компоненты.
В зависимости от количества спектральных компонентов система также называется кодером подполосы (малое количество подполос, например 32) или кодером на основе гребенки фильтров (большое количество частотных линий, например 512). Перцепционную ("психоакустическую") модель используют для оценки фактического, зависящего от времени порога маскирования. Спектральные ("подполосы" или "в области частот") компоненты квантуют и кодируют таким образом, что шумы квантования скрываются под фактически передаваемым сигналом и не воспринимаются после декодирования. Это достигается в результате изменения гранулярности квантования спектральных значений с течением времени и по частоте.
В качестве альтернативы полностью основанной на гребенке фильтров концепции перцепционного кодирования в последнее время было предложено кодирование на основе подхода предварительной/постфильтрации, как показано на фиг.10.
В [Ed100] был предложен перцепционный аудиокодер, который разделяет аспекты уменьшения несоответствия (то есть формирования шумов в соответствии с перцепционными критериями) и уменьшения избыточности (то есть получения математически более компактного представления информации), используя так называемый предварительный фильтр, вместо переменного квантования спектральных коэффициентов по частоте. Этот принцип иллюстрируется на следующем чертеже. Входной сигнал анализируют с помощью перцепционной модели для расчета оценки кривой порога маскирования по частоте. Пороговое значение маскирования преобразуют в набор коэффициентов предварительного фильтра таким образом, чтобы магнитуда его частотного отклика была обратно пропорциональна пороговому значению маскирования. Операция предварительного фильтра применяет этот набор коэффициентов ко входному сигналу, в результате чего формируется выходной сигнал, в котором все частотные компоненты представлены в соответствии с их перцепционной важностью ("перцепционное отбеливание"). Этот сигнал затем кодируют с использованием любого вида аудиокодера, который формирует "белое" искажение квантования, то есть не применяет какое-либо перцепционное формирование шума. Таким образом, передача/сохранение аудиосигнала включает в себя как поток битов кодера, так и кодированную версию коэффициентов предварительной фильтрации. В декодере поток битов кодера декодируют в промежуточный аудиосигнал, который затем подвергают операции постфильтрации в соответствии с переданными коэффициентами фильтра. Поскольку постфильтр выполняет обратный процесс фильтрации относительно предварительного фильтра, он применяет спектральное взвешивание к своему входному сигналу в соответствии с кривой маскирования. Таким образом, спектрально плоский ("белый") шум кодирования выглядит перцепционно сформированным на выходе декодера, как и предполагалось.
Поскольку в такой схеме перцепционное формирование шума достигается через этап предварительной/постфильтрации, вместо зависимого от частоты квантования спектральных коэффициентов, концепция может быть обобщена так, что она будет включать в себя механизм кодирования, который не основан на гребенке фильтров, для представления предварительно фильтрованного аудиосигнала, вместо аудиокодера на основе гребенки фильтров. В [Sch02] это показано для ядра кодирования в области времени, с использованием этапов предикативного и энтропийного кодирования.
[Ed100] B. Edler, G. Schuller: "Audio coding using a psy-choacoustic pre- and post-filter", ICASSP 2000, Volume 2, 5-9 June 2000 Page(s):II881 - II884 vol.2
[Sch02] G. Schuller, B. Yu, D. Huang, and B. Edler, "Perceptual Audio Coding using Adaptive Pre- and Post-Filters and Lossless Compression", IEEE Transactions on Speech and Audio Processing, September 2002, pp. 379-390
Для того, чтобы обеспечить возможность соответствующего формирования спектрального шума, используя технологии предварительной/постфильтрации, важно адаптировать частотное разрешение предварительного/постфильтра к разрешающей способности системы слуха человека. В идеале, разрешение по частоте должно соответствовать хорошо известным перцепционным шкалам частот, таким как частотная шкала BARK или ERB [Zwi]. Это, в частности, требуется для минимизации порядка модели предварительного/постфильтра и, таким образом, ассоциированной сложности вычислений и скорости передачи дополнительной информации.
Адаптация разрешающей способности по частоте предварительного/постфильтра может быть обеспечена с помощью хорошо известной концепции перекоса частоты [KHL97]. По существу, единичные задержки в пределах структуры фильтра заменяют (первого или более высокого порядка) всечастотными фильтрами, в результате чего получают неоднородную деформацию ("перекос") частотной характеристики фильтра. Было показано, что даже при использовании всечастотного фильтра первого уровня (например, ), достаточно точная аппроксимация перцепционной шкалы частот возможна при соответствующем выборе коэффициентов всечастотного фильтра [SA99]. Таким образом, в наиболее известных системах не используют всечастотные фильтры более высокого порядка для перекоса частоты. Таким образом всечастотный фильтр первого порядка полностью определен одним скалярным параметром (который называется "коэффициентом перекоса", -1<λ<1), который определяет деформацию шкалы частот. Например, для коэффициента перекоса λ=0, деформация не происходит, то есть фильтр работает в обычной частотной шкале. Чем большим выбирают коэффициент искажения, тем больше частотное разрешение по частоте фокусируется на части низкой частоты спектра (как это необходимо для аппроксимации перцепционной шкалы частот), и отбирается из части более высокой частоты спектра). Это показано на фиг.5, как для положительного, так и для отрицательного коэффициентов перекоса:
Когда применяют предварительный/постфильтр с перекосом, в аудиокодерах обычно используют порядок фильтра от 8 до 20 при обычных частотах дискретизации, таких как 48 кГц или 44,1 кГц [WSKH05].
Были описаны несколько других вариантов применения фильтра с перекосом, например моделирование импульсного отклика помещения [HKS00] и параметрическое моделирование компонента шумов аудиосигнала (под тем же именем фильтрация Laguerre/Kauz) [SOB03]
[Zwi] Zwicker, E. and H. Fasti, "Psychoacoustics, Facts and Models", Springer Verlag, Berlin
[KHL97] M. Karjalainen, A. Harma, U.K. Laine, "Realizable warped IIR filters and their properties", IEEE I-CASSP 1997, pp. 2205 - 2208, vol.3
[SA99] J.O. Smith, J.S. Abel, "BARK and ERB Bilinear Transforms", IEEE Transactions on Speech and Audio Processing, Volume 7, Issue 6, Nov. 1999, pp. 697 - 708
[HKS00] Harma, Aki; Karjalainen, Matti; Savioja, Lauri; Valimaki, Vesa; Laine, Unto K.; Huopaniemi, Jyri, "Frequency-Warped Signal Processing for Audio Applications", Journal of the AES, Volume 48 Number 11 pp. 1011-1031; November 2000
[SOB03] E. Schuijers, W. Oomen, B. den Brinker, J. Bree-baart, "Advances in Parametric Coding for High-Quality Audio", 114th Convention, Amsterdam, The Netherlands 2003, preprint 5852
[WSKH05] S. Wabnik, G. Schuller, U. Kramer, J. Hirschfeld, „Frequency Warping in Low Delay Audio Coding", IEEE International Conference on Acoustics, Speech, and Signal Processing, March 18-23, 2005, Philadelphia, PA, USA
Кодирование речи на основе ЛПК
Традиционно, эффективное кодирование речи основано на Линейном предикативном кодировании (ЛПК), для моделирования резонансных эффектов вокального тракта человека, вместе с эффективным кодированием остаточного сигнала возбуждения [VM06]. Как ЛПК, так и параметры возбуждения передают из кодера в декодер. Этот принцип иллюстрируется на следующем чертеже (кодер и декодер).
Со временем было предложено множество способов, обеспечивающих эффективное и перцепционно убедительное представление остаточного (возбуждения) сигнала, такие как многоимпульсное возбуждение (MPE, МИВ), регулярное импульсное возбуждение (RPE, РИВ) и кодовое линейное прогнозирование (CELP, КЛПР).
При линейном предикативном кодировании делается попытка получить оценку текущего значения выборки последовательности на основе наблюдения определенного количества прошлых значений, как линейную комбинацию прошлых наблюдений. Для уменьшения избыточности во входном сигнале фильтр кодера "отбеливает" входной сигнал по его спектральной огибающей, то есть его частотный отклик представляет собой модель, обратную спектральной огибающей сигнала. И, наоборот, частотный отклик фильтра декодера ЛПК представляет собой модель спектральной огибающей сигнала. В частности, хорошо известный авторегрессивный (AR, АР) линейный предикативный анализ применяют для моделирования спектральной огибающей сигнала с использованием полюсной аппроксимации.
Как правило, в узкополосных речевых кодерах (то есть в речевых кодерах с частотой выборки 8 кГц) используется фильтры ЛПК порядка от 8 до 12. Учитывая свойства фильтра ЛПК, однородное частотное разрешение эффективно во всем частотном диапазоне. Это не соответствует перцепционной шкале частот.
ЛПК кодирование с перекосом
Учитывая, что неоднородная по частоте чувствительность, предлагаемая технологией перекоса, может предложить преимущества также для кодирования речи, было предложено заменить обычный анализ ЛПК на предикативный анализ с перекосом. В частности, в [TML94] предложен речевой кодер, который моделирует спектральную огибающую речи с помощью кепстральных коэффициентов c(m), которые обновляют на каждой выборке в соответствии с изменяющимся по времени входным сигналом. Шкала частот модели адаптирована для аппроксимации перцепционной шкалы MEL [Zwi], используя всечастотный фильтр вместо обычной единичной задержки. Фиксированное значение 0,31 для коэффициента перекоса используют при частоте выборки кодера 8 кГц. Этот подход был дополнительно развит так, что включает в себя ядро кодирования КЛПР для представления сигнала возбуждения в [KTK95], снова используя фиксированное значение 0,31 для коэффициента перекоса при частоте выборки кодера 8 кГц.
Даже при том, что авторы заявляют хорошие рабочие характеристики предложенной схемы, при кодировании речи в предшествующем уровне техники не используют технологию предикативного кодирования с перекосом.
Известны другие комбинации кодирования ЛПК и КЛПР с перекосом, например [HLM99], в которых коэффициент перекоса 0,723 используют при частоте выборки 44,1 кГц.
[TMK94] K. Tokuda, H. Matsumura, T. Kobayashi and S. Imai, "Speech coding based on adaptive mel-cepstral analysis," Proc. IEEE ICASSP'94, pp.197-200, Apr. 1994.
[KTK95] K. Koishida, K. Tokuda, T. Kobayashi and S. Imai, "CELP coding based on mel-cepstral analysis," Proc. IEEE ICASSP'95, pp.33-36, 1995.
[HLM99] Aki Harma, Unto K. Laine, Matti Karjalainen, "Warped low-delay КЛПР for wideband audio coding", 17th International AES Conference, Florence, Italy, 1999.
[VM06] Peter Vary, Rainer Martin, "Digital Speech Transmission: Enhancement, Coding and Error Concealment", published by John Wiley & Sons, LTD, 2006, ISBN 0-471-56018-9.
Обобщенное ЛПК кодирование с перекосом
Идея кодирования речи по шкале частот с перекосом была дополнительно развита в следующие годы. В частности, было отмечено, что полный обычный перекос спектрального анализа в соответствии с перцепционной шкалой частоты может быть не соответствующим для достижения наилучшего возможного качества при кодировании речевых сигналов. Поэтому в [KTK96] был предложен Мел-обобщенный кепстральный анализ, который позволяет плавно регулировать характеристики спектральной модели между ранее предложенным мел-кепстральным анализом (с полностью перекошенной частотной шкалой и кепстральным анализом), и характеристиками традиционной модели ЛПК (с однородной шкалой частот и моделью с одними полюсами огибающей спектра сигнала). В частности, предложенный обобщенный анализ имеет два параметра, которые управляют этими характеристиками:
• параметр γ, -1≤γ≤0 постепенно затухает между кепстральным типом и ЛПК типом анализа, где γ=0 соответствует анализу кепстрального типа, и γ = -1 соответствует анализу типа ЛПК.
• параметр α, |α|<1 представляет собой коэффициент перекоса. Значение α=0 соответствует полностью однородной шкале частот (такой, как в стандартном ЛПК), и значение α = 0,31 соответствует полностью перцепционному перекосу частот.
Ту же концепцию применяли для кодирования речи по всей полосе (при частоте выборки 16 кГц) в [KHT98]. Следует отметить, что рабочую точку (γ; α), для такого обобщенного анализа выбирают априори, и она не изменяется с течением времени.
[KTK96] K. Koishida, K. Tokuda, T. Kobayashi and S. Imai, "CELP coding system based on mel-generalized cepstral analysis," Proc. ICSLP'96, pp. 318-321, 1996.
[KHT98] K. Koishida, G. Hirabayashi, K. Tokuda, and T. Kobayashi, "A wideband CELP speech coder at 16 kbit/s based on mel-generalized cepstral analysis," Proc. IEEE ICASSP'98, pp. 161-164, 1998.
Структура, содержащая как фильтр кодирования, так и два альтернативных ядра кодирования, была описана ранее в литературе ("WB-AMR + Кодер" [BLS05]). При этом отсутствует какое-либо представление об использовании фильтра с перекосом, или даже фильтра с изменяющимися по времени характеристиками перекоса.
[BLS05] B. Bessette, R. Lefebvre, R. Salami, "UNIVERSAL SPEECH/AUDIO CODING USING HYBRID ACELP/TCX TECHNIQUES," Proc. IEEE ICASSP 2005, pp. 301-304, 2005.
Недостаток всех этих методик предшествующего уровня техники состоит в том, что все они специально разработаны для конкретного алгоритма аудиокодирования. Любой речевой кодер, использующий фильтры с перекосом, оптимально адаптирован для речевых сигналов, но приводит к компромиссам, когда требуется кодировать общие звуковые сигналы, такие как сигналы музыки.
С другой стороны, общие аудиокодеры оптимизированы для того, чтобы идеально скрывать шум квантования ниже порога маскирования, то есть оптимально адаптированы для выполнения снижения несоответствия. С этой целью, они имеют функцию учета неравномерной разрешающей способности по частоте механизма слуха человека. Однако, учитывая тот факт, что они являются обобщенными аудиокодерами, они не могут, в частности, использовать какое-либо априорное знание определенного вида в структуре сигнала, которая могла бы стать основой для получения очень низких скоростей передачи битов, известных, например, из речевых кодеров.
Кроме того, большое количество речевых кодеров представляют собой кодеры в области времени, использующие фиксированные и переменные кодовые книги, в то время как большая часть общих аудиокодеров являются, учитывая проблему порога маскирования, который представляет собой меру частоты, кодерами на основе гребенки фильтров таким образом, что становится чрезвычайно проблематично эффективно вводить оба кодера в общие рамки кодирования/декодирования, хотя также существуют общие аудиокодеры, основанные на области времени.
Сущность изобретения
Задача настоящего изобретения состоит в том, чтобы получить улучшенную концепцию кодирования общего назначения, обеспечивающую высокое качество и низкую скорость передачи битов не только для специфичных структур сигнала, но и даже для общих аудиосигналов.
В соответствии с первым аспектом настоящего изобретения эта задача решается с помощью аудиокодера, предназначенного для кодирования аудиосигнала, содержащего предварительный фильтр для генерирования предварительно фильтрованного аудиосигнала, причем предварительный фильтр имеет переменную характеристику перекоса, причем характеристикой перекоса можно управлять в ответ на изменяющийся по времени сигнал управления, сигнал управления указывает малую характеристику перекоса или ее отсутствие, или относительно высокую характеристику перекоса; контроллер для предоставления изменяющегося по времени сигнала управления, причем изменяющийся по времени сигнал управления зависит от аудиосигнала; и управляемый процессор кодирования, предназначенный для обработки предварительно фильтрованного аудиосигнала, для получения кодированного аудиосигнала, в котором процессор кодирования выполнен с возможностью обработки предварительно фильтрованного аудиосигнала в соответствии с первым алгоритмом кодирования, адаптированным для специфичной структуры сигнала, или в соответствии со вторым другим алгоритмом кодирования, пригодным для кодирования общего аудиосигнала.
Предпочтительно, процессор кодирования выполнен с возможностью его управления контроллером таким образом, что фильтруемую часть аудиосигнала обрабатывают с использованием сравнительно высокой характеристики перекоса, используя второй алгоритм кодирования для получения кодированного сигнала, и аудиосигнал, фильтруемый с использованием малой характеристики перекоса или при ее отсутствии, обрабатывают, используя первый алгоритм кодирования.
В соответствии с дополнительным аспектом настоящего изобретения эта цель достигается с помощью аудиодекодера для декодирования кодированного аудиосигнала, причем кодированный аудиосигнал имеет первую часть, кодированную в соответствии с первым алгоритмом кодирования, адаптированным для специфичной структуры сигнала, и имеет вторую часть, кодированную в соответствии с другим, вторым алгоритмом кодирования, пригодным для кодирования общего аудиосигнала, содержащим: детектор для детектирования алгоритма кодирования, использовавшегося в первой части или во второй части; процессор декодирования для декодирования в ответ на результат детектора первой части, используя первый алгоритм кодирования, для получения первой части декодированного времени и для декодирования второй части, используя второй алгоритм кодирования, для получения второй декодированной части времени; и постфильтр, имеющий переменную характеристику перекоса, управляемый между первым состоянием, в котором используется малая характеристика перекоса, или перекос отсутствует, и вторым состоянием, имеющим относительно высокую характеристику перекоса.
Предпочтительно, постфильтром управляют таким образом, что первую декодированную часть времени фильтруют, используя малую характеристику перекоса или без перекоса, и вторую декодированную часть времени фильтруют, используя сравнительно высокую характеристику перекоса.
В соответствии с дополнительным аспектом настоящего изобретения эта цель достигается с помощью аудиопроцессора для обработки аудиосигнала, содержащего: фильтр генерирования фильтрованного аудиосигнала, причем фильтр имеет переменную характеристику перекоса, характеристикой перекоса управляют в соответствии с изменяющимся во времени сигналом управления, сигнал управления обозначает малую характеристику перекоса или отсутствие перекоса, или сравнительно высокую характеристику перекоса; и контроллер для получения изменяющегося по времени сигнала управления, причем изменяющийся по времени сигнал управления зависит от аудиосигнала.
Дополнительные аспекты настоящего изобретения относятся к соответствующим способам кодирования, декодирования и обработки аудиоданных, а также к соответствующим компьютерным программам и кодированным аудиосигналам.
Настоящее изобретение основано на определении того, что предварительный фильтр, имеющий переменную характеристику перекоса на стороне кодера аудиоданных, представляет собой основное свойство интегрирования различных алгоритмов кодирования в рамках одного кодера. Эти два разных алгоритма кодирования отличаются друг от друга. Первый алгоритм кодирования адаптирован к специфичной структуре сигнала, такой как речевые сигналы, но также к любым другим специфичным гармоническим структурам, при этом структуры, имеющие определенную высоту звука, или переходные структуры представляют собой возможный вариант, в то время как второй алгоритм кодирования выполнен с возможностью кодирования общего аудиосигнала. Предварительный фильтр на стороне кодера или постфильтр на стороне декодера позволяют интегрировать специфичный для сигнала модуль кодирования и общий модуль кодирования в пределах структуры одного кодера/декодера.
Обычно вход для общего модуля аудиокодера или специфичного для сигнала модуля кодера можно обрабатывать с перекосом в большей или меньшей степени или можно пропускать без такой обработки. Это зависит от специфичного сигнала и варианта воплощения модулей кодера. Таким образом, взаимосвязь, в соответствии с которой характеристика фильтра с перекосом принадлежит соответствующему модулю кодирования, можно передать с помощью сигналов. В нескольких случаях результат может состоять в том, что более сильная характеристика перекоса принадлежит общему аудиокодеру и более легкая характеристика перекоса или отсутствие принадлежит модулю, специфичному для сигнала. Такая ситуация в некоторых вариантах воплощения может быть установлена фиксировано или может устанавливаться в результате динамической передачи сигналов в модуль кодера для определенной части сигнала.
В то время как алгоритм кодирования, адаптированный для специфичных структур сигнала, обычно не сильно зависит от использования порога маскирования, для уменьшения несоответствия для такого алгоритма кодирования не обязательно требуется какая-либо предварительная обработка перекоса или требуется только "мягкая" предварительная обработка перекоса. Это означает, что первый алгоритм кодирования, адаптированный для специфичной структуры сигнала, предпочтительно, использует априорную информацию о специфичной структуре сигнала, но не основывается в такой степени на пороговом значении маскирования и поэтому не требуется подхода, связанного с неоднородной разрешающей способностью по частоте механизма слуха человека. Разрешающая способность с неоднородной частотой механизма слуха человека отражается полосами коэффициента масштабирования, имеющими различными полосы пропускания вдоль шкалы частот. Такая неоднородная шкала частот также известна как шкала барков (BARK) или ERB.
Обработка и формирование шумов с использованием неоднородной разрешающей способности по частоте необходимы только, когда алгоритм кодирования сильно зависит от уменьшения несоответствия в результате использования концепции порога маскирования, но не уменьшается для специфичного алгоритма кодирования, который адаптирован для специфичной структуры сигнала и в котором используется априорное знание для обеспечения высокоэффективной обработки, такое как специфичная структура сигнала. Фактически, любая обработка с перекосом неоднородной частоты может оказать отрицательное влияние на эффективность такого алгоритма кодирования, адаптированного к конкретной структуре сигнала, поскольку такой перекос будет оказывать влияние на конкретную структуру сигнала, которая, вследствие того факта, что первый алгоритм кодирования сильно оптимизирован для специфичной структуры сигнала, может привести к сильной деградации эффективности кодирования первого алгоритма кодирования.
В отличие от этого второй алгоритм кодирования может производить приемлемую выходную скорость передачи битов вместе с приемлемым качеством звука только, когда применяют любую меру, которая учитывает неоднородную разрешающую способность по частоте механизма слуха человека таким образом, что оптимальное преимущество может быть получено, используя порог маскирования.
Поскольку аудиосигнал может включать в себя специфичные структуры сигнала, после которых следует общий звук, то есть сигнал, не имеющий такой специфичной структуры сигнала или имеющий эту специфичную структуру сигнала только в малой степени, предварительный фильтр в соответствии с изобретением осуществляет перекос только в сильной степени, когда есть часть сигнала, не имеющая определенной структуры сигнала, когда имеется часть сигнала, не имеющая такую специфичную структуру сигнала, в то время как для сигнала, не имеющего специфичной структуры сигнала, перекос не применяется вообще или применяется только малый перекос.
В частности, для случая, когда первый алгоритм кодирования представляет собой любой алгоритм кодирования, основанный на линейном предикативном кодировании, и когда второй алгоритм кодирования представляет собой общий аудиокодер на основе архитектуры предварительного фильтра/постфильтра, предварительный фильтр может выполнять различные задачи, используя один и тот же фильтр. Когда аудиосигнал имеет специфичную структуру сигнала, предварительный фильтр работает как фильтр анализа ЛПК таким образом, что первый алгоритм кодирования основан только на кодировании остаточного сигнала или сигнала возбуждения ЛПК.
Когда существует часть сигнала, которая не имеет специфичной структуры сигнала, предварительным фильтром управляют так, чтобы он имел сильную характеристику перекоса и, предпочтительно, чтобы он выполнял ЛПК фильтрацию на основе психоакустического порога маскирования таким образом, чтобы выходной сигнал после предварительной фильтрации был отфильтрован фильтром с перекосом частоты, и таким образом, чтобы с точки зрения психоакустики более важные части спектра были усилены относительно психоакустически менее важных частей спектра. Затем можно использовать прямой модуль квантователь или, в общем случае, квантование во время кодирования может происходить без необходимости распределения неоднородности шумов кодирования по частотному диапазону в выходном сигнале фильтра с перекосом. Формирование шумов для шумов квантования автоматически происходит при выполнении постфильтрации, получаемой с помощью изменяющегося по времени фильтра с перекосом на стороне декодера, который является (относительно характеристики перекоса) идентичным предварительному фильтру на стороне кодера и, учитывая тот факт, что этот фильтр представляет собой обратный фильтр для фильтра предварительного фильтрования на стороне декодера, автоматически обеспечивается формирование шумов для получения максимального уменьшения несоответствия, при поддержании высокого качества звука.
Краткое описание чертежей
Предпочтительные варианты воплощения настоящего изобретения поясняются ниже со ссылкой на прилагаемые чертежи, на которых:
на фиг.1 показана блок-схема предпочтительного аудиокодера;
на фиг.2 показана блок-схема предпочтительного аудиодекодера;
на фиг.3a схематично представлен кодированный аудиосигнал;
на фиг.3b схематично представлена вспомогательная информация для первой и/или второй части времени по фиг.3a;
на фиг.4 представлен предварительный фильтр и постфильтр КИХ предшествующего уровня техники, которые пригодны для использования в настоящем изобретении;
на фиг.5 иллюстрируется характеристика перекоса фильтра, зависящая от коэффициента перекоса;
на фиг.6 иллюстрируется аудиопроцессор в соответствии с изобретением, имеющий линейный фильтр с изменяющейся по времени характеристикой перекоса и контроллер;
на фиг.7 иллюстрируется предпочтительный вариант воплощения аудиокодера в соответствии с изобретением;
на фиг.8 иллюстрируется предпочтительный вариант воплощения аудиодекодера в соответствии с изобретением;
на фиг.9 иллюстрируется алгоритм кодирования гребенки фильтров на основе предшествующего уровня техники, имеющий кодер и декодер;
на фиг.10 иллюстрируется алгоритм кодирования звука на основе предварительного/постфильтра предшествующего уровня техники, имеющих кодер и декодер; и
на фиг.11 иллюстрируется алгоритм кодирования ЛПК предшествующего уровня техники, имеющего кодер и декодер.
Подробное описание изобретения
Предпочтительные варианты воплощения настоящего изобретения обеспечивают единый способ, который позволяет кодировать как общие аудиосигналы, так и речевые сигналы с характеристикой кодирования, которая, по меньшей мере, соответствует требуемым характеристикам хорошо известных схем кодирования для обоих типов сигналов. Он основан на следующих основных положениях.
• Для кодирования общих аудиосигналов существенно формировать огибающую спектра шумов кодирования в соответствии с кривой порога маскирования (в соответствии с идеей "перцепционного кодирования аудиоданных"), и, таким образом, желательно обеспечить перцепционно перекошенную шкалу частот. Тем не менее могут быть определенные (например, гармонические) аудиосигналы, когда однородное частотное разрешение будет работать лучше, чем перцепционно перекошенная характеристика, поскольку первая обеспечивает лучшее частотное разрешение индивидуальной тонкой спектральной структуры сигналов.
• Для кодирования речевых сигналов характеристика кодирования предшествующего уровня техники может быть достигнута с помощью регулярного (без перекоса) линейного прогнозирования. Могут существовать определенные речевые сигналы, для которых некоторая величина перекоса улучшает характеристики кодирования.
В соответствии с изобретательской идеей эта дилемма решается с помощью системы кодирования, которая включает в себя фильтр кодера, который может плавно регулировать свои характеристики между работой с полным перекосом, как, в общем, предпочтительно для кодирования музыкальных сигналов, и работой без перекоса, как, в общем, предпочтительно для кодирования речевых сигналов. В частности, предложенный изобретательный подход включает в себя линейный фильтр с переменным по времени коэффициентом перекоса. Этим фильтром управляют с помощью отдельного входа, на который поступает требуемый коэффициент перекоса и который соответствующим образом модифицируют работу фильтра.
Работа такого фильтра позволяет фильтру действовать как модель кривой маскирования (постфильтр для кодирования музыки, при включенном перекосе λ=λ0), и как модель огибающей спектра сигнала (Обратный фильтр ЛПК для кодирования речи при выключенном перекосе λ=0), в зависимости от входного сигнала управления. Если фильтр в соответствии с изобретением будет выполнен с возможностью обработки также континуума промежуточных значений коэффициентов перекоса 0≤λ≤λ0, тогда, кроме того, также возможен плавный интервал переключения характеристик.
Естественно, что механизм обратной фильтрации декодера оборудован аналогично, то есть он представляет собой линейный фильтр декодера с изменяющимся по времени коэффициентом перекоса, и может действовать как перцепционный предварительный фильтр, а также как фильтр ЛПК.
Для генерирования фильтрованного сигнала с хорошим поведением для последующего кодирования желательно не выполнять мгновенное переключение между двумя разными значениями коэффициента перекоса, но применять мягкий переход коэффициента перекоса с течением времени. В качестве примера, переход из 128 выборок между работой без перекоса и работой с полным перцепционным перекосом позволяет исключить нежелательные разрывы выходного сигнала.
Используя такой фильтр с переменным изменением перекоса, становится возможным построить комбинированный кодер речи/звука, который обеспечивает как оптимальное качество кодирования речи, так и звука следующим образом (см. фиг.7 или 8).
• Решение о режиме кодирования, который должен использоваться ("режим речи" или "режим музыки"), принимают в отдельном модуле, осуществляя анализ входного сигнала, и оно может быть основано на известных методиках дискриминации речевых сигналов и музыки. В результате модуль принятия решения формирует решение о режиме кодирования и соответствующем оптимальном коэффициенте перекоса для фильтра. Кроме того, в зависимости от этого решения он определяет набор соответствующих коэффициентов фильтра, которые соответствуют входному сигналу при выбранном режиме кодирования, то есть для кодирования речи выполняют анализ ЛПК (без перекоса, или c малым значением коэффициента перекоса), тогда как для кодирования музыки выполняют оценку кривой маскирования, и ее обратную величину преобразуют в спектральные коэффициенты с перекосом.
• Фильтр с изменяющейся по времени характеристикой перекоса используют как общий фильтр кодера/декодера и применяют к сигналу в зависимости от решения о режиме кодирования/ коэффициенте перекоса и наборе коэффициентов фильтра, принятого модулем принятия решения.
• Выходной сигнал этапа фильтрации кодируют либо используя ядро речевого кодирования (например, кодер КЛПР), или используя обобщенное ядро аудиокодера (например, кодер типа гребенка фильтров/подполоса, или предикативный аудиокодер), или оба эти подхода, в зависимости от режима кодирования.
• Информация, предназначенная для передачи/сохранения, содержит решение о режиме кодирования (или показатель коэффициента перекоса), коэффициенты фильтра в некоторой кодированной форме, и информацию, переданную кодером речи/возбуждения и или общим аудиокодером.
Соответствующий декодер работает соответствующим образом: он принимает переданную информацию, декодирует части речи и части общих аудиоданных в соответствии с информацией режима кодирования, комбинирует их в один промежуточный сигнал (например, путем их суммирования) и фильтрует этот промежуточный сигнал, используя режим кодирования/коэффициент перекоса и коэффициенты фильтра для формирования конечного выходного сигнала.
Далее, со ссылкой на фиг.1, будет описан предпочтительный вариант воплощения аудиокодера в соответствии с изобретением. На фиг.1 показан аудиокодер, который работает для кодирования аудиосигнала, подаваемого по линии 10. Аудиосигнал подают в предварительный фильтр 12 для генерирования предварительно фильтрованного аудиосигнала, появляющегося в линии 14. Предварительный фильтр имеет переменную характеристику перекоса, причем характеристикой перекоса управляют в ответ на изменяющийся по времени сигнал управления в линии 16. Сигнал управления обозначает малую характеристику перекоса или отсутствие такой характеристики, или сравнительно высокую характеристику перекоса. Таким образом, сигнал управления изменяющегося