Аудиокодер для кодирования аудиосигнала, имеющего импульсоподобную и стационарную составляющие, способы кодирования, декодер, способ декодирования и кодированный аудиосигнал

Иллюстрации

Показать все

Изобретение относится к кодированию источников, в частности к кодированию источников звука, при котором аудиосигнал обрабатывается, по меньшей мере, двумя различными аудиокодерами, использующими два различных алгоритма кодирования. Техническим результатом является повышение эффективности и качества кодирования звука. Указанный технический результат достигается тем, что аудиокодер для кодирования аудиосигнала (8), имеющего импульсную составляющую и стационарную составляющую, включает селектор импульсов (10), предназначенный для выделения из аудиосигнала импульсной составляющей, имеющий в своем составе кодер импульсов для кодирования импульсных составляющих с формированием кодированных импульсных сигналов; кодер сигналов (16), предназначенный для кодирования разностного сигнала, выделенного из аудиосигнала, с формированием кодированного разностного сигнала (20), извлеченного из аудиосигнала таким образом, что импульсная составляющая сокращается или удаляется из данного аудиосигнала; и выходной интерфейс (22), предназначенный для вывода кодированного импульсного сигнала (12) и кодированного разностного сигнала (20) с формированием кодированного сигнала (24). Импульсный кодер импульсов сконфигурирован таким образом, что не кодирует импульсный сигнал в случае, когда селектор импульсов не способен обнаружить импульсную составляющую сигнала. 7 н. и 26 з.п. ф-лы, 35 ил.

Реферат

Настоящее изобретение относится к кодированию источников, в частности к кодированию источников звука, при котором аудиосигнал обрабатывается, по меньшей мере, двумя различными аудиокодерами, использующими два различных алгоритма кодирования.

В области технологии низкоскоростного кодирования звуковых и речевых сигналов традиционно используют ряд подходов, дающих проверенный максимально высокий по качеству акустики результат для каждой скорости передачи двоичных данных. Кодеры обычных музыкальных/звуковых сигналов предназначаются для оптимизации субъективно оцениваемого качества путем формирования спектральной (и временной) геометрии ошибки квантования в зависимости от кривой порога маскирования, которую оценивают на основании входного сигнала с помощью перцепционной модели ("перцепционное аудиокодирование"). Вместе с тем, как показала практика, кодирование речи на очень низких битрейтах весьма эффективно, когда оно базируется на модели воспроизведения человеческой речи, то есть на использовании кодирования с линейным предсказанием (LPC) для моделирования резонансных эффектов речевого тракта человека в комплексе с продуктивным кодированием остаточного/возбуждаемого сигнала.

Эти два разных подхода с применением обычных аудиокодеров (формата MPEG-1, уровня 3, или формата усовершенствованного аудиокодирования MPEG-2/4, ААС), как правило, для голосовых сигналов при очень низких скоростях передачи данных не дают такой же положительный результат, как специализированные речевые LPC-кодеры, из-за того что при этом не используется модель источника речи. И, наоборот, линейно-предикативные кодеры речи в большинстве случаев не дают должных результатов при приложении к обычным музыкальным сигналам из-за неспособности гибко формировать огибающую спектра искажения кодирования в соответствии с кривой порога маскирования. Далее представлены варианты реализации концепции объединения преимуществ аудиокодирования на основе LPC и аудиокодирования на основе чувственного восприятия в унифицированную систему кодирования общих звуковых и речевых сигналов.

Традиционно в аудиокодерах перцепционного типа используют банки фильтров, помогающие эффективно кодировать аудиосигналы и формировать шумы квантования в соответствии с оцениваемой кривой маскирования.

На фиг.16а представлена блок-схема базовой монофонической перцепционной системы кодирования. Банк фильтров анализа 1600 предназначен для отображения отсчетов временной области в виде спектральных составляющих. В зависимости от числа спектральных составляющих систему можно также назвать кодером поддиапазонов (при небольшом количестве поддиапазонов, например 32) или кодером-преобразователем (при большом количестве частотных линий, например 512). Перцепционная ("психоакустическая") модель 1602 предназначена для оценки фактического порога маскирования с временной зависимостью. Спектральные составляющие ("поддиапазона" или "частотной области") квантуются и кодируются на шаге 1604 таким образом, что шум квантования скрыт за реально передаваемым сигналом, и не воспринимается после декодирования. Это достигается варьированием глубины квантования спектральных величин по времени и частоте.

Спектральные коэффициенты и значения поддиапазонов после квантования или энтропийного кодирования вводятся вместе с сопутствующей информацией в форматер битстрима 1606, формирующий кодированный аудиосигнал, готовый для передачи или сохранения в памяти. Битстрим на выходе элемента 1606 может быть передан через Интернет или сохранен на любом машиночитаемом носителе информации.

Закодированный битстрим поступает на интерфейс ввода данных декодера 1610. Блок 1610 отделяет прошедшие энтропийное кодирование и квантованные значения спектра/поддиапазона от побочной информации. Кодированные параметры спектра вводятся в энтропийный декодер, например декодер Хаффмана, расположенный между 1610 и 1620. Выходные данные энтропийного декодера представляют собой квантованные значения спектра. Эти квантованные спектральные величины вводятся в реквантователь, который выполняет "обратное" квантование, что показано в виде элемента 1620 на фиг.16а. Выходные данные элемента 1620 поступают в банк фильтров синтеза 1622, который выполняет синтез-фильтрование, включающее в себя частотно-временное преобразование и, как правило, операцию устранения эффекта наложения во временной области, такого как перекрытие, и операцию сложения и/или оконного преобразования синтезирования, для получения в итоге выходного аудиосигнала.

На фиг.16b, 16c представлен принцип кодирования, альтернативный перцепционному принципу кодирования на фиг.16a, полностью основанному на использовании банков фильтров, отличающийся тем, что со стороны кодера применен предварительный фильтр (предфильтр), а со стороны декодера применен последующий фильтр (постфильтр).

В публикации (В.Edler, G.Schuller: "Audio coding using a psychoacoustic pre- and post-filter", ICASSP 2000, Volume 2, 5-9 June 2000 Page(s): II881-II884 vol.2) был предложен аудиокодер перцепционного типа, в котором разделение аспектов устранения несущественной информации (то есть ограничение шума по перцептивным критериям) и устранение избыточности (то есть получение математически более сжатого представления информации) путем использования так называемого предварительного фильтра (предфильтра) вместо переменного квантования спектральных коэффициентов по частоте. Этот принцип проиллюстрирован на фиг.16B. Входной сигнал анализируется перцепционной моделью 1602 для оценочного расчета кривой порога маскирования по частоте. Пороговое значение маскирования преобразовывается в набор коэффициентов предварительного фильтра так, что диапазон его частотных характеристик обратно пропорционален пороговому значению маскирования. В процессе предфильтрации этот набор коэффициентов применяется к входному сигналу для получения выходного сигнала, в котором все частотные составляющие представлены в соответствии с их перцепционным значением ("перцепционное отбеливание"). Далее этот сигнал кодируется аудиокодером 1632 любого типа, который производит "белый" шум квантования, то есть не задействует никакие средства ограничения воспринимаемого шума. Транслируемый/сохраняемый аудиосигнала содержит как поток битов кодера, так и кодированную версию коэффициентов предфильтрования. С помощью декодера (1634) на фиг.16С битовый поток кодера расшифровывается как перцептивно отбеленный аудиосигнал, который содержит аддитивный белый шум квантования. Затем этот сигнал проходит процесс постфильтрования 1640 в соответствии с полученными коэффициентами фильтрации. Так как осуществляемая постфильтром функция обратного фильтрования аналогична функции предварительного фильтра, он реконструирует из перцептивно отбеленного сигнала первоначальный входной аудиосигнал. Аддитивный белый шум квантования, формируемый постфильтром, подобен кривой маскирования и, таким образом, на выходе декодера имеет сенсорную окраску, что и требуется.

Поскольку при подобной компоновке снижение слышимых помех достигается за счет пред-/пост-фильтрации, а не за счет частотно-зависимого квантования спектральных коэффициентов, подход в целом может быть объединен путем использования для представления аудиосигнала, прошедшего предварительное фильтрование, метода кодирования без применения банков фильтров, а не аудиокодера на базе банков фильтров. В (G.Schuller, B.Yu, D.Huang, and B.Edler, "Perceptual Audio Coding using Adaptive Pre- and Post-Filters and Lossless Compression", IEEE Transactions on Speech and Audio Processing, September 2002, pp.379-390) такой подход представлен для ядра кодирования во временной области с использованием прогностического и энтропийного кодирования.

Для желаемого ограничения спектра шумов способом пред-/пост-фильтрации необходимо, чтобы разрешающая способность пред-/постфильтра по частоте была адаптирована к частотному разрешению слуховой системы человека. В идеале разрешение по частоте должно соответствовать известным перцепционным частотным шкалам, таким как BARK или ERB (Zwicker, E. and Н.Fastl, "Psychoacoustics, Facts and Models", Springer Verlag, Berlin).

Это особенно важно для минимизации порядка модели пред-/постфильтра и, следовательно, снижения соотнесенной вычислительной сложности и скорости передачи протокольной информации.

Адаптация частотного разрешения пред-/постфильтра может быть достигнута применением известной концепции неравномерного частотного распределения (M.Karjalainen, A.Härmä, U.K.Laine, "Realizable warped IIR filters and their properties", IEEE ICASSP 1997, pp.2205-2208, vol.3). По существу единичные задержки в структуре фильтра замещаются всепропускающими фильтрами (первого или более высокого порядка), что в результате дает неравномерную деформацию ("неравномерное распределение") частотной характеристики фильтра. Было показано, что даже при использовании всепропускающего фильтра первого порядка, например

,

благодаря надлежащему подбору частотно независимых коэффициентов, возможна весьма точная аппроксимация перцептуальных частотных шкал (J.O.Smith, J.S.Abel, "Bark and ERB Bilinear Transforms", IEEE Transactions on Speech and Audio Processing, Volume 7, Issue 6, Nov. 1999, pp.697-708). В силу этого в наиболее известных системах для неравномерного частотного распределения не применяются всепропускающие фильтры более высокого порядка. Поскольку всепропускающий фильтр первого порядка полностью определяется одним скалярным параметром (именуемым далее "фактор неравномерности" - 1<λ<1), что и определяет деформацию частотной шкалы. В частности, для фактора неравномерности λ=0 деформация не эффективна, то есть фильтр работает на нормальной шкале частот. Чем выше фактор неравномерности, тем больше частотное разрешение смещение в низкочастотную область спектра (из-за необходимости аппроксимации перцептуальной частотной шкалы) и тем дальше находится от высокочастотного участка спектра.

При применении пред-/постфильтра со смещением разрешения по частоте в аудиокодерах чаще всего используют порядок фильтра между 8 и 20 при стандартных частотах дискретизации в пределах 48 кГц или 44,1 кГц (S.Wabnik, G.Schuller, U.Krämer, J.Hirschfeld, "Frequency Warping in Low Delay Audio Coding", IEEE International Conference on Acoustics, Speech, and Signal Processing, March 18-23, 2005, Philadelphia, PA, USA).

Описаны также некоторые другие случаи фильтрования со смещением частотного разрешения, например, при имитации импульсных характеристик помещения (Härmä, Aki; Karjalainen, Matti; Savioja, Lauri; Välimäki, Vesa; Laine, Unto K.; Huopaniemi, Jyri, "Frequency-Warped Signal Processing for Audio Applications", Journal of the AES, Volume 48 Number 11 pp.1011-1031; November 2000) и параметрическом моделировании шумовой составляющей в аудиосигнале (под эквивалентным названием фильтрация Лагуерре/Кауца (Laguerre/Kauz)) (E.Schuijers, W.Oomen, В.den Brinker, J.Breebaart, "Advances in Parametric Coding for High-Quality Audio", 114th Convention, Amsterdam, The Netherlands 2003, preprint 5852).

Традиционно эффективное кодирование речи базировалось на линейно-предиктивном кодировании (LPC-кодирование) с моделированием резонансных эффектов человеческого голосового тракта совместно с продуктивным кодированием остаточного/инициирующего сигнала. Параметры LPC-кодирования и возбуждения транслируются от кодера к декодеру. Этот принцип иллюстрируется на фиг.17А и 17B.

На фиг.17а показан кодер линейно-прогностической кодек-системы. Входной речевой сигнал вводится в LPC-анализатор 1701, на выходе которого формируются коэффициенты фильтра кодирования с линейным предсказанием. На основании этих коэффициентов LPC-фильтрации производится настройка LPC-фильтра 1703. LPC-фильтр дает на выходе аудиосигнал отбеленного спектра, называемый также "сигналом ошибки предсказания". Этот спектрально отбеленный звуковой сигнал вводится в кодер остаточного возбуждения 1705, который генерирует параметры возбуждения. Таким образом, входной речевой сигнал кодируется в виде параметров возбуждения, с одной стороны, и в виде коэффициентов кодирования с линейным предсказанием, с другой стороны.

Далее, как показано на фиг.17B, параметры возбуждения вводятся в декодер возбуждения 1707, генерирующий сигнал возбуждения, который может быть введен в обратный фильтр кодирования с линейным предсказанием. Настройка обратного LPC-фильтра выполняется с использованием переданных коэффициентов LPC-фильтра. Таким образом, инверсный LPC-фильтр 1709 генерирует реконструируемый или синтезируемый выходной голосовой сигнал.

Длительное время предлагались различные методы эффективной и достоверной передачи остаточного (возбуждающего) сигнала, такие как многоимпульсное возбуждение (МРЕ), регулярное импульсное возбуждение (RPE) и линейное предсказание с кодовым возбуждением (CELP).

С помощью кодирования с линейным предсказанием делается попытка оценки текущей величины отсчета последовательности на основании отслеживания и линейного объединения некоторого числа величин прошлых измерений. Для ограничения избыточности входного сигнала LPC-фильтр кодера "отбеливает" входной сигнал в пределах огибающей его спектра, то есть представляет собой инверсную модель огибающей спектра сигнала. И наоборот, LPC-фильтр декодера является моделью огибающей спектра сигнала. В частности, хорошо известен авторегрессивный линейный прогнозирующий анализ, моделирующий огибающую спектра сигнала с помощью полюсной аппроксимации.

Как правило, узкополосные речевые кодеры (то есть речевые кодеры с частотой дискретизации 8 kHz), используют LPC-фильтры с порядком между 8 и 12. Благодаря конструктивным особенностям LPC-фильтра равномерное частотное разрешение эффективно во всем диапазоне частот. Это не соответствует шкале перцептивных частот. Некоторые публикации, обращая внимание на то, что неравномерная чувствительность по частоте при применении методов с деформированной частотной осью дает преимущества и при кодировании речи, предлагают заменить равномерный LPC-анализ неравномерным анализом с предсказанием, например (K.Tokuda, H.Matsumura, T.Kobayashi and S.Imai, "Speech coding based on adaptive mel-cepstral analysis," Proc. IEEE ICASSP′94, pp.197-200, Apr. 1994; K.Koishida, K.Tokuda, T.Kobayashi and S.Imai, "CELP coding based on mel-cepstral analysis," Proc. IEEE ICASSP′95, pp.33-36, 1995). Известны и другие варианты комбинирования неравномерного LPC-кодирования и CELP-кодирования (линейно-предиктивного кодирования с кодовым возбуждением, например (Aki Härmä, Unto K.Laine, Matti Karjalainen, "Warped low-delay CELP for wideband audio coding", 17th International AES Conference, Florence, Italy, 1999).

С целью объединения преимуществ традиционного LPC/CELP метода кодирования (оптимального для голосовых сигналов) и аудиокодирования на базе традиционного перцептуального подхода с использованием банков фильтров (оптимального для музыки) предлагается способ комбинированного кодирования, объединяющий эти два решения. В (B.Bessette, R.Lefebvre, R.Salami, "UNIVERSAL SPEECH/AUDIO CODING USING HYBRID ACELP/TCX TECHNIQUES," Proc. IEEE ICASSP 2005, pp.301-304, 2005) представлен кодер AMR-WB+, в котором два альтернативных ядра кодирования обрабатывают остаточный (разностный) сигнал кодирования с линейным предсказанием (LPC-сигнал). Одно базируется на методе ACELP (линейного предсказания с возбуждением алгебраическим кодом) и, следовательно, весьма эффективно для кодирования речевых сигналов. Второе ядро кодирования базируется на технологии ТСХ (возбуждение, управляемое кодом преобразования), то есть на методе кодирования с применением банков фильтров, напоминающем традиционные алгоритмы кодирования звука, дающие хорошее качество музыкальных сигналов. В зависимости от характеристик входных сигналов на короткий отрезок времени выбирается один из этих двух режимов кодирования для передачи остаточного сигнала LPC. Таким образом, фреймы длительностью 80 мс могут быть разбиты на подфреймы по 40 или 20 мс, в течение которых принимается решение о выборе одного из двух режимов кодирования.

Ограниченность этого метода в том, что в его основе лежит жесткий выбор и переключение между двумя кодерами/алгоритмами кодирования с абсолютно разными характеристиками вводимого искажения кодирования. Такое резкое переключение с одного режима на другой может стать причиной раздражающего воздействия сигнала при восприятии из-за его прерывистости. В частности, при плавном переходе от голосового сигнала к музыкальному за счет взаимного наложения (например, после объявления в радиопрограмме) точка перехода может быть ощутима. Так же и при наложении речи на музыку (например, при чтении сообщения на музыкальном фоне) резкое переключение может быть различимо на слух. Следовательно, при такой компоновке проблематично получить кодер, который смог бы обеспечить плавный переход между характеристиками двух составляющих кодеров.

Недавно описан метод коммутируемого кодирования, при котором ядро кодирования с использованием банков фильтров способно работать в пределах перцептивно (с помощью чувственного восприятия) взвешенной частотной шкалы, обеспечивая плавное переключение фильтра кодера между традиционным режимом LPC (необходимым для кодирования речи на основе алгоритма CELP) и режимом со смещаемым частотным разрешением, который напоминает перцептуальное аудиокодирование, основанное на применении пред-/пост-фильтрациии, что описано для EP 1873754.

Используя фильтр с переменным неравномерным частотным распределением, можно создать гибридный кодер речи/звука, который обеспечит высокое качество кодирования речи и звука с применением конфигурации, показанной на фиг.17C.

Режим кодирования ("речевой" или "музыкальный") выбирается специальным модулем 1726, который анализирует входной сигнал и может быть осуществлен на базе известных методик распознавания голосовых и музыкальных сигналов. Модуль выбора определяет алгоритм кодирования / и соответствующий ему оптимальный коэффициент неравномерности частотного разрешения для фильтра 1722. В дополнение к этому в зависимости от выбранного режима модуль рассчитывает набор коэффициентов фильтра, удовлетворяющих входному сигналу в выбранном режиме кодирования, то есть для кодирования речи выполняется анализ LPC (без или с низким коэффициентом деформации), тогда как для кодирования музыки делается оценка кривой маскирования, и ее обратные величины преобразуются в коэффициенты спектрального искажения.

Фильтр 1722 с изменяющимися во времени характеристиками частотного деформирования используется как общий фильтр кодера/декодера и применяется к сигналу в зависимости от выбора режима кодирования/коэффициент деформации и набора коэффициентов фильтрации, рассчитанных модулем выбора.

Выходной сигнал звена фильтрации кодируется или ядром кодирования речи 1724 (например, кодером CELP), или ядром универсального аудиокодера 1726 (например, на основе банков фильтров, или предиктивный аудиокодер), или обоими в зависимости от режима кодирования.

Передаваемые/сохраняемые данные включают в себя указание на выбранный режим кодирования (или на коэффициент деформации), коэффициенты фильтров в закодированной форме и информацию, содержащуюся в речи/возбуждении и универсальном аудиокодере.

Соответствующий декодер суммирует выходные данные декодера остаточного/возбуждающего сигнала и универсального аудиодекодера, и результат фильтруется фильтром синтеза с изменяемым во времени неравномерным частотным разрешением в зависимости от режима кодирования, коэффициента неравномерности и коэффициентов фильтрации.

Однако рассмотренные выше ограничения, относящиеся к кодированию с коммутацией режимов CELP/банки фильтров, распространяются и на данную схему из-за необходимости жесткого выбора между двумя алгоритмами кодирования.

Подобная конфигурация затрудняет создание кодера, способного осуществлять плавный переход между характеристиками двух составных кодеров.

Еще один способ интегрирования ядра голосового кодирования с перцепционным аудиокодером общего назначения применяют в рамках стандарта MPEG-4 для кодирования звука с крупноступенчатым масштабированием (Grill, В., "A Bit Rate Scalable Perceptual Coder for MPEG-4 Audio", 103rd AES Convention, New York 1997, Preprint 4620) и (J.Herre, H.Purnhagen: "General Audio Coding", in F.Pereira, T.Ebrahimi (Eds.), "The MPEG-4 Book", Prentice Hall IMSC Multimedia Series, 2002. ISBN 0-13-061621-4). Принцип масштабируемого кодирования дает возможность создания конфигураций кодеков и форматов битстримов, обеспечивающих содержательное декодирование частей целого битстрима, давая на выходе сигнал с потерей качества. При этом скорость передачи/расшифровки данных может быть моментально адаптирована к текущей емкости канала без перекодирования входного сигнала.

Схема устройства аудиокодера стандарта MPEG-4 с крупноступенчатым масштабированием изображена на фиг.18 (Grill, В., "A Bit Rate Scalable Perceptual Coder for MPEG-4 Audio", 103rd AES Convention, New York 1997, Preprint 4620). Такая конфигурация включает в себя и так называемый корневой кодер 1802, и несколько уровней оптимизации на базе модуля перцептуального аудиокодирования 1804. Корневой кодер (обычно узкополосный речевой кодер) работает с меньшей частотой дискретизации, чем последующие уровни расширения. Масштабируемая комбинация этих компонентов работает по описанному ниже принципу.

Выполняется отсчет входного сигнала с понижением 1801 и его кодирование корневым кодером 1802. Образованный поток двоичных данных составляет часть корневого уровня 1804 масштабируемого битстрима. Выполняется его локальное декодирование 1806 и отсчет с повышением 1808 для достижения соответствия частоте дискретизации уровней перцептуальной адаптации, после чего он проходит банк фильтров анализа (МДКП [модифицированное дискретное косинусное преобразование]) 1810.

Во втором канале входной сигнал, компенсируемый задержкой (1812), проходит через банк фильтров анализа 1814 и используется для расчета остаточного сигнала ошибки кодирования. Разностный сигнал проходит частотно-селективное коммутационное устройство (FSS) 1816, что позволяет вернуться к исходному сигналу в пределах полосы коэффициента масштабирования, если есть возможность закодировать его более эффективно, чем разностный сигнал.

Ядро 1804 усовершенствованного метода аудиокодирования ААСС квантует/кодирует спектральные коэффициенты, подводя их к битстриму уровня оптимизации 1818. Далее могут следовать фазы усовершенствования (уровни оптимизации) путем перекодирования остаточного сигнала ошибки кодирования.

На фиг.19 показана конфигурация магистрально сопряженного масштабируемого декодера. Смешанный битовый поток делится 1902 на уровни кодирования. Далее выполняется декодирование 1904 потока двоичных данных корневого кодера (например, речевого кодера), при этом его выходной сигнал может быть выдан после дополнительной операции постфильтрации. Чтобы использовать сигнал корневого декодера в процессе масштабируемого декодирования, выполняется его отсчет с повышением 1908 до частоты дискретизации масштабируемого кодера, компенсирование задержкой 1910 относительно других уровней и декомпозиция с помощью банка фильтров анализа кодера (МДКП) 1912.

Далее битстримы более высокого уровня декодируются 1916 с применением усовершенствованного метода бесшумового декодирования ААС и обратного квантования и путем сложения 1918 всех коэффициентов спектральных составляющих. Частотно-селективное коммутирующее устройство 1920 интегрирует полученные спектральные коэффициенты с компонентой корневого уровня путем выбора их суммы или только коэффициентов, заимствуемых из уровней расширения, получаемых в виде сигналов кодера. В завершение результирующие данные преобразуются банком фильтров синтеза обратно во временную область (IMDCT) 1922.

Отличительной особенностью данной конфигурации является обязательное использование и декодирование кодера речи (корневого кодера). Если декодер имеет доступ не только к корневому уровню битстрима, но и к одному или более расширенным уровням, на этот декодер поступают также составляющие расширенных уровней аудиокодеров перцептуального типа, что обеспечивает хорошее качество неречевых/музыкальных сигналов.

Следовательно, эта масштабируемая конфигурация всегда включает в себя активный уровень, имеющий в своем составе речевой кодер, недостатком работы которого является неравноценное качество выходных речевых и звуковых сигналов.

Если входной сигнал является преимущественно речевым, перцептуальный аудиокодер уровня (уровней) оптимизации будет кодировать остаточный/разностный сигнал, который имеет свойства, отличные от свойств обычных акустических сигналов, и, следовательно, кодер такого типа будет иметь затруднения при кодировании. В качестве примера можно взять остаточный сигнал, содержащий импульсные составляющие, которые, естественно, возбуждают предэхо при кодировании перцептуальным аудиокодером, функционирующим на базе банков фильтров.

Если входной сигнал не является преимущественно речевым, для кодирования разностного сигнала часто требуется более высокий битрейт, чем для кодирования входного сигнала. В таких случаях частотно-избирательное коммутирующее устройство FSS выбирает для кодирования на уровне оптимизации исходный сигнал вместо разностного. В результате корневой уровень не участвует в формировании выходного сигнала, и битрейт корневого уровня работает вхолостую, поскольку не участвует в повышении суммарного качества. Другими словами, в таких случаях звучание результирующего сигнала бывает хуже, чем если бы весь битрейт был целиком выделен только перцептуальному аудиокодеру.

В http://www.hitech-projects.com/euprojects/ardor/summary.htm описан кодек ARDOR (адаптивный аудиокодер с оптимизацией зависимости характеристик искажения от скорости передачи).

В рамках этого проекта разработан кодек, кодирующий универсальное множество звуков с помощью наиболее адекватной комбинации моделей сигналов в зависимости от наличия ограничений и вспомогательных средств кодирования. Работа этого кодека может быть разделена на три этапа, соответствующие трем его компонентам, показанным на фиг.20.

Кодек ARDOR, базирующийся на механизме оптимизации 2004 на основе зависимости битрейта от параметров искажения, выбирает наиболее эффективный режим работы с учетом изменяющихся в реальном времени ограничений и типов входного сигнала. Для выполнения этой задачи в его распоряжении находится: свод стратегий ′субкодирования′ 2000, каждая из которых предназначена для высокоэффективного кодирования специфических составляющих входного сигнала, например тональных, шумовых или импульсных. Сопоставление битрейта и составляющих сигнала для каждой отдельной стратегии субкодирования базируется на новейшем способе измерения перцептивной дисторсии 2002, дающем критерий оценки чувственного восприятия для оптимизации взаимной зависимости битрейта и искажения. Иначе говоря, перцептуальная модель, базирующаяся на новейших сведениях о слуховой системе человека, обеспечивает для процедуры оптимизации информацию о сенсорной релевантности различных акустических составляющих. В рамках алгоритма оптимизации может, например, быть проигнорирована информация, не соответствующая параметрам восприятия. Как результат исходный сигнал не может быть восстановлен, но слуховая система не ощутит разницу.

Рассмотренные выше системы известного уровня техники подтверждают отсутствие на сегодняшний день оптимальной концепции кодирования, которая обеспечивала бы, с одной стороны, одинаково высокое качество сигналов общих звуковых частот и голосовых сигналов и, с другой стороны, низкий битрейт для всех видов сигналов. Так, методом масштабирования, описанным в контексте фиг.18 и фиг.19, введенным в стандарт MPEG-4, непрерывно обрабатывается весь аудиосигнал с использованием ядра речевого кодера при игнорировании аудиосигнала и, в частности, источника аудиосигнала. В силу этого, если акустический сигнал не является речевым, корневой кодер вносит ощутимые артефакты кодирования, и в результате частотно-селективное коммутирующее устройство (FSS) 1816 на фиг.18 обеспечит полное кодирование всего аудиосигнала с использованием ядра расширенного кодера ААС 1804. Таким образом, в этом случае в битстрим включены пустой выход речевого корневого кодера и дополнительный перцептуально закодированный вариант звукового сигнала. Это ведет не только к непроизводительному сужению полосы частот пропускания при передаче, но и к повышению неэффективного энергопотребления, что представляет отдельную проблему, когда речь идет о кодировании в устройствах мобильной связи, потребляющих энергию от элементов питания, энергоресурс которых ограничен. В основном перцепционный кодер-преобразователь игнорирует источник акустического сигнала, благодаря чему на его выходе (при умеренном битрейте) все возможные источники сигналов генерируются с малым количеством артефактов кодирования, в то время как при наличии нестационарных составляющих сигнала скорость передачи данных увеличивается, так как эффективность порога маскирования снижается по сравнению со стационарными аудиосигналами. Кроме того, в силу противоречия между временным и частотным разрешением, свойственного для преобразующих аудиокодеров, такая система кодирования представляет определенные трудности в отношении переходных или импульсных составляющих сигнала, поскольку эти элементы сигнала требуют высокой разрешающей способности по времени и не требуют высокого разрешения по частоте. При этом речевой кодер является характерным примером способа кодирования, целиком базирующегося на модели источника звука. Таким образом, речевой кодер идентичен модели источника голосовых сигналов и в силу этого предназначается для обеспечения высокоэффективного параметрического представления звуковых сигналов, имеющих источник, похожий на модель акустического источника, представленную алгоритмом кодирования. Звуки, имеющие источник, не соответствующий модели источника речевого кодера, на выходе содержат значительные артефакты или при возможности увеличения битрейта будут иметь резко возросший битрейт, значительно превышающий битрейт обычного аудиокодера. Цель данного изобретения - усовершенствованный метод кодирования звука, объединяющий в себе преимущества специализированного кодера и кодера общего назначения с максимально возможным устранением их недостатков.

Эта задача решается с использованием аудиокодера в соответствии с пунктом 1 формулы изобретения, способа кодирования звука в соответствии с пунктом 24, декодера закодированного аудиосигнала в соответствии с пунктом 25, способа декодирования в соответствии с пунктом 32, расширенного аудиосигнала в соответствии с пунктом 33 или компьютерной программы по пункту 34. Данное изобретение основано на заключении, что выделение импульсов из аудиосигнала обеспечивает высокоэффективное и высококачественное кодирование звука. В результате выделения импульсов из аудиосигнала образуются, с одной стороны, импульсный аудиосигнал и, с другой стороны, разностный сигнал, соответствующий аудиосигналу без импульсов. Импульсный аудиосигнал может быть закодирован импульсным кодером, таким как высокоэффективный голосовой кодер, который при чрезвычайно низких скоростях передачи данных обеспечивает голосовые сигналы высокого качества. Одновременно разностный сигнал, освобожденный от импульсоподобной составляющей, в основном содержит стационарную составляющую первоначального акустического сигнала. Такой сигнал близко соответствует параметрам кодера сигнала, например, общего назначения, и предпочтительно преобразующего аудиокодера с перцептуальным управлением. Закодированный сигнал импульсного типа и закодированный разностный сигнал поступают на выходной интерфейс. Эти два кодированных сигнала могут поступить на выходной интерфейс в любом реализуемом формате, который, однако, не обязательно должен быть масштабируемым, поскольку закодированный одиночный разностный сигнал или закодированный одиночный импульсный сигнал могут при определенных условиях не иметь существенное значение. Только оба сигнала вместе обеспечивают высококачественный акустический сигнал. Однако, с другой стороны, точное управление битрейтом такого комбинированного кодированного аудиосигнала может осуществляться при предпочтительном использовании импульсного аудиокодера с фиксированным битрейтом, например CELP или ACELP, где скорость передачи данных поддается жесткому контролю. Вместе с тем, при осуществлении кодера сигнала, например, в формате МР3 или МР4 управление им ведется в режиме постоянного битрейта, несмотря на то, что он выполняет функцию перцептуального кодирования, для которого изначально характерен переменный битрейт, что основано на реализации битового резервуара в кодерах стандарта MP3 или МР4. Таким образом обеспечивается постоянная скорость передачи закодированного выходного сигнала.

В силу того что остаточный аудиосигнал больше не содержит проблемные импульсные составляющие, скорость передачи закодированного разностного сигнала снижается благодаря тому, что этот разностный сигнал оптимизирован для кодера.

При этом импульсный кодер работает бесперебойно и эффективно, поскольку на него поступает сигнал, специально сформированный и выделенный из акустического сигнала так, чтобы полностью соответствовать модели источника для импульсного кодера. Следовательно, если селектор импульсов не обнаруживает в аудиосигнале импульсные составляющие, импульсный кодер остается незадействованным и не кодирует никакие другие элементы сигнала, не предназначенные для кодирования кодером импульсных сигналов. По этой же причине кодер импульсного типа не кодирует импульсный сигнал и не влияет на скорость вывода элементов сигналов в случае, если этот кодер импульсного типа требует высокий битрейт или не в состоянии обеспечить выходной сигнал допустимого качества. Особенно важно, что при приложении к мобильным устройствам в таких ситуациях импульсный кодер также не нуждается в потреблении энергоресурса. Так, кодер импульсного типа включается только тогда, когда аудиосигнал содержит импульсную составляющую, и импульсная составляющая, выбранная экстрактором импульса, полностью соответствует ожиданиям импульсного кодера.

Таким образом, при распределении акустического сигнала между двумя различными алгоритмами кодирования реализуется функция комбинированного кодирования, основное преимущество которой состоит в том, что кодер сигнала работает непрерывно, а кодер импульса действует как своего рода резервный блок, который активизируется, обеспечивает вывод данных и, соответственно, потребляет энергию, только когда сигнал включает в себя импульсные составляющие.

Импульсный кодер преимущественно предназначен для кодирования периодических последовательностей импульсов, называемых также "импульсными цугами". Эти "импульсы" или "цуги импульсов" представляют собой типовые шаблоны, полученные путем моделирования речевого тракта человека. Каждая импульсная последовательность включает в себя импульсы с временными интервалами между ними. Такой временной интервал называется "импульсным интервалом", и этот показатель соответствует "частоте основного тона" голосового сигнала.

Далее рассматриваются предпочтительные варианты осуществления данного изобретение в сопровождении иллюстративного материала, где:

на фиг.1 представлена блок-схема конструктивного решения аудиокодера в соответствии с настоящим изобретением;

на фиг.2 представлена блок-схема декодера, предназначенного для расшифровки кодированного аудиосигнала;

на фиг.3A представлено конструктивное решение в виде разомкнутого контура;

на фиг.3B представлен вариант конструктивного решения декодера;

на фиг.4А представлен вариант конструктивного решения кодера с разомкнутым контуром;

на фиг.4B представлен вариант конструктивного решения кодера с замкнутым контуром;

на фиг.4C представлено конструктивное решение, в котором селектор импульсов и кодер импульсов реализованы в структуре модифицированного кодера с линейным предсказанием, управляемым алгебраическим кодом ACELP;

на фиг.5А форма сигнала речевого сегмента во временной области представлена как сегмент импульсообразного сигнала;

на фиг.5B представлен спектр сегмента фиг.5А;

на фиг.5C представлен сегмент невокализованной речи во временной области как пример стационарного сегмента;

на фиг.5D показан спектр формы сигнала временной области фиг.5C;

на фиг.6 представлена блок-схема CELP-кодера синтеза;

на фиг. с 7А по 7D вокализованные и невокализованные сигналы возбуждения представлены в виде схем импульсообразных и