Декодер для формирования аудиосигнала с улучшенной частотной характеристикой, способ декодирования, кодер для формирования кодированного сигнала и способ кодирования с использованием компактной дополнительной информации для выбора

Иллюстрации

Показать все

Изобретение относится к средствам для кодирования и декодирования аудиосигнала. Технический результат заключается в создании усовершенствованной концепции кодирования/декодирования аудиоданных, позволяющей уменьшить скорость передачи дополнительной информации для схемы направленного декодирования. Декодер для формирования аудиосигнала с улучшенной частотной характеристикой содержит: блок извлечения свойств из базового сигнала; блок извлечения дополнительной информации для выбора, ассоциированной с базовым сигналом; генератор параметров для формирования параметрического представления для оценки спектрального диапазона аудиосигнала с улучшенной частотной характеристикой, не определяемого базовым сигналом, причем генератор параметров выполнен с возможностью обеспечения некоторого количества альтернативных параметрических представлений в ответ на упомянутое свойство. Генератор параметров выполнен с возможностью выбора одного из альтернативных параметрических представлений в ответ на дополнительную информацию для выбора. 6 н. и 11 з.п. ф-лы, 16 ил.

Реферат

Настоящее изобретение относится к аудиокодированию и, в частности, к аудиокодированию в контексте улучшения частотной характеристики, т.е. того, что выходной сигнал декодера имеет большее число полос частот по сравнению с кодированным сигналом. Такие процедуры содержат расширение полосы частот, спектральную репликацию или интеллектуальное заполнение пробелов.

Современные системы кодирования голосовых данных способны улучшать широкополосное (WB) цифровое аудиосодержимое, то есть сигналы с частотами до 7-8 кГц, при скоростях передачи данных до минимум 6 кбит/с. Наиболее широко обсуждаемыми примерами являются рекомендации G.722.2 [1] ITU-T, а также более недавно разработанные G.718 [4, 10] и документ Unified Speech and Audio Coding (USAC) [8] MPEG-D. Оба из них, то есть G.722.2, также известный как AMR-WB, и G.718 используют технологии расширения полосы частот (BWE) между 6,4 и 7 кГц, чтобы позволить лежащему в основе базовому кодеру ACELP «сосредоточиться» на более значимых с точки зрения восприятия нижних частотах (в частности тех частотах, при которых система слуха человека является фазочувствительной), и таким образом достигают достаточного качества в особенности при очень низких скоростях передачи данных. В профиле расширенного высокоэффективного усовершенствованного аудиокодирования USAC (xHE-AAC) используется улучшенная репликация спектральной полосы (eSBR) для увеличения ширины полосы частот аудиоданных за пределы ширины полосы частот базового кодера, которая обычно составляет менее 6 кГц при 16 кбит/с. Существующие в настоящее время процессы BWE могут быть в общем разделены на два принципиальных подхода:

- «Слепое» или искусственное BWE, в котором высокочастотные (ВЧ) компоненты восстанавливают только из декодированного низкочастотного (НЧ) сигнала базового кодера, т.е. без необходимости передачи дополнительной информации из кодера. Эта схема используется в AMR-WB и G.718 при 16 кбит/с и ниже, а также в некоторых обратно совместимых средствах последующей обработки BWE, работающих с традиционными телефонными голосовыми данными с узкой полосой частот [5, 9, 12] (пример: Фиг. 15).

- Направленное BWE, которое отличается от «слепого» BWE тем, что некоторые из параметров, используемых для восстановления ВЧ содержимого, передаются декодеру в качестве дополнительной информации, а не оцениваются из декодированного базового сигнала. AMR-WB, G.718, xHE-AAC, а также некоторые другие кодеки [2, 7, 11] используют данный подход, но не при очень низких скоростях передачи данных (Фиг. 16).

На Фиг. 15 проиллюстрировано такое «слепое» или искусственное расширение полосы частот, описанное в публикации Bernd Geiser, Peter Jax и Peter Vary: “ROBUST WIDEBAND ENHANCEMENT OF SPEECH BY COMBINED CODING AND ARTIFICIAL BANDWIDTH EXTENSION”, Proceedings of International Workshop on Acoustic Echo and Noise Control (IWAENC), 2005. Самостоятельный алгоритм расширения полосы частот, проиллюстрированный на Фиг. 15, содержит процедуру 1500 интерполяции, анализирующий фильтр 1600, расширение 1700 сигнала возбуждения, синтезирующий фильтр 1800, процедуру 1510 извлечения свойств, процедуру 1520 оценки огибающей и статистическую модель 1530. После интерполяции узкополосного сигнала в широкополосную частоту выборки вычисляют вектор свойств. Затем посредством предварительно обученной статистической скрытой марковской модели (СММ) определяют оценку для широкополосной спектральной огибающей с точки зрения коэффициентов линейного прогнозирования (LP). Эти широкополосные коэффициенты используются для анализирующей фильтрации интерполированного узкополосного сигнала. После расширения итогового сигнала возбуждения применяют инверсный синтезирующий фильтр. Выбор расширения сигнала возбуждения, который не изменяет узкополосный сигнал, является прозрачным по отношению к компонентам узкополосного сигнала.

На Фиг. 16 проиллюстрировано расширение полосы частот с дополнительной информацией, описанное в вышеупомянутой публикации, причем расширение полосы частот содержит телефонный фильтр 1620 полосы пропускания, блок 1610 извлечения дополнительной информации, (комбинированный) кодер 1630, декодер 1640 и блок 1650 расширения полосы частот. Эта система для широкополосного улучшения голосового сигнала полосы ошибок посредством комбинированного кодирования и расширения полосы частот проиллюстрирована на Фиг. 16. В передающем терминале анализируется спектральная огибающая полосы высоких частот широкополосного входного сигнала и определяется дополнительная информация. Итоговое сообщение m кодируется либо отдельно, либо совместно с узкополосным голосовым сигналом. В приемнике дополнительная информация для декодера используется для поддержки оценки огибающей широкополосного сигнала в алгоритме расширения полосы частот. Сообщение m получают посредством нескольких процедур. Пространственное представление частот от 3,4 кГц до 7 кГц извлекают из широкополосного сигнала, доступного только на передающей стороне.

Эту огибающую поддиапазона вычисляют путем избирательного линейного прогнозирования, т.е. вычисления спектра мощности широкополосного сигнала, за которым следует обратное дискретное преобразование Фурье (IDFT) компонентов его верхней полосы частот и последующий рекурсивный алгоритм Левинсона-Дарбина 8 порядка. Итоговые коэффициенты LP для поддиапазона преобразуют в кепстральную область и, наконец, квантуют посредством векторного квантователя с помощью кодовой таблицы размера M = 2N. Для длины кадра в 20 мс это приводит к скорости передачи данных дополнительной информации в 300 бит/с. Комбинированный оценочный подход расширяет вычисление апостериорных вероятностей и повторно вводит зависимости от свойства узкополосного сигнала. Таким образом получается улучшенная форма маскировки ошибок, в которой для оценки ее параметров используется более одного источника информации.

При низких скоростях передачи данных, как правило, ниже 10 кбит/с, в WB кодеках может наблюдаться определенная дилемма в отношении качества. С одной стороны, такие скорости уже являются слишком низкими, чтобы оправдать передачу даже умеренных объемов данных BWE, исключая обычные системы направленного BWE с 1 кбит/с или более дополнительной информации. С другой стороны, оказывается, что допустимое «слепое» BWE звучит значительно хуже в случае по меньшей мере некоторых видов голосового или музыкального материала вследствие невозможности надлежащего прогнозирования параметров из базового сигнала. Это в особенности верно для некоторых звуков речи, таких как фрикативные согласные с низкой корреляцией между ВЧ и НЧ. Поэтому желательно уменьшить скорость передачи дополнительной информации для схемы направленного BWE до уровня значительно менее 1 кбит/с, что позволило бы использовать данную схему даже при кодировании с очень низкой скоростью передачи данных.

В последние годы документированы многоступенчатые подходы к BWE [1-10]. Все они в общем случае являются либо полностью «слепыми», либо полностью направленными в определенной рабочей точке, безотносительно к моментальным характеристикам входного сигнала. Кроме того, многие системы «слепого» BWE [1, 3, 4, 5, 9, 10] оптимизированы в особенности для голосовых сигналов, а не для музыки, и поэтому могут обеспечивать неудовлетворительные результаты в случае с музыкой. Наконец, большинство реализаций BWE являются относительно сложными в плане вычислений, поскольку используют преобразования Фурье, вычисления фильтров коэффициентов LP (LPC) или векторное квантование дополнительной информации (векторное кодирование с прогнозированием в USAC MPEG-D [8]). Это может быть недостатком при внедрении новой технологии кодирования на рынках мобильных телекоммуникаций притом, что большинство мобильных устройств обеспечивает очень ограниченную вычислительную мощность и емкость аккумуляторных батарей.

Подход, в котором «слепое» BWE расширено за счет малого объема дополнительной информации, представлен в [12] и проиллюстрирован на Фиг. 16. Однако дополнительная информация “m” ограничивается передачей спектральной огибающей диапазона частот с расширенной полосой частот.

Другая проблема процедуры, проиллюстрированной на Фиг. 16, заключается в очень сложном способе оценки огибающей с использованием, с одной стороны, низкочастотного свойства и, с другой стороны, дополнительной информации по огибающей. Оба вида входных данных, т.е. низкочастотное свойство и дополнительная высокочастотная огибающая, влияют на статистическую модель. Это приводит к сложной реализации на стороне декодера, что особенно проблематично для мобильных устройств ввиду повышенного потребления мощности. Кроме того, статистическую модель даже еще сложнее обновить ввиду того, что на нее влияют не только дополнительные данные высокочастотной огибающей.

Задача настоящего изобретения состоит в создании усовершенствованной концепции кодирования/декодирования аудиоданных.

Данная задача решается декодером по пункту 1 формулы изобретения, кодером по пункту 15 формулы изобретения, способом декодирования по пункту 20 формулы изобретения, способом кодирования по пункту 21 формулы изобретения, компьютерной программой по пункту 22 формулы изобретения или кодированным сигналом по пункту 23 формулы изобретения.

Настоящее изобретение основано на наблюдении о том, что для еще большего уменьшения объема дополнительной информации и, кроме того, для того, чтобы сделать весь кодер/декодер не чрезмерно сложным, параметрическое кодирование высокочастотной части согласно уровню техники должно быть заменено или по меньшей мере улучшено дополнительной информацией для выбора, фактически относящейся к статистической модели, используемой вместе с блоком извлечения свойств в декодере с улучшением частотной характеристики. Ввиду того, что извлечение свойств в сочетании со статистической моделью обеспечивает альтернативные параметрические представления, которые имеют неопределенности конкретно для определенных частей голосовых данных, было обнаружено, что фактическое управление статистической моделью в генераторе параметров на стороне декодера в отношении того, какая из имеющихся альтернатив будет наилучшей, превосходит фактическое параметрическое кодирование определенной характеристики сигнала конкретно в применениях с очень низкой скоростью передачи данных, при которых дополнительная информация для расширения полосы частот является ограниченной.

Таким образом, улучшается «слепое» BWE, которое использует модель источника для кодированного сигнала, путем расширения с небольшим объемом добавленной дополнительной информации, в частности, если сам сигнал не допускает реконструкцию высокочастотного (ВЧ) содержимого на приемлемом уровне воспринимаемого качества. Таким образом, данная процедура объединяет параметры модели источника, которые формируются из кодированного содержимого от базового кодера, посредством дополнительной информации. Это полезно, в частности, для повышения воспринимаемого качества звуков, которые трудно кодировать в такой модели источника. Такие звуки обычно демонстрируют низкую корреляцию между ВЧ и НЧ содержимым.

Настоящее изобретение направлено на решение проблем традиционного BWE при кодировании аудиосигнала с очень низкой скоростью передачи данных и на устранение недостатков существующих, известных из уровня техники технологий BWE. Решение вышеописанной дилеммы в отношении качества обеспечено путем предложения в минимальной степени направленного BWE в качестве адаптируемого по отношению к сигналу сочетания «слепого» и направленного BWE. BWE согласно изобретению добавляет к сигналу некоторый небольшой объем дополнительной информации, который позволяет дополнительно различать кодированные сигналы, которые в ином случае являются проблематичными. При кодировании голосовых данных это применимо, в частности, к сибилянтам или фрикативным звукам.

Было обнаружено, что в WB кодеках спектральная огибающая ВЧ области выше области базового кодера представляет наиболее важные данные, необходимые для выполнения BWE с приемлемым воспринимаемым качеством. Все прочие параметры, такие как спектральная огибающая тонкой структуры и временная огибающая, зачастую могут довольно точно выводиться из декодированного базового сигнала или обладают невысокой важностью в плане восприятия. Однако для фрикативных звуков часто отсутствует надлежащее воспроизведение в сигнале BWE. Таким образом, дополнительная информация может включать в себя добавочную информацию, различающую различные сибилянты или фрикативные звуки, такие как «ф», «с», «ч» и «ш».

Другая проблематичная акустическая информация для расширения полосы частот возникает, когда встречаются взрывные звуки или аффрикаты, такие как «т» или «ч».

Настоящее изобретение позволяет использовать лишь эту дополнительную информацию и фактически передавать эту дополнительную информацию, когда это необходимо, и не передавать эту дополнительную информацию, когда в статистической модели не ожидается неопределенность.

Кроме того, в предпочтительных вариантах выполнения настоящего изобретения используется лишь малый объем дополнительной информации, такой как три или менее бита на кадр, комбинированное обнаружение голосовой активности/обнаружение голосовых/неголосовых данных для управления блоком оценки сигнала, различные статистические модели, определяемые классификатором сигнала или альтернативными параметрическими представлениями, относящимися не только к оценке огибающей, но также относящимися к другим инструментам расширения полосы частот или улучшения параметров расширения полосы частот или добавления новых параметров к уже имеющимся и фактически передаваемым параметрам расширения полосы частот.

Предпочтительные варианты выполнения настоящего изобретения описаны ниже в контексте сопровождающих чертежей и также представлены в зависимых пунктах формулы изобретения.

Фиг. 1 иллюстрирует декодер для формирования аудиосигнала с улучшенной частотной характеристикой;

Фиг. 2 иллюстрирует предпочтительную реализацию в контексте блока извлечения дополнительной информации по Фиг. 1;

Фиг. 3 иллюстрирует таблицу, соотносящую число битов дополнительной информации для выбора с числом альтернативных параметрических представлений;

Фиг. 4 иллюстрирует предпочтительную процедуру, выполняемую в генераторе параметров;

Фиг. 5 иллюстрирует предпочтительную реализацию блока оценки сигнала, управляемого детектором голосовой активности или детектором голосовых/неголосовых данных;

Фиг. 6 иллюстрирует предпочтительную реализацию генератора параметров, управляемого классификатором сигнала;

Фиг. 7 иллюстрирует пример результата для статистической модели и соответствующую дополнительную информацию для выбора;

Фиг. 8 иллюстрирует примерный кодированный сигнал, содержащий кодированный базовый сигнал и соответствующую дополнительную информацию;

Фиг. 9 иллюстрирует схему обработки сигнала расширения полосы частот для улучшения оценки огибающей;

Фиг. 10 иллюстрирует другую реализацию декодера в контексте процедур репликации спектральной полосы;

Фиг. 11 иллюстрирует другой вариант выполнения декодера в контексте дополнительно передаваемой дополнительной информации;

Фиг. 12 иллюстрирует вариант выполнения кодера для формирования кодированного сигнала;

Фиг. 13 иллюстрирует реализацию генератора дополнительной информации для выбора по Фиг. 12;

Фиг. 14 иллюстрирует другую реализацию генератора дополнительной информации для выбора по Фиг. 12;

Фиг. 15 иллюстрирует самостоятельный алгоритм расширения полосы частот из уровня техники; и

Фиг. 16 иллюстрирует общий вид передающей системы с добавочным сообщением.

Фиг. 1 иллюстрирует декодер для формирования аудиосигнала 120 с улучшенной частотной характеристикой. Декодер содержит блок 104 извлечения свойств для извлечения (по меньшей мере) свойства из базового сигнала 100. В общем случае блок извлечения свойств может извлекать одно свойство или множество свойств, т.е. два или более свойств, и даже предпочтительно, чтобы блок извлечения свойств извлекал множество свойств. Это применимо не только к блоку извлечения свойств в декодере, но и к блоку извлечения свойств в кодере.

Кроме того, предусмотрен блок 110 извлечения дополнительной информации для извлечения дополнительной информации 114 для выбора, ассоциированной с базовым сигналом 100. Кроме того, генератор 108 параметров соединен с блоком 104 извлечения свойств посредством линии 112 передачи свойств и с блоком 110 извлечения дополнительной информации посредством дополнительной информации 114 для выбора. Генератор 108 параметров выполнен с возможностью формирования параметрического представления для оценки спектрального диапазона аудиосигнала с улучшенной частотной характеристикой, не определяемого базовым сигналом. Генератор 108 параметров выполнен с возможностью обеспечения некоторого числа альтернативных параметрических представлений в ответ на свойства 112 и выбора одного из альтернативных параметрических представлений в качестве упомянутого параметрического представления в ответ на дополнительную информацию 114 для выбора. Кроме того, декодер содержит блок 118 оценки сигнала для оценки аудиосигнала с улучшенной частотной характеристикой с использованием параметрического представления, выбранного блоком выбора, т.е. параметрического представления 116.

В частности, блок 104 извлечения свойств может быть реализован с возможностью извлечения свойств из декодированного базового сигнала, как показано на Фиг. 2. Тогда интерфейс 210 ввода выполнен с возможностью приема кодированного входного сигнала 200. Этот кодированный входной сигнал 200 вводится в интерфейс 210, и затем интерфейс 210 отделяет дополнительную информацию для выбора от кодированного базового сигнала. Таким образом, интерфейс 210 ввода действует как блок 110 извлечения дополнительной информации по Фиг. 1. Кодированный базовый сигнал 201, выдаваемый интерфейсом 210 ввода, затем вводится в базовый декодер 124 для обеспечения декодированного базового сигнала, который может быть базовым сигналом 100.

Однако, в качестве альтернативы, блок извлечения свойств также может действовать или извлекать свойство из кодированного базового сигнала. Обычно кодированный базовый сигнал содержит представление коэффициентов масштабирования для полос частот или любое другое представление аудиоинформации. В зависимости от вида извлечения свойств кодированное представление аудиосигнала представляет декодированный базовый сигнал и поэтому свойства могут быть извлечены. В качестве альтернативы или дополнения, свойство может быть извлечено не только из полностью декодированного базового сигнала, но также из частично декодированного базового сигнала. При кодировании в частотной области кодированный сигнал представляет представление в частотной области, содержащее последовательность спектральных кадров. Таким образом, кодированный базовый сигнал может быть лишь частично декодирован для получения декодированного представления последовательности спектральных кадров перед выполнением собственно спектрально-временного преобразования. Таким образом, блок 104 извлечения свойств может извлекать свойства либо из кодированного базового сигнала, либо из частично декодированного базового сигнала или полностью декодированного базового сигнала. Блок 104 извлечения свойств может быть реализован по отношению к извлекаемым им свойствам так, как это известно в данной области техники и, например, блок извлечения свойств может быть реализован так, как это делается в технологиях создания «цифровых отпечатков» аудиосигналов или идентификации (ID) аудиосигналов.

Предпочтительно дополнительная информация 114 для выбора содержит число N битов на кадр базового сигнала. Фиг. 3. иллюстрирует таблицу для различных альтернатив. Число битов для дополнительной информации для выбора либо является фиксированным, либо выбирается в зависимости от числа альтернативных параметрических представлений, обеспечиваемых статистической моделью в ответ на извлеченное свойство. Один бит дополнительной информации для выбора достаточен, когда только два альтернативных параметрических представления обеспечены статистической моделью в ответ на упомянутое свойство. Когда статистическая модель обеспечивает максимально четыре альтернативы, для дополнительной информации для выбора необходимы два бита. Три бита дополнительной информации для выбора допускают максимально восемь одновременных альтернативных параметрических представлений. Четыре бита дополнительной информации для выбора фактически допускают 16 альтернативных параметрических представлений, и пять битов дополнительной информации для выбора допускают 32 одновременных альтернативных параметрических представления. Предпочтительно использовать три или менее трех битов дополнительной информации для выбора на кадр, что приводит к скорости передачи дополнительной информации в 150 битов в секунду, когда секунда разделена на 50 кадров. Эта скорость передачи дополнительной информации может даже быть снижена ввиду того, что дополнительная информация для выбора необходима только тогда, когда статистическая модель фактически обеспечивает альтернативные параметрические представления. Таким образом, когда статистическая модель обеспечивает только одну альтернативу для свойства, бит дополнительной информации для выбора вовсе не нужен. С другой стороны, когда статистическая модель обеспечивает только четыре альтернативных параметрических представления, необходимы только два бита, а не три бита дополнительной информации для выбора. Таким образом, в типичных случаях скорость передачи добавочной дополнительной информации может быть снижена даже менее 150 битов в секунду.

Кроме того, генератор параметров выполнен с возможностью обеспечения не более чем количества альтернативных параметрических представлений, равного 2N. С другой стороны, когда генератор 108 параметров обеспечивает, например, только пять альтернативных параметрических представлений, тем не менее требуются три бита дополнительной информации для выбора.

Фиг. 4 иллюстрирует предпочтительную реализацию генератора 108 параметров. В частности, генератор 108 параметров выполнен таким образом, что свойство 112 по Фиг. 1 вводится в статистическую модель, как обозначено на этапе 400. Затем, как обозначено на этапе 402 модель обеспечивает множество альтернативных параметрических представлений.

Кроме того, генератор 108 параметров выполнен с возможностью получения дополнительной информации 114 для выбора из блока извлечения дополнительной информации, как обозначено на этапе 404. Затем на этапе 406 выбирают конкретное альтернативное параметрическое представление с использованием дополнительной информации 114 для выбора. Наконец, на этапе 408 выбранное альтернативное параметрическое представление выдают в блок 118 оценки сигнала.

Предпочтительно генератор 108 параметров выполнен с возможностью использования при выборе одного из альтернативных параметрических представлений предварительно заданного порядка альтернативных параметрических представлений или, в качестве альтернативы, порядка альтернатив по сигналу кодера. Для этой цели обратимся к Фиг. 7. Фиг. 7 иллюстрирует результат обеспечения статистической моделью четырех альтернативных параметрических представлений 702, 704, 706, 708. Также проиллюстрирован соответствующий код дополнительной информации для выбора. Альтернатива 702 соответствует битовой структуре 712. Альтернатива 704 соответствует битовой структуре 714. Альтернатива 706 соответствует битовой структуре 716, и альтернатива 708 соответствует битовой структуре 718. Таким образом, когда генератор 108 параметров или, например, этап 402 получает четыре альтернативы 702-708 в порядке, проиллюстрированном на Фиг. 7, дополнительная информация для выбора, имеющая битовую структуру 716, будет уникальным образом идентифицировать альтернативное параметрическое представление 3 (ссылочная позиция 706), и тогда генератор 108 параметров выберет эту третью альтернативу. Однако когда битовая структура дополнительной информации для выбора является битовой структурой 712, будет выбрана первая альтернатива 702.

Таким образом, предварительно заданный порядок альтернативных параметрических представлений может быть порядком, в котором статистическая модель фактически выдает альтернативы в ответ на извлеченное свойство. В качестве альтернативы, если отдельная альтернатива имеет различные ассоциированные вероятности, которые, однако, весьма близки друг к другу, предварительно заданный порядок может состоять в том, что параметрическое представление с наибольшей вероятностью следует первым и так далее. В качестве альтернативы, порядок может сигнализироваться, например, одним битом, но для того, чтобы сэкономить даже этот бит, предпочтительным является предварительно заданный порядок.

Далее обратимся к Фиг. 9-11.

В варианте выполнения по Фиг. 9 изобретение в особенности приспособлено для голосовых сигналов, поскольку для извлечения параметров используется специализированная голосовая модель источника. Однако изобретение не ограничено кодированием голосовых данных. В различных вариантах выполнения могут использоваться также и другие модели источника.

В частности, дополнительная информация 114 для выбора также называется «информацией о фрикативных звуках», поскольку такая дополнительная информация для выбора различает проблематичные сибилянты и фрикативные звуки, такие как «ф», «с» или «ш». Таким образом, дополнительная информация для выбора обеспечивает ясное определение одной из трех проблематичных альтернатив, которые, например, обеспечены статистической моделью 904 в процессе оценки 902 огибающей, причем оба действия выполняются в генераторе 108 параметров. Итогом оценки огибающей является параметрическое представление спектральной огибающей для спектральных участков, не включенных в базовый сигнал.

Таким образом, блок 104 может соответствовать блоку 1510 по Фиг. 15. Кроме того, блок 1530 по Фиг. 15 может соответствовать статистической модели 904 по Фиг. 9.

Кроме того, предпочтительно, чтобы блок 118 оценки сигнала содержал анализирующий фильтр 910, блок 912 расширения сигнала возбуждения и синтезирующий фильтр 914. Таким образом, блоки 910, 912, 914 могут соответствовать блокам 1600, 1700 и 1800 по Фиг. 15. В частности, анализирующий фильтр 910 представляет собой анализирующий фильтр LPC. Блок 902 оценки огибающей управляет коэффициентами фильтра для анализирующего фильтра 910 таким образом, что результат блока 910 представляет собой сигнал возбуждения фильтра. Этот сигнал возбуждения фильтра расширен по отношению к частоте для получения сигнала возбуждения на выходе блока 912, который не только имеет частотный диапазон декодера 124 для выходного сигнала, но также имеет частотный или спектральный диапазон, не определяемый базовым кодером и/или превышающий спектральный диапазон базового сигнала. Таким образом, аудиосигнал 909 на выходе декодера подвергается повышающей дискретизации и интерполируется интерполятором 900 и затем интерполированный сигнал подвергается обработке в блоке 118 оценки сигнала. Таким образом, интерполятор 900 по Фиг. 9 может соответствовать интерполятору 1500 по Фиг. 15. Однако предпочтительно в отличие от Фиг. 15 извлечение 104 свойств выполняется с использованием не интерполированного сигнала, а неинтерполированного сигнала, как показано на Фиг. 15. Это полезно по той причине, что блок 104 извлечения свойств работает более эффективно ввиду того, что неинтерполированный аудиосигнал 909 имеет меньшее число выборок по сравнению с определенным временным участком аудиосигнала, сравниваемого с подвергнутым повышающей дискретизации и интерполированным сигналом на выходе блока 900.

Фиг. 10 иллюстрирует другой вариант выполнения настоящего изобретения. В отличие от Фиг. 9, Фиг. 10 содержит статистическую модель 904, которая не только обеспечивает оценку огибающей, как на Фиг. 9, но также обеспечивает и дополнительные параметрические представления, содержащие информацию для формирования отсутствующих тонов 1080 или информацию для инверсной фильтрации 1040 или информацию для маскирующего шума (шумовой завесы) 1020, который необходимо добавить. Блоки 1020, 1040, процедуры формирования 1060 спектральной огибающей и отсутствующих тонов 1080 описаны в стандарте MPEG-4 в контексте HE-AAC (высокоэффективного усовершенствованного аудиокодирования).

Таким образом, другие сигналы, отличные от голосовых данных, также могут кодироваться, как проиллюстрировано на Фиг. 10. В таком случае может быть не достаточно кодировать только спектральную огибающую 1060, но также и другую дополнительную информацию, такую как тональность (1040), уровень шума (1020) или отсутствующие синусоиды (1080), как это делается в технологии репликации спектральной полосы (SBR), проиллюстрированной в [6].

Другой вариант выполнения проиллюстрирован на Фиг. 11, на которой дополнительная информация 114, т.е. дополнительная информация для выбора, используется в дополнение к дополнительной информации SBR, проиллюстрированной в блоке 1100. Таким образом, дополнительная информация для выбора, содержащая, например, информацию относительно обнаруженных звуков речи, добавляется к уже имеющейся дополнительной информации 1100 SBR. Это помогает более точно регенерировать высокочастотное содержимое для звуков голоса, таких как сибилянты, а также фрикативные, взрывные, или таких как гласные звуки. Таким образом, процедура, проиллюстрированная на Фиг. 11, имеет преимущество, состоящее в том, что дополнительно передаваемая дополнительная информация 114 для выбора поддерживает классификацию (фонем) на стороне декодера для обеспечения адаптации параметров SBR или BWE (расширения полосы частот) на стороне декодера. Таким образом, в отличие от Фиг. 10 вариант выполнения по Фиг. 11 обеспечивает уже имеющуюся дополнительную информацию SBR в качестве дополнения к дополнительной информации для выбора.

Фиг. 8 иллюстрирует примерное представление кодированного входного сигнала. Кодированный входной сигнал состоит из последовательных кадров 800, 806, 812. Каждый кадр имеет кодированный базовый сигнал. В качестве примера, кадр 800 имеет голосовые данные в качестве кодированного базового сигнала. Кадр 806 имеет музыку в качестве кодированного базового сигнала, а кадр 812 опять же имеет голосовые данные в качестве кодированного базового сигнала. В качестве примера, кадр 800 имеет в качестве дополнительной информации только дополнительную информацию для выбора, но не имеет дополнительной информации SBR. Таким образом, кадр 800 соответствует Фиг. 9 или Фиг. 10. В качестве примера, кадр 806 содержит информацию SBR, но не содержит какой-либо дополнительной информации для выбора. Кроме того, кадр 812 содержит кодированный голосовой сигнал и, в отличие от кадра 800, кадр 812 не содержит какую-либо дополнительную информацию для выбора. Это вызвано тем, что дополнительная информация для выбора не нужна, поскольку на стороне кодера не обнаружены какие-либо неопределенности в процессе извлечения свойств/статистической модели.

Далее описана Фиг. 5. Применяется детектор голосовой активности или детектор 500 голосовых/неголосовых данных, работающий с базовым сигналом для определения того, следует ли применять технологию улучшения полосы частот или частотной характеристики согласно изобретению или другую технологию расширения полосы частот. Таким образом, когда детектор голосовой активности или детектор голосовых/неголосовых данных обнаруживает голос или речь, используется первая технология расширения полосы частот BWEXT.1, проиллюстрированная позицией 511, которая работает, например, как описано в отношении Фиг. 1, 9, 10, 11. Таким образом, переключатели 502, 504 устанавливаются так, что принимаются параметры от генератора параметров со входа 512 и переключатель 504 соединяет эти параметры с блоком 511. Однако когда детектор 500 обнаруживает ситуацию, которая не указывает на какие-либо голосовые сигналы, но указывает, например, на музыкальные сигналы, параметры 514 расширения полосы частот из битового потока вводятся предпочтительно в процедуру 513 другой технологии расширения полосы частот. Таким образом детектор 500 обнаруживает, следует ли применять технологию 511 расширения полосы частот согласно изобретению. Для неголосовых сигналов кодер может переключаться на другие технологии расширения полосы частот, проиллюстрированные блоком 513, такие как те, что упомянуты [6, 8]. Таким образом, блок 118 оценки сигнала по Фиг. 5 выполнен с возможностью переключения на другую процедуру расширения полосы частот и/или использования других параметров, извлекаемых из кодированного сигнала, когда детектор 500 обнаруживает неголосовую активность или неголосовой сигнал. Для этой другой технологии 513 расширения полосы частот дополнительная информация для выбора предпочтительно отсутствует в битовом потоке и также не используется, что обозначено на Фиг. 5 путем переключения переключателя 502 на вход 514.

Фиг. 6 иллюстрирует другую реализацию генератора 108 параметров. Генератор 108 параметров предпочтительно имеет множество статистических моделей, таких как первая статистическая модель 600 и вторая статистическая модель 602. Кроме того, предусмотрен блок 604 выбора, управляемый дополнительной информацией для выбора для обеспечения правильного альтернативного параметрического представления. То, какая статистическая модель является активной, регулируется дополнительным классификатором 606 сигнала, принимающим на входе базовый сигнал, т.е. тот же сигнал, что вводится в блок 104 извлечения свойств. Таким образом, статистическая модель по Фиг. 10 или по любым другим чертежам может быть различной в зависимости от кодированного содержимого. Для голосовых данных применяется статистическая модель, которая представляет модель источника для формирования голосовых данных, в то время как для других сигналов, таких как музыкальные сигналы, согласно, например, классификации посредством классификатора 606 сигнала, используется другая модель, которая обучена на основании большого набора музыкальных данных. Кроме того, различные статистические модели полезны для различных языков и т.д.

Как описано выше, Фиг. 7 иллюстрирует множество альтернатив, получаемых статистической моделью, такой как статистическая модель 600. Таким образом, выходные данные блока 600 существуют, например, для различных альтернатив, как показано параллельной линией 605. Таким же образом вторая статистическая модель 602 может также выдавать множество альтернатив, таких как альтернативы, показанные линией 606. В зависимости от конкретной статистической модели предпочтительно, чтобы выводились только те альтернативы, которые обладают довольно высокой вероятностью по отношению к блоку 104 извлечения свойств. Таким образом, в ответ на упомянутое свойство статистическая модель обеспечивает множество альтернативных параметрических представлений, причем каждое альтернативное параметрическое представление обладает вероятностью, идентичной вероятностям других различных альтернативных параметрических представлений или отличной от вероятностей других параметрических представлений менее чем на 10 %. Таким образом, в варианте выполнения выдается только параметрическое представление, обладающее наибольшей вероятностью, и некоторое число других альтернативных параметрических представлений, которые обладают вероятностью, лишь на 10% меньшей чем вероятность наиболее подходящей альтернативы.

Фиг. 12 иллюстрирует кодер для формирования кодированного сигнала 1212. Кодер содержит базовый кодер 1200 для кодирования исходного сигнала 1206 для получения кодированного базового аудиосигнала 1208, имеющего информацию о меньшем числе полос частот по сравнению с исходным сигналом 1206. Кроме того, предусмотрен генератор 1202 дополнительной информации для выбора для формирования дополнительной информации 1210 для выбора (SSI - дополнительная информация для выбора). Дополнительная информация 1210 для выбора указывает на определенное альтернативное параметрическое представление, обеспеченное статистической моделью в о