Аудиодекодер для декодирования битового аудиопотока, аудиокодер для кодирования звукового сигнала и способ декодирования кадра кодированного звукового сигнала
Иллюстрации
Показать всеИзобретение относится к кодированию цифрового звука, в частности к кодированию звуковых сигналов, содержащих составляющие разного характера. Способ декодирования кадра кодированного звукового сигнала, при этом кодированный звуковой сигнал генерируют аудиокодером, при этом способ включает: извлечение первого параметра из кодированного звукового сигнала, при этом первый параметр представляет режим кодирования для кадра; извлечение второго параметра из кодированного звукового сигнала; запуск либо первого режима декодирования, либо второго режима декодирования на основе значения первого параметра; генерирование предварительного звукового сигнала из кодированного звукового сигнала при работе либо в первом режиме декодирования, либо во втором режиме декодирования; и фильтрацию предварительного звукового сигнала с помощью фильтра высоты тона. При этом при фильтрации используют второй параметр для выборочного подключения или отключения фильтра высоты тона, и второй параметр отличный от первого параметра. Технический результат заключается в ослаблении межгармонического шума. 3 н. и 17 з.п. ф-лы, 11 ил.
Реферат
Область технического применения
Настоящее изобретение, в общем, относится к кодированию цифрового звука и, точнее, к способам кодирования звуковых сигналов, содержащих составляющие разного характера.
Предпосылки изобретения
Широко распространенный класс способов кодирования звуковых сигналов, содержащих речь или пение, включает линейное предсказание с кодовым возбуждением (CELP), применяемое во временном чередовании с другими способами кодирования, в том числе со способами кодирования в частотной области, в особенности адаптированными для музыки, или способами общего характера, для того чтобы учесть изменения в характере между последовательными промежутками времени звукового сигнала. Например, упрощенный декодер согласно стандарту экспертной группы по вопросам движущегося изображения (MPEG) для унифицированного кодирования речи и звука (USAC; см. стандарт ISO/IEC 23003-3), как показано в верхней части сопроводительной фиг. 2, может действовать по меньшей мере в трех режимах декодирования: в режиме перспективного звукового кодирования (ААС; см. стандарт ISO/IEC 13818-7), в режиме алгебраического CELP (ACELP) и в режиме преобразования кодированного возбуждения (ТСХ).
Различные варианты осуществления CELP адаптированы к свойствам органов речи человека и, возможно, к слуховому восприятию человека. В том смысле, в каком он употребляется в данной заявке, термин «CELP» будет относиться ко всем возможным реализациям и вариантам, в том числе в качестве неограничивающих примеров: широко- и узкополосное CELP, SB-CELP (подполоса CELP), CELP с низкой и высокой скоростью, RCELP (ослабленное CELP), LD-CELP (CELP с малой задержкой), CS-CELP (CELP с сопряженной структурой), CS-ACELP (ACELP с сопряженной структурой), PSI-CELP (инновационное CELP с синхронным основным тоном) и VSELP (линейное предсказание с возбуждением векторной суммы). Принципы CELP обсуждаются R. Schroeder и S. Atal в Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), vol. 10, pp. 937-940, 1985, a некоторые его приложения описаны в ссылках 25 - 29, цитируемых в статье Chen и Gersho, IEEE Transactions on Speech and Audio Processing, vol. 3, no. 1, 1995. Как более подробно описано в первой статье, декодер CELP (или аналогично речевой синтезатор CELP) может включать предсказатель основного тона, который восстанавливает периодическую составляющую кодированного речевого сигнала, и импульсный кодовый словарь, из которого добавляется порождающая последовательность. Предсказатель основного тона может, в свою очередь, включать предсказатель с большой задержкой, предназначенный для восстановления форманта при помощи специального формирования огибающей спектра. В этом контексте основной тон понимается как основная частота тональной составляющей звука, генерируемой голосовыми связками и дополнительно окрашиваемой резонирующими участками речевого тракта. Эта частота вместе с ее гармониками будет доминировать в речи и пении. Вообще говоря, способы CELP лучше всего подходят для обработки сольного или одноголосного пения, для которого частота основного тона хорошо выражена и относительно легко определяется.
Для улучшения воспринимаемого качества речи, кодированной CELP, общепринятой практикой является сочетание CELP с постфильтрацией (или, иначе говоря, с усилением основного тона). Патент США №4969192 и раздел II статьи Chen и Gersho раскрывают требуемые свойства таких постфильтров, а именно: их способность подавлять шумовые составляющие, находящиеся между гармониками обнаруженного голосового основного тона (долгосрочная часть, см. раздел IV). Предполагается, что значительная часть этого шума является результатом формирования огибающей спектра. Долгосрочная часть простого постфильтра может быть сконструирована так, чтобы она имела следующую передаточную функцию:
,
где Т - оценочный период основного тона в выражении количества дискретных значений, и α - коэффициент усиления постфильтра, как показано на фиг. 1 и 2. По способу, сходному с гребенчатым фильтром, такой фильтр ослабляет частоты 1/(2Т), 3/(2Т), 5/(2Т), которые находятся посередине между гармониками основной частоты, и соседние частоты. Ослабление зависит от значения коэффициента усиления α. Несколько более сложные постфильтры применяют это усиление только к низким частотам - отсюда широко применяемый термин «басовый постфильтр», где шум воспринимается в наибольшей степени. Это можно выразить как каскадирование вышеописанной передаточной функции НЕ и фильтра прохождения низких частот HLP. Подвергнутый постобработке декодированный SE, создаваемый постфильтром, в области преобразования будет иметь вид:
,
где
и S - декодированный сигнал, который подается на вход постфильтра.
Фиг. 3 показывает вариант осуществления постфильтра с такими свойствами, который в дальнейшем обсуждается в разделе 6.1.3 технического описания ETSI TS 126 290, версия 6.3.0, публикация 6. Как показывает данная фигура, информация основного тона кодируется как параметр в сигнале битового потока и извлекается модулем отслеживания основного тона, коммуникативно подключенным к фильтру долгосрочного предсказания, осуществляющему операции, выраженные как PLT.
Долгосрочная часть, описанная в предыдущем параграфе, может использоваться отдельно. В альтернативном варианте она располагается последовательно с фильтром преобразования шума, который сохраняет составляющие в интервалах частот, соответствующих формантам, и ослабляет шум в других областях спектра (краткосрочная часть, см. раздел III), т.е. во «впадинах спектра», огибающей формант. В качестве другого возможного изменения данная совокупность фильтров также дополняется последовательным фильтром, относящимся к типу фильтров прохождения верхних частот, с целью снижения воспринимаемого ухудшения качества из-за наклона спектра краткосрочной части.
Звуковые сигналы, содержащие смесь составляющих различного происхождения, - например тонального, нетонального, вокального, инструментального, немузыкального, - не всегда удовлетворительно воспроизводятся имеющимися технологиями кодирования. Точнее было отметить, что имеющиеся технологии являются недостаточными для обработки такого неоднородного звукового материала и, как правило, отдают предпочтение одной из составляющих в ущерб остальным. В частности, музыка, содержащая пение под аккомпанемент одного или нескольких инструментов или хоровые фрагменты, кодированная способами, сущность которых описана выше, часто будет декодироваться с воспринимаемыми артефактами, которые частично портят впечатление от прослушивания.
Краткое описание изобретения
Для того чтобы ослабить, по меньшей мере, некоторые из недостатков, описанных в предыдущем разделе, целью настоящего изобретения является предоставление способов и устройств, адаптированных для кодирования звука и декодирования сигналов, содержащих смесь составляющих различного происхождения. Как частные цели, изобретение добивается создания таких способов и устройств, которые являются пригодными с точки зрения эффективности кодирования и (воспринимаемой) точности воспроизведения или и того и другого.
Изобретение достигает по меньшей мере одной из этих целей путем создания системы кодера, системы декодера, способа кодирования, способа декодирования и компьютерных программных продуктов, предназначенных для осуществления каждого из указанных способов, которые определены в независимых пунктах формулы изобретения. Зависимые пункты формулы изобретения определяют варианты осуществления изобретения.
Авторы изобретения осознали, что некоторые артефакты, воспринимаемые в декодированных звуковых сигналах неоднородного происхождения, являются следствием несоответствующего переключения между различными режимами кодирования, по меньшей мере один из которых включает постфильтрацию в декодере, и по меньшей мере один из которых ее не включает. Точнее, имеющиеся постфильтры устраняют не только межгармонический шум (и там, где это применимо, шум во впадинах спектра), но также составляющие сигнала, представляющие инструментальный или вокальный аккомпанемент и другой материал «желательной» природы. То, что порог различимости во впадинах спектра может составлять вплоть до 10 дБ (как отмечено Ghitza и Goldstein, IEEE Trans. Acoust, Speech, Signal Processing, vol. ASSP-4, pp. 697-708, 1986), можно считать оправданием многих разработчиков, которое позволяет жестко фильтровать эти полосы частот. Однако само по себе ухудшение качества за счет межгармонического ослабления (и ослабления во впадинах спектра) может быть менее важно, чем ухудшение качества в случае переключения. Когда включается постфильтр, фон звуков певческого голоса внезапно приглушается, а когда фильтр деактивируется, фон немедленно становится более звучным. Если переключение происходит часто по причине сущности звукового сигнала или из-за конфигурации кодирующего устройства, будет возникать артефакт переключения. Как пример декодер USAC может действовать или в режиме ACELP в сочетании с постфильтрацией, или в режиме ТСХ без постфильтрации.
Режим ACELP используется во фрагментах, где присутствует доминантная вокальная составляющая. Поэтому переключение в режим ACELP может запускаться с началом пения, как, например, в начале новой музыкальной фразы, в начале нового куплета или просто после фрагмента, где аккомпанемент считается заглушающим певческий голос в том смысле, что вокальная составляющая больше не является выраженной. Эксперименты подтвердили, что альтернативное решение или, иначе говоря, обход проблемы, в котором кодирование ТСХ используется везде (а режим ACELP отключается), не исправляет проблему, поскольку появляются артефакты, подобные искусственному эху.
Соответственно в первой и второй особенностях изобретение предусматривает способ кодирования звука (и систему кодирования звука с соответствующими характерными признаками), который отличается тем, что принимается решение о том, следует ли устройству, которое будет декодировать битовый поток, являющийся выходным сигналом способа кодирования, применять постфильтрацию, включающую ослабление межгармонического шума. Результат принятия этого решения кодируется в битовом потоке и является доступным для декодирующего устройства.
Согласно изобретению решение о том, следует ли использовать постфильтр, принимается отдельно от решения о наиболее подходящем режиме кодирования. Это делает возможным поддержание одного состояния постфильтрации в течение всего промежутка такой длительности, что переключение не будет раздражать слушателя. Таким образом, способ кодирования может предписывать, чтобы постфильтр поддерживался в неактивном состоянии даже тогда, когда он переключается в режим кодирования, где этот фильтр обычно активен.
Следует отметить, что решение о том, следует ли применять постфильтрацию, обычно принимается по кадрам. Поэтому, во-первых, постфильтрация не применяется менее, чем для одного кадра за раз. Во-вторых, решение о том, отключать ли постфильтрацию, действительно только для длительности текущего кадра, и для следующего кадра оно может или сохраняться или пересматриваться. В формате кодирования, допускающем основной формат кадра и сокращенный формат, который является долей нормального формата, например составляет 1/8 его длины, может не быть необходимости в принятии решений о постфильтрации для отдельных сокращенных кадров. Вместо этого может рассматриваться некоторое количество сокращенных кадров, просуммированных до нормального кадра, и параметры, относящиеся к решению о фильтрации, могут быть получены путем вычисления среднего или медианы включаемых в него сокращенных кадров.
В третьей и четвертой особенностях изобретения предусматривается способ декодирования звука (и система декодирования звука, которая включает соответствующие характерные признаки), где за этапом декодирования следует этап постфильтрации, который включает ослабление межгармонического шума и отличается тем, что включает этап отключения постфильтра в соответствии с информацией о постфильтрации, кодированной в сигнале битового потока.
Благодаря своей способности деактивировать постфильтр в зависимости только от информации о постфильтрации, т.е. независимо от таких факторов, как текущий режим кодирования, способ декодирования с такими характеристиками хорошо подходит для кодирования звуковых сигналов смешанного происхождения. При применении способов кодирования, в которых активность постфильтра традиционно связана с конкретными режимами кодирования, способность отключения постфильтрации делает возможным новый рабочий режим, а именно применение без фильтрации традиционного режима декодирования с фильтрацией.
В следующей особенности изобретение также предусматривает компьютерный программный продукт, предназначенный для выполнения одного из вышеописанных способов. Кроме того, изобретение предусматривает постфильтр, предназначенный для ослабления межгармонического шума, который может действовать или в активном режиме, или в режиме пропускания, что указывается сигналом постфильтрации, подаваемым на постфильтр. Постфильтр может включать секцию принятия решения, предназначенную для автономного управления активностью постфильтра.
Как понятно специалистам, кодер, адаптированный для совестной работы с декодером, оснащается функционально эквивалентными модулями для того, чтобы он допускал достоверное воспроизведение кодированного сигнала. Указанные эквивалентные модули могут представлять собой идентичные, или сходные, модули или модули, имеющие идентичные, или сходные, передаточные характеристики. В частности, модули кодера и декодера соответственно могут представлять собой сходные или несходные блоки обработки, исполняющие соответствующие компьютерные программы, которые выполняют эквивалентные наборы математических операций.
В одном из вариантов осуществления изобретения настоящий способ включает принятие решения в отношении того, включает ли постфильтр ослабление впадин спектра (относительно огибающей формант, см. выше). Это соответствует краткосрочной части постфильтра. Поэтому преимущественной является адаптация критерия, на котором основывается решение, к сущности постфильтра.
Один из вариантов осуществления изобретения направлен на кодер, в особенности адаптированный для кодирования речи. Так как некоторые из проблем, служащих мотивом изобретения, наблюдались тогда, когда кодировалась смесь вокальных и других составляющих, особенно преимущественным является независимое принятие решения относительно постфильтрации, предоставляемое изобретением. В частности, такой декодер может включать модуль кодирования в режиме линейного предсказания с кодовым возбуждением.
В одном из вариантов осуществления изобретения кодер основывает свое решение на обнаруженном одновременном присутствии составляющей сигнала с доминантной основной частотой (основным тоном) и другой составляющей сигнала, находящейся ниже основной частоты. Обнаружение также может иметь целью нахождение совместного присутствия составляющей с доминантной основной частотой и другой составляющей с энергией, находящейся между гармониками этой основной частоты. В такой ситуации часто встречаются артефакты рассматриваемого типа. Тогда если установлено указанное одновременное присутствие, кодер будет принимать решение о том, что постфильтрация не является подходящей, что будет соответствующим образом указано в информации о постфильтрации, которая содержится в битовом потоке.
Один из вариантов осуществления изобретения использует в качестве критерия обнаружения содержание полной мощности сигнала во временном звуковом сигнале ниже частоты основного тона, где частота основного тона, возможно, оценивается в кодере при помощи долгосрочного предсказания. Если указанная мощность больше предварительно определенного порогового значения, считается, что помимо составляющей основного тона, (включая гармоники,присутствуют другие значимые составляющие, что будет приводить к отключению постфильтра.
В кодере, содержащем модуль CELP, можно извлечь пользу из того, что модуль оценивает частоту основного тона временного звукового сигнала. Тогда дальнейший критерий обнаружения, как более подробно описано выше, заключается в проверке запаса энергии между гармониками этой частоты или ниже нее.
В качестве дальнейшего развития предшествующего варианта осуществления изобретения, включающего модуль CELP, принятие решения может включать сравнение оценочной энергии звукового сигнала при его CELP-кодировании (т.е. кодировании и декодировании) с оценочной энергией звукового сигнала при CELP-кодировании и постфильтрации. Если разность энергий больше порогового значения, что может указывать на то, что значимая нешумовая составляющая сигнала будет потеряна, а кодер будет принимать решение об отключении постфильтра.
В преимущественном варианте осуществления изобретения кодер содержит модуль CELP и модуль ТСХ. Как известно в данной области техники, ТСХ-кодирование является преимущественным в отношении некоторых типов сигналов, в особенности, невокальных сигналов. Применение постфильтрации на ТСХ-кодированном сигнале не является общепринятой практикой. Поэтому кодер может выбрать или ТСХ-кодирование, или CELP-кодирование с постфильтрацией, или CELP-кодирование без постфильтрации, таким образом, охватывая значительный диапазон типов сигналов.
Как одно из дальнейших развитий предшествующего варианта осуществления изобретения, решение о выборе между тремя режимами кодирования принимается на основе критерия зависимости искажений от скорости передачи данных, т.е. с применением и оптимизацией процедуры, которая сама по себе известна в данной области техники.
В другом дальнейшем развитии предшествующего варианта осуществления изобретения кодер также включает кодер согласно стандарту усовершенствованного звукового кодирования (ААС), который, как известно, также особенно хорошо подходит для некоторых типов сигналов. Предпочтительно, решение о том, применять ли ААС-кодирование (в частотной области), принимается независимо от решения о том, какие другие режимы (линейного предсказания) использовать. Поэтому такой кодер может пониматься как действующий в двух суперрежимах: ААС или TCX/CELP, где в последнем режиме которых кодер будет делать выбор между ТСХ, CELP с постфильтрацией и CELP без фильтрации. Этот вариант осуществления изобретения позволяет обрабатывать еще более широкий диапазон типов звуковых сигналов.
В одном из вариантов осуществления изобретения кодер может принимать решение о том, что постфильтрация при декодировании должна применяться постепенно, т.е. с постепенно возрастающим усилением. Аналогично он может принять решение о том, что постфильтрация будет постепенно устраняться. Такое постепенное применение и устранение делает менее ощутимым переключение между режимами с постфильтрацией и без нее. Например, вокальному фрагменту, для которого найдено подходящим CELP-кодирование с постфильтрацией, может предшествовать инструментальный фрагмент, где оптимальным является ТСХ-кодирование; тогда декодер согласно изобретению может применять постфильтрацию постепенно вблизи или в начале вокального фрагмента так, чтобы выгоды постфильтрации сохранялись, хотя раздражающие артефакты переключения при этом устраняются.
В одном из вариантов осуществления изобретения решение о том, следует ли применять постфильтрацию, основывается на приближенном разностном сигнале, который служит приближением той составляющей сигнала, которая будет устраняться постфильтром из будущего декодированного сигнала.
В качестве одной из возможностей приближенный разностный сигнал вычисляется как разность между временным звуковым сигналом и временным звуковым сигналом, подвергнутым (имитации) постфильтрации. В качестве другой возможности секция кодирования извлекает промежуточный декодированный сигнал с тем, чтобы можно было вычислить приближенный разностный сигнал как разность между временным звуковым сигналом и промежуточным декодированным сигналом, подвергнутым постфильтрации. Промежуточный декодированный сигнал может сохраняться в буфер долгосрочного предсказания кодера. В дальнейшем он может представлять сигнал возбуждения в предположении, что для получения конечного декодированного сигнала потребуется применение дальнейшей синтезирующей фильтрации (речевой тракт, резонансы). Суть использования промежуточного декодированного сигнала заключается в том, что он фиксирует некоторые из деталей, в особенности слабости способа кодирования, и, таким образом, позволяет более реалистично оценивать влияние постфильтра. В качестве третьей возможности секция декодирования извлекает промежуточный декодированный сигнал, посредством чего можно вычислить приближенный разностный сигнал как разность между промежуточным декодированным сигналом и промежуточным декодированным сигналом, подвергнутым постфильтрации. Вероятно, эта процедура дает менее надежную оценку, чем две первые возможности, но, с другой стороны, она может осуществляться декодером автономно.
Полученный таким образом приближенный разностный сигнал затем оценивается в отношении одного из следующих критериев, которые при их установлении в утвердительном смысле будут приводить к решению об отключении постфильтра:
a) превышает ли мощность приближенного разностного сигнала предварительно определенное пороговое значение, указывающее на то, что постфильтром может быть устранена значимая часть сигнала;
b) является ли характер приближенного разностного сигнала скорее тональным, чем шумоподобным;
c) неравномерно ли распределена разность между частотными спектрами абсолютных значений приближенного разностного сигнала и временного звукового сигнала относительно частоты, что показывает, что это не столько шум, сколько сигнал, который мог бы иметь смысл для слушателя;
d) локализован ли частотный спектр абсолютных значений приближенного разностного сигнала в интервалах частот, находящихся в пределах предварительно определенной огибающей значимости, основанной на том, что может обычно ожидаться от сигнала обрабатываемого типа; и
e) локализован ли частотный спектр абсолютных значений приближенного разностного сигнала в интервалах частот, находящихся в пределах предварительно определенной огибающей значимости, полученной путем пороговой обработки частотного спектра абсолютных значений временного звукового сигнала по абсолютному значению наибольшей составляющей сигнала, здесь уменьшенной в масштабе с предварительно определенным масштабным коэффициентом.
При оценке критерия е) преимущественным является применение отслеживания пиков в спектре абсолютных значений, т.е. различение участков, имеющих форму, похожую на пик, обычно связанных скорее с тональными составляющими, чем с шумом. Составляющие, идентифицированные при помощи отслеживания пиков, которое может иметь место посредством какого-либо алгоритма, который сам по себе известен в данной области техники, могут в дальнейшем сортироваться с применением порога по высоте пика с тем, чтобы оставшиеся составляющие представляли собой тональный материал с определенным абсолютным значением. Эти составляющие обычно скорее представляют значимое содержимое сигнала, чем шум, что служит мотивом принять решение об отключении постфильтра.
В одном из вариантов осуществления изобретения как декодера решение об отключении постфильтра исполняется переключателем, управляемым секцией управления и способным обходить постфильтр в схеме. В другом варианте осуществления изобретения постфильтр имеет варьируемое усиление, управляемое секцией управления, или регулятором усиления в ней, где решение об отключении осуществляется путем присвоения коэффициенту усиления постфильтра (см. предыдущий раздел) нулевого значения или путем присвоения ему абсолютного значения ниже предварительно определенного порогового значения.
В одном из вариантов осуществления изобретения декодирование согласно настоящему изобретению включает извлечение информации о постфильтрации из декодируемого сигнала битового потока. Точнее, информация о постфильтрации может кодироваться в поле данных, включающем по меньшей мере один бит в формате, пригодном для передачи. Преимущественно поле данных представляет собой уже существующее поле данных, определяемое применяющимся стандартом, но не находящееся в употреблении, и, таким образом, информация о постфильтрации не увеличивает полезную нагрузку при передаче.
Следует отметить, что способы и устройство, раскрытые в данном разделе, могут применяться после соответствующих модификаций в пределах способностей специалиста, в том числе путем стандартных экспериментов для кодирования сигналов, содержащих несколько составляющих, возможно, относящихся к различным каналам, таким как стереофонические каналы. Везде в настоящей заявке термины «усиление основного тона» и «постфильтрация» употребляются как синонимы. Также следует отметить, что ААС обсуждается в качестве репрезентативного примера способов кодирования в частотной области. Действительно, применение изобретения к иному, чем ААС, декодеру или кодеру, действующему в режиме кодирования в частотной области, потребует лишь небольших модификаций, если вообще их потребует, в пределах способностей специалиста. Сходным образом ТСХ упоминается в качестве примера кодирования в режиме преобразования с взвешенным линейным предсказанием или кодирования с преобразованием вообще.
Характерные признаки из двух или большего количества вышеописанных вариантов осуществления изобретения могут объединяться, если они не являются дополнительными в явном виде, в дальнейшие варианты осуществления изобретения. То, что два характерных признака цитируются в различных пунктах формулы изобретения, не препятствует тому, чтобы они могли быть выгодно объединены. Аналогично дальнейшие варианты осуществления изобретения также могут снабжаться пропусками некоторых характерных признаков, которые не являются необходимыми или не являются существенными для желаемой цели.
Краткое описание графических материалов
Варианты осуществления настоящего изобретения ниже будут описаны с отсылкой к сопутствующим графическим материалам, на которых:
фиг. 1 - блок-схема, показывающая традиционный декодер с постфильтром;
фиг. 2 - принципиальная блок-схема традиционного декодера, действующего в режимах ААС, ACELP и ТСХ и включающего постфильтр, постоянно подключенный в нисходящем направлении относительно модуля ACELP;
фиг. 3 - блок схема, иллюстрирующая конструкцию постфильтра.
фиг. 4 и 5 - блок-схемы двух декодеров согласно изобретению;
фиг. 6 и 7 - блок-схемы, иллюстрирующие различия между традиционным декодером (фиг. 6) и декодером (фиг. 7) согласно изобретению;
фиг. 8 - блок-схема кодера согласно изобретению;
фиг. 9 и 10 - блок-схемы, иллюстрирующие различия между традиционным декодером (фиг. 9) и декодером (фиг. 10) согласно изобретению; и
фиг. 11 - блок-схема автономного постфильтра, который может избирательно активироваться и деактивироваться.
Подробное описание вариантов осуществления изобретения
Фиг. 4 представляет собой схематическую иллюстрацию системы 400 декодера согласно одному из вариантов осуществления изобретения, имеющего в качестве входного сигнал битового потока и звуковой сигнал на выходе. Как и в традиционных декодерах, показанных на фиг. 1, постфильтр 440 располагается в нисходящем направлении относительно модуля 410 декодирования, но может включаться или выключаться из тракта декодирования путем приведения в действие переключателя 442. В положении, показанном на фигуре, постфильтр включен. Его можно отключить, если установить переключатель в противоположное положение, посредством чего сигнал из модуля 410 декодирования будет вместо этого проводиться по шине 444 обхода. В качестве вклада, обладающего признаками изобретения, переключатель 442 управляется посредством информации о постфильтрации, содержащейся в сигнале битового потока, и, таким образом, постфильтрация может применяться и сниматься независимо от текущего состояния модуля 410 декодирования. Поскольку постфильтр 440 действует с некоторой задержкой, например, постфильтр, показанный на фиг. 3, вносит задержку с величиной, равной, по меньшей мере, периоду Т основного тона, с целью поддержания модулей в синхронизированных условиях при переключении на шине 444 обхода располагается модуль 443 компенсации задержки. Модуль 443 задержки задерживает сигнал на тот же период, на который мог бы его задерживать постфильтр 440. Для минимизации времени переключения модуль 443 компенсации задержки во все моменты времени принимает тот же сигнал, что и постфильтр 440. В альтернативном варианте осуществления изобретения, где постфильтр 440 заменяется постфильтром с нулевой задержкой (например, причинным фильтром, таким как фильтр с двумя звеньями, не зависящий от будущих значений сигнала), модуль 443 компенсации задержки может быть пропущен.
Фиг. 5 иллюстрирует дальнейший вариант осуществления изобретения в соответствии с идеями изобретения в отношении трехрежимной системы 500 декодера по фиг. 2. Модуль 511 ACELP-декодирования располагается параллельно модулю 512 ТСХ-декодирования и модулю 513 ААС-декодирования. Последовательно с модулем 511 ACELP-декодирования располагается постфильтр 540, предназначенный для ослабления шума, в частности шума, находящегося между гармониками частоты основного тона, напрямую или не напрямую получаемой из сигнала битового потока, для чего адаптирована система 500 декодера. Сигнал битового потока также кодирует информацию о постфильтрации, регулирующую положения верхнего переключателя 541, который действует для выключения постфильтра 540 из тракта обработки и его замены компенсацией ошибок 543, как на фиг. 4. Нижний переключатель 542 используется для переключения между различными режимами декодирования. В такой конструкции, когда используется один из модулей 512, 513, ТСХ или ААС, положение верхнего переключателя 541 не играет роли; поэтому информация о постфильтрации необязательно указывает это положение, за исключением режима ACELP. Какой бы из режимов декодирования ни использовался в текущий момент, сигнал подается из точки подсоединения нижнего переключателя 542 в нисходящем направлении в модуль 550 репликации спектральной полосы (SBR), который выводит звуковой сигнал. Специалистам будет понятно, что данная иллюстрация имеет концептуальную природу, что явно видно в особенности из того, что переключатели показаны схематично как отдельные физические сущности с подвижными контактными средствами. В возможной реальной имплементации системы декодера переключатели, а также и другие модули могут осуществляться посредством машиночитаемых команд.
Фиг. 6 и 7 также представляют собой блок-схемы двух трехрежимных систем декодера, действующих в режимах ACELP, ТСХ и в режиме декодирования в частотной области. С отсылкой к последней упомянутой фигуре, которая показывает вариант осуществления изобретения, сигнал битового потока подается в точку 701 ввода, которая, в свою очередь, постоянно соединена посредством соответствующих ветвей с тремя модулями 711, 712, 713 декодирования. Точка 701 ввода также содержит соединительную ветвь 702 (отсутствующую в традиционной системе декодирования по фиг. 6), направленную к модулю 740 усиления основного тона, который играет роль описанного выше постфильтра обобщенного типа. Как является общей практикой в данной области, в нисходящем направлении относительно модулей 711, 712 ACELP и ТСХ расположен первый модуль 703 кадрирования перехода, предназначенный для осуществления переходов между модулями декодирования. Второй модуль 704 перехода расположен в нисходящем направлении относительно модуля 713 декодирования в частотной области и первого модуля 703 кадрирования перехода и предназначен для осуществления перехода между двумя суперрежимами. В восходящем направлении непосредственно перед точкой 705 вывода расположен модуль 750 SBR. Ясно, что сигнал битового потока подается непосредственно (или, при необходимости, после демультиплексирования) во все три модуля 711, 712, 713 декодирования и в модуль 740 усиления основного тона. Информация, содержащаяся в битовом потоке, управляет тем, какой из модулей декодирования будет активен. Однако согласно изобретению модуль 740 усиления основного тона выполняет аналогичную самоактивацию и в ответ на информацию о постфильтрации в битовом потоке может выступать как постфильтр или просто как пропускающий канал. Например, это может реализовываться путем снабжения модуля 740 усиления основного тона секцией управления (не показана), посредством которой действие постфильтрации может включаться или выключаться. Когда система действует в режиме декодирования в частотной области или в режиме ТСХ-декодирования, где, строго говоря, какая-либо информация о постфильтрации не является необходимой, модуль 740 усиления основного тона всегда находится в режиме пропускания. Следует понимать, что модули, не образующие часть вклада, обладающего признаками изобретения, и присутствие которых очевидно для специалистов, например демультиплексор, для большей ясности пропущены на фиг. 7 и на других сходных иллюстрациях.
Как вариант система декодера по фиг. 7 может оснащаться модулем управления (не показан), предназначенным для принятия решения о том, следует ли применять постфильтрацию с использованием подхода «анализ через синтез». Указанный модуль управления коммуникативно связан с модулем 740 усиления основного тона и с модулем 711 ACELP, из которого он извлекает промежуточные декодированные сигналы , представляющие один из промежуточных этапов процесса декодирования, предпочтительно этап, соответствующий возбуждению сигнала. Модуль обнаружения содержит необходимую информацию для имитации действия модуля 740 усиления основного тона, что определяется передаточными функциями PLT(z) и HLP(z) (см. раздел Предпосылки и фиг. 3), или эквивалентно их импульсными переходными характеристиками фильтра pLT(z) и hLP(n). Как следует из обсуждения в разделе Предпосылки изобретения, составляющая, которая будет вычитаться при постфильтрации, может оцениваться при помощи приближенного разностного сигнала sAD(n), который пропорционален , где * обозначает дискретную свертку. Это приближение является приближением истинной разности между оригинальным звуковым сигналом и декодированным сигналом, подвергнутым постфильтрации, а именно:
,
где α - коэффициент усиления постфильтра.
Изучая полную энергию, энергию низкочастотной полосы, тональность, актуальный спектр абсолютных значений или спектр абсолютных значений этого сигнала в прошлом, как раскрывается в разделе Краткое описание изобретения и в формуле изобретения, секция управления может находить основание для принятия решения о том, активировать или деактивировать модуль 740 усиления основного тона.
Фиг. 8 показывает систему 800 кодера согласно одному из вариантов осуществления изобретения. Система 800 кодера адаптирована для обработки цифровых звуковых сигналов, которые, в общем, получаются путем сбора данных звуковой волны микрофоном и преобразования волны в аналоговый электрический сигнал. Электрический сигнал затем дискретизируется в цифровой сигнал, поддающийся передаче в подходящем формате в систему 800 кодера. В общем, система состоит из модуля 810 кодирования, модуля 820 принятия решения и мультиплексора 830. При помощи переключателей 814, 815 (представленных символически) модуль кодирования может действовать или в режиме CELP, или в режиме ТСХ, или в режиме ААС путем избирательного приведения в действие модулей 811, 812, 813. Модуль 820 принятия решения приме