Способ и устройство для оценивания энергии полосы высоких частот в системе расширения полосы частот

Иллюстрации

Показать все

Изобретение относится к воспроизведению слышимого контента, в частности к методикам расширения полосы частот. Техническим результатом является повышение качества аудиосигнала с расширенной полосой частот. Указанный результат достигается тем, что в способе оценки энергии полосы высоких частот в системе расширения полосы частот принимают входной цифровой аудиосигнал, содержащий узкополосный сигнал, в первом диапазоне частот; определяют оцененный уровень энергии полосы высоких частот, соответствующий входному цифровому аудиосигналу, во втором диапазоне частот, на основе характеристик узкополосного сигнала, причем второй диапазон частот выше по частоте, чем первый диапазон частот; и модифицируют оцененный уровень энергии полосы высоких частот на основе характеристик узкополосного сигнала. Модификация оцененного уровня энергии полосы высоких частот содержит этап, на котором модифицируют оцененный уровень энергии полосы высоких частот на основе случая начала звука. 3 н.п. ф-лы, 6 ил.

Реферат

РОДСТВЕННЫЕ ЗАЯВКИ

Данная заявка связана с находящейся в процессе одновременного рассмотрения и в совместном владении заявкой на патент США № 11/946978, поданной 29 ноября 2007 года, которая целиком заключена в данный документ посредством ссылки. Данная заявка дополнительно связана с находящейся в процессе одновременного рассмотрения и в совместном владении заявкой на патент США № 12/024620, поданной 1 февраля 2008 года, которая дополнительно заключена в данный документ посредством ссылки.

ОБЛАСТЬ ТЕХНИКИ

Данное изобретение относится, в общем, к воспроизведению слышимого контента и, более конкретно, к методикам расширения полосы частот.

УРОВЕНЬ ТЕХНИКИ

Слышимое воспроизведение аудиоконтента из цифрового представления содержит известную область усилий. В некоторых режимах приложений цифровое представление содержит полную соответствующую полосу частот, принадлежащую исходной аудиовыборке. В таком случае слышимое воспроизведение может содержать высокоточный и естественно звучащий выход. Такой подход, однако, требует значительных служебных ресурсов для приспособления соответствующего количества данных. Во многих режимах приложений, таких как, например, режимы беспроводной связи, такое количество информации не может всегда адекватно поддерживаться.

Для приспособления к такому ограничению так называемые методики узкополосной речи могут служить для ограничения количества информации посредством, в свою очередь, ограничения представления до менее чем полной соответствующей полосы частот, принадлежащей исходной аудиовыборке. В качестве лишь одного примера в этом отношении, хотя естественная речь включает в себя значительные компоненты вплоть до 8 кГц (или выше), узкополосное представление может предоставить только информацию, касающуюся, скажем, диапазона 300-3400 Гц. Результирующий контент, при слышимом воспроизведении, обычно является достаточно разборчивым для поддержки функциональных нужд основанной на речи связи. К сожалению, однако, обработка узкополосной речи также имеет тенденцию к выдаче речи, которая звучит приглушенной и может даже иметь сниженную разборчивость по сравнению с полночастотной речью.

Для удовлетворения этих нужд иногда употребляются методики расширения полосы частот. Искусственно генерируют недостающую информацию в полосах более высоких и/или более низких частот на основе доступной информации об узкой полосе частот, а также другой информации для выбора информации, которая может быть добавлена к контенту узкой полосы частот для того, чтобы тем самым синтезировать сигнал с псевдоширокой (или полной) полосой. С использованием таких методик, например, можно преобразовать узкополосную речь в диапазоне 300-3400 Гц в широкополосную речь, скажем, в диапазоне 100-8000 Гц. С этой целью критической частью информации, которая требуется, является спектральная огибающая полосы высоких частот (3400-8000 Гц). Если спектральная огибающая широкой полосы частот оценена, то спектральная огибающая полосы высоких частот обычно может быть легко извлечена из нее. Можно думать о спектральной огибающей полосы высоких частот как содержащей форму и усиление (или, эквивалентно, энергии).

Посредством одного подхода, например, форма спектральной огибающей полосы высоких частот оценивается посредством оценивания спектральной огибающей широкой полосы частот из спектральной огибающей узкой полосы частот через отображение кодовой книги. Энергия полосы высоких частот затем оценивается посредством регулировки энергии в пределах части узкой полосы частот спектральной огибающей широкой полосы частот, для совпадения с энергией спектральной огибающей узкой полосы частот. В этом подходе форма спектральной огибающей полосы высоких частот определяет энергию полосы высоких частот, и любые ошибки в оценке этой формы будут также соответственно влиять на оценки энергии полосы высоких частот.

В другом подходе форма спектральной огибающей полосы высоких частот и энергия полосы высоких частот оцениваются отдельно, и спектральная огибающая полосы высоких частот, которая окончательно используется, регулируется для совпадения с оцененной энергией полосы высоких частот. Посредством одного связанного подхода оцененная энергия полосы высоких частот используется, кроме других параметров, для определения формы спектральной огибающей полосы высоких частот. Однако результирующая спектральная огибающая полосы высоких частот необязательно гарантирована иметь соответствующую энергию полосы высоких частот. Следовательно, необходим дополнительный этап для регулировки энергии спектральной огибающей полосы высоких частот на оцененное значение. Если не предприняты специальные меры, то этот подход может привести к разрыву в спектральной огибающей широкой полосы частот на границе между узкой полосой частот и полосой высоких частот. Хотя существующие подходы к расширению полосы частот и, в частности, к оцениванию огибающей полосы высоких частот являются разумно успешными, они необязательно дают результирующую речь подходящего качества по меньшей мере в некоторых режимах приложений.

Для того чтобы генерировать речь допустимого качества с расширенной полосой частот, количество артефактов в такой речи должно быть минимизировано. Известно, что переоценка энергии полосы высоких частот приводит к раздражающим артефактам. Неправильная оценка формы спектральной огибающей полосы высоких частот может также привести к артефактам, но эти артефакты обычно являются более мягкими и легко маскируются посредством речи с узкой полосой частот.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Вышеприведенные нужды по меньшей мере частично удовлетворяются через предоставление способа и устройства для оценивания энергии полосы высоких частот в системе расширения полосы частот, описанной в следующем подробном описании. Сопутствующие чертежи, где подобные ссылочные позиции относятся к идентичным или функционально подобным элементам по всем отдельным видам и которые вместе с подробным описанием ниже включены в спецификацию и образуют ее часть, служат для дополнительной иллюстрации различных вариантов осуществления и для объяснения различных принципов и преимуществ, которые все находятся в соответствии с данным изобретением.

Фиг.1 содержит блок-схему, сконфигурированную в соответствии с различными вариантами осуществления изобретения;

Фиг.2 содержит график, сконфигурированный в соответствии с различными вариантами осуществления изобретения;

Фиг.3 содержит блок-схему, сконфигурированную в соответствии с различными вариантами осуществления изобретения;

Фиг.4 содержит блок-схему, сконфигурированную в соответствии с различными вариантами осуществления изобретения;

Фиг.5 содержит блок-схему, сконфигурированную в соответствии с различными вариантами осуществления изобретения; и

Фиг.6 содержит график, сконфигурированный в соответствии с различными вариантами осуществления изобретения.

Квалифицированные специалисты поймут, что элементы на чертежах показаны для простоты и ясности и необязательно приведены в масштабе. Например, размеры и/или относительное позиционирование некоторых элементов на чертежах могут быть преувеличены относительно других элементов для улучшения понимания различных вариантов осуществления данного изобретения. Также обычные, но хорошо понятные элементы, которые являются полезными или необходимыми в коммерчески возможном варианте осуществления, часто не изображены, что способствует менее затрудненному виду этих различных вариантов осуществления данного изобретения. Кроме того, будет ясно, что некоторые действия и/или этапы могут быть описаны или изображены в некотором конкретном порядке, хотя специалистам в данной области техники будет ясно, что такая конкретность относительно последовательности фактически не является необходимой. Будет также ясно, что термины и выражения, используемые здесь, имеют обычное техническое значение, которое соответствует таким терминам и выражениям, применяемым специалистами в данной области техники, изложенной выше, за исключением случаев, когда различные конкретные значения излагаются здесь иным образом.

ПОДРОБНОЕ ОПИСАНИЕ

Идея, обсуждаемая здесь, направлена на эффективный по стоимости способ и систему для искусственного расширения полосы частот. Согласно такой идее принимается узкополосный цифровой аудиосигнал. Этим узкополосным цифровым аудиосигналом может быть, например, сигнал, принятый мобильной станцией в сотовой сети, и этот узкополосный цифровой аудиосигнал может включать в себя речь в частотном диапазоне 300-3400 Гц. Методики искусственного расширения полосы частот реализуются для распространения спектра цифрового аудиосигнала на частоты полосы низких частот, такие как 100-300 Гц, и частоты полосы высоких частот, такие как 3400-8000 Гц. Посредством использования искусственного расширения полосы частот для распространения спектра на частоты полосы низких частот и полосы высоких частот создается более естественно звучащий цифровой аудиосигнал, который является более приятным для пользователя мобильной станции, реализующей эту методику.

В методиках искусственного расширения полосы частот недостающая информация в более высокой (3400-8000 Гц) и более низкой (100-300 Гц) полосах частот искусственно генерируется на основе доступной информации об узкой полосе частот, а также априорной информации, выведенной из базы данных речи и сохраненной в ней, и добавленной к узкополосному сигналу для синтезирования сигнала с псевдоширокой полосой частот. Такое решение довольно привлекательно, так как оно требует минимальных изменений в существующей системе передачи. Например, не нужна дополнительная скорость передачи битов. Искусственное расширение полосы частот может быть включено в постпроцессор в приемной части и, следовательно, не зависит от технологии кодирования речи, используемой в системе связи, или от самой природы системы связи, например аналоговой, цифровой, наземной линии связи или сотовой. Например, методики искусственного расширения полосы частот могут быть реализованы посредством мобильной станции, принимающей узкополосный цифровой аудиосигнал, и результирующий широкополосный сигнал применяется для генерации аудио, проигрываемого для пользователя мобильной станции.

При определении информации о полосе высоких частот сначала оценивается энергия в полосе высоких частот. Поднабор узкополосного сигнала применяется для оценивания энергии полосы высоких частот. Этот поднабор узкополосного сигнала, который является ближайшим к частотам полосы высоких частот, обычно имеет наивысшую корреляцию с сигналом с полосой высоких частот. Соответственно, только поднабор узкой полосы частот, в противоположность всей узкой полосе частот, применяется для оценивания энергии полосы высоких частот. Этот поднабор, который используется, называется «переходной полосой частот» и может включать в себя такие частоты, как 2500-3400 Гц. Более конкретно, переходная полоса частот определяется здесь как полоса частот, которая содержится в пределах узкой полосы частот и близка к полосе высоких частот, т.е. служит в качестве перехода к полосе высоких частот. Этот подход находится в контрасте с системами расширения полосы частот известного уровня техники, которые оценивают энергию полосы высоких частот в пределах энергии всей узкой полосы частот, обычно как соотношение.

Для того чтобы оценить энергию полосы высоких частот, энергия переходной полосы частот сначала оценивается с помощью методик, обсуждаемых ниже относительно фиг.4 и 5. Например, энергия переходной полосы частот может быть вычислена сначала посредством повышающей дискретизации входного узкополосного сигнала, вычисления частотного спектра, дискретизированного с повышением узкополосного сигнала, и затем суммирования энергий спектральных компонентов в пределах переходной полосы частот. Оцененная энергия переходной полосы частот впоследствии вставляется в алгебраическое уравнение как независимая переменная для оценивания энергии полосы высоких частот. Коэффициенты или веса различных степеней независимой переменной в алгебраическом уравнении, включающие в себя вес нулевой степени, который является постоянным членом, выбираются для минимизации средней квадратической ошибки между истинным и оцененным значениями энергии полосы высоких частот на большом количестве кадров из обучающей базы данных речи. Точность оценки может быть дополнительно повышена посредством согласования этой оценки с параметрами, выведенными из узкополосного сигнала, а также с параметрами, выведенными из сигнала с переходной полосой частот, как более подробно обсуждается ниже. После оценки энергии полосы высоких частот спектр полосы высоких частот оценивается на основе оценки энергии полосы высоких частот.

Посредством применения переходной полосы частот таким образом предоставлена надежная методика расширения полосы частот, которая создает соответствующий аудиосигнал более высокого качества, чем было бы возможно, если бы для оценивания энергии полосы высоких частот использовалась энергия во всей узкой полосе частот. Кроме того, эта методика может применяться без излишне неблагоприятного влияния на существующие системы связи, так как методики расширения полосы частот применяются к узкополосному сигналу, принятому с помощью системы связи, т.е. существующие системы связи могут применяться для посылки узкополосных сигналов.

Фиг.1 иллюстрирует процесс 100 для генерации цифрового аудиосигнала с расширенной полосой частот в соответствии с различными вариантами осуществления изобретения. Сначала, в операции 101, узкополосный цифровой аудиосигнал принимается. В типичном режиме приложения это будет содержать предоставление множества кадров такого контента. Эта идея легко приспособит обработку каждого такого кадра на описанных этапах. Посредством одного подхода, например, каждый такой кадр может соответствовать 10-40 миллисекундам первоначального аудиоконтента.

Это может содержать, например, предоставление цифрового аудиосигнала, который содержит синтезированный голосовой контент. Это имеет место, например, при употреблении этой идеи в сопряжении с принятым вокодированным речевым контентом в портативном устройстве беспроводной связи. Однако также существуют и другие возможности, как будет ясно специалистам в данной области техники. Например, цифровой аудиосигнал мог бы вместо этого содержать первоначальный речевой сигнал или повторно дискретизированную версию либо первоначального речевого сигнала, либо синтезированного речевого контента.

Ссылаясь через мгновение на фиг.2, будет ясно, что этот цифровой аудиосигнал имеет отношение к первоначальному аудиосигналу 201, который имеет первоначальную соответствующую полосу 202 частот сигнала. Эта первоначальная соответствующая полоса 202 частот сигнала будет обычно больше, чем вышеупомянутая полоса частот сигнала, соответствующая цифровому аудиосигналу. Это может произойти, например, когда цифровой аудиосигнал представляет только часть 203 первоначального аудиосигнала 201 с другими частями, оставленными вне полосы частот. В показанном иллюстративном примере это включает в себя часть 204 полосы низких частот и часть 205 полосы высоких частот. Специалистам в данной области техники будет ясно, что этот пример служит только иллюстративной цели, и что не представленная часть может содержать только часть полосы низких частот или часть полосы высоких частот. Эта идея была бы также применима для использования в режиме приложения, где не представленная часть распадается в полосе средних частот на две или более представленные части (не показано).

Следовательно, будет легко понятно, что не представленная часть (части) первоначального аудиосигнала 201 содержит контент, который данная идея может разумно пытаться заменить или иначе представить некоторым разумным и допустимым образом. Будет также понятно, что эта полоса частот сигнала занимает только часть полосы частот Найквиста, определенной соответствующей частотой выборки. Это, в свою очередь, будет ясно для дополнительного предоставления частотной области, в которой можно влиять на желаемое расширение полосы частот.

Ссылаясь обратно на фиг.1, входной цифровой аудиосигнал обрабатывается для генерации обработанного цифрового аудиосигнала в операции 102. Посредством одного подхода обработкой в операции 102 является операция повышающей дискретизации. Посредством другого подхода это может быть простая система единичного усиления, для которой выход равен входу. В операции 103 уровень энергии полосы высоких частот, соответствующий входному цифровому аудиосигналу, оценивается на основе переходной полосы частот обработанного цифрового аудиосигнала в пределах заданного верхнего частотного диапазона узкой полосы частот.

Посредством использования компонентов переходной полосы частот как базиса для оценки получается более точная оценка, чем была бы обычно возможна, если бы все компоненты узкой полосы частот коллективно использовались для оценки значения энергии компонентов полосы высоких частот. Посредством одного подхода значение энергии полосы высоких частот используется для доступа к таблице соответствия, которая вмещает в себя множество соответствующих форм-кандидатов спектральных огибающих полосы высоких частот для определения спектральной огибающей полосы высоких частот, т.е. подходящей формы спектральной огибающей полосы высоких частот при правильном уровне энергии.

На этапе 104 оцененный уровень энергии полосы высоких частот модифицируется на основе точности оценки и/или характеристик узкополосного сигнала для уменьшения артефактов и тем самым повышения качества аудиосигнала с расширенной полосой частот. Это будет подробно описано ниже. Наконец, в 105, цифровой аудиосигнал с полосой высоких частот, по желанию, генерируется на основе модифицированной оценки уровня энергии полосы высоких частот и оцененного спектра полосы высоких частот, соответствующего этой модифицированной оценке уровня энергии полосы высоких частот.

Этот процесс 100 будет затем по желанию приспосабливать комбинирование цифрового аудиосигнала с контентом полосы высоких частот, соответствующим оцененному значению энергии и спектру компонентов полосы высоких частот для предоставления расширенной версии полосы частот узкополосного цифрового аудиосигнала, подлежащего воспроизведению. Хотя процесс, показанный на фиг.1, иллюстрирует только добавление оцененных компонентов полосы высоких частот, следует понимать, что компоненты полосы низких частот могут быть также оценены и скомбинированы с узкополосным цифровым аудиосигналом для генерации широкополосного сигнала с расширенной полосой частот.

Результирующий аудиосигнал с расширенной полосой частот (полученный посредством комбинирования входного цифрового аудиосигнала с искусственно сгенерированным контентом внесигнальной полосы частот) имеет улучшенное качество аудио по сравнению с первоначальным узкополосным цифровым аудиосигналом при воспроизведении в слышимой форме. Посредством одного подхода это может содержать комбинирование двух элементов, которые являются взаимно исключающими относительно их спектрального контента. В таком случае такая комбинация может принять форму, например, простого связывания или соединения иным образом двух (или нескольких) сегментов вместе. Посредством другого подхода, если желательно, контент полосы высоких частот и/или полосы низких частот может иметь некоторую часть, которая находится в пределах соответствующей полосы частот цифрового аудиосигнала. Такое перекрытие может быть полезным по меньшей мере в некоторых режимах приложений для сглаживания и/или циклического изменения шага перехода от одной части к другой посредством комбинирования перекрывающейся части контента полосы высоких частот и/или полосы низких частот с соответствующей внутриполосной частью цифрового аудиосигнала.

Специалистам в данной области техники будет ясно, что вышеописанные процессы легко задействуются с использованием любой из широкого разнообразия доступных и/или легко конфигурируемых платформ, включающих в себя частично или полностью программируемые платформы, известные в данной области техники, или специализированные платформы, которые могут быть желательны для некоторых приложений. Теперь, ссылаясь на фиг.3, будет предоставлен иллюстративный подход к такой платформе.

В этом иллюстративном примере в устройстве 300 процессор 301 выбора функционально соединен со входом 302, который сконфигурирован и скомпонован с возможностью приема цифрового аудиосигнала, имеющего соответствующую полосу частот сигнала. Когда устройство 300 содержит беспроводное двустороннее устройство связи, такой цифровой аудиосигнал может быть предоставлен посредством соответствующего приемника 303, как хорошо известно в данной области техники. В таком случае, например, цифровой аудиосигнал может содержать синтезированный голосовой контент, сформированный как функция принятого вокодированного речевого контента.

Процессор 301, в свою очередь, может быть сконфигурирован и скомпонован (например, с помощью соответствующего программирования, когда процессор 301 содержит частично или полностью программируемую платформу, как известно в данной области техники) с возможностью осуществления одного или нескольких этапов или другой функциональности, изложенной здесь. Это может содержать, например, оценивание значения энергии полосы высоких частот из энергии переходной полосы частот и последующее использование значения энергии полосы высоких частот и множества форм показателей энергии для определения спектральной огибающей полосы высоких частот.

Как описано выше, посредством одного подхода, вышеупомянутое значение энергии полосы высоких частот может служить для облегчения доступа к таблице соответствия, которая вмещает в себя множество соответствующих форм-кандидатов спектральных огибающих. Для поддержки такого подхода это устройство может также содержать, если это желательно, одну или несколько таблиц 304 соответствия, которые функционально соединены с процессором 301. Сконфигурированный таким образом процессор 301 может легко осуществить доступ к таблице 304 соответствия, если это уместно.

Специалистам в данной области техники будет ясно, что такое устройство 300 может содержать множество физически отличающихся элементов, как предложено иллюстрацией, показанной на фиг.3. Также можно, однако, видеть эту иллюстрацию как содержащую некоторый логический вид, и в этом случае один или несколько этих элементов могут быть задействованы и реализованы с помощью совместно используемой платформы. Будет также понятно, что такая совместно используемая платформа может содержать полностью или частично программируемую платформу, как известно в данной области техники.

Следует понимать, что обработка, обсужденная выше, может быть выполнена мобильной станцией в беспроводной связи с базовой станцией. Например, базовая станция может передать узкополосный цифровой аудиосигнал с помощью стандартного средства на мобильную станцию. По принятии процессор (процессоры) в пределах мобильной станции выполняет необходимые операции для генерации расширенной версии полосы частот цифрового аудиосигнала, которая является более ясной и более приятной для слуха пользователя мобильной станции.

Теперь, ссылаясь на фиг.4, входная узкополосная речь snb, дискретизированная при 8 кГц, сначала дискретизируется с повышением в 2 раза с использованием соответствующего повышающего дискретизатора 401 для получения дискретизированной с повышением узкополосной речи s'nb, дискретизированной при 16 кГц. Это может содержать выполнение интерполяции 1:2 (например, посредством вставки выборки с нулевым значением между каждой парой первоначальных речевых выборок), за которой следует фильтрация низких частот, использующая, например, фильтр низких частот (LPF), имеющий полосу пропускания между 0 и 3400 Гц.

Из snb узкополосные линейные предсказывающие (LP) параметры, Anb={1, а1, а2, …, аР}, где Р - порядок модели, также вычисляются с использованием LP анализатора 402, который употребляет хорошо известные методики LP анализа. (Другие возможности существуют, конечно; например, LP параметры могут быть вычислены из прореженной 2:1 версии s'nb.) Эти LP параметры моделируют спектральную огибающую входной узкополосной речи следующим образом:

В вышеприведенном уравнении угловая частота ω в радианах/выборка дается посредством ω=2πf/Fs, где f - частота сигнала, а Fs - частота выборки в Гц. Для частоты выборки Fs в 8 кГц соответствующий порядок Р модели, например, равен 10.

LP параметры Anb затем интерполируются посредством 2 с использованием модуля 403 интерполяции для получения A'nb={1, 0, а1, 0, а2, 0, …, 0, аР}. С использованием A'nb дискретизированная с повышением узкополосная речь s'nb подвергается обратной фильтрации с использованием фильтра 404 анализа для получения LP остаточного сигнала r'nb (который также дискретизируется при 16 кГц). Посредством одного подхода эта операция обратной фильтрации может быть описана уравнением

где n - показатель выборки.

В типичном режиме приложения обратная фильтрация s'nb для получения r'nb может быть осуществлена на покадровой основе, где кадр определяется как последовательность N последовательных выборок на длительности Т секунд. Для многих приложений речевых сигналов хорошим выбором для Т является 20 мс с соответствующими значениями для N около 160 при частоте выборки 8 кГц и около 320 при частоте выборки 16 кГц. Последовательные кадры могут перекрываться друг с другом, например, вплоть до 50% или около того, и, в этом случае, вторая половина выборок в текущем кадре и первая половина выборок в следующем кадре являются одними и теми же, а новый кадр обрабатывается каждые Т/2 секунд. Для выбора Т равным 20 мс и 50% перекрытия, например, LP параметры Anb вычисляются из 160 последовательных snb выборок каждые 10 мс и используются для обратной фильтрации средних 160 выборок соответствующего s'nb кадра 320 выборок для выдачи 160 выборок r'nb.

Можно также вычислить LP параметры порядка 2Р для операции обратной фильтрации непосредственно из дискретизированной с повышением узкополосной речи. Этот подход, однако, может увеличить сложность как вычисления LP параметров, так и операции обратной фильтрации, без необходимого увеличения производительности по меньшей мере при некоторых рабочих условиях.

LP остаточный сигнал r'nb затем двухполупериодно выпрямляется с использованием двухполупериодного выпрямителя 405 и фильтра высоких частот, фильтрующего результат (с использованием, например, фильтра 406 высоких частот (HPF) с полосой пропускания между 3400 и 8000 Гц) для получения выпрямленного остаточного сигнала rrhb с полосой высоких частот. Параллельно выход источника 407 псевдослучайного шума также подвергается фильтрации фильтром 408 высоких частот для получения сигнала nhb шума с полосой высоких частот. Альтернативно, отфильтрованная последовательность шума полосы высоких частот может быть предварительно сохранена в буфере (таком, как, например, круговой буфер), и к ней может осуществляться доступ, если это необходимо, для генерации nhb. Использование такого буфера устраняет вычисления, связанные с фильтрацией фильтром высоких частот выборок псевдослучайного шума в реальном времени. Эти два сигнала, а именно rrhb и nhb, затем смешиваются в смесителе 409 согласно уровню υ звучания, предоставленному посредством модуля 410 оценки и управления (ЕСМ) (который будет более подробно описан ниже). В этом иллюстративном примере этот уровень υ звучания ранжирован от 0 до 1, с 0, указывающим невокализированный уровень, и 1, указывающей полностью вокализированный уровень. Смеситель 409 по существу формирует взвешенную сумму двух входных сигналов на его выходе после обеспечения того, что эти два входных сигнала регулируются для того, чтобы иметь один и тот же уровень энергии. Выходной сигнал mhb смесителя дается посредством

Специалистам в данной области техники будет ясно, что возможны также и другие правила смешивания. Также можно сначала смешать эти два сигнала, а именно двухполупериодно выпрямленный LP остаточный сигнал и сигнал псевдослучайного шума, а затем отфильтровать смешанный сигнал фильтром высоких частот. В этом случае два фильтра 406 и 408 высоких частот заменяются на единственный фильтр высоких частот, помещенный на выходе смесителя 409.

Результирующий сигнал mnb затем подвергается предварительной обработке с использованием препроцессора 411 возбуждения полосы высоких частот (HB) для формирования сигнала exhb возбуждения с полосой высоких частот. Этапы предварительной обработки могут содержать: (i) масштабирование выходного сигнала mhb смесителя для совпадения с уровнем Ehb энергии полосы высоких частот, и (ii) по желанию придание формы выходному сигналу mhb смесителя для совпадения со спектральной огибающей SEhb полосы высоких частот. Как Ehb, так и SEhb предоставляются для HB препроцессора 411 возбуждения посредством ЕСМ 410. При употреблении этого подхода может быть полезно во многих режимах приложений обеспечить, чтобы такое придание формы не влияло на фазовый спектр выходного сигнала mhb смесителя; а именно придание формы может быть предпочтительно выполнено посредством фильтра с нулевым фазовым откликом.

Дискретизированный с повышением узкополосный речевой сигнал s'nb и сигнал exhb возбуждения с полосой высоких частот складываются вместе с использованием сумматора 412 для формирования сигнала smb со смешанной полосой частот. Этот результирующий сигнал smb со смешанной полосой частот вводится в фильтр 413 эквалайзера, который фильтрует этот вход с использованием информации SEwb о спектральной огибающей широкой полосы частот, предоставленной посредством ЕСМ 410 для формирования оцененного широкополосного сигнала swb. Фильтр 413 эквалайзера по существу накладывает спектральную огибающую SEwb широкой полосы частот на входной сигнал smb для формирования swb (дальнейшее обсуждение в этом отношении появляется ниже). Результирующий оцененный широкополосный сигнал swb фильтруется фильтром высоких частот, например, с использованием фильтра 414 высоких частот, имеющего полосу пропускания от 3400 до 8000 Гц, и фильтруется фильтром низких частот, например, с использованием фильтра 415 низких частот, имеющего полосу пропускания от 0 до 300 Гц, для получения, соответственно, сигнала snb с полосой высоких частот и сигнала slb с полосой низких частот. Эти сигналы snb, slb и дискретизированный с повышением узкополосный сигнал snb складываются вместе в другом сумматоре 416 для формирования сигнала sbwe с расширенной полосой частот.

Специалистам в данной области техники будет ясно, что существуют различные другие конфигурации фильтров, возможные для получения сигнала sbwe с расширенной полосой частот. Если фильтр 413 эквалайзера точно удерживает спектральный контент дискретизированного с повышением речевого узкополосного сигнала snb, который является частью его входного сигнала smb, то оцененный широкополосный сигнал swb может быть непосредственно выдан как сигнал sbwe с расширенной полосой частот, тем самым устраняются фильтр 414 высоких частот, фильтр 415 низких частот и сумматор 416. Альтернативно, могут использоваться два фильтра эквалайзера, один - для восстановления части низких частот и другой - для восстановления части высоких частот, и выход первого может быть добавлен к отфильтрованному фильтром высоких частот выходу последнего для получения сигнала sbwe с расширенной полосой частот.

Специалистам в данной области техники будет ясно, что с этим конкретным иллюстративным примером выпрямленное остаточное возбуждение полосы высоких частот и возбуждение шума полосы высоких частот смешиваются вместе согласно уровню звучания. Когда уровень звучания равен 0, что указывает на невокализированную речь, используется исключительно возбуждение шума. Подобным же образом, когда уровень звучания равен 1, что указывает на вокализированную речь, используется исключительно выпрямленное остаточное возбуждение полосы высоких частот. Когда уровень звучания находится между 0 и 1, что указывает на смешанно-вокализированную речь, эти два возбуждения смешиваются в подходящей пропорции, определенной уровнем звучания, и используются. Смешанное возбуждение полосы высоких частот, таким образом, подходит для вокализированного, невокализированного и смешанно-вокализированного звуков.

Будет, кроме того, ясно, что в этом иллюстративном примере фильтр эквалайзера используется для синтезирования swb. Фильтр эквалайзера рассматривает спектральную огибающую SEwb широкой полосы частот, предоставленную посредством ЕСМ, как идеальную огибающую и корректирует (или выравнивает) спектральную огибающую его входного сигнала smb для совпадения с этим идеалом. Поскольку только амплитуды включены в выравнивание спектральной огибающей, фазовый отклик фильтра эквалайзера выбирается равным нулю. Амплитудный отклик фильтра эквалайзера определяется посредством SEwb(ω)/SEmb(ω). Конструкция и реализация такого фильтра эквалайзера для приложения кодирования речи содержит хорошо понятную область усилий. Кратко, однако, фильтр эквалайзера работает следующим образом с использованием анализа перекрытия-сложения (OLA).

Входной сигнал smb сначала делится на перекрывающиеся кадры, например, 20 мс (320 выборок при 16 кГц) кадры с 50% перекрытия. Каждый кадр выборок затем умножается (поточечно) посредством соответствующего окна, например окна повышенного косинуса с совершенным свойством восстановления. Взвешенный с использованием оконной функции речевой кадр затем анализируется для оценивания LP параметров, моделирующих его спектральную огибающую. Идеальная спектральная огибающая широкой полосы частот для этого кадра предоставляется посредством ЕСМ. Из этих двух спектральных огибающих эквалайзер вычисляет амплитудный отклик фильтра как SEwb(ω)/SEmb(ω) и устанавливает фазовый отклик на нуль. Входной кадр затем выравнивается для получения соответствующего выходного кадра. Выровненные выходные кадры окончательно перекрываются-складываются для синтезирования оцененной широкополосной речи swb.

Специалистам в данной области техники будет ясно, что, кроме LP анализа, существуют другие способы для получения спектральной огибающей данного речевого кадра, например кепстральный анализ (обратное преобразование Фурье логарифма частотного спектра), кусочно-линейная аппроксимация или аппроксимация кривой более высокого порядка пиков спектральной величины и т.д.

Специалистам в данной области техники будет ясно, что вместо непосредственного взвешивания с использованием оконной функции входного сигнала smb можно было бы начать со взвешенных с использованием оконной функции версий snb, rrhb и nhb для достижения того же самого результата. Может быть также удобным удерживать размер кадра и процентное перекрытие для фильтра эквалайзера тем же самым, что и размер кадра, и процентное перекрытие, используемые в блоке фильтра анализа, используемом для получения rnb из snb.

Описанный подход фильтра эквалайзера для синтезирования swb предлагает некоторое количество преимуществ: i) Поскольку фазовый отклик фильтра эквалайзера равен нулю, различные частотные компоненты выхода эквалайзера являются выровнен