Способ и устройство для расширения ширины полосы аудиосигнала
Иллюстрации
Показать всеИзобретение относится к воспроизведению прослушиваемого контента, в частности к способам расширения ширины полосы аудиосигнала. Техническим результатом является повышение качества прослушиваемого контента. Указанный результат достигается тем, что обеспечивают цифровой аудиосигнал, имеющий соответствующую ширину полосы сигнала; обеспечивают значение энергии, которое соответствует, по меньшей мере, оценке энергии вне ширины полосы сигнала, которая соответствует цифровому аудиосигналу; используют значение энергии для одновременного определения формы огибающей спектра и соответствующей подходящей энергии для формы огибающей спектра для контента вне ширины полосы сигнала, которая соответствует цифровому аудиосигналу. 2 н. и 8 з.п. ф-лы, 6 ил.
Реферат
Область техники, к которой относится изобретение
Это изобретение в общем относится к воспроизведению прослушиваемого контента и более конкретно к способам расширения ширины полосы.
Уровень техники
Воспроизведение для прослушивания аудиоконтента из цифрового представления представляет собой известную область науки. В некоторых прикладных установках цифровое представление содержит полную соответствующую ширину полосы по отношению к исходной аудиовыборке. В таком случае слышимое воспроизведение может представлять собой высокоточное и естественное выходное звучание. Однако такой подход требует значительных служебных ресурсов для размещения соответствующего количества данных. Во многих прикладных установках, таких как, например, установки беспроводной связи, такое количество информации не может всегда адекватно поддерживаться.
Чтобы компенсировать такое ограничение, так называемые узкополосные речевые методы могут применяться для ограничения количества информации посредством, в свою очередь, ограничения представления до меньшей, чем полная соответствующая ширина полосы, по отношению к исходной аудиовыборке. В качестве одного примера в этом отношении, в то время как естественная речь включает в себя существенные компоненты в диапазоне до 8 кГц (или выше), узкополосное представление может обеспечивать информацию только, допустим, в диапазоне 300-3400 Гц. Получаемый контент, при слышимом воспроизведении, как правило, является достаточно разборчивым, чтобы поддерживать функциональные потребности основанной на речи связи. К сожалению, однако, обработка узкополосного речевого сигнала также имеет тенденцию к потере речи, которая звучит приглушенной и, возможно, даже уменьшает разборчивость по сравнению с речевым сигналом в полной полосе.
Чтобы удовлетворить указанную потребность, иногда используются методы расширения ширины полосы. Метод расширения ширины полосы искусственно генерирует недостающую информацию в верхней и/или нижней полосах на основе доступной узкополосной информации, а также другой информации, чтобы выбрать информацию, которая может быть добавлена к узкополосному контенту, чтобы таким образом синтезировать псевдо широко- (или полно-) полосный сигнал. Используя такие методы, например, можно преобразовать узкополосный речевой сигнал в диапазоне 300-3400 Гц в широкополосный речевой сигнал, скажем, в диапазоне 100-8000 Гц. Для этой цели критическая часть информации, которая требуется, представляет собой огибающую спектра сигнала в верхней полосе (3400-8000 Гц). Если оценивается огибающая спектра широкополосного сигнала, то огибающая спектра сигнала в верхней полосе может обычно легко извлекаться из нее. Можно рассматривать огибающую спектра сигнала в верхней полосе как состоящую из формы и усиления (или, эквивалентно, энергии).
Согласно одному подходу, например, форма огибающей спектра сигнала в верхней полосе оценивается путем оценки огибающей спектра широкополосного сигнала исходя из огибающей спектра узкополосного сигнала посредством отображения кодовой книги. Энергия в верхней полосе затем оценивается посредством корректировки энергии в пределах узкополосной секции огибающей спектра широкополосного сигнала, чтобы она соответствовала энергии огибающей спектра узкополосного сигнала. В этом подходе форма огибающей в верхней полосе определяет энергию в верхней полосе и любые ошибки, при оценке формы, будут также соответственно оказывать влияние на оценки энергии в верхней полосе.
В другом подходе форма огибающей спектра сигнала в верхней полосе и энергия в верхней полосе оцениваются по отдельности, и огибающая спектра сигнала в верхней полосе, которая в конечном итоге используется, корректируется, чтобы соответствовать оцененной энергии в верхней полосе. Согласно одному сопутствующему подходу оцененная энергия в верхней полосе используется, помимо других параметров, чтобы определить форму огибающей спектра сигнала в верхней полосе. Однако вовсе не гарантируется, что получающаяся огибающая спектра сигнала в верхней полосе имеет соответствующую энергию в верхней полосе. Следовательно, требуется дополнительный этап для корректировки энергии огибающей спектра сигнала в верхней полосе по отношению к оцененному значению. Если только не будут приняты особые меры, этот подход будет приводить к неоднородности в огибающей спектра широкополосного сигнала на границе между узкополосной частью и верхней полосой. Хотя существующие подходы для расширения ширины полосы и, в частности, для оценки огибающей в верхней полосе являются приемлемо успешными, они не всегда приводят к получению в результате речевого сигнала подходящего качества, по меньшей мере, в некоторых прикладных установках.
Чтобы сгенерировать речевой сигнал расширенной ширины полосы с приемлемым качеством, число артефактов в таком речевом сигнале должно быть минимизировано. Известно, что завышенная оценка энергии в верхней полосе приводит к раздражающим артефактам. Неправильная оценка формы огибающей спектра сигнала в верхней полосе может также привести к артефактам, но эти артефакты обычно являются более умеренными и легко маскируются узкополосным речевым сигналом.
Краткое описание чертежей
Вышеупомянутые потребности, по меньшей мере, частично удовлетворяются посредством обеспечения способа и устройства для облегчения предоставления и использования значения энергии с целью определения формы спектральной огибающей для контента вне ширины полосы сигнала, описанных в нижеследующем подробном описании осуществления изобретения, в частности, при изучении совместно с чертежами, на которых:
Фиг.1 содержит блок-схему последовательности операций способа, сконфигурированную в соответствии с различными вариантами осуществления настоящего изобретения;
Фиг.2 содержит график, сконфигурированный в соответствии с различными вариантами осуществления настоящего изобретения;
Фиг.3 содержит блок-схему, сконфигурированную в соответствии с различными вариантами осуществления настоящего изобретения;
Фиг.4 содержит блок-схему, сконфигурированную в соответствии с различными вариантами осуществления настоящего изобретения;
Фиг.5 содержит блок-схему, сконфигурированную в соответствии с различными вариантами осуществления настоящего изобретения;
Фиг.6 иллюстрирует график, сконфигурированный в соответствии с различными вариантами осуществления настоящего изобретения.
Специалистам в данной области техники должно быть ясно, что элементы на чертежах проиллюстрированы для простоты и ясности и необязательно изображены в настоящем масштабе. Например, размерности и/или относительное расположение некоторых из элементов на чертежах могут быть преувеличены относительно других элементов, с целью улучшить понимание различных вариантов осуществления настоящего изобретения. Кроме того, общие, но хорошо понятые элементы, которые полезны или необходимы в промышленном осуществлении, часто не изображаются, чтобы облегчить сложное для понимания представление этих различных вариантов осуществления настоящего изобретения. Дополнительно, должно быть понятно, что определенные действия и/или этапы могут быть описаны или изображены в конкретном порядке осуществления, при этом специалистам в данной области техники должно быть ясно, что такая специфика, в отношении последовательности, фактически не требуется. Также понятно, что используемые здесь термины имеют обычное смысловое значение, соответствующее таким терминам и выражениям в соответствующих областях исследования и изучения, если конкретные значения иным образом не изложены здесь.
Осуществление изобретения
В целом в соответствии с упомянутыми различными вариантами осуществления изобретения обеспечивается цифровой аудиосигнал, имеющий соответствующую ширину полосы сигнала, и также обеспечивается значение энергии, которое соответствует, по меньшей мере, оценке энергии вне ширины полосы сигнала, которая соответствует этому цифровому аудиосигналу. Затем можно использовать это значение энергии, чтобы одновременно определять форму огибающей спектра сигнала и соответствующую подходящую энергию для формы огибающей спектра контента вне ширины полосы сигнала, которая соответствует цифровому аудиосигналу. Согласно одному подходу, если необходимо, осуществляется объединение (на покадровой основе) цифрового аудиосигнала с контентом вне ширины полосы сигнала, чтобы обеспечить новый вариант цифрового аудиосигнала с расширенной шириной полосы, подлежащего аудиовоспроизведению, чтобы таким образом улучшить соответствующее аудиокачество цифрового аудиосигнала, воспроизводимого таким образом.
При такой конфигурации энергия вне ширины полосы подразумевает огибающую спектра вне полосы; то есть оцененное значение энергии используется для определения огибающей спектра вне полосы, то есть спектральной формы и соответствующей подходящей энергии. Такой подход оказывается относительно простым для реализации и обработки. Единственным параметром энергии вне полосы более легко управлять и манипулировать, чем многомерной спектральной огибающей сигнала вне полосы. В результате этот подход также может приводить к получаемому в результате слышимому содержимому с более высоким качеством, чем, по меньшей мере, некоторые из подходов предшествующего уровня техники, используемых в настоящее время.
Эти и другие преимущества станут более понятными после полного просмотра и изучения нижеследующего детального описания. Ссылаясь на чертежи, в частности на Фиг.1, соответствующий процесс 100 может начинаться с предоставления 101 цифрового аудиосигнала, который имеет соответствующую ширину полосы сигнала. В примерной прикладной установке это будет содержать обеспечение множества кадров такого контента. Упомянутые раскрытия аспектов изобретения с легкостью обеспечат обработку каждого такого кадра согласно описанным этапам. Согласно одному подходу, например, каждый такой кадр может соответствовать 10-40 миллисекундам исходного аудиоконтента.
Это может содержать, например, обеспечение цифрового аудиосигнала, который содержит синтезируемый голосовой контент. Это имеет место, например, когда эти решения используются в связи с принятым речевым контентом, созданным вокодером в портативном устройстве беспроводной связи. Однако также существуют и другие возможности, как будет хорошо понятно специалистам в данной области техники. Например, цифровой аудиосигнал мог бы вместо этого содержать исходный речевой сигнал или подвергнутую повторной дискретизации версию либо исходного речевого сигнала, либо синтезированного речевого контента.
Со ссылкой на Фиг.2, должно быть понятно, что этот цифровой аудиосигнал относится к некоторому исходному аудиосигналу 201, который имеет исходную соответствующую ширину полосы 202 сигнала. Эта исходная соответствующая ширина полосы 202 сигнала типично будет большей, чем вышеупомянутая ширина полосы сигнала, которая соответствует цифровому аудиосигналу. Это может иметь место, например, когда цифровой аудиосигнал представляет только часть 203 исходного аудиосигнала 201, при этом другие части остаются вне ширины полосы. В показанном иллюстративном примере это включает в себя часть 204 низкой полосы и часть 205 высокой полосы. Специалистам в данной области техники должно быть понятно, что этот пример служит лишь для иллюстративных целей и что не подлежащая представлению часть может содержать только часть низкой полосы или часть высокой полосы. Упомянутые решения также были бы применимы для использования в прикладной установке, где не подлежащая представлению часть приходится на среднюю полосу относительно двух или более подлежащих представлению частей (не показано).
Таким образом, без труда будет понятно, что непредставляемая(ые) часть(и) исходного аудиосигнала 201 включает в себя контент, который в соответствии с настоящими решениями вполне можно использовать для замещения или иного представления некоторым подходящим и приемлемым способом. Также будет понятно, что эта ширина полосы сигнала занимает только часть ширины полосы Найквиста, определенной посредством соответствующей частоты дискретизации. Это, в свою очередь, как будет понятно, дополнительно обеспечит частотный диапазон, чтобы выполнить желаемое расширение ширины полосы.
Вновь ссылаясь на Фиг.1, этот процесс 100 затем предоставляет значение энергии, которое соответствует, по меньшей мере, оценке энергии вне ширины полосы сигнала, которая соответствует цифровому аудиосигналу. Для большинства прикладных установок это может основываться, по меньшей мере, частично на допущении, что исходный сигнал имеет более широкую ширину полосы, чем таковая у самого цифрового аудиосигнала.
Согласно одному подходу этот этап может содержать оценивание значения энергии в зависимости, по меньшей мере, частично от самого цифрового аудиосигнала. Согласно другому подходу, если необходимо, этап может содержать прием информации из источника, который исходно передал вышеупомянутый цифровой аудиосигнал, который представляет, непосредственно или косвенно, значение энергии. Последний подход может быть полезен, когда кодер исходной речи (или другой соответствующий источник) включает в себя подходящую функциональность, чтобы измерять и представлять такое значение энергии непосредственно или косвенно, посредством одной или более метрик, которые передаются, например, вместе с самим цифровым аудиосигналом.
Эта энергия вне ширины полосы сигнала может содержать энергию, которая соответствует сигнальному контенту, который выше по частоте, чем соответствующая ширина полосы сигнала цифрового аудиосигнала. Такой подход является подходящим, например, когда вышеупомянутый удаляемый контент сам включает в себя контент, занимающий ширину полосы, которая выше по частоте, чем аудиоконтент, непосредственно представляемый цифровым аудиосигналом. В качестве альтернативы или в комбинации с вышеизложенным, эта энергия вне ширины полосы сигнала может соответствовать сигнальному контенту, который ниже по частоте, чем соответствующая ширина полосы сигнала цифрового аудиосигнала. Разумеется, этот подход может служить дополнением для той ситуации, которая существует, когда вышеупомянутый удаляемый контент сам включает в себя контент, занимающий ширину полосы, которая ниже по частоте, чем аудиоконтент, непосредственно представляемый цифровым аудиосигналом.
Затем процесс 100 использует (103) это значение энергии (которое может содержать множество значений энергии, когда при этом представляется множество отдельных удаляемых частей, как предложено выше), чтобы определить форму огибающей спектра сигнала с тем, чтобы подходящим образом представить контент вне ширины полосы сигнала, которая соответствует цифровому аудиосигналу. Это может содержать, например, использование значения энергии для одновременного определения формы огибающей спектра сигнала и соответствующей подходящей энергии для формы огибающей спектра, которая сопоставима со значением энергии для контента вне ширины полосы сигнала, которая соответствует цифровому аудиосигналу.
Согласно одному подходу это может содержать использование значения энергии для осуществления доступа к таблице поиска, которая вмещает в себя множество соответствующих возможных форм огибающей спектра. Согласно другому подходу это может содержать использование значения энергии для осуществления доступа к таблице поиска, которая содержит множество форм огибающей спектра сигнала, и интерполирование между двумя или более из этих форм, чтобы получить желаемую форму огибающей спектра. Согласно еще одному другому подходу это может содержать выбор одной из двух или более таблиц поиска с использованием одного или более параметров, выведенных из цифрового аудиосигнала, и использование значения энергии для осуществления доступа к выбранной таблице поиска, которая содержит множество соответствующих возможных форм огибающей спектра сигнала. Это может содержать, если необходимо, осуществление доступа к подходящим формам, которые сохранены в параметрической форме. Эти решения также будут предусматривать выведение одной или более таких форм, которые необходимы, используя подходящую математическую функцию выбора вместо извлечения формы из такой таблицы, если это требуется.
Далее, процесс 100 опционально обеспечивает объединение 104 цифрового аудиосигнала с контентом вне ширины полосы сигнала, чтобы тем самым обеспечить версию цифрового аудиосигнала с расширенной шириной полосы, чтобы таким образом улучшить соответствующее аудиокачество цифрового аудиосигнала, при его представлении в слышимой форме. Согласно одному подходу это может содержать объединение двух элементов, которые являются взаимно однозначными по отношению к их спектральному содержимому. В таком случае такое объединение может принять форму, например, простой конкатенации или, иначе, соединения двух (или более) сегментов вместе. Согласно другому подходу, если необходимо, контент вне ширины полосы сигнала может иметь часть, которая находится в пределах соответствующей ширины полосы цифрового аудиосигнала. Такое перекрытие может быть полезным, по меньшей мере, в некоторых прикладных установках, чтобы сгладить и/или размыть переход от одной части к другой посредством объединения перекрывающей части контента вне ширины полосы сигнала с соответствующей частью в полосе цифрового аудиосигнала.
Специалисты в данной области техники поймут, что вышеописанные процессы полностью применимы с использованием любой из большого разнообразия доступных и/или полностью конфигурируемых вычислительных платформ, включая частично или полностью программируемые платформы, которые известны в уровне техники, или платформы специального назначения, которые могут быть необходимы для некоторых приложений. Со ссылкой на Фиг.3, ниже представлен иллюстративный подход для такой платформы.
В этом иллюстративном примере в устройстве 300 процессор 301 выбора функционально соединяется с вводом 302, который сконфигурирован и выполнен так, чтобы принимать цифровой аудиосигнал, имеющий соответствующую ширину полосы сигнала. Когда устройство 300 содержит устройство беспроводной двухсторонней связи, такой цифровой аудиосигнал может быть обеспечен соответствующим приемником 303, как это хорошо известно в уровне техники. В таком случае, например, цифровой аудиосигнал может содержать синтезируемый аудиоконтент, сформированный в зависимости от речевого контента, созданного вокодером.
Процессор 301, в свою очередь, может быть сконфигурирован и выполнен так (например, посредством соответствующего программирования, когда процессор 301 содержит частично или полностью программируемую вычислительную платформу, как известно в уровне техники), чтобы выполнять один или более этап или другие функциональные возможности, описанные здесь. Это может содержать, например, предоставление значения энергии, которая соответствует, по меньшей мере, оценке энергии вне ширины полосы сигнала, которая соответствует цифровому аудиосигналу, и затем использование этого значения энергии и набора индексированных по энергии форм, чтобы определить форму огибающей спектра сигнала для контента вне ширины полосы, которая соответствует цифровому аудиосигналу.
Как описано выше, согласно одному подходу вышеупомянутое значение энергии может служить для того, чтобы облегчить осуществление доступа к таблице поиска, которая содержит множество соответствующих возможных форм огибающей спектра. Для обеспечения такого подхода это устройство может также содержать, если необходимо, одну или более таблицы 304 поиска, которые функционально соединяются с процессором 301. Имея такую конфигурацию, процессор 301 может без труда осуществлять доступ к таблице 304 поиска в зависимости от ситуации.
Специалистам в данной области техники должно быть понятно, что такое устройство 300 может состоять из множества физически отличных элементов, как предложено на иллюстрации, показанной в Фиг.3. Однако можно также рассматривать эту иллюстрацию как содержащую логическое представление, и в этом случае один или более из этих элементов могут обеспечиваться и реализовываться через совместно используемую платформу. Также понятно, что такая совместно используемая платформа может содержать полностью или, по меньшей мере, частично программируемую платформу, как это известно в уровне техники.
Со ссылкой на Фиг.4, входной речевой сигнал s nb в узкой полосе, дискретизированный при 8 кГц, сначала подвергается дискретизации с повышением частоты в 2 раза с помощью соответствующего повышающего дискретизатора 401, чтобы получить дискретизированный с повышением частоты речевой сигнал s'nb в узкой полосе, дискретизированный при 16 кГц. Этот этап может содержать выполнение интерполяции вида 1:2 (например, посредством вставки отсчета с нулевым значением между каждой парой исходных отсчетов речевого сигнала), с последующей низкочастотной фильтрацией при помощи, например, низкочастотного фильтра (LPF), имеющего полосу пропускания между 0 и 3400 Гц.
Исходя из s nb, параметры линейного предсказания (LP) узкой полосы, A nb ={1, α 1 , α 2 …, α p }, где P является порядком модели, также вычисляются при помощи LP анализатора 402, который применяет хорошо известные методы LP анализа. (Разумеется, существуют другие возможности; например, LP параметры могут быть вычислены исходя из 2:1 подвергнутой децимации версии s'nb.) Эти LP параметры моделируют огибающую спектра входного речевого сигнала в узкой полосе, как
В вышеприведенном уравнении угловая частота ω в радианах/отсчет задается как ω=2πf/F s, где f является частотой сигнала в Гц, а F s - это частота дискретизации в Гц. Для частоты F s дискретизации при 8 кГц подходящим порядком P модели является, например, 10.
LP параметры A nb затем интерполируются через 2 при помощи модуля 403 интерполяции, чтобы получить A nb={1, 0, α1, 0, α2, 0…, 0, α p}. Используя A nb, дискретизированный с повышением частоты узкополосный речевой сигнал s'nb подвергается обратной фильтрации с помощью фильтра 404 анализа, чтобы получить LP остаточный сигнал r' nb (который также дискретизируется при 16 кГц). Согласно одному подходу эта операция обратной фильтрации (или фильтрации анализа) может быть описана уравнением
где n - это индекс отсчета.
В обычной прикладной установке обратная фильтрация s' nb для получения r' nb может быть выполнена на покадровой основе, где кадр определяется как последовательность из N следующих друг за другом отсчетов с продолжительностью в T секунд. Для многих приложений речевых сигналов хороший выбор для T составляет около 20 мс с соответствующими значениями для N около 160 на частоте дискретизации 8 кГц и около 320 на частоте дискретизации 16 кГц. Последовательные кадры могут накладываться друг на друга, например, вплоть до или около 50%, при этом вторая половина отсчетов в текущем кадре и первая половина отсчетов в следующем кадре являются одними и теми же, и новый кадр подвергается обработке каждые T/2 секунд. Для выбора T как 20 мс и 50%-ного перекрытия, например, LP параметры A nb вычисляются исходя из 160 последовательных s nb отсчетов каждые 10 мс и используются для обратной фильтрации средних 160 отсчетов соответствующего s' nb кадра из 320 отсчетов, чтобы выдать 160 отсчетов r' nb.
Можно также вычислить 2P-порядковые LP параметры для операции обратной фильтрации непосредственно из дискретизированного с повышением частоты узкополосного речевого сигнала. Однако этот подход может усложнить как вычисление LP параметров, так и операцию обратной фильтрации, без необходимого увеличения производительности, по меньшей мере, в некоторых режимах работы.
LP остаточный сигнал r' nb затем подвергается двухполупериодному выпрямлению при помощи двухполупериодного выпрямителя 405 и высокочастотной фильтрации результата (используя, например, высокочастотный фильтр (HPF) 406 с полосой пропускания между 3400 и 8000 Гц), чтобы получить высокополосный выпрямленный остаточный сигнал rr nb . Параллельно, выход источника 407 псевдослучайного шума также подвергается высокочастотной фильтрации 408, чтобы получить шумовой сигнал n hb в верхней полосе. Эти два сигнала, то есть rr nb и n hb, микшируются в микшере 409 согласно уровню v голоса, предоставляемого Модулем Оценки и Управления (ECM) 410 (данный модуль будет описан более подробно ниже). В этом иллюстративном примере этот уровень v голоса ранжируется от 0 до 1, причем 0 указывает невокализованный уровень, а 1 указывает полностью вокализованный уровень. Микшер 409 по существу формирует взвешенную сумму из двух входных сигналов на своем выходе после обеспечения того, что два входных сигнала настроены на одинаковый уровень энергии. Выходной сигнал m hb микшера имеет вид
Специалисты в данной области техники поймут, что другие правила микширования также возможны. Также является возможным сначала смешать два сигнала, то есть выпрямленный на основе двухполупериодного выпрямления LP остаточный сигнал и псевдослучайный шумовой сигнал, и затем подвергнуть высокочастотной фильтрации смешанный сигнал. В этом случае два высокочастотных фильтра 406 и 408 заменяются единственным высокочастотным фильтром, размещенным на выходе микшера 409.
Полученный сигнал m hb затем предварительно обрабатывается при помощи препроцессора 411 возбуждения верхней полосы (HB), чтобы сформировать высокополосный сигнал ex hb возбуждения. Этапы предварительной обработки могут содержать: (i) масштабирование выходного сигнала m hb микшера для приведения в соответствие уровня E hb энергии в верхней полосе, и (ii) опционально, формообразование выходного сигнала m hb микшера с тем, чтобы привести в соответствие огибающую SE hb спектра сигнала в верхней полосе. Как E hb , так и SE hb предоставляются процессору 411 возбуждения HB, посредством ECM 410. При применении данного подхода может быть полезно во многих прикладных установках гарантировать, что такое формообразование не оказывает негативного влияния на фазовый спектр выходного сигнала m hb микшера; то есть формообразование может предпочтительно быть выполнено фильтром с нулевой фазовой характеристикой.
Дискретизированный с повышением частоты узкополосный речевой сигнал s' nb и высокополосный сигнал ex hb возбуждения суммируются с помощью сумматора 412, чтобы сформировать сигнал смешанной полосы. Этот результирующий сигнал смешанной полосы вводится в выравнивающий фильтр 413, который фильтрует этот входной сигнал, используя информацию SE wb огибающей спектра широкополосного сигнала, предоставленную ECM 410, чтобы сформировать оцененный широкополосный сигнал . Выравнивающий фильтр 413 по существу накладывает огибающую SE wb спектра широкополосного сигнала на входной сигнал , чтобы сформировать (дополнительно описано ниже). Результирующий оцененный широкополосный сигнал подвергается высокочастотной фильтрации, например, при помощи высокочастотного фильтра 414, имеющего ширину полосы от 3400 до 8000 Гц, и низкочастотной фильтрации, например, при помощи низкочастотного фильтра 415, имеющего ширину полосы от 0 до 300 Гц, чтобы получить соответственно высокополосный сигнал и низкополосный сигнал . Эти сигналы , и дискретизированный с повышением частоты узкополосный сигнал s' nb суммируются другим сумматором 416, чтобы сформировать сигнал S bwe с расширенной шириной полосы.
Специалисты в данной области техники поймут, что существуют различные другие конфигурации фильтра, которые можно применять для получения сигнала S bwe с расширенной шириной полосы. Если выравнивающий фильтр 413 в точности сохраняет спектральный состав дискретизированного с повышением частоты речевого узкополосного сигнала s' nb, который является частью его входного сигнала , тогда оцененный широкополосный сигнал может быть непосредственно выведен как сигнал S bwe с расширенной шириной полосы, тем самым исключая высокочастотный фильтр 414, низкочастотный фильтр 415 и сумматор 416. В качестве альтернативы, могут использоваться два выравнивающих фильтра, один для восстановления низкочастотной части и другой для восстановления высокочастотной части, и выход последнего может быть добавлен к высокочастотно отфильтрованному выходу первого, чтобы получить сигнал S bwe с расширенной шириной полосы.
Специалистам в данной области техники должно быть понятно, что, в случае этого конкретного иллюстративного примера, выровненное остаточное возбуждение (сигнал) в верхней полосе и шумовое возбуждение в верхней полосе смешиваются вместе согласно уровню голоса. Когда уровень голоса является 0, указывающим невокализованную речь, используется исключительно шумовое возбуждение. Аналогично, когда уровень голоса является 1, указывая вокализованную речь, используется исключительно выровненное остаточное возбуждение верхней полосы. Когда уровень голоса находится между 0 и 1, указывая смешанно-вокализованную речь, эти два возбуждения микшируются в соответствующей пропорции, согласно определению уровня голоса, и соответственно используются. Смешанное возбуждение верхней полосы, таким образом, является подходящим для вокализованных, невокализованных и смешанно-вокализованных звуков.
Также будет понято, что в этом иллюстративном примере выравнивающий фильтр используется для синтезирования . Выравнивающий фильтр принимает огибающую SE wb спектра широкополосного сигнала, предоставленную ECM в качестве идеальной огибающей, и выполняет коррекцию (или выравнивает) огибающую спектра своего входного сигнала для приведения ее в соответствие с идеальной. Поскольку в уравнивании огибающей спектра используются только амплитуды, фазовая характеристика выравнивающего фильтра выбирается нулевой. Амплитудная характеристика выравнивающего фильтра задается как SE wb(ω)/SE mb(ω). Проектирование и реализация такого выравнивающего фильтра для приложения кодирования речевого сигнала представляют собой хорошо изученную область техники. Кратко, тем не менее, выравнивающий фильтр работает следующим образом, с использованием анализа на основе добавления с перекрытием (OLA).
Входной сигнал сначала делится на перекрывающиеся кадры, например, 20 мс (320 отсчетов на 16 кГц) кадры с 50%-ным перекрытием. Каждый кадр отсчетов затем умножается (точечно) на подходящее окно, например окно типа приподнятой косинусоиды с идеальной характеристикой восстановления. Подвергнутый оконной обработке кадр речевого сигнала затем подвергается анализу, чтобы оценить LP параметры, моделирующие его огибающую спектра. Идеальная огибающая спектра широкополосного сигнала для кадра обеспечивается посредством ECM. Исходя из двух огибающих спектра, выравниватель вычисляет амплитудную характеристику фильтра как SE wb(ω)/SE mb(ω) и устанавливает фазовую характеристику в ноль. Входной кадр затем выравнивается, чтобы получить соответствующий выходной кадр. И наконец, выровненные выходные кадры подвергаются добавлению с перекрытием, чтобы синтезировать оцененный широкополосный речевой сигнал .
Специалисты в данной области техники поймут, что помимо LP анализа существуют другие способы получения огибающей спектра данного кадра речевого сигнала, например кепстральный анализ, кусочно-линейная интерполяция или интерполяция по кривой высшего порядка максимумов амплитуды спектра и т.д.
Специалисты в данной области техники также поймут, что, вместо «оконной» обработки входного сигнала непосредственно, можно было бы начать с подвергнутых оконной обработке версий s'nb, rr hb и n hb для достижения того же самого результата. Также может быть удобным сохранить размер кадра и процент перекрытия для выравнивающего фильтра такими же, как те, которые используются в блоке фильтра анализа, применяемого для получения r' nb из s'nb.
Описанный подход в отношении выравнивающего фильтра для синтезирования предоставляет ряд преимуществ: i) поскольку фазовая характеристика выравнивающего фильтра 413 является нулевой, различные частотные составляющие на выходе выравнивателя выравниваются по времени с соответствующими составляющими на входе; это может быть полезно для содержащего голос речевого сигнала, потому что сегменты с высокой энергией (такие как относящиеся к голосовой щели сегменты импульса) выровненного остаточного возбуждения ex hb в верхней полосе выравниваются по времени с соответствующими сегментами высокой энергии дискретизированного с повышением частоты узкополосного речевого сигнала s' nb на входе выравнивателя, и сохранение этого выравнивания по времени на выходе выравнивателя будет часто действовать для обеспечения хорошего качества речевого сигнала; ii) вход для выравнивающего фильтра 413 необязательно должен иметь плоский спектр как в случае LP синтезирующего фильтра; iii) выравнивающий фильтр 413 определяется в частотной области, и поэтому лучшее и более тонкое управление по различным частям спектра является осуществимым; и iv) итерации являются возможными с тем, чтобы улучшить эффективность фильтрации за счет дополнительной сложности и задержки (например, выходной сигнал выравнивателя может быть возвращен к входу, который будет подвергнут выравниванию снова и снова, чтобы улучшить производительность).
Некоторые дополнительные подробности относительно описанной конфигурации будут представлены ниже.
Предварительная обработка возбуждения верхней полосы: амплитудная характеристика выравнивающего фильтра 413 задается как SE wb (ω)/SE mb (ω), и его фазовая характеристика может быть установлена в нуль. Более близкой к идеальной огибающей SE wb (ω) спектра является огибающая SE mb (ω) спектра на входе, для выравнивателя проще корректировать огибающую спектра на входе, чтобы привести ее в соответствие с идеальной. По меньшей мере, одна функция процессора 411 предварительной обработки возбуждения верхней полосы заключается в том, чтобы переместить SE mb (ω) ближе к SE wb (ω) и, таким образом, упростить работу выравнивающего фильтра 413. Во-первых, это выполняется посредством масштабирования выходного сигнала m hb микшера до правильного уровня E hb энергии в верхней полосе, обеспеченного ECM 410. Во-вторых, выходному сигналу m hb микшера опционально задается форма так, чтобы огибающая его спектра соответствовала огибающей SE hb спектра сигнала в верхней полосе, об