Системы, способы и устройства для подавления высокополосных всплесков
Иллюстрации
Показать всеИзобретение относится к обработке сигналов, а более конкретно к способу и устройству для подавления высокополосных всплесков. В одном варианте осуществления подавитель высокополосных всплесков включает в себя первый детектор всплесков, сконфигурированный так, чтобы обнаруживать всплески в низкополосном речевом сигнале, и второй детектор всплесков, сконфигурированный так, чтобы обнаруживать всплески в соответствующей высокочастотной части речевого сигнала. Низкополосные и высокополосные части речевых сигналов могут быть различными частотными областями широкополосного речевого сигнала. Подавитель высокополосных всплесков также включает в себя генератор управляющего сигнала ослабления, чтобы формировать управляющего сигнала ослабления согласно разности между выводами первого и второго детекторов всплесков. Элемент регулирования усиления выполнен с возможностью применять управляющий сигнал ослабления к высокополосной части речевого сигнала. В одном примере управляющий сигнал ослабления указывает ослабление, когда всплеск обнаружен в высокополосной части речевого сигнала, но отсутствует в соответствующей области во времени низкополосного речевого сигнала. Технический результат - повышение эффективности кодирования огибающей времени за счет подавления всплесков в высокополосной части речевого сигнала 4 н. и 25 з.п. ф-лы, 25 ил.
Реферат
Родственная заявка
Данная заявка притязает на приоритет Предварительной патентной заявки (США) номер 60/667901, озаглавленной "CODING THE HIGH-FREQUENCY BAND OF WIDEBAND SPEECH", поданой 1 апреля 2005 года. Данная заявка также притязает на приоритет Предварительной патентной заявки (США) номер 60/673965, озаглавленной "PARAMETER CODING IN A HIGH-BAND SPEECH CODER", поданой 22 апреля 2005 года.
Область техники, к которой относится изобретение
Данное изобретение относится к обработке сигналов.
Уровень техники
Речевая связь по коммутируемой телефонной сети общего пользования (PSTN) традиционно ограничена по полосе пропускания в частотном диапазоне 300-3400 кГц. Новые сети для речевой связи, такие как сотовая телефония и "речь-по-IP" (VoIP) может не иметь такие же ограничения по полосе пропускания, и могут быть предпочтительными для того, передавать и принимать речевую связь, которая включает в себя широкополосный частотный диапазон, по таким сетям. Например, может быть желательным поддерживать диапазон звуковых частот, который идет вниз до 50 Гц и/или вверх до 7 или 8 кГц. Также может быть желательным поддерживать другие приложения, например высококачественную аудио- или аудио/видеоконференцсвязь, которые могут иметь звуковое речевое содержимое в диапазонах за пределами традиционных ограничений PSTN.
Расширение диапазона, поддерживаемое посредством речевого кодера, до более высоких частот позволяет повысить разборчивость. Например, информация, которая различает фрикативные звуки, такие как "s" и "f", в большей степени представлена в высоких частотах. Высокополосное расширение также позволяет улучшить другие качества речи, такие как эффект присутствия. Например, даже вокализованный гласный звук может иметь спектральную энергию гораздо больше ограничения PSTN.
При проведении исследований в области широкополосных речевых сигналов авторы изобретения периодически анализировали импульсы высокой энергии, или "всплески", в верхней части спектра. Эти высокополосные всплески типично продолжаются всего несколько миллисекунд (типично 2 миллисекунды с максимальной длиной примерно 3 миллисекунды), могут охватывать до нескольких килогерц (кГц) по частоте и возникать вероятно случайно в ходе различных типов речевых звуков как вокализованных, так и невокализованных. У некоторых говорящих высокополосный всплеск может возникать в любом предложении, тогда как у других говорящих эти всплески вообще могут не возникать. Хотя данные события, как правило, не происходят часто, видимо, они повсеместны, поскольку авторы изобретения обнаруживали их примеры в широкополосных речевых выборках и нескольких различных баз данных и из нескольких отличных источников.
Высокополосные всплески имеют широкий частотный диапазон, но типично возникают только в более высокой полосе спектра, например в области 3,5-7 кГц, а не в нижней полосе. Например, фиг. 1 иллюстрирует спектрограмму слова "can". В этом широкополосном речевом сигнале высокополосный всплеск можно видеть через 0,1 секунду, идущий в широкой частотной области в районе 6 кГц (на данном чертеже более темные области указывают более высокую интенсивность). Возможно, что, по меньшей мере, некоторые высокополосные всплески формируются посредством взаимодействия между ртом говорящего и микрофоном и/или вследствие щелкающих звуков, издаваемых ртом говорящего в ходе разговора.
Раскрытие изобретения
Способ обработки сигналов согласно одному варианту осуществления включает в себя обработку широкополосного речевого сигнала, чтобы получить низкополосный речевой сигнал и высокополосный речевой сигнал; определение того, что всплеск присутствует в области высокополосного речевого сигнала; и определение того, что всплеск отсутствует в соответствующей области низкополосного речевого сигнала. Способ также включает в себя, на основе определения того, что всплеск присутствует, и определения того, что всплеск отсутствует, ослабление высокополосного речевого сигнала в области.
Устройство согласно варианту осуществления включает в себя первый детектор всплесков, выполненный с возможностью обнаруживать всплески в низкополосном речевом сигнале; второй детектор всплесков, выполненный с возможностью обнаруживать всплески в соответствующем высокополосном речевом сигнале; вычислитель управляющего сигнала ослабления, выполненный с возможностью вычислять управляющий сигнал ослабления согласно разности между выводами первого и второго детекторов всплесков; и элемент регулирования усиления, выполненный с возможностью применять управляющий сигнал ослабления к высокополосному речевому сигналу.
Краткое описание чертежей
Фиг. 1 иллюстрирует спектрограмму сигнала, включающего в себя высокополосный всплеск.
Фиг. 2 иллюстрирует спектрограмму сигнала, в котором высокополосный всплеск подавлен.
Фиг. 3 иллюстрирует блок-схему компоновки, включающей в себя гребенку A110 фильтров и подавитель C200 высокополосных всплесков согласно варианту осуществления.
Фиг. 4 иллюстрирует блок-схему компоновки, включающей в себя гребенку A110 фильтров, подавитель C200 высокополосных всплесков и гребенку B120 фильтров.
Фиг. 5a иллюстрирует блок-схему реализации A112 гребенки A110 фильтров.
Фиг. 5b иллюстрирует блок-схему реализации B122 гребенки B120 фильтров.
Фиг. 6a иллюстрирует охват полосы пропускания по полосам низких и высоких частот для одного примера гребенки A110 фильтров.
Фиг. 6b иллюстрирует охват полосы пропускания по полосам низких и высоких частот для другого примера гребенки A110 фильтров.
Фиг. 6c иллюстрирует блок-схему реализации A114 гребенки A112 фильтров.
Фиг. 6d иллюстрирует блок-схему реализации B124 гребенки B122 фильтров.
Фиг. 7 иллюстрирует блок-схему компоновки, включающей в себя гребенку A110 фильтров, подавитель C200 высокополосных всплесков и высокополосный речевой кодер A200.
Фиг. 8 иллюстрирует блок-схему компоновки, включающей в себя гребенку A110 фильтров, подавитель C200 высокополосных всплесков, гребенку B120 фильтров и широкополосный речевой кодер A100.
Фиг. 9 иллюстрирует блок-схему широкополосного речевого кодера A102, который включает в себя подавитель C200 высокополосных всплесков.
Фиг 10 иллюстрирует блок-схему реализации A104 широкополосного речевого кодера A102.
Фиг. 11 иллюстрирует блок-схему компоновки, включающей в себя широкополосный речевой кодер A104 и мультиплексор A130.
Фиг. 12 иллюстрирует блок-схему реализации C202 подавителя C200 высокополосных всплесков.
Фиг. 13 иллюстрирует блок-схему реализации C12 детектора C10 всплесков.
Фиг. 14a и 14b иллюстрируют блок-схемы реализаций C52-1, C52-2 индикатора C50-1 начальной области и индикатора C50-2 конечной области соответственно.
Фиг. 15 иллюстрирует блок-схему реализации C62 детектора C60 совпадений.
Фиг. 16 иллюстрирует блок-схему реализации C22 генератора C20 управляющего сигнала ослабления.
Фиг. 17 иллюстрирует блок-схему реализации C14 детектора C12 всплесков.
Фиг. 18 иллюстрирует блок-схему реализации C16 детектора C14 всплесков.
Фиг. 19 иллюстрирует блок-схему реализации C18 детектора C16 всплесков.
Фиг. 20 иллюстрирует блок-схему реализации C24 генератора C22 управляющего сигнала ослабления.
Осуществление изобретения
Если не ограничен в явной форме контекстом, термин "вычисление" используется в данном документе, чтобы обозначать любое из своих обычных значений, например, расчет, формирование и выбор из списка значений. Если термин "содержащий" используется в настоящем описании и формуле изобретения, он не исключает других элементов или операций.
Высокополосные всплески очень хорошо слышны в исходном речевом сигнале, но они не способствуют разборчивости, и качество сигнала может быть повышено посредством их подавления. Высокополосные всплески также могут причинять ущерб при кодировании высокополосного сигнала, так что эффективность кодирования сигнала, особенно кодирования огибающей времени, может быть повышена за счет подавления всплесков из высокополосного речевого сигнала.
Высокополосные всплески могут оказывать негативное воздействие на системы высокополосного кодирования несколькими способами. Сначала эти всплески могут заставлять огибающую энергии речевого сигнала во времени быть гораздо менее плавной посредством введения резкого пика в момент всплеска. Если кодер не моделирует огибающую времени сигнала с высоким разрешением, что увеличивает объем информации, который должен быть отправлен в декодер, энергия всплеска может распределиться по времени в декодированном сигнале и вызвать помехи. Во-вторых, высокополосные всплески зачастую доминируют в огибающей спектра, как моделируется, например, набор параметров, такие как коэффициенты фильтрации с линейным предсказанием. Это моделирование типично выполняется для каждого кадра речевого сигнала (примерно 20 мс). Следовательно, кадр, содержащий "щелчок", может быть синтезирован согласно огибающей спектра, которая отличается от предыдущего и следующего кадра, что может приводить к перцепционно нежелательной разрывности.
Высокополосные всплески могут вызывать другую проблему для системы кодирования речи, в которой сигнал возбуждения высокополосного синтезирующего фильтра извлекается или иным образом представляет узкополосный остаток. В этом случае наличие высокополосного всплеска может усложнять кодирования высокополосного речевого сигнала, поскольку высокополосный речевой сигнал включает в себя структуру, которая отсутствует в узкополосном речевом сигнале.
Варианты осуществления включают в себя системы, способы и устройства, выполненные с возможностью обнаруживать всплески, которые имеются в высокополосном речевом сигнале, но отсутствуют в соответствующем узкополосном речевом сигнале, и снижать уровень высокополосного речевого сигнала в течение каждого из всплесков. Потенциальные преимущества этих вариантов осуществления включают в себя устранение помех в декодированном сигнале и/или избежание потери эффективности кодирования без существенного снижения качества исходного сигнала. Фиг. 2 иллюстрирует спектрограмму широкополосного сигнала, проиллюстрированного на фиг. 1, после подавления высокополосного всплеска согласно этому способу.
Фиг. 3 иллюстрирует блок-схему компоновки, включающей в себя гребенку A110 фильтров и подавитель C200 высокополосных всплесков согласно варианту осуществления. Гребенка A110 фильтров сконфигурирована таким образом, чтобы фильтровать широкополосный речевой сигнал S10, чтобы формировать низкополосный речевой сигнал S20 и высокополосный речевой сигнал S30. Подавитель C200 высокополосных всплесков выполнен с возможностью выводить обработанный высокополосный речевой сигнал S30a на основе высокополосного речевого сигнала S30, в котором всплески, которые возникают в высокополосном речевом сигнале S30, но отсутствуют в низкополосном речевом сигнале S20, подавлены.
Фиг. 4 иллюстрирует блок-схему компоновки, проиллюстрированной на фиг. 3. которая также включает в себя гребенку B120 фильтров. Гребенка B120 фильтров сконфигурирована так, чтобы комбинировать низкополосный речевой сигнал S20 и обработанный высокополосный речевой сигнал S30a, чтобы формировать обработанный широкополосный речевой сигнал S10a. Качество обработанного широкополосного речевого сигнала S10a может быть повышено по сравнению с широкополосным речевым сигналом S10 за счет подавления высокополосных всплесков.
Гребенка А110 фильтров сконфигурирована так, чтобы фильтровать входной сигнал согласно схеме расщепления полосы, чтобы формировать низкочастотный поддиапазон и высокочастотный поддиапазон. В зависимости от проектных критериев конкретного приложения, выходные поддиапазоны могут иметь равные или неравные полосы пропускания и могут быть перекрывающимися или неперекрывающимися. Конфигурация гребенки А110 фильтров, которая формирует более двух поддиапазонов, также возможна. Например, эта гребенка фильтров может быть сконфигурирована так, чтобы формировать очень низкополосный сигнал, который включает в себя компоненты в частотном диапазоне ниже частотного диапазона узкополосного сигнала S20 (например, диапазона 50-300 Гц). В этом случае широкополосный речевой кодер А100 (как описано ниже со ссылкой на Фиг.8) может быть реализован таким образом, чтобы кодировать этот очень низкополосный сигнал отдельно, и мультиплексор А130 (как описано ниже со ссылкой на Фиг.11) может быть выполнен с возможностью включать кодированный очень низкополосный сигнал в мультиплексированный сигнал S70 (к примеру, в качестве разделяемой части).
Фиг.5а иллюстрирует блок-схему реализации А112 гребенки А110 фильтров, которая сконфигурирована так, чтобы формировать два поддиапазонных сигнала, имеющих меньшие частоты дискретизации. Гребенка А110 фильтров выполнена с возможностью принимать широкополосный речевой сигнал S10, имеющий высокочастотную (или высокополосную) часть и низкочастотную (или низкополосную) часть. Гребенка А112 фильтров включает в себя путь низкополосной обработки, выполненный с возможностью принимать широкополосный речевой сигнал S10 и формировать низкополосный речевой сигнал S20, и путь высокополосной обработки, выполненный с возможностью принимать широкополосный речевой сигнал S10 и формировать высокополосный речевой сигнал S30. Низкочастотный фильтр 110 фильтрует широкополосный речевой сигнал S10, чтобы пропускать выбранный низкочастотный поддиапазон, а высокочастотный фильтр 130 фильтрует широкополосный речевой сигнал S10, чтобы пропускать выбранный высокочастотный поддиапазон. Поскольку оба поддиапазонных сигнала имеют более узкую полосу пропускания, чем широкополосный речевой сигнал S10, их частоты дискретизации могут быть снижены в некоторой степени без потери информации. Понижающий дискретизатор 120 снижает частоту дискретизации низкочастотного сигнала согласно требуемому коэффициенту прореживания (к примеру, посредством удаления выборок сигнала и/или замены выборок средними значениями), а понижающий дискретизатор 140 аналогично снижает частоту дискретизации сигнала верхних частот согласно другому требуемому коэффициенту прореживания.
Фиг.5b иллюстрирует блок-схему соответствующей реализации В122 гребенки В120 фильтров. Повышающий дискретизатор 150 повышает частоту дискретизации низкополосный речевой сигнал S20 (к примеру, посредством заполнения нулями и/или посредством дублирования выборок), и низкочастотный фильтр 160 фильтрует сигнал с повышенной дискретизацией, чтобы пропускать только низкополосную часть (к примеру, чтобы избежать наложения спектров). Аналогично, повышающий дискретизатор 170 увеличивает частоту дискретизации обработанного высокополосного сигнала S30a, а высокочастотный фильтр 180 фильтрует сигнал с повышенной дискретизацией, чтобы пропускать только высокополосную часть. Сигналы двух полос пропускания затем суммируются, чтобы сформировать широкополосный речевой сигнал S10a. В некоторых реализациях устройства, включающего в себя гребенку В120, гребенка В120 фильтров сконфигурирована так, чтобы формировать взвешенную сумму сигналов двух полос пропускания согласно одному или более весовых коэффициентов, принятых и/или вычисленных посредством такого устройства. Конфигурация гребенки В120 фильтров, которая комбинирует сигналы более чем двух полос пропускания, также возможна.
Каждый из фильтров 110, 130, 160, 180 может быть реализован как фильтр с конечной импульсной характеристикой (FIR) или как фильтр с бесконечной импульсной характеристикой (IIR). Частотные характеристики фильтров 110 и 130 могут иметь симметричные переходные области или переходные области непохожей формы между полосой режекции и полосой пропускания. Аналогично, частотные характеристики фильтров 160 и 180 могут иметь симметричные переходные области или переходные области непохожей формы между полосой режекции и полосой пропускания. Может быть желательным, но не обязательным реализовать фильтр 110 низких частот с такой же характеристикой, как и у фильтра 160 низких частот, и реализовать фильтр 130 высоких частот с такой же характеристикой, как и у фильтра 180 высоких частот. В одном примере две пары 110, 130 и 160, 180 фильтров являются гребенками квадратурных зеркальных фильтров (QMF), при этом пара 110, 130 фильтров имеет такие же коэффициенты, что и пара 160, 180 фильтров.
В типичном примере низкочастотный фильтр 110 имеет полосу пропускания, которая включает в себя ограниченный PSTN-диапазон в 300-3400 Гц (к примеру, полосу от 0 до 4 кГц). Фиг.6а и 6b иллюстрируют относительные полосы пропускания широкополосного речевого сигнала 310, низкополосного сигнала S20 и высокополосного сигнала S30 в двух различных примерах реализации. В обоих из этих примеров широкополосный речевой сигнал S10 имеет частоту дискретизации в 16 кГц (представляя частотные компоненты в диапазоне 0-8 кГц), а низкополосный сигнал S20 имеет частоту дискретизации в 8 кГц (представляя частотные компоненты в диапазоне 0-4 кГц).
В примере на фиг.6а нет существенного перекрывания между двумя поддиапазонами. Высокополосный сигнал S30, как показано в данном примере, может быть получен с помощью высокочастотного фильтра 130 с полосой пропускания в 4-8 кГц. В этом случае может быть желательным снизить частоту дискретизации до 8 кГц посредством снижения дискретизации фильтрованного сигнала на коэффициент два. Эта операция, которая, как ожидается, может существенно снизить вычислительную сложность дополнительных операций обработки сигнала, уменьшает энергию полосы пропускания до диапазона в 0-4 кГц без потери информации.
В альтернативном примере по фиг.6b верхние и нижние поддиапазоны имеют заметное перекрывание, так что область 3,5-4 кГц описывается посредством обоих поддиапазонных сигналов. Высокополосный сигнал S30, как показано в данном примере, может быть получен с помощью высокочастотного фильтра 130 с полосой пропускания в 3,5-7 кГц. В этом случае может быть желательным снизить частоту дискретизации до 7 кГц посредством понижающей дискретизации фильтрованного сигнала на коэффициент 16/7. Эта операция, которая, как ожидается, может существенно снизить вычислительную сложность дополнительных операций обработки сигнала, уменьшает энергию полосы пропускания до диапазона 0-3,5 кГц без потери информации.
В типичной телефонной трубке для телефонной связи один или более преобразователей (т.е. микрофон и наушник или динамик) имеет в значительной степени недостаточную характеристику в частотном диапазоне 7-8 кГц. В примере по фиг.6b часть широкополосного речевого сигнала S10 между 7 и 8 кГц не включена в кодированный сигнал. Другие конкретные примеры высокочастотного фильтра 130 имеют полосы пропускания в 3,5-7,5 кГц и 3,5-8 кГц.
В некоторых реализациях предоставление перекрывания между поддиапазонами, как в примере по фиг.6b, дает возможность использования, низкочастотного и/или высокочастотного фильтра, имеющего плавное спадание в перекрывающейся области. Эти фильтры в типичном варианте менее вычислительно сложные и/или вносят меньшую задержку, чем фильтры с более резкими или "крутыми" характеристиками. Фильтры, имеющие резкие переходные области, зачастую имеют более 'высокие боковые лепестки (которые могут приводить к наложению спектров), чем фильтры аналогичного порядка, которые имеют плавное спадание. Фильтры, имеющие резкие переходные области/ также могут иметь импульсные характеристики большой длительности, которые могут приводить к реверберирующим помехам. Для реализации гребенок фильтров, имеющих один или более IIR-фильтров, предоставляющих плавное спадание в перекрывающейся области, можно позволить использование фильтра или фильтров, полюса которых находятся дальше от единичной окружности, что может быть важным для того, чтобы обеспечивать стабильную реализацию с фиксированной запятой.
Перекрывание поддиапазонов предоставляет плавное сопряжение полосы низких частот и полосы высоких частот, что может приводить к меньшим слышимым помехам, снижению наложения спектров и/или менее заметному переходу от одной полосы к другой. Кроме того, в приложении, где низкополосный и высокополосный речевые сигналы S20, S30 впоследствии кодируются посредством различных речевых кодеров, эффективность кодирования низкополосного речевого кодера (например, кодера формы сигналов) может падать с повышением частоты. Например, качество кодирования низкополосного кодера может снижаться при низких скоростях передачи битов, особенно при наличии фонового шума. В этих случаях предоставление перекрывания поддиапазонов позволяет повышать качество воспроизводимых частотных компонентов в перекрывающейся области.
Кроме того, перекрывание поддиапазонов предоставляет плавное сопряжение полосы низких частот и полосы высоких частот, что может приводить к меньшим слышимым помехам, снижению наложения спектров и/или менее заметному переходу от одной полосы к другой. Этот признак может быть особенно желательным для реализации, в которой низкополосный речевой кодер А120 и высокополосный речевой кодер А200, как описано ниже, функционируют согласно различным методологиям кодирования. Например, различные методики кодирования могут формировать сигналы, которые звучат немного по-разному. Кодер, который кодирует спектральную огибающую в форме индексов таблицы кодирования, может формировать сигнал, имеющий звук, отличающийся от звука кодера, который кодирует вместо этого амплитудный спектр. Кодер временной области (к примеру, кодер по импульсно-кодовой модуляции, РСМ) может формировать сигнал, имеющий звук, отличающийся от звука кодера частотной области. Кодер, который кодирует сигнал с представлением спектральной огибающей и соответствующего остаточного сигнала, может формировать сигнал, имеющий звук, отличающийся от звука кодера, который кодирует сигнал только с представлением спектральной огибающей. Кодер, который кодирует сигнал как представление его формы, может формировать вывод, имеющий звук, отличающийся от звука синусоидального кодера. В этих случаях использование фильтров, имеющих резкие переходные области, чтобы задавать неперекрывающиеся поддиапазоны, может приводить к внезапному и перцепционно заметному переходу между поддиапазонами в синтезированном широкополосном сигнале.
Хотя гребенки QMF-фильтров, имеющие дополняющие перекрывающиеся частотные характеристики, зачастую используются в поддиапазонных методиках, такие фильтры не подходят, по меньшей мере, для некоторых реализации широкополосного кодирования, описанных в данном документе. Гребенка QMF-фильтров в кодере сконфигурирована так, чтобы создавать значительную степень наложения спектров, которое компенсируется в соответствующей гребенке QMF-фильтров в декодере. Такая компоновка может не подходить для варианта применения, в котором сигнал подвергается значительной величине искажения между гребенками фильтров, поскольку искажение может снижать эффективность свойства компенсации наложения спектров. Например, варианты применения, описываемые в данном документе, включают в себя реализации кодирования, сконфигурированные так, чтобы функционировать при очень низких скоростях передачи битов. Как следствие очень низкой скорости передачи битов, декодированный сигнал с большой долей вероятности является в значительной степени искаженным в сравнении с исходным сигналом, так что использование гребенок QMF-фильтров может приводить к некомпенсируемому наложению спектров. Варианты применения, которые используют гребенки QMF-фильтров, в типичном варианте имеют более высокие скорости передачи битов (к примеру, более 12 кбит/с для AMR и 64 кбит/с для G.722).
Дополнительно, кодер может быть выполнен с возможностью формировать синтезированный сигнал, который перцепционно аналогичен исходному сигналу, но который фактически значительно отличается от исходного сигнала. Например, кодер, который извлекает высокополосное возбуждение из узкополосного остатка, как описано в данном документе, может формировать такой сигнал, поскольку фактический высокополосный остаток может полностью отсутствовать в декодированном сигнале. Использование гребенок QMF-фильтров в этих приложениях может приводить к значительной степени искажения, вызываемого посредством некомпенсируемого наложения спектров.
Величина искажения, вызываемого посредством QMF-наложения спектров, может быть снижена, если затрагиваемый поддиапазон узкий, поскольку эффект от наложения спектров ограничен полосой пропускания, равной ширине поддиапазона. Например, как описано в данном документе, каждый поддиапазон включает в себя примерно половину широкополосной полосы пропускания, тем не менее искажение, вызываемое посредством некомпенсируемого наложения спектров, может затрагивать значительную часть сигнала. Качество сигнала может также затрагиваться посредством размещения частотного диапазона, в котором возникает некомпенсируемое наложение спектров. Например, искажение, создаваемое рядом с центром широкополосного речевого сигнала (к примеру, между 3 и 4 кГц), может быть гораздо более нежелательным, чем искажение, которое возникает рядом с краем сигнала (к примеру, выше 6 кГц).
Хотя характеристики фильтров гребенки QMF-фильтров тесно связаны друг с другом, низкополосные и высокополосные пути гребенок А110 и В120 фильтров могут быть сконфигурированы так, чтобы иметь спектры, которые полностью не связаны, не считая перекрывания двух поддиапазонов. Мы задаем перекрывание двух поддиапазонов как расстояние от точки, в которой частотная характеристика высокополосного фильтра падает до -20 дБ, до точки, в которой частотная характеристика низкополосного фильтра падает до -20 дБ. В различных примерах гребенки А110 и/или В120 фильтров это перекрывание варьируется от примерно 200 Гц до примерно 1 кГц. Диапазон от примерно 400 до примерно 600 Гц может представлять требуемый компромисс между эффективностью кодирования и перцепционной плавностью. В одном конкретном примере, как упоминалось выше, перекрывание составляет порядка 500 Гц.
Может быть желательным реализовать гребенку А112 и/или В122 фильтров, чтобы выполнить операции, проиллюстрированные на фиг.6а и 6b, в несколько стадий. Например, фиг.6 с иллюстрирует блок-схему реализации А114 гребенки А112 фильтров, которая выполняет функциональный эквивалент операций высокочастотной фильтрации и понижающей дискретизации, используя набор из интерполяции, повторной дискретизации и прореживания и других операций. Такую реализацию может быть проще спроектировать, и/или она может предоставлять возможность повторного использования блоков логики и/или кода. Например, один функциональный блок может быть использован для того, чтобы выполнять операции прореживания до 14 кГц и прореживания до 7 кГц, как показано на фиг.6с. Операция обращения спектра может быть реализована посредством умножения сигнала на функцию ejnп или последовательность (-1)n, значения которой чередуются между +1 и -1. Операция формирования спектра может быть реализована как низкочастотный фильтр, выполненный с возможностью сформировать сигнал, чтобы получать требуемую общую характеристику фильтрации.
Следует отметить, что как следствие операции обращения спектра, спектр высокополосного сигнала S30 меняется на противоположный. Последующие операции в кодере и соответствующем декодере могут быть сконфигурированы надлежащим образом. Для примера, может быть желательным сформировать соответствующий сигнал возбуждения, который также имеет спектрально обращенную форму.
Фиг.6d иллюстрирует блок-схему реализации В124 гребенки В122 фильтров, которая выполняет функциональный эквивалент операций повышающей дискретизации и высокочастотной фильтрации, используя набор из интерполяции, повторной дискретизации и других операций. Гребенка В124 фильтров включает в себя операцию обращения спектра в полосе высоких частот, которая обращает аналогичную операцию, которая выполняется, например, в гребенке фильтров кодера, такой как гребенка А114 фильтров. В этом конкретном примере гребенка В124 фильтров также включает в себя режекторные фильтры в полосе низких частот и полосе высоких частот, которые ослабляют компонент сигнала при 7100 Гц, хотя эти фильтры являются необязательным и необязательно должны быть включены. Совместно поданная с настоящей патентная заявка "SYSTEMS, METHODS, AND APPARATUS FOR SPEECH SIGNAL FILTERING" и опубликованная как US 2007/0088558 включает в себя дополнительное описание и чертежи, связанные с характеристиками элементов конкретных реализации гребенок A110 и В120 фильтров, и этот материал тем самым содержится в данном документе по ссылке.
Как упоминалось выше, подавление высокополосных всплесков позволяет повысить эффективность кодирования высокополосного речевого сигнала S30. Фиг.7 иллюстрирует блок-схему компоновки, в которой обработанный высокополосный речевой сигнал S30a, формируемый посредством подавителя С200 высокополосных всплесков, кодируется посредством высокополосного речевого кодера А200, чтобы формировать кодированный высокополосный речевой сигнал S30b.
Один подход к широкополосному кодированию речи влечет за собой масштабирование методики узкополосного кодирования речи (к примеру, сконфигурированной так, чтобы кодировать диапазон 0-4 кГц), чтобы покрывать широкополосный спектр. Например, речевой сигнал может дискретизироваться на более высокой скорости, чтобы включать в себя компоненты на высоких частотах, и методика узкополосного кодирования может быть переконфигурирована, чтобы использовать большее число коэффициентов фильтрации, чтобы представлять этот широкополосный сигнал. Фиг.8 показывает блок-схему примера, в котором широкополосный речевой кодер А100 выполнен с возможностью кодировать обработанный широкополосный речевой сигнал S10a для того, чтобы сформировать широкополосный речевой сигнал S10b.
Методики узкополосного кодирования, такие как CELP (кодирование методом линейного предсказания с кодовым возбуждением) являются вычислительно-емкими, тем не менее и широкополосный CELP-кодер может потреблять слишком большое число циклов обработки, чтобы быть практичным для большинства мобильных и других вложенных приложений. Кодирование всего спектра широкополосного сигнала до требуемого качества с помощью этой методики также может приводить к недопустимо большому увеличению полосы пропускания. Более того, перекодировка этого закодированного сигнала должна требоваться до того, как даже его узкополосная часть может быть передана и/или декодирована посредством системы, которая поддерживает только узкополосное кодирование. Фиг.9 показывает блок-схему широкополосного речевого кодера А102, который включает в себя отдельные низкополосный и высокополосный речевые кодеры А120 и А200 соответственно.
Может быть желательным реализовать широкополосное кодирование речи таким образом, что, по меньшей мере, узкополосная часть кодированного сигнала может быть отправлена посредством узкополосного канала (такого как PSTN-канал) без перекодировки или какой-либо другой существенной модификации. Эффективность расширения широкополосного кодирования также может быть желательной, например, чтобы не допустить существенного снижения числа пользователей, которые могут обслуживаться в таких приложениях, как беспроводная сотовая телефонная связь и широковещательная передача по проводным и беспроводным каналам.
Один подход к широкополосному кодированию речи влечет за собой экстраполирование огибающей высокополосного спектра из кодированной огибающей узкополосного спектра. Хотя этот подход может быть реализован без какого-либо увеличения полосы пропускания и без необходимости перекодировки, тем не менее приблизительная спектральная огибающая или формантная структура высокополосной части речевого сигнала, как правило, не может быть предсказана точно из спектральной огибающей узкополосной части.
Фиг.10 иллюстрирует блок-схему широкополосного речевого кодера А104, который использует другой подход к кодированию высокополосного речевого сигнала согласно информации из низкополосного речевого сигнала. В этом примере высокополосный сигнал возбуждения извлекается из кодированного низкополосного сигнала S50 возбуждения. Кодер А104 может быть выполнен с возможностью кодировать огибающую усиления на основе сигнала, базирующегося на высокополосном сигнале возбуждения, например, согласно одному или более таких вариантов осуществления, как описанные в WO 2006/107837 "METHODS AND APPARATUS FOR ENCODING AND DECODING AN HIGHBAND PORTION OF A SPEECH SIGNAL", описание которой содержится в данном документе по ссылке. Один конкретный пример широкополосного речевого кодера А104 выполнен с возможностью кодировать широкополосный речевой сигнал S10 на скорости примерно 8,55 кбит/с (килобит в секунду), при этом примерно 7,55 кбит/с используются для параметров S40 низкополосной фильтрации и кодированного низкополосного сигнала возбуждения S50, а примерно 1 кбит/с используется для кодированного высокополосного речевого сигнала S30b.
Может быть желательным комбинировать кодированные узкополосные и высокополосные сигналы в один поток битов.
Например, может быть желательным мультиплексировать кодированные сигналы вместе для передачи (к примеру, по проводному, оптическому или беспроводному каналу передачи) либо для хранения в качестве кодированного широкополосного речевого сигнала. Фиг.1b иллюстрирует блок-схему компоновки, включающей в себя широкополосный речевой кодер А104 и мультиплексор А130, выполненный с возможностью комбинировать параметры S40 низкополосной фильтрации, кодированный низкополосный сигнал S50 возбуждения и кодированный высокополосный речевой сигнал S30b в мультиплексированный сигнал S70.
Может быть желательным сконфигурировать мультиплексор А130 так, чтобы встраивать кодированный низкополосный сигнал (включающий в себя параметры S40 низкополосной фильтрации и кодированный низкополосный сигнал S50 возбуждения) в качестве разделяемого субпотока мультиплексированного сигнала S70, с тем, чтобы кодированный низкополосный сигнал мог быть восстановлен и декодирован независимо от другой части мультиплексированного сигнала 370, такого как высокополосный и/или очень низкополосный сигнал. Например, мультиплексированный сигнал S70 может быть скомпонован таким образом, что кодированный низкополосный сигнал может быть восстановлен посредством отсечения кодированного высокополосного речевого сигнала 330b. Одно потенциальное преимущество такого признака состоит в том, чтобы избегать необходимости перекодировки кодированного широкополосного сигнала до передачи его в систему, которая поддерживает декодирование низкополосного сигнала, но не поддерживает декодирование высокополосной части.
Устройство, включающее в себя низкополосный, высокополосный и/или широкополосный речевой кодер, как описывается в данном документе, может также включать схему, выполненную с возможностью передавать кодированный сигнал в канал передачи, например проводной, оптический или беспроводной канал. Это устройство также может быть сконфигурировано так, чтобы выполнять одну или более операций канального кодирования с сигналом, таких как кодирование с коррекцией ошибок (к примеру, согласованное по скорости сверточное кодирование) и/или кодирование с обнаружением ошибок (к примеру, кодирование циклическим избыточным кодом), и/или кодирование одного или более уровней сетевых протоколов (к примеру, Ethernet, TCP/IP, cdma 2000).
Любой или все из низкополосного, высокополосного и/или широкополосного речевого кодера, описанных в данном документе, могут быть реализованы согласно модели входного фильтра, которая кодирует входной речевой сигнал как (А) набор параметров, которые описывают фильтр, и (В) сигнал возбуждения, который приводит в действие описанный фильтр, чтобы сформировать синтезированное воспроизведение входного речевого сигнала. Например, спектральная огибающая речевого сигнала характеризуется числом пиков, которые представляют резонансы речевого тракта и называются формантами. Большинство речевых кодеров кодируют, по меньшей мере, эту приблизительную спектральную структуру как набор параметров, таких как коэффициенты фильтрации.
В одном примере базов