Средство обнаружения голосовой активности с использованием нескольких микрофонов

Иллюстрации

Показать все

Изобретение относится к области обработки звука, в частности к обнаружению голосовой активности с использованием нескольких микрофонов. Техническим результатом является повышение надежности обнаружения голосовой активности. Указанный результат достигается тем, что в способе обнаружения голосовой активности принимают речевой сигнал от микрофона для восприятия речи, принимают шумовой сигнал от микрофона для восприятия шумов, отличного от микрофона для восприятия речи, определяют характеристическое значение речи на основе, по меньшей мере, частично, речевого сигнала, причем этап определения характеристического значения речи содержит этап, на котором определяют абсолютное значение автокорреляции речевого сигнала, определяют объединенное характеристическое значение на основе, по меньшей мере, частично, речевого сигнала и шумового сигнала, причем этап определения объединенного характеристического значения содержит этап, на котором определяют взаимную корреляцию на основе речевого сигнала и шумового сигнала, определяют метрику голосовой активности на основе, по меньшей мере, частично, одного из речевого характеристического значения и объединенного характеристического значения и отношения абсолютного значения автокорреляции речевого сигнала к взаимной корреляции и определяют состояние голосовой активности на основе метрики голосовой активности. 5 н. и 17 з.п. ф-лы, 9 ил.

Реферат

Перекрестные ссылки на родственные заявки

Настоящая заявка относится к одновременно рассматриваемой заявке «Enhancement techniques for blind source separation» (реестровый номер поверенного 061193), переуступленной заявки на патент США №11/551.509, поданной 20 октября 2006 года, а также к одновременно рассматриваемой заявке «Apparatus and method of noise and echo reduction in multiple microphone audio systems» (реестровый номер поверенного 061521), поданной одновременно с настоящей заявкой.

Область техники, к которой относится изобретение

Раскрытие относится к области обработки звука. В частности, раскрытие относится к обнаружению голосовой активности с использованием нескольких микрофонов.

Уровень техники

Средства обнаружения сигнальной активности, такие как средства обнаружения голосовой активности, могут быть использованы для минимизации нецелесообразной обработки в электронном устройстве. Средство обнаружения голосовой активности может выборочно управлять одним или несколькими этапами обработки сигналов, следующими после микрофона.

Например, устройство записи может реализовать средство обнаружения голосовой активности для минимизации обработки и записи шумовых сигналов. Средство обнаружения голосовой активности может отключить или иным способом дезактивировать обработку и запись сигналов в периодах отсутствия голосовой активности. Подобным образом устройство связи, такое как мобильный телефон, личное цифровое устройство или ноутбук, может реализовать средство обнаружения голосовой активности для сокращения мощности обработки, выделяемой шумовым сигналам, а также для сокращения шумовых сигналов, которые передаются или сообщаются удаленному приемному устройству иным способом. Средство обнаружения голосовой активности может отключить или дезактивировать обработку речи, а также передачу в периодах отсутствия голосовой активности.

Удовлетворительной работе средства обнаружения голосовой активности можно воспрепятствовать посредством изменения характеристик по шуму, а также характеристик по шуму, имеющих существенную энергию шумов. Работа средства обнаружения голосовой активности может быть дополнительно усложнена в случае, когда обнаружение голосовой активности интегрировано в мобильном устройстве, которое находится в динамической среде с наличием шумов. Мобильное устройство может работать как в средах с наличием малого количества шумов, так и в средах с наличием существенного количества шумов, где энергия шумов находится на порядке энергии речи.

Присутствие динамической среды с наличием шумов усложняет определение голосовой активности. Ошибочный индикатор голосовой активности может повлечь за собой обработку и передачу шумовых сигналов. Обработка и передача шумовых сигналов могут привести к низкокачественному восприятию пользователем, в частности, когда на основе индикатора отсутствия голосовой активности периоды передачи шумов вставляются средством обнаружения голосовой активности в периоды отсутствия активности.

С другой стороны, низкокачественное обнаружение речевой активности может привести к потере существенных частей речевых сигналов. Потеря начальных частей голосовой активности может привести к тому, что пользователь будет вынужден периодически повторять части речи, что является нежелательным.

Традиционные алгоритмы обнаружения голосовой активности (VAD) используют сигнал лишь от одного микрофона. Ранние алгоритмы VAD используют критерии, основанные на энергии. Этот тип алгоритма определяет пороговое значение для определения голосовой активности. Алгоритм VAD с использованием одного микрофона может нормально работать при стационарном шуме. Однако алгоритм VAD с использованием одного микрофона испытывает некоторые затруднения, связанные с нестационарным шумом.

Другая технология VAD подсчитывает нулевые пересечения сигналов, а также определяет голосовую активность на основе частоты нулевых пересечений. Этот способ может четко работать в случае, когда фоновый шум не является речевыми сигналами. В случае, когда фоновый сигнал является сигналом, подобным речевому, этот способ не может выполнить надежное определение. Для обнаружения голосовой активности также могут быть использованы другие отличительные признаки, такие как высота, форма форманта, кепстр и периодичность. Эти отличительные признаки обнаруживаются и сравниваются с речевым сигналом для определения голосовой активности.

Вместо использования речевых отличительных признаков для определения голосовой активности также могут быть использованы статистические модели наличия и отсутствия речи. В таких вариантах реализации статистические модели обновляются, а голосовая активность определяется на основе отношения правдоподобия статистических моделей. Другой способ для предварительной обработки сигнала использует сеть с одним микрофоном-источником. Определение выполняется с использованием выправленного сигнала ошибки нейронных сетей Лагранжа и адаптивного порогового значения активности.

Также были исследованы алгоритмы VAD на основе нескольких микрофонов. Варианты осуществления с использованием нескольких микрофонов для достижения надежного обнаружения могут объединить подавление шумов, адаптацию порогового значения и обнаружение высоты. Вариант осуществления использует линейную фильтрацию для максимизации отношения сигнал/шум (SNR). Затем для обнаружения голосовой активности с использованием выделенного сигнала используется способ, основанный на статистической модели. Другой вариант осуществления использует линейную решетку микрофонов и преобразования Фурье для формирования частотного представления выходного вектора решетки. Для определения отношения сигнал/шум (SNR) могут быть использованы частотные представления, а для обнаружения голосовой активности может быть использовано предварительно определенное пороговое значение. Другой вариант осуществления в способе VAD, основанном на двух средствах обнаружения, для обнаружения голосовой активности предлагает использовать когерентность квадрата величины (MSC) и адаптивное пороговое значение.

Многие алгоритмы обнаружения голосовой активности требуют больших затрат в вычислительном отношении и являются неподходящими для мобильного применения, где потребляемая энергия и вычислительная сложность представляют особый интерес. Однако мобильные применения также представляют неблагоприятные среды обнаружения голосовой активности, частично из-за динамической среды с наличием шумов, а также из-за нестационарной природы шумовых сигналов, возникающих на мобильном устройстве.

Сущность изобретения

Обнаружение голосовой активности с использованием нескольких микрофонов может быть основано на взаимосвязи между энергией в каждом микрофоне для восприятия речи и микрофоне для восприятия шумов. На выходе каждого микрофона для восприятия речи и микрофона для восприятия шумов может быть определена энергия. Отношение энергии речи к энергии шумов может быть определено и сравнено с предварительно определенным пороговым значением голосовой активности. В другом варианте осуществления определяется абсолютное значение корреляции речи и автокорреляции и/или абсолютное значение автокорреляции шумовых сигналов, а также на основе значений корреляции определяется отношение. Отношения, которые превышают предварительно определенное пороговое значение, могут указать на наличие речевого сигнала. Энергия речи и шумов или корреляции могут быть определены с использованием средневзвешенного значения или по размеру дискретного кадра.

Аспекты изобретения включают в себя способ обнаружения голосовой активности. Способ включает в себя этапы приема речевого сигнала от микрофона для восприятия речи, приема шумового сигнала от микрофона для восприятия шумов, отличного от микрофона для восприятия речи, определения характеристического значения речи на основе, по меньшей мере, частично, речевого сигнала, определения объединенного характеристического значения на основе, по меньшей мере, частично, речевого сигнала и шумового сигнала, определения метрики голосовой активности на основе, по меньшей мере, частично, характеристического значения речи и объединенного характеристического значения и определения состояния голосовой активности на основе метрики голосовой активности.

Аспекты изобретения включают в себя способ обнаружения голосовой активности. Способ включает в себя этапы приема речевого сигнала, по меньшей мере, от одного микрофона для восприятия речи, приема шумового сигнала, по меньшей мере, от одного микрофона для восприятия шумов, отличного от микрофона для восприятия речи, определения абсолютного значения автокорреляции на основе речевого сигнала, определения взаимной корреляции на основе речевого сигнала и шумового сигнала, определения метрики голосовой активности на основе, частично, отношения абсолютного значения автокорреляции речевого сигнала к взаимной корреляции и определения состояния голосовой активности посредством сравнения метрики голосовой активности, по меньшей мере, с одним пороговым значением.

Аспекты изобретения включают в себя устройство, сконфигурированное для обнаружения голосовой активности. Устройство включает в себя микрофон для восприятия речи, сконфигурированный для вывода речевого сигнала, микрофон для восприятия шумов, сконфигурированный для вывода шумового сигнала, генератор характеристических значений речи, соединенный с микрофоном для восприятия речи, а также сконфигурированный для определения характеристического значения речи, генератор объединенных характеристических значений, соединенный с микрофоном для восприятия речи и микрофоном для восприятия шумов, а также сконфигурированный для определения объединенного характеристического значения, модуль метрики голосовой активности, сконфигурированный для определения метрики голосовой активности на основе, по меньшей мере, частично, характеристического значения речи и объединенного характеристического значения, и средство сравнения, сконфигурированное для сравнения метрики голосовой активности с пороговым значением, а также для вывода состояния голосовой активности.

Аспекты изобретения включают в себя устройство, сконфигурированное для обнаружения голосовой активности. Устройство включает в себя средство для приема речевого сигнала, средство для приема шумового сигнала, средство для определения абсолютного значения автокорреляции на основе речевого сигнала, средство для определения взаимной корреляции на основе речевого сигнала и шумового сигнала, средство для определения метрики голосовой активности на основе, частично, отношения автокорреляции речевого сигнала к взаимной корреляции, а также средство для определения состояния голосовой активности посредством сравнения метрики голосовой активности, по меньшей мере, с одним пороговым значением.

Аспекты изобретения включают в себя считываемый процессором носитель, содержащий команды, которые могут быть использованы посредством одного или нескольких процессоров. Команды включают в себя команды для определения характеристического значения речи на основе, по меньшей мере, частично, речевого сигнала, по меньшей мере, от одного микрофона для восприятия речи, команды для определения объединенного характеристического значения на основе, по меньшей мере, частично, речевого сигнала и шумового сигнала, по меньшей мере, от одного микрофона для восприятия шумов, команды для определения метрики голосовой активности на основе, по меньшей мере, частично, характеристического значения речи и объединенного характеристического значения, а также команды для определения состояния голосовой активности на основе метрики голосовой активности.

Краткое описание чертежей

Отличительные признаки, задачи и преимущества вариантов осуществления раскрытия станут более понятны после прочтения подробного описания, изложенного ниже со ссылкой на чертежи, на которых одинаковым элементам присвоены одинаковые ссылочные номера.

Фиг.1 изображает упрощенную функциональную блок-схему устройства с несколькими микрофонами, работающего в среде с наличием шумов.

Фиг.2 изображает упрощенную функциональную блок-схему варианта осуществления мобильного устройства с откалиброванным средством обнаружения голосовой активности с использованием нескольких микрофонов.

Фиг.3 изображает упрощенную функциональную блок-схему варианта осуществления мобильного устройства со средством обнаружения голосовой активности и компенсацией эхо.

Фиг.4A изображает упрощенную функциональную блок-схему варианта осуществления мобильного устройства со средством обнаружения голосовой активности с выделением сигналов.

Фиг.4B изображает упрощенную функциональную блок-схему выделения сигналов с использованием формирования диаграммы направленности.

Фиг.5 изображает упрощенную функциональную блок-схему варианта осуществления мобильного устройства со средством обнаружения голосовой активности с выделением сигналов.

Фиг.6 изображает упрощенную функциональную блок-схему варианта осуществления мобильного устройства со средством обнаружения голосовой активности с кодированием речи.

Фиг.7 изображает блок-схему упрощенного способа обнаружения голосовой активности.

Фиг.8 изображает упрощенную функциональную блок-схему варианта осуществления мобильного устройства с откалиброванным средством обнаружения голосовой активности с использованием нескольких микрофонов.

Подробное описание вариантов осуществления изобретения

Раскрыто устройство и способы обнаружения голосовой активности (VAD) с использованием нескольких микрофонов. Устройство и способы используют первый комплект или группу микрофонов, сконфигурированную, по существу, в ближнем поле точки полости рта (MRP), причем точка MRP считается позицией источника сигналов. Второй комплект или группа микрофонов может быть сконфигурирована, по существу, в позиции с более слабым речевым сигналом. В идеальном случае второй комплект микрофонов устанавливается, по существу, в среде с наличием шумов, аналогичной по отношению к среде первого комплекта микрофонов, но, по существу, не воспринимает ни один речевой сигнал. Некоторые мобильные устройства не допускают такую оптимальную конфигурацию, а допускают конфигурацию, в которой речевой сигнал, принятый первым комплектом микрофонов, является более мощным по сравнению с речевым сигналом, принятым посредством второго комплекта микрофонов.

Первый комплект микрофонов принимает и преобразовывает речевой сигнал, то есть, как правило, лучшего качества по сравнению со вторым комплектом микрофонов. По существу, первый комплект микрофонов можно считать микрофонами для восприятия речи, а второй комплект микрофонов можно считать микрофонами для восприятия шумов.

Модуль VAD может первоначально определить параметр на основе сигналов с каждого микрофона для восприятия речи и микрофона для восприятия шумов. Характеристические значения, соответствующие микрофонам для восприятия речи и микрофонам для восприятия шумов, используются для определения голосовой активности.

Например, модуль VAD может быть сконфигурирован для вычисления, оценки или иного определения энергии каждого сигнала от микрофонов для восприятия речи и микрофонов для восприятия шумов. Энергия может быть вычислена в предварительно определенные периоды речи и шумов, или же могут быть вычислены на основе кадра образцов речи и шумов.

В другом примере модуль VAD может быть сконфигурирован для определения автокорреляции сигналов каждого микрофона для восприятия речи и микрофона для восприятия шумов. Значения автокорреляции могут соответствовать предварительно определенному периоду или же могут быть вычислены по предварительно определенному интервалу кадра.

Модуль VAD может вычислить или иначе определить метрику активности на основе, по меньшей мере, частично, отношения характеристических значений. В одном варианте осуществления модуль VAD сконфигурирован для определения отношения энергии микрофонов для восприятия речи к энергии микрофонов для восприятия шумов. Модуль VAD может быть сконфигурирован для определения отношения автокорреляции микрофонов для восприятия речи к автокорреляции микрофонов для восприятия шумов. В другом варианте осуществления квадратный корень одного из вышеописанных отношений используется в качестве метрики активности. Модуль VAD сравнивает метрику активности с предварительно определенным пороговым значением для определения наличия или отсутствия голосовой активности.

Фиг.1 изображает упрощенную функциональную блок-схему рабочей среды 100, включающей в себя мобильное устройство 110 с несколькими микрофонами для обнаружения голосовой активности. Несмотря на то, что вышеописанное применительно к мобильному устройству, очевидно, что раскрытое в настоящем документе устройство и способы обнаружения голосовой активности не ограничиваются применением в мобильных устройствах и могут быть реализованы в стационарных устройствах, портативных устройствах, мобильных устройствах, а также могут функционировать в случаях, когда главное устройство является мобильным или стационарным.

Рабочая среда 100 изображает мобильное устройство 110 с несколькими микрофонами. Устройство с несколькими микрофонами включает в себя, по меньшей мере, один микрофон 112 для восприятия речи, изображенный на передней поверхности мобильного устройства 110, и, по меньшей мере, один микрофон 114 для восприятия шумов, изображенный на противоположной стороне мобильного устройства 110, по отношению к микрофону 112 для восприятия речи.

Несмотря на то, что мобильное устройство 110, изображенное на фиг.1, а также, в целом, изображенные на чертежах варианты осуществления изображают один микрофон 112 для восприятия речи и один микрофон 114 для восприятия шумов, мобильное устройство 110 может реализовать группу микрофонов для восприятия речи, а также группу микрофонов для восприятия шумов. Каждая группа микрофонов для восприятия речи, а также группа микрофонов для восприятия шумов может включать в себя один или несколько микрофонов. Группа микрофонов для восприятия речи может включать в себя отличное или аналогичное количество микрофонов по отношению к количеству микрофонов в группе микрофонов для восприятия шумов.

Кроме того, микрофоны группы микрофонов для восприятия речи, как правило, отличаются от микрофонов группы микрофонов для восприятия шумов, но это не является абсолютным ограничением, поскольку один или несколько микрофонов могут совместно использоваться в двух группах микрофонов. Однако связка группы микрофонов для восприятия речи с группой микрофонов для восприятия шумов включает в себя, по меньшей мере, два микрофона.

Микрофон 112 для восприятия речи изображен на поверхности мобильного устройства 110, то есть, в целом, противоположной по отношению к поверхности, имеющей микрофон 114 для восприятия шумов. Размещение микрофона 112 для восприятия речи и микрофона 114 для восприятия шумов не ограничивается никакой физической ориентацией. Размещением микрофонов, как правило, управляют с учетом возможности изоляции речевых сигналов от микрофона 114 для восприятия шумов.

В целом, микрофоны двух групп микрофонов монтируются в различных позициях мобильного устройства 110. Каждый микрофон принимает свою собственную версию комбинации желательной речи и фоновых шумов. Как предполагается, речевой сигнал может исходить из источников ближнего поля. Уровень звукового давления (SPL) в двух группах микрофонов может быть различным, в зависимости от позиции микрофонов. Если один микрофон находится близко к точке полости рта (MRP) или источнику 130 речи, то может быть принят больший уровень SPL по сравнению с другим микрофоном, расположенным дальше от точки MRP. Микрофон с большим уровнем SPL называется микрофоном 112 для восприятия речи или первичным микрофоном, который формирует речевой сигнал, обозначенный s SP (n). Микрофон, имеющий меньший уровень SPL от точки MRP источника 130 речи, называется микрофоном 114 для восприятия шумов или вторичным микрофоном, который формирует шумовой сигнал, обозначенный s NS (n). Следует отметить, что речевой сигнал, как правило, содержит фоновые шумы, а шумовой сигнал также может содержать желательную речь.

Мобильное устройство 110 может включать в себя обнаружение голосовой активности, как более подробно описано ниже, для определения наличия речевого сигнала от источника 130 речи. Операция по обнаружению голосовой активности может быть усложнена посредством количества и распределения источников шумов, которые могут находиться в рабочей среде 100.

Шумы, возникающие на мобильном устройстве 110, могут иметь компонент существенного некоррелированного белого шума, а также может включать в себя один или несколько источников цветных шумов, например источников 140-1-140-4. Кроме того, мобильный телефон 110 может самостоятельно формировать помехи, например, в форме эхо-сигнала, которые передаются с выходного преобразователя 120 либо на микрофон 112 для восприятия речи, либо на микрофон 114 для восприятия шумов, либо на оба вышеупомянутых микрофона.

Один или несколько источников цветных шумов могут формировать шумовые сигналы, каждый из которых исходит из различных позиций и направлений по отношению к мобильному устройству 110. Как первый источник 140-1 шумов, так и второй источник 140-2 шумов может быть расположен ближе или на более прямом пути по отношению к микрофону 112 для восприятия речи, в то время как третий и четвертый источники 140-3 и 140-4 шумов могут быть расположены ближе или на более прямом пути по отношению к микрофону 114 для восприятия шумов. Кроме того, один или несколько источников шумов, например 140-4, могут формировать шумовой сигнал, который отражается от поверхности 150 или иначе преодолевает несколько путей до мобильного устройства 110.

Несмотря на то, что каждый источник шумов может внести существенный сигнал в микрофоны, каждый источник 140-1-140-4 шумов, как правило, располагается в дальнем поле и, следовательно, вносит, по существу, подобные уровни звукового давления (SPL) в каждый микрофон 112 для восприятия речи и микрофон 114 для восприятия шумов.

Динамическая природа величины, позиции и частотной характеристики, связанной с каждым шумовым сигналом, содействует сложности процесса обнаружения голосовой активности. Кроме того, мобильное устройство 110, как правило, питается энергией аккумулятора, и, следовательно, может быть затронуто потребление энергии, связанное с обнаружением голосовой активности.

Мобильное устройство 110 может выполнить обнаружение голосовой активности посредством обработки каждого сигнала от микрофона 112 для восприятия речи, а также микрофона 114 для восприятия шумов, для формирования соответствующих речевых и характеристических значений шумов. Мобильное устройство 110 может формировать метрику голосовой активности на основе, частично, характеристических значений речи и шумов, а также может определить голосовой активность посредством сравнения метрики голосовой активности с пороговым значением.

Фиг.2 изображает упрощенную функциональную блок-схему варианта осуществления мобильного устройства 110 с откалиброванным средством обнаружения голосовой активности с использованием нескольких микрофонов. Мобильное устройство 110 включает в себя микрофон 112 для восприятия речи, который может являться группой микрофонов, а также микрофон 114 для восприятия шумов, который может являться группой микрофонов для восприятия шумов.

Выход микрофона 112 для восприятия речи может быть соединен с первым аналого-цифровым преобразователем 212 (ADC). Несмотря на то, что мобильное устройство 110, как правило, реализовывает аналоговую обработку сигналов микрофона, такую как фильтрация и усиление, для ясности и краткости аналоговая обработка речевых сигналов не показана.

Выход микрофона 114 для восприятия шумов может быть соединен со вторым преобразователем 214 ADC. Аналоговая обработка шумовых сигналов, как правило, может быть, по существу, аналогичной аналоговой обработке, выполняемой по отношению к речевым сигналам, для поддержки, по существу, аналогичной спектральной чувствительности. Однако спектральная чувствительность частей аналоговой обработки не должна быть аналогичной, поскольку средство 220 калибровки может выполнить некую коррекцию. Кроме того, некоторые или же все функции средства 220 калибровки могут быть реализованы в частях аналоговой обработки, а не при цифровой обработке, изображенной на фиг.2.

Как первый, так и второй преобразователи 212 и 214 ADC преобразовывают свои соответствующие сигналы в цифровое представление. Оцифрованный выход первого и второго преобразователей 212 и 214 ADC соединен со средством 220 калибровки, которое функционирует, по существу, для уравнения спектральной чувствительности путей речевых и шумовых сигналов до обнаружения голосовой активности.

Средство 220 калибровки включает в себя калибровочный генератор 222, который сконфигурирован для определения коррекции выборочной частоты, а также для управления скаляром/фильтром 224, размещенным либо по пути прохождения речевого сигнала, либо по пути прохождения шумового сигнала. Калибровочный генератор 222 может быть сконфигурирован для управления скаляром/фильтром 224 для обеспечения фиксированной кривой чувствительности калибровки, или же калибровочный генератор 222 может быть сконфигурирован для управления скаляром/фильтром 224 для обеспечения динамической кривой чувствительности калибровки. Калибровочный генератор 222 может управлять скаляром/фильтром 224 для обеспечения изменяемой кривой чувствительности калибровки на основе одного или нескольких эксплуатационных параметров. Например, калибровочный генератор 222 может включать в себя или иначе обращаться к средству обнаружения мощности сигнала (не показан), а также может менять чувствительность скаляра/фильтра 224 в ответ на мощность речевого или шумового сигнала. Другие варианты осуществления могут использовать другие параметры или комбинацию параметров.

Средство 220 калибровки может быть сконфигурировано для определения калибровки, выполняемой посредством скаляра/фильтра 224 в период калибровки. Мобильное устройство 110 может быть первоначально откалибровано, например, на стадии изготовления или же может быть откалибровано согласно графику калибровки, который может инициировать калибровку после одного или нескольких событий, интервалов или комбинации событий и интервалов. Например, средство 220 калибровки может инициировать калибровку при каждом включении мобильного устройства или же при включении только по истечении предварительно определенного времени после последней калибровки.

В течение калибровки мобильное устройство 110 может находиться в состоянии, когда присутствуют источники дальнего поля, и оно не испытывает сигналы ближнего поля либо в микрофоне 112 для восприятия речи, либо в микрофоне 114 для восприятия шумов. Калибровочный генератор 222 отслеживает каждый речевой сигнал и шумовой сигнал, а также определяет относительную спектральную чувствительность. Калибровочный генератор 222 формирует или иначе характеризует сигнал управления калибровкой, который при применении к скаляру/фильтру 224 побуждает скаляр/фильтр 224 к компенсации относительных различий в спектральной чувствительности.

Скаляр/фильтр 224 может ввести усиление, ослабление, фильтрацию или некую другую обработку сигнала, которая, по существу, может компенсировать спектральные различия. Скаляр/фильтр 224 изображен размещенным на пути прохождения шумового сигнала, что может являться целесообразным для предотвращения искажения речевых сигналов посредством скаляра/фильтра. Однако части или весь скаляр/фильтр 224 может быть размещен на пути прохождения речевого сигнала, а также может быть распределен по путям прохождения аналогового и цифрового сигналов, либо пути прохождения речевого сигнала, либо пути прохождения шумового сигнала, либо их обоих.

Средство 220 калибровки подает откалиброванные речевые и шумовые сигналы на соответствующие входы модуля 230 обнаружения голосовой активности (VAD). Модуль 230 VAD включает в себя генератор 232 характеристических значений речи, генератор 234 характеристических значений шумов, модуль 240 метрики голосовой активности, функционирующий с характеристическими значениями речи и шумов, а также средство 250 сравнения, сконфигурированное для определения наличия или отсутствия голосовой активности на основе метрики голосовой активности. Модуль 230 VAD может дополнительно включать в себя генератор 236 объединенных характеристических значений, сконфигурированный для формирования параметра на основе комбинации речевого и шумового сигналов. Например, генератор 236 объединенных характеристических значений может быть сконфигурирован для определения взаимной корреляции речевых и шумовых сигналов. Может быть взято абсолютное значение взаимной корреляции или же могут быть возведены в квадрат компоненты взаимной корреляции.

Генератор 232 характеристических значений речи может быть сконфигурирован для формирования значения, которое основывается, по меньшей мере, частично, на речевом сигнале. Генератор 232 характеристических значений речи может быть сконфигурирован, например, для формирования характеристического значения, такого как энергия речевого сигнала в определенном интервале (E SP (n)), автокорреляция речевого сигнала в определенном интервале ( SP (n)), или может быть взято какое-либо другое характеристическое значение сигнала, подобное абсолютному значению автокорреляции речевого сигнала или компонентам автокорреляции.

Генератор 234 характеристических значений шумов может быть сконфигурирован для формирования дополнительного характеристического значения шумов. То есть генератор 234 характеристических значений шумов может быть сконфигурирован для формирования значения энергии шумов в определенном интервале (E SN (n)) в случае, если генератор 232 характеристических значений речи формирует значение энергии речи. Подобным образом генератор 234 характеристических значений шумов может быть сконфигурирован для формирования значения автокорреляции шумов в определенном интервале ( NS (n)) в случае, если генератор 232 характеристических значений речи формирует значение автокорреляции речи. Также может быть взято абсолютное значение значения автокорреляции шума или же компоненты значения автокорреляции шумов.

Модуль 240 метрики голосовой активности может быть сконфигурирован для формирования метрики голосовой активности на основе характеристического значения речи, характеристического значения шумов и, дополнительно, значения взаимной корреляции. Модуль 240 метрики голосовой активности может быть сконфигурирован, например, для формирования метрики голосовой активности, которая не является сложной в вычислительном отношении. Следовательно, модуль 230 VAD может сформировать сигнал обнаружения голосовой активности, по существу, в реальном времени, с использованием относительно небольшого количества ресурсов обработки. В одном варианте осуществления модуль 240 метрики голосовой активности сконфигурирован для определения отношения одного или нескольких характеристических значений, или отношения одного или нескольких характеристических значений и значения взаимной корреляции, или отношения одного или нескольких характеристических значений и абсолютного значения взаимной корреляции.

Модуль 240 метрики голосовой активности подает метрику на средство 250 сравнения, которое может быть сконфигурировано для определения наличия голосовой активности посредством сравнения метрики голосовой активности с одним или несколькими пороговыми значениями. Каждое пороговое значение может являться фиксированным предварительно определенным пороговым значением, или же одно или несколько пороговых значений могут являться динамическим пороговым значением.

В одном варианте осуществления модуль 230 VAD определяет три различные корреляции для определения голосовой активности. Генератор 232 характеристических значений речи формирует автокорреляцию речевого сигнала SP {n), генератор 234 характеристических значений шумов формирует автокорреляцию шумового сигнала NS (n), а модуль 236 взаимной корреляции формирует взаимную корреляцию абсолютных значений речевого сигнала и шумового сигнала С (n). В данном случае n представляет собой временной показатель. Во избежание чрезмерной задержки корреляции могут быть приблизительно вычислены с использованием способа экспоненциального окна с использованием следующих уравнений. Для автокорреляции уравнение имеет следующий вид:

(n)= (n-1)+s(n) 2 или (n)= (n-1)+(1- )s(n) 2 .

Для взаимной корреляции уравнение имеет следующий вид:

С (n)= С (n-1)+|s SP (n)s NS (n)| или С (n)= С (n-1)+(1- )|s SP (n)s NS (n)|.

В вышеупомянутых уравнениях (n) является корреляцией в момент n. s(n) является либо сигналом микрофона для восприятия речи, либо сигналом микрофона для восприятия шумов в момент n. является константой между 0 и 1. || представляет собой абсолютное значение. Корреляция также может быть вычислена с использованием квадратного окна с размером N следующим образом:

(n)= (n-1)+s(n) 2 - s(n-N) 2 или

C (n)= C (n-1)+|S SP (n)s NS (n)|-|s SP (n-N)s NS (n-N)|.

Определение VAD может быть выполнено на основе SP (n), NS (n) и c (n).

В целом,

D(n)=vad( SP (n), NS (n), c (n))

В следующих примерах описаны две категории определения VAD. Одна категория является способом определения VAD на основе образца. Другая категория является способом определения VAD на основе кадра. В целом, способы определения VAD, которые основаны на использовании абсолютного значения автокорреляции или взаимной корреляции, могут учитывать меньший динамический диапазон взаимной корреляции или автокорреляции. Сокращение динамического диапазона может у