2456701 - Повышение разборчивости речи с использованием нескольких микрофонов на нескольких устройствах

Повышение разборчивости речи с использованием нескольких микрофонов на нескольких устройствах

Иллюстрации

Показать все

Группа изобретений относится к области обработки аудиосигналов. Согласно предложенным решениям захватывают первый аудиосигнал с помощью первого микрофона, расположенного на беспроводном мобильном устройстве, причем первый аудиосигнал представляет звук от множества источников звука. Захватывают второй аудиосигнал с помощью второго микрофона, расположенного на втором устройстве, не включенном в беспроводное мобильное устройство, причем второй аудиосигнал представляет звук от источников звука. Обрабатывают первый и второй захваченные аудиосигналы, чтобы сформировать сигнал, представляющий собой звук от одного из источников звука, отделенный от звука из других источников звука. Решения используют различные устройства, такие как гарнитуры Bluetooth, проводные гарнитуры и т.п. Техническим результатом является повышение разборчивости речи, подавление фоновых помех, обнаружение активности речи. 4 н. и 27 з.п. ф-лы, 12 ил.

Реферат

Настоящая патентная заявка испрашивает приоритет Предварительной заявки № 61/037461, озаглавленной "Speech Enhancement Using Multiple Microphones on Multiple Devices", поданной 18 марта 2008 г. и переуступленной правопреемнику настоящей заявки.

Область техники

Настоящее раскрытие изобретения в целом имеет отношение к области решений по обработке сигналов, используемых для повышения качества речи в системах связи, а точнее говоря, к методам использования нескольких микрофонов для повышения качества речевой связи.

Уровень техники

В системах мобильной связи качество переданной речи является важным фактором в общем качестве обслуживания, ощущаемом пользователями. В последнее время некоторые мобильные устройства связи (MCD) включили в MCD несколько микрофонов для повышения качества переданной речи. В этих MCD для улучшения качества речи и подавления фоновых помех используются усовершенствованные методики обработки сигналов, которые используют звуковую информацию от нескольких микрофонов. Однако эти решения обычно требуют, чтобы несколько микрофонов располагались на одном MCD. Известные примеры многомикрофонных MCD включают в себя трубки сотовых телефонов с двумя или более микрофонами и беспроводные гарнитуры Bluetooth с двумя микрофонами.

Речевые сигналы, зарегистрированные микрофонами на MCD, очень восприимчивы к воздействиям окружающей среды, таким как фоновые помехи, реверберация и т.п. MCD, оборудованные только одним микрофоном, страдают от плохого качества речи при использовании в шумных окружениях, то есть в окружениях, где отношение сигнал-шум (SNR) у входного речевого сигнала является низким. Чтобы повысить работоспособность в шумных средах, были предложены многомикрофонные MCD. Многомикрофонные MCD обрабатывают звук, зарегистрированный группой микрофонов, для повышения качества речи даже в агрессивных (очень шумных) средах. Известные решения с несколькими микрофонами могут применять некоторые методы цифровой обработки сигналов для повышения качества речи путем использования звука, зарегистрированного разными микрофонами, расположенными на MCD.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Известные многомикрофонные MCD требуют, чтобы все микрофоны были расположены на MCD. Так как все микрофоны располагаются на одном устройстве, известные методы многомикрофонной обработки звукового сигнала и их эффективность определяется относительно ограниченным разносом между микрофонами в MCD. Поэтому желательно найти способ увеличения эффективности и надежности многомикрофонных методов, используемых в мобильных устройствах.

В связи с этим настоящее раскрытие изобретения направлено на механизм, который использует сигналы, записанные несколькими микрофонами, для повышения качества речи в системе мобильной связи, где некоторые микрофоны располагаются на других устройствах, отличных от MCD. Например, одно устройство может быть MCD, а другое устройство может быть беспроводным/проводным устройством, которое взаимодействует с MCD. Аудио, принятое микрофонами на разных устройствах, может обрабатываться различными способами. В данном раскрытии изобретения предоставляется несколько примеров: несколько микрофонов на разных устройствах, которые могут использоваться для улучшения обнаружения активности речи (VAD); несколько микрофонов также могут использоваться для осуществления повышения разборчивости речи с использованием способов разделения источников, таких как формирование пучка, слепое разделение источников, схемы пространственно-разнесенного приема и т.п.

В соответствии с одной особенностью, способ обработки аудиосигналов в системе связи включает в себя фиксацию первого аудиосигнала с помощью первого микрофона, расположенного на беспроводном мобильном устройстве; фиксацию второго аудиосигнала с помощью второго микрофона, расположенного на втором устройстве, не включенном в беспроводное мобильное устройство; и обработку первого и второго зарегистрированных аудиосигналов для создания сигнала, представляющего звук от одного из источников звука, например, полезного источника, но отделенный от звука, поступающего от других источников звука, например, источников шумов окружающей среды, источников помех или т.п. Первый и второй аудиосигналы могут представлять звук от одинаковых источников в локальном окружении.

В соответствии с другой особенностью устройство включает в себя первый микрофон, расположенный на беспроводном мобильном устройстве, сконфигурированный для фиксации первого аудиосигнала; второй микрофон, расположенный на втором устройстве, не включенном в беспроводное мобильное устройство, сконфигурированном для фиксации второго аудиосигнала; и процессор, сконфигурированный для создания сигнала, представляющего собой звук от одного из источников звука, отделенный от звука из других источников, в ответ на первый и второй зарегистрированные аудиосигналы.

В соответствии с другой особенностью, устройство включает в себя средство для фиксации первого аудиосигнала на беспроводном мобильном устройстве; средство для фиксации второго аудиосигнала на втором устройстве, не включенном в беспроводное мобильное устройство; и средство для обработки первого и второго зарегистрированных аудиосигналов, чтобы создать сигнал, представляющий собой звук от одного из источников звука, отделенный от звука из других источников звука.

В соответствии с дополнительной особенностью машиночитаемый носитель, заключающий в себе набор команд, исполняемых одним или несколькими процессорами, включает в себя код для фиксации первого аудиосигнала на беспроводном мобильном устройстве; код для фиксации второго аудиосигнала на втором устройстве, не включенном в беспроводное мобильное устройство; и код для обработки первого и второго зарегистрированных аудиосигналов, чтобы создать сигнал, представляющий собой звук от одного из источников звука, отделенный от звука из других источников звука.

Другие особенности, признаки, способы и преимущества станут очевидными специалисту в данной области техники после рассмотрения нижеследующих фигур и подробного описания. Подразумевается, что все такие дополнительные признаки, особенности, способы и преимущества должны включаться в это описание и защищаться прилагаемой формулой изобретения.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Нужно понимать, что чертежи предназначены исключительно для цели иллюстрации. Кроме того, компоненты на чертежах не обязательно представлены в масштабе, вместо этого придается значение иллюстрации принципов методов и устройств, описанных в этом документе. На чертежах одинаковые ссылочные позиции обозначают соответствующие части на всех разных видах.

Фиг. 1 - схема типовой системы связи, включающей мобильное устройство связи и гарнитуру, имеющую несколько микрофонов.

Фиг. 2 - блок-схема алгоритма, иллюстрирующая способ обработки аудиосигналов от нескольких микрофонов.

Фиг. 3 - блок-схема, показывающая некоторые компоненты мобильного устройства связи и гарнитуры из фиг. 1.

Фиг. 4 - блок-схема процесса общей многомикрофонной обработки сигналов с двумя микрофонами на разных устройствах.

Фиг. 5 - схема, иллюстрирующая типовой подход оценки задержки сигнала у микрофона.

Фиг. 6 - блок-схема процесса уточнения оценки задержки сигнала у микрофона.

Фиг. 7 - блок-схема процесса обнаружения активности речи (VAD) с использованием двух микрофонов на разных устройствах.

Фиг. 8 - блок-схема процесса BSS с использованием двух микрофонов на разных устройствах.

Фиг. 9 - блок-схема процесса измененной реализации BSS с двумя сигналами микрофонов.

Фиг. 10 - блок-схема процесса измененной реализации BSS в частотной области.

Фиг. 11 - блок-схема процесса способа формирования пучка с использованием двух микрофонов на разных устройствах.

Фиг. 12 - блок-схема процесса методов пространственно-разнесенного приема с использованием двух микрофонов на разных устройствах.

ПОДРОБНОЕ ОПИСАНИЕ

Нижеследующее подробное описание изобретения, которое ссылается и включает в себя чертежи, описывает и иллюстрирует один или несколько характерных вариантов осуществления. Эти варианты осуществления, предложенные не для ограничения, а только для иллюстрации и обучения, показаны и описаны достаточно подробно, чтобы дать возможность специалистам в данной области техники применить на практике формулу изобретения. Таким образом, описание может для краткости пропускать некоторую информацию, известную специалистам в данной области техники.

Слово "типовой" используется во всем раскрытии изобретения, чтобы обозначать "служащий в качестве примера, отдельного случая или иллюстрации". Все, что описано в этом документе как "типовое", не обязательно должно быть истолковано как предпочтительное или преимущественное над другими подходами или признаками.

Фиг. 1 - схема типовой системы 100 связи, включающей мобильное устройство 104 связи (MCD) и гарнитуру 102, имеющую несколько микрофонов 106, 108. В показанном примере гарнитура 102 и MCD 104 взаимодействуют по линии 103 радиосвязи, например соединению Bluetooth. Хотя соединение bluetooth может использоваться для обмена информацией между MCD 104 и гарнитурой 102, ожидается, что на линии 103 радиосвязи могут использоваться другие протоколы. С использованием линии радиосвязи Bluetooth звуковые сигналы между MCD 104 и гарнитурой 102 могут передаваться в соответствии с Профилем гарнитуры, предусмотренном в Спецификации Bluetooth, которая доступна на www.bluetooth.com.

Множество источников 110 звука излучают звуки, которые улавливаются микрофонами 106, 108 на разных устройствах 102, 104.

Несколько микрофонов, расположенных на разных мобильных устройствах связи, могут использоваться для повышения качества переданной речи. В этом документе раскрыты способы и устройства, с помощью которых аудиосигналы микрофона от нескольких устройств могут использоваться для повышения эффективности. Однако настоящее раскрытие изобретения не ограничивается любым конкретным способом многомикрофонной обработки или любым конкретным набором мобильных устройств связи.

Хотя аудиосигналы, которые зарегистрированы несколькими микрофонами, расположенными рядом друг с другом, обычно фиксируют смесь источников звука. Источники звука могут быть шумоподобными (уличный шум, перекрестный шум, шум окружающей среды или аналогичный) или могут быть речью, или инструментом. Звуковые волны от источника звука могут отскакивать или отражаться от стен или ближайших объектов для создания разных звуков. Специалисту в данной области техники должно быть понятно, что термин "источник звука" также может использоваться для указания других звуков, отличных от исходного источника звука, а также указания исходного источника звука. В зависимости от применения источник звука может быть речевым или шумоподобным.

В настоящее время существует много устройств - мобильные трубки, проводные гарнитуры, гарнитуры Bluetooth и т.п. - только с одиночными микрофонами. Но эти устройства проявляют свойства нескольких микрофонов, когда два или более этих устройств используются совместно. В этих обстоятельствах способы и устройство, описанные в этом документе, способны использовать несколько микрофонов на разных устройствах и повышать качество речи.

Желательно разделить смесь принятого звука по меньшей мере на два сигнала, представляющие каждый из исходных источников звука, путем применения алгоритма, который использует множество зарегистрированных аудиосигналов. Другими словами, после применения алгоритма разделения источников, например слепого разделения источников (BSS), формирования пучка или пространственного разнесения, "смешанные" источники звука можно услышать в отдельности. Такие методы разделения включают в себя BSS, формирование пучка и обработку с пространственным разнесением.

В этом документе описаны несколько типовых способов для использования нескольких микрофонов на разных устройствах для повышения качества речи в системе мобильной связи. Для простоты в этом раскрытии изобретения представляется один пример, включающий только два микрофона: один микрофон на MCD 104 и один микрофон на аксессуаре, например гарнитуре 102 или проводной гарнитуре. Однако раскрытые в этом документе методы могут быть расширены на системы, включающие более двух микрофонов, и MCD и гарнитуры, которые имеют более одного микрофона.

В системе 100 основной микрофон 106 для фиксации речевого сигнала располагается на гарнитуре 102, поскольку он обычно является ближайшим к говорящему пользователю, тогда как микрофон 108 на MCD 104 является дополнительным микрофоном 108. Кроме того, раскрытые способы могут использоваться с другими подходящими аксессуарами MCD, например проводными гарнитурами.

В MCD 104 выполняется обработка двух сигналов микрофонов. Поскольку сигнал основного микрофона, принятый от гарнитуры 102, запаздывает из-за протоколов беспроводной связи по сравнению с сигналом дополнительного микрофона от дополнительного микрофона 108, необходим блок компенсации задержки перед тем, как могут быть обработаны два сигнала микрофонов. Значение задержки, необходимое для блока компенсации задержки, обычно известно для данной гарнитуры Bluetooth. Если значение задержки неизвестно, то используется номинальное значение для блока компенсации задержки, и принимаются меры касательно неточности в компенсации задержки в блоке обработки двух сигналов микрофонов.

Фиг. 2 - блок-схема алгоритма, иллюстрирующая способ 200 обработки аудиосигналов от нескольких микрофонов. На этапе 202 основной аудиосигнал регистрируется основным микрофоном 106, расположенным на гарнитуре 102.

На этапе 204 дополнительный аудиосигнал регистрируется дополнительным микрофоном 108, расположенным на MCD 104. Основной и дополнительный аудиосигналы представляют звук от источников 110 звука, принятый в основном и дополнительном микрофонах 106, 108 соответственно.

На этапе 206 основной и дополнительный зарегистрированные аудиосигналы обрабатываются для создания сигнала, представляющего звук от одного из источников 110 звука, отделенный от звука из других источников 110 звука.

Фиг. 3 - блок-схема, показывающая некоторые компоненты MCD 104 и гарнитуры 102 из фиг. 1. Беспроводная гарнитура 102 и MCD 104 способны взаимодействовать друг с другом по линии 103 радиосвязи.

Гарнитура 102 включает в себя беспроводной интерфейс 308 малой дальности, соединенный с антенной 303 для взаимодействия с MCD 106 по линии 103 радиосвязи. Беспроводная гарнитура 102 также включает в себя контроллер 310, основной микрофон 106 и схему 312 микрофонного входа.

Контроллер 310 управляет общей работой гарнитуры 102 и некоторыми заключенными в ней компонентами, и включает в себя процессор 311 и запоминающее устройство 313. Процессор 311 может быть любым подходящим устройством обработки для исполнения программных команд, сохраненных в запоминающем устройстве 313, чтобы заставить гарнитуру 102 выполнять свои функции и процессы, которые описаны в этом документе. Например, процессор 311 может быть микропроцессором, например ARM7, цифровым процессором сигналов (DSP), одной или несколькими специализированными интегральными схемами (ASIC), программируемыми пользователем вентильными матрицами (FPGA), сложными устройствами с программируемой логикой (CPLD), дискретной логикой, программным обеспечением, аппаратными средствами, микропрограммным обеспечением или любым подходящим сочетанием.

Запоминающее устройство 313 является любым подходящим запоминающим устройством для хранения программных команд и данных, выполняемых и используемых процессором 311.

Беспроводной интерфейс 308 малой дальности включает в себя приемопередатчик 314 и обеспечивает двустороннюю беспроводную связь с MCD 104 через антенну 303. Хотя любая подходящая беспроводная технология может применяться с гарнитурой 102, беспроводной интерфейс 308 малой дальности предпочтительно включает в себя серийно выпускаемый модуль Bluetooth, который предоставляет по меньшей мере базовую систему Bluetooth, состоящую из антенны 303, радиочастотного приемопередатчика Bluetooth, процессора немодулированной передачи, стека протоколов, а также аппаратных и программных интерфейсов для соединения модуля с контроллером 310 и при необходимости другими компонентами гарнитуры 102.

Схема 312 микрофонного входа обрабатывает электронные сигналы, принятые от основного микрофона 106. Схема 312 микрофонного входа включает в себя аналого-цифровой преобразователь (ADC, не показан) и может включать в себя другую схему для обработки выходных сигналов от основного микрофона 106. ADC преобразует аналоговые сигналы от микрофона в цифровой сигнал, который затем обрабатывается контроллером 310. Схема 312 микрофонного входа может быть реализована с использованием серийно выпускаемых аппаратных средств, программного обеспечения, микропрограммного обеспечения или любого подходящего сочетания. Также некоторые из функций схемы 312 микрофонного входа могут быть реализованы как программное обеспечение, исполняемое на процессоре 311 или отдельном процессоре, например цифровом процессоре сигналов (DSP).

Основной микрофон 108 может быть любым подходящим звуковым преобразователем для преобразования звуковой энергии в электронные сигналы.

MCD 104 включает в себя интерфейс 330 беспроводной глобальной сети (WWAN), одну или несколько антенн 301, беспроводной интерфейс 320 малой дальности, дополнительный микрофон 108, схему 315 микрофонного входа и контроллер 324, имеющий процессор 326 и запоминающее устройство 328, хранящее одну или несколько программ 329 аудиообработки. Аудиопрограммы 329 могут конфигурировать MCD 104 для выполнения, в том числе, этапов процессов из фиг. 2 и 4-12, описанных в этом документе. MCD 104 может включать в себя отдельные антенны для взаимодействия по линии 103 радиосвязи малой дальности и линии WWAN, либо в качестве альтернативы для обеих линий связи может использоваться одна антенна.

Контроллер 324 управляет общей работой MCD 104 и некоторых компонентов, заключенных в нем. Процессор 326 может быть любым подходящим устройством обработки для исполнения программных команд, сохраненных в запоминающем устройстве 328, чтобы заставить MCD 104 выполнять свои функции и процессы, которые описаны в этом документе. Например, процессор 326 может быть микропроцессором, например ARM7, цифровым процессором сигналов (DSP), одной или несколькими специализированными интегральными схемами (ASIC), программируемыми пользователем вентильными матрицами (FPGA), сложными устройствами с программируемой логикой (CPLD), дискретной логикой, программным обеспечением, аппаратными средствами, микропрограммным обеспечением или любым подходящим сочетанием.

Запоминающее устройство 324 является любым подходящим запоминающим устройством для хранения программных команд и данных, выполняемых и используемых процессором 326.

Интерфейс 330 WWAN содержит полный физический интерфейс, необходимый для обмена информацией с WWAN. Интерфейс 330 включает в себя беспроводной приемопередатчик 332, сконфигурированный для обмена беспроводными сигналами с одной или несколькими базовыми станциями в WWAN. Примеры подходящих сетей беспроводной связи включают в себя, но не ограничиваются, сети на основе коллективного доступа с кодовым разделением каналов (CDMA), сети WCDMA, GSM, UMTS, AMPS, PHS или похожие. Интерфейс 330 WWAN обменивается беспроводными сигналами с WWAN для облегчения речевых вызовов и передач данных по WWAN к подключенному устройству. Подключенное устройство может быть другим терминалом WWAN, телефоном наземной линии связи или объектом сетевой службы, например сервером голосовой почты, Интернет-сервером или похожим.

Беспроводной интерфейс 320 малой дальности включает в себя приемопередатчик 336 и обеспечивает двустороннюю беспроводную связь с беспроводной гарнитурой 102. Хотя любая подходящая беспроводная технология может применяться с MCD 104, беспроводной интерфейс 336 малой дальности предпочтительно включает в себя серийно выпускаемый модуль Bluetooth, который предоставляет по меньшей мере базовую систему Bluetooth, состоящую из антенны 301, радиочастотного приемопередатчика Bluetooth, процессора немодулированной передачи, стека протоколов, а также аппаратных и программных интерфейсов для соединения модуля с контроллером 324 и при необходимости другими компонентами MCD 104.

Схема 315 микрофонного входа обрабатывает электронные сигналы, принятые от дополнительного микрофона 108. Схема 315 микрофонного входа включает в себя аналого-цифровой преобразователь (ADC, не показан) и может включать в себя другую схему для обработки выходных сигналов от дополнительного микрофона 108. ADC преобразует аналоговые сигналы от микрофона в цифровой сигнал, который затем обрабатывается контроллером 324. Схема 315 микрофонного входа может быть реализована с использованием серийно выпускаемых аппаратных средств, программного обеспечения, микропрограммного обеспечения или любого подходящего сочетания. Также некоторые из функций схемы 315 микрофонного входа могут быть реализованы как программное обеспечение, исполняемое на процессоре 326 или отдельном процессоре, например цифровом процессоре сигналов (DSP).

Дополнительный микрофон 108 может быть любым подходящим аудиопреобразователем для преобразования аудиоэнергии в электронные сигналы.

Компоненты MCD 104 и гарнитуры 102 могут быть реализованы с использованием любого подходящего сочетания аналоговых и/или цифровых аппаратных средств, микропрограммного обеспечения или программного обеспечения.

Фиг. 4 - блок-схема процесса общей многомикрофонной обработки сигналов с двумя микрофонами на разных устройствах. Как показано на схемы, этапы 402-410 могут выполняться посредством MCD 104.

На чертеже оцифрованные выборки сигнала основного микрофона обозначаются с помощью x₁(n). Оцифрованные выборки сигнала дополнительного микрофона от MCD 104 обозначаются с помощью x₂(n).

Этап 400 представляет задержку, претерпеваемую выборками основного микрофона, когда они перемещаются по линии 103 радиосвязи от гарнитуры 102 к MCD 104. Выборки x₁(n) основного микрофона задерживаются относительно выборок x₂(n) дополнительного микрофона.

На этапе 402 выполняется линейное эхоподавление (LEC) для удаления эха из выборок основного микрофона. Подходящие методики LEC известны специалистам в данной области техники.

В блоке 404 компенсации задержки сигнал дополнительного микрофона задерживается на t_d выборок перед тем, как два сигнала микрофонов могут обрабатываться дальше. Значение задержки t_d, необходимое для блока 404 компенсации задержки, обычно известно для данного беспроводного протокола, например гарнитуры Bluetooth. Если значение задержки неизвестно, то в блоке 404 компенсации задержки может использоваться номинальное значение. Значение задержки может дополнительно уточняться, как описано ниже применительно к фиг. 5-6.

Другое препятствие в этом применении - компенсация различий в скорости передачи данных между двумя сигналами микрофонов. Это выполняется в блоке 406 компенсации частоты дискретизации. Вообще, гарнитура 102 и MCD 104 могут управляться двумя независимыми источниками тактовых импульсов, и тактовые частоты могут со временем немного смещаться относительно друг друга. Если тактовые частоты отличаются, то может отличаться и количество выборок, доставленных в кадре для двух сигналов микрофонов. Как правило, это известно как проблема пропуска выборок, и ряд подходов, которые известны специалистам в данной области техники, может использоваться для решения этой проблемы. В случае пропуска выборок блок 406 компенсирует различие в скорости передачи данных между двумя сигналами микрофонов.

Предпочтительно, чтобы частота дискретизации потока выборок основного и дополнительного микрофонов согласовывалась перед тем, как выполняется дальнейшая обработка сигналов, затрагивающая оба потока. Существует много подходящих способов для выполнения этого. Например, одним из способов является добавление/удаление выборок из одного потока для соответствия выборкам/кадру в другом потоке. Другой способ заключается в выполнении тонкой настройки частоты дискретизации одного потока для совпадения с другим потоком. Например, предположим, что оба канала имеют номинальную частоту дискретизации в 8 кГц. Однако фактическая частота дискретизации одного канала равна 7985 Гц. Поэтому аудиовыборки из этого канала нужно повысить до 8000 Гц. В качестве другого примера один канал может иметь частоту дискретизации в 8023 Гц. Его аудиовыборки нужно понизить до 8 кГц. Существует много способов, которые могут использоваться для выполнения произвольной передискретизации двух потоков, чтобы согласовать их частоты дискретизации.

На этапе 408 дополнительный микрофон 108 калибруется для компенсации различий в чувствительности основного и дополнительного микрофонов 106, 108. Калибровка выполняется путем регулирования потока выборок дополнительного микрофона.

Вообще, основной и дополнительный микрофоны 106, 108 могут обладать совершенно разными чувствительностями, и необходимо калибровать сигнал дополнительного микрофона таким образом, чтобы мощность фоновых помех, принятая дополнительным микрофоном 108, имела такой же уровень, как у основного микрофона 106. Калибровка может выполняться с использованием подхода, который включает оценку минимального уровня шума у двух сигналов микрофонов и затем использование квадратного корня отношения двух оценок минимального уровня шума, чтобы масштабировать сигнал дополнительного микрофона, чтобы два сигнала микрофонов имели одинаковые минимальные уровни шума. В качестве альтернативы могут использоваться другие способы калибровки чувствительностей микрофонов.

На этапе 410 происходит многомикрофонная обработка аудио. Обработка включает в себя алгоритмы, которые используют аудиосигналы от нескольких микрофонов для повышения качества речи, производительности системы или т.п. Примеры таких алгоритмов включают в себя алгоритмы VAD и алгоритмы разделения источников, например слепое разделение источников (BSS), формирование пучка или пространственное разнесение. Алгоритмы разделения источников позволяют разделение "смешанных" источников звука, чтобы конечному слушателю передавался только сигнал нужного источника. Вышеупомянутые типовые алгоритмы более подробно обсуждаются ниже.

Фиг. 5 - схема, иллюстрирующая типовой подход оценки задержки сигнала у микрофона, который использует линейный эхокомпенсатор (LEC) 402, включенный в MCD 104. Подход оценивает задержку 500 беспроводного канала, претерпеваемую сигналами основного микрофона, перемещаемыми по линии 103 радиосвязи. Как правило, алгоритм эхоподавления реализуется на MCD 104, чтобы подавить ощущение эха на дальнем конце (тракт R_x основного микрофона) через динамик 506 гарнитуры, которое присутствует в сигнале микрофона (тракт T_x основного микрофона). Тракт R_x основного микрофона может включать в себя обработку 504 R_x, которая происходит в гарнитуре 102, а тракт T_x основного микрофона может включать в себя обработку 502 T_x, которая происходит в гарнитуре 102.

Алгоритм эхоподавления обычно состоит из LEC 402 на входе в MCD 104. LEC 402 реализует адаптивный фильтр над сигналом R_x дальнего конца и фильтрует эхо из входящего сигнала основного микрофона. Чтобы эффективно реализовать LEC 402, должна быть известна двусторонняя задержка от тракта R_x до тракта T_x. Как правило, двусторонняя задержка является постоянной или по меньшей мере близкой к постоянному значению, и эта постоянная задержка оценивается во время начальной настройки MCD 104 и используется для конфигурирования решения LEC. Как только известна оценка двусторонней задержки t_rd, начальная приблизительная оценка для задержки, t_0d, испытываемой сигналом основного микрофона по сравнению с сигналом дополнительного микрофона, может вычисляться как половина двусторонней задержки. Как только известна начальная приблизительная задержка, фактическая задержка может оцениваться путем точного поиска по диапазону значений.

Точный поиск описывается следующим образом. Пусть сигнал основного микрофона после LEC 402 обозначается с помощью x₁(n). Пусть сигнал дополнительного микрофона от MCD 104 обозначается с помощью x₂(n). Сигнал дополнительного микрофона сначала задерживается на t_0d, чтобы обеспечить компенсацию начальной приблизительной задержки между двумя сигналами микрофонов x₁(n) и x₂(n), где n - целочисленное значение индекса выборки. Начальная приблизительная задержка обычно является грубой оценкой. Задержанный сигнал второго микрофона затем взаимно коррелируется с сигналом основного микрофона для диапазона τ значений задержек, и фактическая, уточненная оценка задержки, t_d, находится путем максимизации результата взаимной корреляции на диапазоне τ:

Параметр τ диапазона может принимать как положительные, так и отрицательные целочисленные значения. Например, -10≤τ≤10. Итоговая оценка t_d соответствует значению τ, которое максимизирует взаимную корреляцию. Такой же подход с взаимной корреляцией также может использоваться для вычисления грубой оценки задержки между сигналом дальнего конца и эхом, присутствующим в сигнале основного микрофона. Однако в этом случае значения задержки обычно большие, и диапазон значений для τ должен тщательно выбираться на основе предшествующего опыта или отыскиваться на большом диапазоне значений.

Фиг. 6 - блок-схема процесса, иллюстрирующая другой подход для уточнения оценки задержки сигнала у микрофона. В этом подходе два потока выборок микрофонов при желании фильтруются по нижним частотам с помощью фильтров 604, 606 нижних частот (LPF) перед вычислением взаимной корреляции для оценки задержки с использованием Уравнения 1 выше (этап 608). Фильтрация нижних частот полезна, так как когда два микрофона 106, 108 размещаются на большом расстоянии, между двумя сигналами микрофонов соотносятся только низкочастотные компоненты. Граничные частоты для фильтра нижних частот можно обнаружить на основе способов, указанных в этом документе ниже при описании VAD и BSS. Как показано этапом 602 из фиг. 6, выборки дополнительного микрофона задерживаются на начальную приблизительную задержку, t_0d, перед фильтрацией нижних частот.

Фиг. 7 - блок-схема процесса обнаружения 700 активности речи (VAD) с использованием двух микрофонов на разных устройствах. В системе с одним микрофоном мощность фоновых помех нельзя оценить как следует, если шум является нестационарным во времени. Однако с использованием сигнала дополнительного микрофона (сигнал от MCD 104) может быть получена более точная оценка мощности фоновых помех, и можно реализовать значительно усовершенствованный детектор активности речи. VAD 700 можно реализовать различными способами. Пример реализации VAD описывается следующим образом.

Вообще, дополнительный микрофон 108 будет относительно удален (более 8 см) от основного микрофона 106, и поэтому дополнительный микрофон 108 будет фиксировать главным образом шум окружающей среды и очень мало нужной речи от пользователя. В этом случае VAD 700 можно реализовать просто путем сравнения уровня мощности сигнала калиброванного дополнительного микрофона и сигнала основного микрофона. Если уровень мощности сигнала основного микрофона гораздо выше, чем у сигнала калиброванного дополнительного микрофона, то заявляется, что обнаруживается речь. Дополнительный микрофон 108 может исходно калиброваться во время производства MCD 104, чтобы уровень шума окружающей среды, зарегистрированный двумя микрофонам 106, 108, был близок друг к другу. После калибровки сравнивается средняя мощность каждого блока (или кадра) у принятых выборок двух сигналов микрофонов, и объявляется обнаружение речи, когда средняя мощность блока у сигнала основного микрофона превышает таковую у сигнала дополнительного микрофона на заранее установленную пороговую величину. Если два микрофона размещаются на относительно большом расстоянии, то корреляция между двумя сигналами микрофонов снижается для высоких частот. Соотношение между разделением микрофонов (d) и частотой максимальной корреляции (f_max) может выражаться с использованием следующего уравнения:

где с=343 м/с является скоростью звука в воздухе, d является расстоянием разделения микрофонов, и f_max является частотой максимальной корреляции. Эффективность VAD может быть повышена путем вставки фильтра нижних частот в тракт двух сигналов микрофонов перед вычислением оценок энергии блоков. Фильтр нижних частот выбирает только те высокие аудиочастоты, которые коррелируют между двумя сигналами микрофонов, и поэтому решение не будет искажаться некоррелированными компонентами. Граница фильтра нижних частот может устанавливаться, как указано ниже.

(3)

Здесь 800 Гц и 2800 Гц даны в качестве примеров минимальных и максимальных граничных частот для фильтра нижних частот. Фильтр нижних частот может быть простым фильтром с КИХ или биквадратным фильтром с БИХ с заданной граничной частотой.

Фиг. 8 - блок-схема процесса слепого разделения источников (BSS) с использованием двух микрофонов на разных устройствах. Модуль 800 BSS разделяет и восстанавливает сигналы источников из нескольких смесей сигналов источников, записанных матрицей датчиков. Модуль 800 BSS обычно применяет статистические показатели высшего порядка для отделения исходных источников от смесей.

Разборчивость речевого сигнала, зарегистрированного гарнитурой 102, может сильно страдать, если фоновые помехи слишком высоки или очень нестационарны. BSS 800 может обеспечить значительное улучшение качества речи в этих сценариях.

Модуль 800 BSS может использовать ряд подходов разделения источников. Способы BSS обычно применяют адаптивные фильтры для удаления шума из сигнала основного микрофона и удаления нужной речи из сигнала дополнительного микрофона. Поскольку адаптивный фильтр может моделировать и удалять только коррелированные сигналы, он будет особенно эффективен в низкочастотном шуме из сигнала основного микрофона и низкочастотной речи из сигнала дополнительного микрофона. Эффективность фильтров BSS может улучшаться путем адаптивной фильтрации только в областях нижних частот. Это может достигаться двумя способами.

Фиг. 9 - блок-схема процесса измененной реализации BSS с двумя сигналами микрофонов. Реализация BSS включает в себя фильтр 852 BSS, два фильтра 854, 856 нижних частот (LPF) и модуль 858 обучения и обновления фильтра BSS. В реализации BSS два входных аудиосигнала фильтруются с использованием адаптивных/неперестраиваемых фильтров 852 для разделения сигналов, поступающих из разных источников звука. Используемые фильтры 852 могут быть адаптивными, то есть веса фильтра адаптируются со временем в зависимости от входных данных, либо фильтры могут быть неперестраиваемыми, то есть для разделения входных сигналов используется постоянный набор заранее вычисленных коэффициентов фильтра. Обычно реализация адаптивного фильтра является более распространенной, так как она обеспечивает лучшую производительность, особенно если входные статистические показатели являются нестационарными.

Обычно для устройств с двумя микрофонами BSS применяет два фильтра - один фильтр для выделения нужного аудиосигнала из сигналов входной смеси и другой фильтр для выделения шума окружающей среды/сигнала помехи из сигналов входной смеси. Два фильтра могут быть фильтрами с КИХ или фильтрами с БИХ, и в случае адаптивных фильтров веса двух фильтров могут обновляться одновременно. Реализация адаптивных фильтров включает в себя два этапа: первый этап вычисляет обновления весов фильтров путем обучения на входных данных, а второй этап реализует фильтр путем свертывания веса фильтра с входными данными. Здесь предполагается, что фильтры 854 нижних частот должны применяться к входным данным для реализации первого этапа 858 - вычисления обновлений фильтра с использованием, тем не менее, данных для второго этапа 852

Повышение разборчивости речи с использованием нескольких микрофонов на нескольких устройствах

Патент 2456701