2420813 - Повышение качества речи с использованием множества датчиков с помощью модели состояний речи

Повышение качества речи с использованием множества датчиков с помощью модели состояний речи

Иллюстрации

Показать все

Изобретение относится к распознаванию и передаче речи, в частности к способам и устройствам для определения правдоподобия состояния речи на основании сигнала альтернативного датчика и сигнала микрофона, основанного на принципе воздушной проводимости. Техническим результатом является формирование речевого сигнала повышенного качества. Указанный технический результат достигается тем, что генерируют сигнал альтернативного датчика, причем альтернативный датчик является менее чувствительным к окружающему шуму, чем микрофон, основанный на принципе воздушной проводимости, генерируют сигнал микрофона, основанного на принципе воздушной проводимости, используют сигнал альтернативного датчика и сигнал микрофона, основанного на принципе воздушной проводимости, для оценивания правдоподобия L(S_t) состояния S_t речи, посредством оценивания отдельной составляющей правдоподобия для каждой из набора частотных составляющих и объединение отдельных составляющих правдоподобия для формирования оценки правдоподобия состояния речи, используют правдоподобие состояния речи для оценивания значения сниженного шума, которое моделирует значение сниженного шума при заданном состоянии речи. Правдоподобие состояния речи используется вместе с сигналом альтернативного датчика и сигналом микрофона, основанного на принципе воздушной проводимости, для того, чтобы оценить значение чистой речи для сигнала чистой речи. 3 н. и 10 з.п. ф-лы, 6 ил.

Реферат

Предпосылки создания изобретения

Распространенной проблемой распознавания речи и передачи речи является искажение речевого сигнала аддитивным шумом. В частности, установлено, что трудно обнаружимым и/или корректируемым является искажение, вносимое разговором другого говорящего.

Недавно разработаны системы, которые пытаются удалить шум с помощью сочетания альтернативного датчика, такого как микрофон, основанный на принципе костной проводимости, и микрофона, основанного на принципе воздушной проводимости. Разработаны различные способы, предусматривающие использование сигнала альтернативного датчика и сигнала микрофона, основанного на принципе воздушной проводимости, для формирования речевого сигнала повышенного качества, который меньше зашумлен, чем сигнал микрофона, основанного на принципе воздушной проводимости. Однако совершенная речь повышенного качества еще не достигнута, и необходимо дальнейшее продвижение вперед в формировании речевых сигналов повышенного качества.

Краткое изложение сущности изобретения

Предложены способ и устройство для определения правдоподобия состояния речи на основании сигнала альтернативного датчика и сигнала микрофона, основанного на принципе воздушной проводимости. Правдоподобие состояния речи используется для того, чтобы оценить значение чистой речи для сигнала чистой речи.

Краткое описание чертежей

На фиг.1 представлена блок-схема одной вычислительной среды, в которой можно воплотить варианты осуществления настоящего изобретения.

На фиг.2 представлена блок-схема альтернативной вычислительной среды, в которой можно воплотить варианты осуществления настоящего изобретения.

На фиг.3 представлена блок-схема системы обработки обычной речи согласно настоящему изобретению.

На фиг.4 представлена блок-схема системы повышения качества речи в соответствии с одним вариантом осуществления настоящего изобретения.

На фиг.5 представлена модель, на которой основано повышение качества речи в соответствии с одним вариантом осуществления настоящего изобретения.

На фиг.6 представлена схема последовательности операций повышения качества речи в соответствии с вариантом осуществления настоящего изобретения.

Подробное описание иллюстративных вариантов осуществления

На фиг.1 представлена блок-схема подходящей вычислительной системной среды 100, в которой можно воплотить варианты осуществления настоящего изобретения. Вычислительная системная среда 100 является лишь одним примером подходящей вычислительной среды, и ее не следует считать вносящей ограничения в объем применения или функциональные возможности изобретения. Не следует также считать вычислительную среду 100 связанной какой-либо зависимостью или каким-либо требованием с каким-либо одним или комбинацией компонентов, показанных в иллюстрируемой операционной среде 100.

Варианты осуществления изобретения работоспособны в сочетании с многочисленными вычислительными системными средами или конфигурациями общего назначения или специального назначения. Примеры хорошо известных вычислительных систем, сред и/или конфигураций, которые могут оказаться подходящими для использования совместно с вариантами осуществления изобретения, включают в себя - но не в ограничительном смысле - персональные компьютеры, серверные компьютеры, карманные и портативные устройства, микропроцессорные системы, системы на основе микропроцессоров, телевизионные приставки, программируемые потребительские электронные приборы, сетевые персональные компьютеры, миникомпьютеры, универсальные компьютеры, телефонные системы, распределенные вычислительные среды, которые включают в себя любые из вышеуказанных систем или устройств, и подобные им средства.

Варианты осуществления изобретения могут быть описаны в общем контексте исполняемых компьютером команд, таких как программные модули, исполняемые компьютером. В общем случае программные модули включают в себя подпрограммы, программы, объекты, задачи или представляют собой воплощения конкретных типов абстрактных данных. Это изобретение предназначено для воплощения в распределенных вычислительных средах, где задачи решаются устройствами дистанционной обработки, которые связаны друг с другом посредством сети связи. В распределенной вычислительной среде программные модули находятся как в локальных, так и в удаленных компьютерных запоминающих носителях, включающих в себя запоминающие устройства.

Обращаясь к фиг.1, иллюстративная система для воплощения изобретения включает в себя вычислительное устройство общего назначения в форме компьютера 110. Компоненты компьютера могут включать в себя - но не в ограничительном смысле - блок 120 обработки, системную память 130 и системную шину 121, которая связывает различные системные компоненты, включая системную память, с блоком 120 обработки. Системная шина 121 может быть любого из нескольких типов структур шин, включая сюда шину памяти или контроллер памяти, периферийную шину и локальную шину, в которой используется любая из множества архитектур шин. В качестве примера, не носящего ограничительный характер, такие архитектуры включают в себя шину промышленной стандартной архитектуры (шину ISA), шину микроканальной архитектуры (шину MCA), шину расширенной промышленной стандартной архитектуры (шину EISA), шину стандарта Ассоциации по стандартам в области видеоэлектроники (шину VESA), локальную шину межсоединения периферийных компонентов (шину PCI), также известную под названием «шина расширения».

Компьютер 110, как правило, включает в себя совокупность считываемых компьютером носителей информации. Считываемые компьютером носители информации могут быть любыми подходящими носителями информации, к которым компьютер 110 может получить доступ, и включают в себя как энергозависимые, так и энергонезависимые носители информации, как съемные, так и стационарные носители информации. В качестве примера, не носящего ограничительный характер, считываемые компьютером носители информации могут содержать компьютерные запоминающие носители и носители передачи данных. Компьютерные запоминающие носители включают в себя как энергозависимые, так и энергонезависимые, как съемные, так и стационарные носители, воплощенные любым способом или по любой технологии с целью хранения информации, такой как компьютерные команды, структуры данных, программные модули или другие данные. Компьютерные запоминающие среды включают в себя - но не в ограничительном смысле - оперативное запоминающее устройство (RAM, ОЗУ), постоянное запоминающее устройство (ROM, ПЗУ), EEPROM (ЭСППЗУ), флэш-память или другую технологию памяти, СD-ROM, цифровые универсальные диски (DVD) или другой накопитель на оптических дисках, магнитные кассеты, магнитную ленту, накопитель на магнитных дисках или другие магнитные запоминающие устройства либо другой носитель, который можно использовать для хранения требуемой информации и к которому может получить доступ компьютер 110. Среды передачи информации обычно воплощают считываемые компьютером команды, структуры данных, программные модули или другие данные в модулированном информационном сигнале, таком как несущая волна, или другой транспортный механизм, и включают в себя любые среды доставки информации. Термин «модулированный информационный сигнал» означает сигнал, который имеет одну или несколько своих характеристик установленными или измененными таким образом, что обеспечивается кодирование информации в сигнале. В качестве примера, не носящего ограничительный характер, отметим, что среды передачи информации включают в себя проводные среды, такие как проводная сеть или прямое проводное соединение, и беспроводные среды, такие как акустическая, радиочастотная, инфракрасная и другие беспроводные среды. В число считываемых компьютером носителей информации также следует включить сочетания любых вышеуказанных носителей.

Системная память 130 включает в себя компьютерные запоминающие среды в форме энергозависимого и/или энергонезависимого запоминающего устройства, такого как постоянное запоминающее устройство (ПЗУ) 131 и оперативное запоминающее устройство (ОЗУ) 132. Как правило, в ПЗУ 131 хранится базовая система 133 ввода-вывода (BIOS, БСВВ), содержащая базовые подпрограммы, которые способствуют переносу информации между элементами, находящимися внутри компьютера 110, например, во время запуска. ОЗУ 132 как правило содержит данные и/или программные модули, доступ к которым возможен немедленно и/или которые в данный момент исполняются в блоке 120 обработки. В качестве примера, не носящего ограничительный характер, на фиг.1 изображены операционная система 134, прикладные программы 135, другие программные модули 136 и программные данные 137.

Компьютер 110 также может включать в себя другие съемные и/или стационарные, энергозависимые и/или энергонезависимые компьютерные запоминающие среды. Лишь в качестве примера на фиг.1 изображен накопитель 141 на жестких дисках, который осуществляет считывание со стационарных энергонезависимых магнитных носителей и запись на них, накопитель 151 на магнитных дисках, который осуществляет считывание со съемного энергонезависимого магнитного диска 152 и запись на него, и накопитель 155 на оптических дисках, который осуществляет считывание со съемного энергонезависимого оптического диска 156, такого как CD-ROM или другие оптические носители, и запись на него или них. Другие съемные и/или стационарные, энергозависимые и/или энергонезависимые компьютерные запоминающие среды, которые можно использовать в возможной операционной среде, включают в себя - но не в ограничительном смысле - кассеты с магнитными лентами, платы флэш-памяти, цифровые универсальные диски, цифровую видеоленту, твердотельное ОЗУ, твердотельное ПЗУ и аналогичные средства. Накопитель 141 на жестких дисках как правило соединен с системной шиной 121 через посредство интерфейса стационарного запоминающего устройства, такого как интерфейс 140, а накопитель 151 на магнитных дисках и накопитель 155 на оптических дисках как правило соединены с системной шиной 121 через посредство интерфейса съемного запоминающего устройства, такого как интерфейс 150.

Накопители и связанные с ними компьютерные запоминающие среды, рассмотренные выше и проиллюстрированные на фиг.1, обеспечивают хранение считываемых компьютером команд, структур данных, программных модулей и других данных для компьютера 110. Например, накопитель 141 на жестких дисках изображен на фиг.1 как хранящий операционную систему 144, прикладные программы 145, другие программные модули 146 и программные данные 147. Отметим, что эти компоненты могут быть либо такими же, как операционная система 134, прикладные программы 135, другие программные модули 136 и программные данные 137 либо другими. Операционной системе 144, прикладным программам 145, другим программным модулям 146 и программным данным 147 здесь даны разные ссылочные позиции, чтобы проиллюстрировать, что они, как минимум, являются разными копиями.

Пользователь может вводить команды и информацию в компьютер 110 через посредство устройств ввода, таких как клавиатура 162, микрофон 163 и указательное устройство 161, такое как мышь, трекбол или сенсорная панель. Другие устройства ввода (не показаны) могут включать в себя джойстик, игровую панель, спутниковую тарелку, сканер или аналогичные средства. Эти и другие устройства ввода зачастую соединены с блоком 120 обработки через посредство пользовательского интерфейса 160 ввода, который подключен к системной шине, но могут быть соединены и через посредство других интерфейсов и структур шин, таких как параллельный порт, игровой порт или универсальная последовательная шина (USB). С системной шиной 121 через посредство интерфейса, такого как видеоинтерфейс 190, соединен также монитор 191 или отображающее устройство другого типа. Помимо монитора компьютеры могут также включать в себя другие периферийные устройства вывода, такие как динамики 197 и принтер 196, которые можно подсоединить через посредство интерфейса 195 периферийных устройств вывода.

Компьютер 110 эксплуатируется в сетевой среде с использованием логических соединений с одним или несколькими удаленными компьютерами, такими как удаленный компьютер 180. Удаленный компьютер 180 может быть персональным компьютером, карманным устройством, сервером, маршрутизатором, сетевым персональным компьютером, равноправным устройством или другим обычным узлом сети и в обычном случае включает в себя многие или все компоненты, описанные выше применительно к компьютеру 110. Логические соединения, изображенные на фиг.1, включают в себя локальную сеть (LAN) 171 и глобальную сеть (WAN) 173, но могут включать в себя и другие сети. Такие сетевые среды распространены в офисах, компьютерных сетях масштаба предприятия, корпоративных сетях и Internet.

При использовании в сетевой среде LAN компьютер 110 соединен с LAN 171 через посредство сетевого интерфейса или адаптера 170. При использовании в сетевой среде WAN компьютер 110 как правило включает в себя модем 172 или другие средства для установления связи по WAN 173, такой как Internet. Модем 172, который может быть внешним или внутренним, может быть соединен с системной шиной 121 через посредство пользовательского интерфейса 160 ввода или другого подходящего механизма. В сетевой среде программные модули, изображенные применительно к компьютеру 110, или их части могут храниться в удаленном запоминающем устройстве. В качестве примера, не носящего ограничительный характер, удаленные прикладные программы 185 изображены на фиг.1 как находящиеся в удаленном компьютере 180. Следует понимать, что показанные сетевые соединения являются лишь возможными и что можно использовать другие средства установления связи между компьютерами.

На фиг.2 представлена блок-схема мобильного устройства 200, которое представляет собой возможную вычислительную среду. Мобильное устройство 200 включает в себя микропроцессор 202, запоминающее устройство 204, компоненты 206 ввода-вывода (I/O, ВВ) и интерфейс 208 передачи информации, предназначенный для связи с удаленными компьютерами или другими мобильными устройствами. В одном варианте осуществления вышеупомянутые компоненты подключены друг к другу с возможностью осуществления связи через посредство подходящей шины 210.

Запоминающее устройство 204 воплощено в виде энергонезависимого электронного запоминающего устройства, такого как оперативное запоминающее устройство (RAM, ОЗУ) с модулем батарейной поддержки (не показан), так что информация, хранящаяся в запоминающем устройстве 204, не утрачивается, когда прекращается подача энергии от питающей электросети на мобильное устройство 200. Часть запоминающего устройства 204 предпочтительно предназначена для работы в качестве адресуемой памяти для выполнения программ, а другая часть запоминающего устройства 204 предпочтительно используется для хранения, например, с целью моделирования хранения в накопителе для дисков.

Запоминающее устройство 204 содержит операционную систему 212, прикладные программы 214, а также хранилище 216 объектов. Во время работы операционная система 212 предпочтительно исполняется процессором 202, получающим информацию из запоминающего устройства 204. Операционная система 212 в одном предпочтительном варианте осуществления представляет собой операционную систему WINDOWS^® СЕ, коммерчески доступную от Microsoft Corporation. Операционная система 212 предпочтительно спроектирована для мобильных устройств и воплощает признаки базы данных, которые могут использоваться прикладными программами 214 через посредство набора предоставляемых интерфейсов прикладного программирования и методов. Объекты в хранилище 216 объектов поддерживаются прикладными программами 214 и операционной системой 212, по меньшей мере, частично в ответ на вызовы предоставляемых интерфейсов прикладного программирования и методов.

Интерфейс 208 передачи информации представляет различные устройства и технологии, которые позволяют мобильному устройству 200 посылать и принимать информацию. Эти устройства включают в себя проводные и беспроводные модемы, спутниковые приемники и тюнеры радиовещания, чтобы назвать несколько примеров. Мобильное устройство 200 также может быть непосредственно соединено с компьютером для обмена данными с ним. В таких случаях интерфейс 208 передачи информации может быть приемопередатчиком, работающим в инфракрасном диапазоне, либо последовательным или параллельным соединением для передачи информации, причем все эти варианты обеспечивают передачу информации в потоковом режиме.

Компоненты 206 ввода-вывода включают в себя множество устройств ввода, таких как сенсорный экран, кнопки, ролики и микрофон, а также многообразие устройств вывода, включающих в себя звукогенератор, вибрационное устройство и дисплей. Вышеперечисленные устройства указаны лишь в качестве примеров, и не обязательно все они присутствуют в мобильном устройстве 200. Кроме того, к мобильному устройству 200 можно подсоединить или обнаружить в нем другие устройства ввода-вывода, и это тоже будет в рамках объема настоящего изобретения.

На фиг.3 представлена базовая блок-схема вариантов осуществления настоящего изобретения. Как показано на фиг.3, говорящий 300 генерирует речевой сигнал 302 (Х), который обнаруживается микрофоном 304, основанным на принципе воздушной проводимости, и альтернативным датчиком 306. Примеры альтернативных датчиков включают в себя ларингофон, который измеряет вибрации горла пользователя, датчик, основанный на принципе костной проводимости, который находится на кости лица или черепа пользователя (например, на челюстной кости) или в ухе пользователя и который воспринимает вибрации черепа и челюсти, которые соответствуют речи, произносимой пользователем. Микрофон 304, основанный на принципе воздушной проводимости, относится к тому типу микрофона, который обычно используется для преобразования звуковых воздушных волн в электрические сигналы.

Микрофон 304, основанный на принципе воздушной проводимости, принимает окружающий шум 308 (V), генерируемый одним или несколькими источниками 310 шума и генерирует свой собственный шум 305 (U) датчика. В зависимости от типа окружающего шума и уровня окружающего шума, окружающий шум 308 также можно обнаруживать посредством альтернативного датчика 306. Однако в рамках вариантов осуществления настоящего изобретения предполагается, что альтернативный датчик 306 как правило менее чувствителен к окружающему шуму, чем микрофон 304, основанный на принципе воздушной проводимости. Таким образом, сигнал 316 (В) альтернативного датчика, генерируемый альтернативным датчиком 306, в общем случае включает в себя меньший шум, чем сигнал 318 (Y) микрофона 304, основанного на принципе воздушной проводимости. Хотя альтернативный датчик 306 менее чувствителен к окружающему шуму, он генерирует некоторый шум 320 (W) датчика.

Тракт от говорящего 300 до альтернативного датчика 306 можно смоделировать как канал, имеющий отклик Н канала. Тракт от окружающего шума 308 до сигнала 316 альтернативного датчика можно смоделировать как канал, имеющий отклик G канала.

Сигнал 316 (В) альтернативного датчика и сигнал 318 (Y) микрофона, основанного на принципе воздушной проводимости, выдаются в блок 322 оценки чистого сигнала, который оценивает чистый сигнал 324. Оценка 324 чистого сигнала выдается в средство 328 обработки речи. Оценка 324 чистого сигнала может быть либо сигналом во временной области, либо вектором преобразования Фурье. Если оценка 324 чистого сигнала является сигналом во временной области, то средство 328 обработки речи может принимать форму приемника, системы кодирования речи или системы распознавания речи. Если оценка 324 чистого сигнала является вектором преобразования Фурье, то средство 328 обработки в обычном случае будет системой распознавания речи или будет содержать средство обратного преобразования Фурье, предназначенное для преобразования вектора преобразования Фурье в сигналы.

В блоке 322 оценки чистого сигнала сигнал 316 альтернативного датчика и сигнал 318 микрофона преобразуются с переводом в частотную область, используемую для оценки чистой речи. Как показано на фиг.4, сигнал 316 альтернативного датчика и сигнал 318 микрофона, основанного на принципе воздушной проводимости, выдаются в аналого-цифровые преобразователи (АЦП) 404 и 414 соответственно для генерирования последовательности цифровых значений, которые группируются в кадры значений блоками 406 и 416 составления кадров соответственно. В одном варианте осуществления АЦП 404 и 414 осуществляют выборку аналоговых сигналов на частоте 16 кГц и 16 бит на выборку, вследствие чего происходит создание 32 килобайт речевых данных в секунду, а блоки 406 и 416 составления кадров создают новый соответствующий кадр каждые 10 миллисекунд, что содержит соответствующие 20 миллисекундам данные.

Каждый соответствующий кадр данных, выдаваемый блоками 406 и 416 составления кадров, преобразуется с переводом в частотную область с помощью блоков 408 и 418 быстрого преобразования Фурье (FFT, БПФ) соответственно.

Значения частотной области для сигнала альтернативного датчика и датчика микрофона, основанного на принципе воздушной проводимости, выдаются в блок 420 оценки чистого сигнала, который использует упомянутые значения частотной области для оценки сигнала 324 чистой речи.

В некоторых вариантах осуществления сигнал 324 чистой речи преобразуется с переводом обратно во временную область с помощью блока 422 обратного быстрого преобразования Фурье (ОБПФ). Это приводит к созданию версии временной области сигнала 324 чистой речи.

В настоящем изобретении используется модель системы согласно фиг.3, которая предусматривает использование состояний речи для чистой речи, чтобы получить речевой сигнал повышенного качества. Фиг.5 обеспечивает графическое представление модели.

В модели согласно фиг.5 чистая речь 500 зависит от состояния 502 речи. Сигнал 504 микрофона, основанного на принципе воздушной проводимости, зависит от шума 506 датчика, окружающего шума 508 и сигнала 500 чистой речи. Сигнал 510 альтернативного датчика зависит от шума 512 датчика, сигнала 500 чистой речи, когда тот подвергается воздействию отклика 514 канала, и окружающего шума 508, когда тот подвергается воздействию отклика 516 канала.

Модель согласно фиг.5 используется в настоящем изобретении для оценки сигнала Х_t чистой речи, полученного из зашумленных наблюдений Y_t и B_t, и идентифицирует вероятность множества состояний S_t речи.

В одном варианте осуществления настоящего изобретения оценка сигнала чистой речи и вероятности состояний для оценки сигнала чистой речи образуются в изначальном предположении гауссовых распределений для составляющих шума в модели системы. Таким образом,

V ~ N(0,g²σ_v ²) Ур. 1

U ~ N(0,σ_u ²) Ур. 2

W ~ N(0,σ_w ²) Ур. 3,

где каждая составляющая шума смоделирована как гауссова с нулевым средним, имеющая соответствующие дисперсии g²σ_v ², σ_u ² и σ_w ²; V - окружающий шум, U - шум датчика в микрофоне, основанном на принципе воздушной проводимости, а W - шум датчика в альтернативном датчике. В уравнении 1 g - параметр настройки, который обеспечивает настройку дисперсии окружающего шума.

Кроме того, этот вариант осуществления настоящего изобретения модулирует вероятность сигнала чистой речи при заданном состоянии как гауссову с нулевым средним и дисперсией σ_s ², так что

X|(S = s) ~ N(0,σ_s ²) Ур. 4.

В одном варианте осуществления настоящего изобретения априорная вероятность заданного состояния предполагается равномерной вероятностью, так что все состояния являются равно вероятными. В частности, априорная вероятность определяется следующим образом:

Ур. 5,

где N_s - количество состояний речи, доступных в модели.

В описании нижеследующих уравнений для определения оценки сигнала чистой речи и вероятности состояний речи все переменные моделируются в комплексной спектральной области. Каждая частотная составляющая (Bin) обрабатывается независимо от других частотных составляющих. Для упрощения обозначений способ будет описан ниже для единственной частотной составляющей. Специалисты в данной области техники должны понимать, что вычисления выполняются для каждой частотной составляющей в спектральной версии входных сигналов. Для переменных, которые изменяются во времени, к обозначению переменной добавляется подстрочный индекс t.

Чтобы оценить сигнал Х_t чистой речи, полученный из зашумленных наблюдений Y_t и B_t, в настоящем изобретении предусматривается максимизация условной вероятности p(X_t|Y_t,B_t), которая представляет собой вероятность сигнала чистой речи при заданных зашумленном сигнале микрофона, основанного на принципе воздушной проводимости и зашумленном сигнале альтернативного датчика. Поскольку оценка сигнала чистой речи зависит от состояния S_t речи в условиях модели, то эта условная вероятность определяется следующим образом:

Ур. 6,

где {S} обозначает набор всех состояний речи, p(X_t|Y_t,B_t,S_t=s) - правдоподобие сигнала Х_t при заданных текущих зашумленных наблюдениях и состоянии s речи, а p(S_t=s|Y_t,B_t) - правдоподобие состояния s речи при заданных зашумленных наблюдениях. В настоящем изобретении можно использовать любое количество возможных состояний речи, включая сюда состояния речи для вокализованных звуков, фрикативных звуков, назальных звуков и гласных звуков заднего ряда. В некоторых вариантах осуществления отдельное состояние речи предусматривается для каждой из набора фонетических единиц, таких как фонемы. В одном варианте осуществления, однако, предусматриваются только два состояния речи, одно - для наличия речи и одно - для отсутствия речи.

В некоторых вариантах осуществления единственное состояние речи используется для всех частотных компонентов. Следовательно, каждый кадр имеет единственную переменную состояния речи.

Члены, собранные в правой стороне уравнения 6, можно вычислить следующим образом:

Ур. 7

Ур. 8,

которые показывают, что условную вероятность сигнала чистой речи при заданных наблюдениях можно оценить по совместной вероятности речевого сигнала, наблюдений и состояния и что условную вероятность состояния при заданных наблюдениях можно аппроксимировать путем интегрирования совместной вероятности сигнала чистой речи, наблюдений и состояния по всем возможным значениям чистой речи.

Пользуясь допущениями о гауссовом характере распределений шума, рассмотренными выше в уравнениях 1-3, можно вычислить совместную вероятность сигнала чистой речи, наблюдений и состояния следующим образом:

Ур. 9,

где p(X_t|S_t=s) = N(X_t;0,σ_s ²), p(S_t) - априорная вероятность состояния, которое задается равномерным распределением вероятностей в уравнении 5, G - отклик канала альтернативного датчика на окружающий шум, Н - отклик канала сигнала альтернативного датчика на сигнал чистой речи, а комплексные члены между вертикальными скобками, такие как |G|, обозначают модуль комплексной величины.

Отклик G канала альтернативного датчика для фоновой речи оценивается по сигналам Y микрофона, основанного на принципе воздушной проводимости, и альтернативного датчика В в последних D кадрах, на протяжении которых пользователь не говорит. В частности, G определяется следующим образом:

Ур. 10,

где D - количество кадров, на протяжении которых пользователь не говорит, но присутствует фоновая речь. Здесь предполагается, что G постоянен во всех D кадрах времени. В других вариантах осуществления вместо одинакового использования всех D кадров мы используем способ, известный как «экспоненциальное старение», так что самые последние кадры вносят больший вклад в оценку отклика G, чем более старые кадры.

Отклик H канала альтернативного датчика для сигнала чистой речи оценивается по сигналам Y микрофона, основанного на принципе воздушной проводимости, и альтернативного датчика В в последних T кадрах, на протяжении которых пользователь говорит. В частности, H определяется следующим образом:

Ур. 11,

где T - количество кадров, на протяжении которых пользователь говорит. В данном случае предполагается, что H постоянен во всех T кадрах времени. В других вариантах осуществления вместо одинакового использования всех T кадров мы используем способ, известный как «экспоненциальное старение», так что самые последние кадры вносят больший вклад в оценку отклика G, чем более старые кадры.

Условное правдоподобие p(S_t=s|Y_t,B_t) состояния вычисляется посредством использования аппроксимации уравнения 8 и вычисления совместной вероятности уравнения 9 следующим образом:

Ур. 12,

что можно упростить так:

Ур. 13.

Внимательное рассмотрение уравнения 13 позволяет установить, что первый член в некотором смысле моделирует корреляцию между каналом альтернативного датчика и каналом микрофона, основанного на принципе воздушной проводимости, тогда как второй член использует модель состояния и модель шума для пояснения наблюдения в канале микрофона, основанного на принципе воздушной проводимости. Третий член - это просто предшествующее состояние, которое в одном варианте осуществления соответствует равномерному распределению.

Вероятность состояния при заданном наблюдении, как вычислено в уравнении 13, имеет два возможных применения. Во-первых, ее можно использовать для построения классификатора состояний речи, который можно использовать для классификации наблюдений как включающих в себя речь или не включающих в себя речь, так что можно устранить дисперсии источников шума из кадров, которые не включают в себя речь. Она также может использоваться, чтобы обеспечить «мягкое» взвешивание при оценивании сигнала чистой речи, что дополнительно иллюстрируется ниже.

Как отмечалось выше, каждая из переменных в вышеуказанных уравнениях определяется для конкретной частотной составляющей в комплексной спектральной области. Таким образом, правдоподобие согласно уравнению 13 является характеристикой состояния, связанного с конкретной частотной составляющей. Вместе с тем, поскольку для каждого кадра имеется лишь одна-единственная переменная состояния, правдоподобие состояния для кадра формируется путем агрегирования правдоподобия по частотным компонентам следующим образом:

где L(S_t(ƒ)) = p(S_t(ƒ)|Y_t(ƒ),B_t(ƒ)) - правдоподобие для частотной составляющей ƒ, как определено в уравнении 13. Произведение определяется по всем частотным компонентам, за исключением тех, которые соответствуют частотам DC и Найквиста. Отметим, что если вычисление правдоподобия проводят в области логарифмического правдоподобия, то умножение в вышеуказанном уравнении заменяется суммированием.

Вышеуказанное правдоподобие можно использовать для построения классификатора наличия речи/отсутствия речи на основании признака отношения правдоподобия таким образом, что

Ур. 15,

где кадр считается содержащим речь, если отношение r больше 0, и считается не содержащим речь в противном случае.

Пользуясь правдоподобием состояний речи, можно сформировать оценку сигнала чистой речи. В одном варианте осуществления эту оценку формируют с помощью минимальной среднеквадратической оценки (МСКО) на основе уравнения 6, так что

Ур. 16,

где E(X_t|Y_t,B_t) - математическое ожидание сигнала чистой речи при заданном наблюдении, а E(X_t|Y_t,B_t,S_t=s) - математическое ожидание сигнала чистой речи при заданных наблюдениях и состоянии речи.

С помощью уравнений 7 и 9 условная вероятность p(X_t|Y_t,B_t,S_t=s), по которой можно вычислить ожидание E(X_t|Y_t,B_t,S_t=s), определяется следующим образом:

Ур. 17.

Это дает ожидание в виде:

Ур. 18,

где

Ур. 19

Ур. 20,

а М^* - комплексно сопряженная величина по отношению к М.

Таким образом, оценка - МСКО (MMSE) - сигнала X_t чистой речи задается следующим образом:

Ур. 21,

где π_s - последующее состояние, задаваемое следующим образом:

Ур. 22,

где L(S_t=s) задается уравнением 14. Таким образом, оценка сигнала чистой речи основана, в частности, на относительном правдоподобии конкретного речевого состояния, и это относительное правдоподобие обеспечивает мягкое взвешивание для оценки сигнала чистой речи.

В вышеуказанных вычислениях Н предполагается известным с большой точностью. Однако на практике Н известен лишь с ограниченной точностью. В дополнительном варианте осуществления настоящего изобретения Н моделируется как гауссова случайная величина N(H;H₀,σ_H ²). В таком варианте осуществления все вышеупомянутые вычисления проводятся по всем возможным значениям Н. Однако это делает математические выкладки неосуществимыми. В одном варианте осуществления для обхода этой трудности используется итеративный процесс. Во время каждой итерации Н заменяется в уравнениях 13 и 20 на Н₀, а σ_w ² заменяется на , где - оценка сигнала чистой речи, определенная из предыдущей итерации. Затем сигнал чистой речи оценивают с помощью уравнения 21. Эта новая оценка сигнала чистой речи затем устанавливается в качестве нового значения , и выполняется следующая итерация. Итерации заканчиваются, когда оценка сигнала чистой речи становится устойчивой.

На фиг.6 представлен способ оценивания сигнала чистой речи с помощью вышеуказанных уравнений. На этапе 600 идентифицируются кадры вводимого фрагмента речи, на протяжении которых пользователь не говорит. Эти кадры затем используются для определения дисперсии σ_v ² окружающего шума, дисперсии σ_w ² шума альтернативного датчика и дисперсии σ_u ² шума микрофона, основанного на принципе воздушной проводимости.

Чтобы идентифицировать кадры, в которых пользователь не говорит, можно проверить сигнал альтернативного датчика. Поскольку сигнал альтернативного датчика будет давать гораздо меньшие значения сигнала при фоновой речи, чем при шуме, то, когда энергия сигнала альтернативного датчика мала, можно изначально предположить, что говорящее лицо не говорит. Значения сигнала микрофона, основанного на принципе воздушной проводимости, и сигнала альтернативного датчика для кадров, которые не содержат речь, запоминаются в буфере и используются для вычисления дисперсий шума следующим образом:

Ур. 23

Ур. 24,

где N_v - количество кадров шума во фрагменте речи, которые используются для формирования дисперсии, V - набор кадров шума, в которых пользователь не говорит, а B_t' обозначает сигнал альтернативного датчик

Повышение качества речи с использованием множества датчиков с помощью модели состояний речи

Патент 2420813