2648604 - Способ и аппаратура для генерации сигнала речи

Способ и аппаратура для генерации сигнала речи

Иллюстрации

Показать все

Изобретение относится к средствам для генерации сигнала речи. Технический результат заключается в повышении качества речи за счет уменьшения реверберации. Аппаратура содержит микрофонные приемники (101), которые принимают сигналы микрофонов от множества микрофонов (103). Блок (105) сравнения определяет указание сходства речи, указывающее на сходство между сигналом микрофона и нереверберирующей речью, для каждого сигнала микрофона. Определение происходит в ответ на сравнение характеристики, получаемой из сигнала микрофона, со справочной характеристикой для нереверберирующей речи. В некоторых вариантах осуществления, блок (105) сравнения определяет указание сходства речи посредством сравнения со справочными характеристиками для сэмплов речи из набора сэмплов нереверберирующей речи. Генератор (107) генерирует сигнал речи посредством объединения сигналов микрофонов в ответ на указания сходства. Аппаратура может быть распределена по множеству устройств, причем каждое устройство содержит микрофон, и данный метод может определить наиболее подходящий микрофон для генерации сигнала речи. 2 н. и 12 з.п. ф-лы, 4 ил.

Реферат

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Данное изобретение относится к способу и аппаратуре для генерации сигнала речи, в частности к генерации сигнала речи из множества сигналов микрофонов, таких как, например, микрофоны в разных устройствах.

УРОВЕНЬ ТЕХНИКИ

Традиционно, речевая связь между удаленными пользователями обеспечивалась посредством прямой двусторонней связи с использованием специальных устройств на каждом конце. Конкретно, традиционная связь между двумя пользователями обеспечивалась через проводную телефонную связь или беспроводную радиосвязь между двумя приемопередатчиками радиосвязи. Однако, в последние десятилетия, существенно увеличилось разнообразие возможностей для захвата и передачи речи, и был разработан целый ряд новых услуг и речевых применений, включая более гибкие применения для речевой связи.

Например, широкое распространение возможности подключения широкополосного Интернета привело к новым способам связи. Интернет-телефония существенно снизила стоимость связи. Это, в сочетании с тенденцией перемещения семей и друзей по всему миру, привело к большой продолжительности телефонных разговоров. Вызовы с использованием VoIP (Voice over Internet Protocol - передача голоса с помощью протокола сети Интернет), длящиеся больше часа, не являются редкостью, и пользовательский комфорт во время таких продолжительных вызовов является теперь более важным, чем когда-либо.

Дополнительно, диапазон устройств, которыми владеет или которые использует пользователь, существенно вырос. Конкретно, устройства, снабженные захватом звука (звукозаписью) и, обычно, беспроводной передачей данных, становятся все более распространенными, как, например, мобильные телефоны, планшетные компьютеры, портативные компьютеры, и т.д.

Качество большинства речевых применений сильно зависит от качества захваченной речи. Следовательно, большинство практических применений основано на расположении микрофона близко ко рту говорящего. Например, мобильные телефоны включают в себя микрофон, который при использовании пользователи располагают близко к своему рту. Однако такой метод может быть невыполнимым во многих сценариях и может обеспечить взаимодействие с пользователем, которое не является оптимальным. Например, для пользователя может быть невыполнимой необходимость удерживания планшетного компьютера близко к голове.

Для обеспечения более свободного и более гибкого взаимодействия с пользователем были предложены различные решения громкой связи. Эти решения включают в себя беспроводные микрофоны, которые содержатся в очень маленьких корпусах, которые могут быть надеты и, например, прикреплены к одежде пользователя. Однако это все же воспринимается как неудобство во многих сценариях. Фактически, обеспечение громкой связи со свободой перемещения и многозадачностью во время вызова, но без необходимости нахождения близко к устройству или надевания телефонной гарнитуры, является важным шагом в направлении улучшения взаимодействия с пользователем.

Другим методом является использование громкой связи на основе микрофона, расположенного дальше от пользователя. Например, были разработаны системы конференц-связи, которые, при расположении, например, на столе, обеспечивают захват речи говорящих, находящихся в помещении. Однако такие системы, как правило, не всегда обеспечивают оптимальное качество речи, и, в частности, речь более удаленных пользователей, как правило, является слабо слышимой и имеет шумы. Также, в таких сценариях, захваченная речь, как правило, имеет высокую степень реверберации, которая может существенно снизить разборчивость речи.

Было предложено использовать более одного микрофона, например, для таких систем конференц-связи. Однако проблема в таких случаях заключается в том, как объединить множество сигналов микрофонов. Общепринятым методом является простое суммирование этих сигналов вместе. Однако это, как правило, не обеспечивает оптимальное качество речи. Были предложены различные более сложные методы, такие как выполнение взвешенного суммирования на основе относительных уровней сигналов микрофонов. Однако эти методы не обеспечивают, как правило, оптимальную производительность во многих сценариях, например, они все же включают в себя высокую степень реверберации, восприимчивость к абсолютным уровням, сложность, необходимость централизованного доступа ко всем сигналам микрофонов, относительную непрактичность, необходимость специальных устройств, и т.д.

Следовательно, был бы предпочтительным улучшенный метод для захвата сигналов речи, и, в частности, был бы предпочтительным метод, обеспечивающий возможность увеличения гибкости, улучшения качества речи, уменьшения реверберации, уменьшения сложности, уменьшения требований по связи, увеличения приспособленности для разных устройств (включая многофункциональные устройства), уменьшения потребности в ресурсах и/или улучшения производительности.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Таким образом, задачей данного изобретения является, предпочтительно, ослабить, смягчить или устранить один или несколько вышеупомянутых недостатков, отдельно или в любой комбинации.

Согласно аспекту данного изобретения, обеспечена аппаратура по п. 1 формулы изобретения.

Данное изобретение может обеспечить возможность генерации улучшенного сигнала речи во многих вариантах осуществления. В частности, оно может во многих вариантах осуществления обеспечить возможность генерации сигнала речи с меньшей реверберацией и/или, часто, меньшим шумом. Этот метод может обеспечить улучшенную производительность речевых применений, и может, в частности, во многих сценариях и вариантах осуществления, обеспечить улучшенную речевую связь.

Сравнение по меньшей мере одной характеристики, получаемой из сигналов микрофонов, со справочной характеристикой для нереверберирующей речи, обеспечивает конкретный эффективный и точный способ идентификации относительной важности отдельных сигналов микрофонов для сигнала речи и может, в частности, обеспечить лучшую оценку, чем методы на основе, например, меры уровня сигнала или меры отношения сигнал-шум. Фактически, соотношение захваченного звукового сигнала и сигналов нереверберирующей речи может обеспечить ясное указание на то, какая доля речи достигает микрофона по прямому пути, и какая доля достигает микрофона по реверберирующим путям.

По меньшей мере одна справочная характеристика может быть одной или несколькими характеристиками/ значениями, которые связаны с нереверберирующей речью. В некоторых вариантах осуществления, по меньшей мере одна справочная характеристика может быть набором характеристик, соответствующих разным сэмплам (выборкам, фрагментам) нереверберирующей речи. Может быть определено, что указание сходства отражает различие между значением по меньшей мере одной характеристики, получаемой из сигнала микрофона, и значением по меньшей мере одной справочной характеристики для нереверберирующей речи, и, конкретно, по меньшей мере одной справочной характеристики одного сэмпла нереверберирующей речи. В некоторых вариантах осуществления, по меньшей мере одна характеристика, получаемая из сигнала микрофона, может быть самим сигналом микрофона. В некоторых вариантах осуществления, по меньшей мере одна справочная характеристика для нереверберирующей речи может быть сигналом нереверберирующей речи. Альтернативно, эта характеристика может быть подходящим признаком, таким как огибающие спектра, нормированные по коэффициенту усиления.

Микрофоны, обеспечивающие сигналы микрофонов, могут быть, во многих вариантах осуществления, микрофонами, распределенными в некоторой области, и могут быть удаленными друг от друга. Метод может, в частности, обеспечить улучшенное использование звукового сигнала, захваченного в разных положениях, без необходимости знания или предположения этих положений пользователем или аппаратурой/ системой. Например, микрофоны могут быть случайно распределены произвольным образом в помещении, и система может автоматически приспособиться к обеспечению улучшенного сигнала речи для конкретного расположения.

Сэмплы нереверберирующей речи могут быть, конкретно, сэмплами, по существу, «сухой», или безэховой речи.

Указание сходства речи может быть любым указанием степени различия или сходства между отдельным сигналом микрофона (или его частью) и нереверберирующей речью, как, например, сэмплом нереверберирующей речи. Указание сходства речи может быть указанием сходства по восприятию.

Согласно необязательному признаку данного изобретения, аппаратура содержит множество отдельных устройств, причем каждое устройство содержит микрофонный приемник для приема по меньшей мере одного сигнала микрофона из множества сигналов микрофонов.

Это может обеспечить конкретный эффективный метод для генерации сигнала речи. Во многих вариантах осуществления, каждое устройство может содержать микрофон, обеспечивающий сигнал микрофона. Данное изобретение может обеспечить улучшенные и/или новые взаимодействия с пользователем с улучшенной производительностью.

Например, некоторое количество возможных различных устройств может быть расположено в помещении. При выполнении речевого применения, такого как речевая связь, каждое из отдельных устройств может обеспечить сигнал микрофона, и эти устройства могут быть оценены для нахождения наиболее подходящих устройств/ микрофонов для использования для генерации сигнала речи.

Согласно необязательному признаку данного изобретения, по меньшей мере первое устройство из множества отдельных устройств содержит локальный блок сравнения для определения первого указания сходства речи по меньшей мере для одного сигнала микрофона первого устройства.

Это может обеспечить улучшенное функционирование во многих сценариях и может, в частности, обеспечить распределенную обработку, которая может уменьшить, например, потребности в ресурсах связи и/или в распределенных вычислительных ресурсах.

Конкретно, во многих вариантах осуществления, отдельные устройства могут определить указание сходства локально и могут передать сигнал микрофона, только если критерий сходства соответствует критерию.

Согласно необязательному признаку данного изобретения, генератор реализован в генерирующем устройстве, отдельном по меньшей мере от первого устройства; и причем первое устройство содержит передатчик для передачи первого указания сходства речи к генерирующему устройству.

Это может обеспечить предпочтительные реализацию и функционирование во многих вариантах осуществления. В частности, это может обеспечить во многих вариантах осуществления одно устройство для оценки качества речи на всех других устройствах без необходимости передачи какого-либо звукового сигнала или сигнала речи. Передатчик может быть выполнен с возможностью передачи первого указания сходства речи через беспроводной канал связи, такой как канал связи стандарта Bluetooth™ или стандарта Wi-Fi.

Согласно необязательному признаку данного изобретения, генерирующее устройство выполнено с возможностью приема указаний сходства речи от каждого из множества отдельных устройств, и причем генератор выполнен с возможностью генерации сигнала речи с использованием поднабора сигналов микрофонов от множества отдельных устройств, причем этот поднабор определяют в ответ на указания сходства речи, принимаемые от множества отдельных устройств.

Это может обеспечить высокоэффективную систему во многих сценариях, где сигнал речи может быть сгенерирован из сигналов микрофонов, захватываемых посредством разных устройств, с использованием только наилучшего поднабора устройств для генерации сигнала речи. Таким образом, ресурсы связи существенно уменьшаются, обычно без значительного влияния на результирующее качество сигнала речи.

Во многих вариантах осуществления, этот поднабор может включать в себя только единственный микрофон. В некоторых вариантах осуществления, генератор может быть выполнен с возможностью генерации сигнала речи от единственного сигнала микрофона, выбираемого из множества сигналов микрофонов на основе указаний сходства.

Согласно необязательному признаку данного изобретения, по меньшей мере одно устройство из множества отдельных устройств выполнено с возможностью передачи по меньшей мере одного сигнала микрофона по меньшей мере одного устройства к генерирующему устройству, только если по меньшей мере один сигнал микрофона по меньшей мере одного устройства содержится в поднаборе сигналов микрофонов.

Это может уменьшить использование ресурсов связи и может уменьшить использование ресурсов связи для устройств, для которых сигнал микрофона не включен в этот поднабор. Передатчик может быть выполнен с возможностью передачи по меньшей мере одного сигнала микрофона через беспроводной канал связи, такой как канал связи стандарта Bluetooth™ или стандарта Wi-Fi.

Согласно необязательному признаку данного изобретения, генерирующее устройство содержит устройство выбора, выполненное с возможностью определения поднабора сигналов микрофонов, и передатчик для передачи указания на этот поднабор по меньшей мере для одного их множества отдельных устройств.

Это может обеспечить преимущества функционирования во многих сценариях.

В некоторых вариантах осуществления, генератор может определять этот поднабор и может быть выполнен с возможностью передачи указания на этот поднабор по меньшей мере для одного устройства из множества устройств. Например, для устройства или устройств сигналов микрофонов, содержащихся в поднаборе, генератор может передать указание на то, что устройство должно передать сигнал микрофона к генератору.

Передатчик может быть выполнен с возможностью передачи этого указания через беспроводной канал связи, такой как канал связи стандарта Bluetooth™ или стандарта Wi-Fi.

Согласно необязательному признаку данного изобретения, блок сравнения выполнен с возможностью определения указания сходства для первого сигнала микрофона в ответ на сравнение по меньшей мере одной характеристики, получаемой из сигнала микрофона, со справочными характеристиками для сэмплов речи из набора сэмплов нереверберирующей речи.

Сравнение сигналов микрофонов с большим набором сэмплов нереверберирующей речи (например, в подходящей области признака) обеспечивает конкретный эффективный и точный способ идентификации относительной важности отдельных сигналов микрофонов для сигнала речи и может, в частности, обеспечить лучшую оценку, чем методы на основе, например, меры уровня сигнала или меры отношения сигнал-шум. Фактически, соотношение захваченного звукового сигнала и сигнала нереверберирующей речи может обеспечить ясное указание на то, какая доля речи достигает микрофона по прямому пути и какая доля достигает микрофона по реверберирующим/ отраженным путям. Фактически, можно предположить, что сравнение с сэмплами нереверберирующей речи включает в себя рассмотрение формы импульсной переходной характеристики путей звука, а не только рассмотрение энергии или уровня.

Метод может быть независимым от говорящего, и, в некоторых вариантах осуществления, набор сэмплов нереверберирующей речи может включать в себя сэмплы, соответствующие разным характеристикам говорящего (таким как высокий или низкий голос). Во многих вариантах осуществления, обработка может быть сегментирована, и набор сэмплов нереверберирующей речи может, например, содержать сэмплы, соответствующие фонемам человеческой речи.

Блок сравнения может определить для каждого сигнала микрофона отдельное указание сходства для каждого сэмпла речи из набора сэмплов нереверберирующей речи. Указание сходства для сигнала микрофона может быть определено из отдельных указаний сходства, например, посредством выбора отдельного указания сходства, который указывает на наивысшую степень сходства. Во многих сценариях, может быть идентифицирован наилучшим образом согласующийся сэмпл речи, и указание сходства для сигнала микрофона может быть определено в отношении этого сэмпла речи. Указание сходства может обеспечить указание сходства сигнала микрофона (или его части) с сэмплом нереверберирующей речи из набора сэмплов нереверберирующей речи, для которого найдено наибольшее сходство.

Указание сходства для данного сэмпла сигнала речи может отражать правдоподобие того, что сигнал микрофона, получаемый из фрагмента речи, соответствует сэмплу речи.

Согласно необязательному признаку данного изобретения, сэмплы речи из набора сэмплов нереверберирующей речи представлены посредством параметров для модели нереверберирующей речи.

Это может обеспечить эффективное, надежное и/или точное функционирование. Метод может во многих вариантах осуществления уменьшить потребности в вычислительных ресурсах и/или ресурсах памяти.

Блок сравнения может в некоторых вариантах осуществления оценивать модель для различных наборов параметров и сравнивать результирующие сигналы с сигналом (сигналами) микрофона. Например, могут быть сравнены частотные представления сигналов микрофонов и сэмплов речи.

В некоторых вариантах осуществления, параметры модели для модели речи могут быть сгенерированы из сигнала микрофона, т.е. могут быть определены параметры модели, которые должны привести к согласованию сэмпла речи и сигнала микрофона. Эти параметры модели могут быть сравнены с параметрами набора сэмплов нереверберирующей речи.

Модель нереверберирующей речи может быть, конкретно, моделью линейного предсказания, такой как модель CELP (Code-Excited Linear Prediction - линейное предсказание с кодовым возбуждением).

Согласно необязательному признаку данного изобретения, блок сравнения выполнен с возможностью определения первой справочной характеристики для первого сэмпла речи из набора сэмплов нереверберирующей речи из сигнала сэмпла речи, генерируемого посредством оценки модели нереверберирующей речи, с использованием параметров для первого сэмпла речи, и определения указания сходства для первого сигнала микрофона из множества сигналов микрофонов, в ответ на сравнение характеристики, получаемой из первого сигнала микрофона, и первой справочной характеристики.

Это может обеспечить предпочтительное функционирование во многих сценариях. Указание сходства для первого сигнала микрофона может быть определено посредством сравнения характеристики, определяемой для первого сигнала микрофона, со справочными характеристиками, определяемыми для каждого из сэмплов нереверберирующей речи, причем справочные характеристики определяют из представления сигнала, генерируемого посредством оценки модели. Таким образом, блок сравнения может сравнить характеристику сигнала микрофона с характеристикой сэмплов сигналов, получаемой в результате оценки модели нереверберирующей речи, с использованием сохраненных параметров для сэмплов нереверберирующей речи.

Согласно необязательному признаку данного изобретения, блок сравнения выполнен с возможностью разложения первого сигнала микрофона из множества сигналов микрофонов в набор базисных сигнальных векторов; и определения указания сходства в ответ на характеристику из этого набора базисных сигнальных векторов.

Это может обеспечить предпочтительное функционирование во многих сценариях. Метод может обеспечить уменьшение сложности и/или использования ресурсов во многих сценариях. Справочная характеристика может относиться к набору базисных векторов в подходящей области признака, из которых может быть сгенерирован вектор нереверберирующего признака в виде взвешенной суммы базисных векторов. Этот набор может быть рассчитан таким образом, чтобы взвешенной суммы с использованием только немногих базисных векторов было достаточно для точного описания вектора нереверберирующего признака, т.е. набор базисных векторов обеспечивает разреженное представление для нереверберирующей речи. Справочная характеристика может быть количеством базисных векторов, которые появляются во взвешенной сумме. Использование набора базисных векторов, который рассчитан для нереверберирующей речи, для описания вектора признака реверберирующей речи, приведет к менее разреженному разложению. Эта характеристика может быть количеством базисных векторов, которые имеют ненулевой вес (или вес выше заданного порога), при использовании для описания вектора признака, извлекаемого из сигнала микрофона. Указание сходства может указывать на увеличение сходства с нереверберирующей речью при уменьшении количества базисных сигнальных векторов.

Согласно необязательному признаку данного изобретения, блок сравнения выполнен с возможностью определения указаний сходства речи для каждого сегмента из множества сегментов сигнала речи, а генератор выполнен с возможностью определения параметров объединения для объединения для каждого сегмента.

Аппаратура может использовать сегментированную обработку. Объединение может быть неизменным для каждого сегмента, но может быть изменено от одного сегмента к следующему. Например, сигнал речи может быть сгенерирован посредством выбора одного сигнала микрофона в каждом сегменте. Параметры объединения могут быть, например, весами объединений для сигнала микрофона или могут быть, например, выбором поднабора сигналов микрофонов для включения в объединение. Метод может обеспечить улучшенную производительность и/или облегченное функционирование.

Согласно необязательному признаку данного изобретения, генератор выполнен с возможностью определения параметров объединения для одного сегмента, в ответ на указания сходства по меньшей мере одного предыдущего сегмента.

Это может обеспечить улучшенную производительность во многих сценариях. Например, это может обеспечить лучшую приспособленность к медленным изменениям и может уменьшить разрывы в генерируемом сигнале речи.

В некоторых вариантах осуществления, параметры объединения могут быть определены только на основе сегментов, содержащих речь, а не на основе сегментов во время периодов молчания или пауз.

В некоторых вариантах осуществления, генератор выполнен с возможностью определения параметров объединения для первого сегмента в ответ на модель перемещения пользователя.

Согласно необязательному признаку данного изобретения, генератор выполнен с возможностью выбора поднабора сигналов микрофонов для объединения, в ответ на указания сходства.

Это может обеспечить улучшенное и/или облегченное функционирование во многих вариантах осуществления. Объединение может быть, конкретно, объединением с выбором. Генератор может, конкретно, выбрать только сигналы микрофонов, для которых указание сходства соответствует абсолютному или относительному критерию.

В некоторых вариантах осуществления, поднабор сигналов микрофонов содержит только один сигнал микрофона.

Согласно необязательному признаку данного изобретения, генератор выполнен с возможностью генерации сигнала речи в виде взвешенного объединения сигналов микрофонов, причем вес для первого из сигналов микрофонов зависит от указания сходства для сигнала микрофона.

Это может обеспечить улучшенное и/или облегченное функционирование во многих вариантах осуществления.

Согласно аспекту данного изобретения, обеспечен способ генерации сигнала речи, причем этот способ предусматривает: прием сигналов микрофонов от множества микрофонов; для каждого сигнала микрофона, определение указания сходства речи, указывающего на сходство между сигналом микрофона и нереверберирующей речью, причем указание сходства определяют в ответ на сравнение по меньшей мере одной характеристики, получаемой из сигнала микрофона, по меньшей мере с одной справочной характеристикой для нереверберирующей речи; и генерацию сигнала речи посредством объединения сигналов микрофонов в ответ на указания сходства.

Эти и другие аспекты, признаки и преимущества данного изобретения будут ясны из варианта (вариантов) осуществления, описанных ниже, и будут прояснены со ссылкой на него (них).

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Варианты осуществления данного изобретения будут описаны, только в качестве примера, со ссылкой на чертежи, в которых

Фиг. 1 является иллюстрацией аппаратуры захвата речи согласно некоторым вариантам осуществления данного изобретения;

Фиг. 2 является иллюстрацией системы захвата речи согласно некоторым вариантам осуществления данного изобретения;

Фиг. 3 иллюстрирует пример огибающих спектра, соответствующих сегменту речи, записанному на трех разных расстояниях в реверберирующем помещении; и

Фиг. 4 иллюстрирует пример правдоподобия микрофона, являющегося ближайшим микрофоном к говорящему, определяемого согласно вариантам осуществления данного изобретения.

ПОДРОБНОЕ ОПИСАНИЕ НЕКОТОРЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ

Последующее описание сфокусировано на вариантах осуществления данного изобретения, применимых к захвату речи для генерации сигнала речи для дистанционной связи. Однако следует понимать, что данное изобретение не ограничено этим применением и может быть применено ко многим другим услугам и применениям.

Фиг. 1 иллюстрирует пример элементов аппаратуры захвата речи согласно некоторым вариантам осуществления данного изобретения.

В этом примере, аппаратура захвата речи содержит множество микрофонных приемников 101, которые соединены с множеством микрофонов 103 (которые могут быть частью аппаратуры или могут быть внешними по отношению к аппаратуре).

Набор микрофонных приемников 101, таким образом, принимает набор сигналов микрофонов от микрофонов 103. В этом примере, микрофоны 103 распределены в помещении в различных и неизвестных положениях. Таким образом, разные микрофоны могут захватить звук из разных областей, могут захватить один и тот же звук с разными характеристиками или могут, фактически, захватить один и тот же звук с похожими характеристиками, если они находятся близко друг к другу. Отношения между микрофонами 103 и между микрофонами 103 и разными источниками звука являются, обычно, неизвестными системе.

Аппаратура захвата речи выполнена с возможностью генерации сигнала речи из сигналов микрофонов. Конкретно, эта система выполнена с возможностью обработки сигналов микрофонов для извлечения сигнала речи из звукового сигнала, захваченного микрофонами 103. Система выполнена с возможностью объединения сигналов микрофонов в зависимости от того, насколько точно каждый из них соответствует сигналу нереверберирующей речи, обеспечивая, таким образом, объединенный сигнал, который, наиболее вероятно, соответствует такому сигналу. Объединение может быть, конкретно, объединением с выбором, в котором аппаратура выбирает сигнал микрофона, наиболее сходный с сигналом нереверберирующей речи. Генерация сигнала речи может быть независимой от конкретного положения отдельных микрофонов и не полагается на какое-либо знание положения микрофонов 103 или положения кого-либо из говорящих. Напротив, микрофоны 103 могут быть, например, случайно распределены в помещении, и система может автоматически приспособиться, например, к преимущественному использованию сигнала от микрофона, ближайшего к любому заданному говорящему. Это приспособление может происходить автоматически, и конкретный метод для идентификации такого ближайшего микрофона 103 (как будет описано ниже) приведет к обеспечению особенно подходящего сигнала речи в большинстве сценариев.

В аппаратуре захвата речи фиг. 1 микрофонные приемники 103 соединены с блоком сравнения или процессором 105 сходства, на который подают сигналы микрофонов.

Для каждого сигнала микрофона, процессор 105 сходства определяет указание сходства речи (далее называемое просто указанием сходства), которое указывает на сходство между сигналом микрофона и нереверберирующей речью. Процессор 105 сходства, конкретно, определяет указание сходства в ответ на сравнение по меньшей мере одной характеристики, получаемой из сигнала микрофона, по меньшей мере с одной справочной характеристикой для нереверберирующей речи. Справочная характеристика может быть, в некоторых вариантах осуществления, единственной скалярным значением, а в других вариантах осуществления, может быть сложным набором значений или функций. Справочная характеристика может быть, в некоторых вариантах осуществления, получена из конкретных сигналов нереверберирующей речи, и может быть, в других вариантах осуществления, типичной характеристикой, связанной с нереверберирующей речью. Справочная характеристика и/или характеристика, получаемая из сигнала микрофона, может быть, например, спектром, характеристикой спектральной плотности мощности, количеством ненулевых базисных векторов, и т.д. В некоторых вариантах осуществления, характеристики могут быть сигналами, и, конкретно, характеристика, получаемая из сигнала микрофона, может быть самим сигналом микрофона. Подобным образом, справочная характеристика может быть сигналом нереверберирующей речи.

Конкретно, процессор 105 сходства может быть выполнен с возможностью генерации указания сходства для каждого из сигналов микрофонов, причем указание сходства указывает на сходство сигнала микрофона с сэмплом речи из набора сэмплов нереверберирующей речи. Таким образом, процессор 105 сходства содержит запоминающее устройство, хранящее (обычно большое) количество сэмплов речи, причем каждый сэмпл речи соответствует речи в нереверберирующем, и, конкретно, по существу, безэховом, помещении. В качестве примера, процессор 105 сходства может сравнивать каждый сигнал микрофона с каждым из сэмплов речи и для каждого сэмпла речи определять меру различия между сохраненным сэмплом речи и сигналом микрофона. Меры различия для сэмплов речи могут быть затем сравнены, и мера, указывающая на наименьшее различие, может быть выбрана. Эта мера может быть затем использована для генерации (или в качестве) указания сходства для конкретного сигнала микрофона. Процесс повторяют для всех сигналов микрофонов, в результате чего получают набор указаний сходства. Таким образом, набор указаний сходства может указать, насколько каждый из сигналов микрофонов является сходным с нереверберирующей речью.

Во многих вариантах осуществления и сценариях, такое сравнение в области сэмплов сигналов может не быть достаточно надежным вследствие неопределенности в отношении изменений уровней микрофонов, шума и т.д. Следовательно, во многих вариантах осуществления, блок сравнения может быть выполнен с возможностью определения указания сходства в ответ на сравнение, выполняемое в области признака. Таким образом, во многих вариантах осуществления, блок сравнения может быть выполнен с возможностью определения некоторых признаков/ параметров из сигнала микрофона и сравнения их с сохраненными признаками/ параметрами для нереверберирующей речи. Например, как будет описано более подробно далее, сравнение может быть основано на параметрах для модели речи, таких как коэффициенты для модели линейного предсказания. Соответствующие параметры могут быть затем определены для сигнала микрофона и сравнены с сохраненными параметрами, соответствующими различным фрагментам речи в безэховой среде.

Нереверберирующую речь обычно получают, когда акустическая передаточная функция от говорящего преобладает на прямом пути, и причем, обеспечивают существенное ослабление отраженных и реверберирующих путей. Это также обычно соответствует ситуациям, в которых говорящий находится относительно близко к микрофону и может наиболее точно соответствовать традиционному расположению, в котором микрофон расположен близко ко рту говорящего. Также часто можно считать, что нереверберирующая речь является наиболее разборчивой речью и, фактически, речью, которая наиболее точно соответствует фактическому источнику речи.

Аппаратура фиг. 1 использует метод, который обеспечивает возможность оценки характеристики реверберации речи для отдельных микрофонов таким образом, чтобы она была принята во внимание. Фактически, автор изобретения реализовал не только то, что рассмотрение характеристик реверберации речи для отдельных сигналов микрофонов при генерации сигнала речи может существенно улучшить качество, но и то, насколько обоснованно это может быть достигнуто, без необходимости специальных тестовых сигналов и измерений. Фактически, автор изобретения реализовал то, что при сравнении характеристики отдельных сигналов микрофонов со справочной характеристикой, связанной с нереверберирующей речью, и, конкретно, с набором сэмплов нереверберирующей речи, можно определить подходящие параметры для объединения сигналов микрофонов для генерации улучшенного сигнала речи. В частности, метод обеспечивает возможность генерации сигнала речи без необходимости каких-либо специальных тестовых сигналов, тестовых измерений, или, фактически, априорного знания речи. Фактически, может быть разработана система для обработки любой речи, и она не потребует, например, проговаривания говорящим конкретных тестовых слов или предложений.

В системе фиг. 1, процессор 105 сходства соединен с генератором 107, на который подают указания сходства. Генератор 107 дополнительно соединен с микрофонными приемниками 101, от которых он принимает сигналы микрофонов. Генератор 107 выполнен с возможностью генерации выходного сигнала речи посредством объединения сигналов микрофонов, в ответ на указания сходства.

В качестве несложного примера, генератор 107 может реализовать объединитель с выбором, в котором, например, единственный сигнал микрофона выбирают из множества сигналов микрофонов. Конкретно, генератор 107 может выбрать сигнал микрофона, который наиболее точно согласуется с сэмплом нереверберирующей речи. Затем сигнал речи генерируют из этого сигнала микрофона, который является обычно, наиболее вероятно, самым чистым и отчетливым захватом речи. Конкретно, вероятно, он является захватом речи, который наиболее точно соответствует речи, произнесенной говорящим. Обычно, он будет также соответствовать микрофону, который является ближайшим к говорящему.

В некоторых вариантах осуществления, сигнал речи может быть передан к удаленному пользователю, например, через телефонную сеть, беспроводную связь, Интернет или другую сеть связи или канал связи. Передача сигнала речи может, обычно, включать в себя кодирование речи, а также, возможно, другую обработку.

Аппаратура фиг. 1 может, таким образом, автоматически приспосабливаться к положениям говорящего и микрофонов, а также к акустическим характеристикам среды, для генерации сигнала речи, который наиболее точно соответствует исходному сигналу речи. Конкретно, генерируемый сигнал речи будет, как правило, иметь уменьшенную реверберацию и шум и будет, таким образом, звучать менее искаженным, более чистым и более разборчивым.

Следует понимать, что обработка может включать в себя различную другую обработку, включающую в себя, обычно, усиление, фильтрацию, преобразование между временной областью и частотной областью, и т.д., выполняемые обычно в обработке звуковых сигналов и сигналов речи. Например, сигналы микрофонов могут быть, часто, усилены и отфильтрованы перед объединением и/или использованы для генерации указаний сходства. Подобным образом, генератор 107 может включать в себя фильтрацию, усиление, и т.д., в качестве части объединения и/или генерации сигнала речи.

Во многих вариантах осуществления, аппаратура захвата речи может использовать сегментированную обработку. Таким образом, обработка может быть выполнена в коротких временных интервалах, как, например, в сегментах продолжительностью менее 100 мс, и, часто, в сегментах продолжительностью около 20 мс.

Таким образом, в некоторых вариантах осуществления, указание сходства может быть сгенерировано для каждого сигнала микрофона в данном сегменте. Например, сегмент сигнала микрофона продолжительностью, например, 50 мс может б

Способ и аппаратура для генерации сигнала речи

Патент 2648604