Устройство для воспроизведения речи, выполненное с возможностью маскировки воспроизводимой речи в зоне маскированной речи
Иллюстрации
Показать всеИзобретение относится к устройству для воспроизведения речи, предназначенному для воспроизведения речи на основании принимаемого речевого сигнала таким образом, чтобы воспроизводимая речь была разборчивой в зоне ясной речи и неразборчивой в зоне маскированной речи, при этом устройство для воспроизведения речи содержит: модуль обработки аудио, выполненный с возможностью приема речевого сигнала; набор речевых громкоговорителей, выполненных с возможностью воспроизведения речи на основании одного или более сигналов речевых громкоговорителей; и набор громкоговорителей маскирующего звука, выполненных с возможностью создания маскирующего звука на основании одного или более сигналов громкоговорителей маскирующего звука, при этом маскирующим звуком маскируется речь в зоне маскированной речи; при этом модуль обработки аудио содержит модуль анализа речевых сигналов, выполненный с возможностью создания одного или более сигналов анализа на основании спектральных и/или временных характеристик речевого сигнала, модуль обработки аудио содержит генератор маскирующего звука, выполненный с возможностью создания одного или более сигналов маскирующего звука на основании одного или более сигналов анализа. 3 н. и 18 з.п. ф-лы, 4 ил.
Реферат
Настоящее изобретение относится к воспроизведению речи и маскировке воспроизводимой речи. Три примера различных ситуаций, в которых предполагается применение маскировки речи, показаны ниже:
1. Совместно используемые пространства офиса, в которых каждый сотрудник может потенциально отвлекаться от порученной задачи при восприятии разговоров других не уважающих правила людей, если они ведутся по телефону или непосредственно. В таких случаях система маскировки речи может повышать рабочий комфорт путем ограничения понятливости речи. Кроме того, может иметься необходимость в поддержании конфиденциальности содержания переговоров (то есть, в повышении конфиденциальности личных переговоров), и система маскировки речи несомненно может помочь выполнить это.
2. Различные ситуации в автомобиле, когда человек ведет потенциально конфиденциальные переговоры при наличии дежурного водителя в кабине автомобиля без физического промежуточного барьера. В этом случае главная задача заключается в сохранении конфиденциальности переговоров, поскольку комфорт для водителя является менее важным при условии, что он не отвлекается.
3. Во врачебном кабинете часто имеются приборы, позволяющие осуществлять связь с регистратором при свободных руках операторов. В неотложных случаях может иметься необходимость упоминания регистратором подробностей о пациенте при использовании этого прибора и то же время при обслуживании другого пациента. В этом случае система маскировки речи может использоваться для гарантии конфиденциальности. Обслуживаемые пациенты должны положительно реагировать на эту маскировку, когда они надеются на абсолютную конфиденциальность со стороны самого доктора.
Системы маскировки речи, которые используются для повышения рабочего комфорта, хорошо известны из предшествующего уровня техники. Однако такие системы в недостаточной степени обеспечивают конфиденциальность переговоров. Большая часть известных систем прежде всего предназначена для повышения рабочего комфорта, а конфиденциальность переговоров считается вторичной.
При рассмотрении единственной акустической сцены, воспроизводимой устройством связи, воспроизведение также может быть ограничено зоной ясной речи путем концентрации излучения или многозонных воспроизведений. Однако помимо затрат на большое количество необходимых громкоговорителей, такая система никогда не будет обеспечивать конфиденциальность переговоров на достаточном уровне, поскольку получаемый уровень абсолютного звукового давления в зоне маскированной речи будет все же в значительной степени выше порога слышимости людей. То же самое справедливо для активных способов подавления/регулирования шума, которыми потенциально можно подавлять не только любой воспроизводимый сигнал, но также и локальные разговоры людей. Кроме того, для этих способов требуется использование по возможности большего количества микрофонов и необходима адаптивная фильтрация, которая, как известно, является задачей, представляющей сложность [4]. В результате активное регулирование шума успешно используется только в случае источников низкочастотного звука или простых сценариев, подобных вентиляционным воздуховодам [4].
Широко используемый способ заключается в генерации маскирующего звука (маскирующего шума), который нельзя отличить (то есть, отделить чувственным восприятием) от речи (маскируемого сигнала), таким образом, чтобы понимание речи исключалось при наличии маскирующего звука. Для таких систем часто используют термин «маскировка звука», поскольку в заданной области обычно воспроизводится звук маскирующего шума некоторого вида. Способ заключается в воспроизведении фонового шума, подобного шуму кондиционера воздуха. Шум накладывается на речь и способствует тому, что она воспроизводится неразборчиво. Хотя такая маскировка может достигаться воспроизведением очень громких маскирующих звуков, в способах маскировки звука предполагается использование нормального маскирующего шума с возможно меньшим уровнем громкости звука.
Часто используют белый шум или розовый шум, который при низких уровнях воспроизведения является не очень эффективным для маскировки речи в такой степени, при которой может достигаться конфиденциальность переговоров. Ранее предложенные способы для усиления эффекта маскировки наведенным шумом кратко излагаются ниже.
В [12] авторы на основании литературных источников показывают, что звуки с ненавязчивыми характеристикой и частотным спектром, такие как звуки ветра или волн, пригодны для достижения конфиденциальности переговоров. Кроме того, в этом документе утверждается, что звук является более навязчивым, если место его происхождения может быть локализовано слушателем. Обнаружено, что при некоторых сценариях равномерное, не локализуемое распределение маскирующего шума является предпочтительным. Поэтому в [12] предложено использовать многочисленные некоррелированные источники шума для образования размытого, однородного, нелокализованного звукового пространства.
Как было обнаружено, предпочтительно, чтобы уровень маскирующего звука изменялся адаптивно в соответствии, например, с характеристиками окружающей обстановки или уровнем речевого сигнала говорящего, который должен маскироваться (см., например, [10], [5]). Кроме того, известно, что автоматическая адаптация спектральных характеристик маскирующего шума в дополнение к адаптации уровня является полезной (см., например, [11], [5]). В этой связи в [6] высказывается предположение о том, что «в адаптивных системе и способе маскировки звука нежелательный звук делится на временные блоки и оцениваются частотный спектр и уровень мощности, а также непрерывно генерируется белый шум с согласованными спектром и уровнем мощности для маскировки нежелательного звука».
В других способах генерируют специфические шумоподобные сигналы, которые способны особенно хорошо маскировать речь [9], или создают маскирующий шум, который «точно согласован с характеристиками источника (речью человека)» [10]. В последнее время для решения определенной задачи превращения речи в неразборчивую речь предложено использовать маскирующий звук, который очень похож на фрагменты речи, путем либо искусственного образования похожих звуков, либо воспроизведения случайных цепочек фрагментов речи из базы данных (см., например, [10], [2]). В [10] используют речевые звуки, чтобы сделать маскируемый звук незаметным. Однако все это может отвлекать, например, водителя, который подвергается воздействию этого звука.
В других способах, которые были предложены для достижения конфиденциальности переговоров, используют, например, генерирование подавляющих сигналов, которыми пытаются исключить намеченную речь на предопределенном месте. В заявке [7] на патент Японии раскрыто такое устройство для защиты конфиденциальности разговоров в салонах транспортных средств. Разговорная речь захватывается, а подавляющий звук подается на место, где разговор не должен быть слышен.
В зависимости от применения маскирующий шум часто воспроизводят либо в большой области вокруг говорящего, либо создают вблизи самого говорящего (см. [10], [3], или же зоны (дополнительно) разделяют физическими средствами [8].
Chatter Blocker [1] предложил способ с маскирующими звуками различных категорий (звуковыми эффектами, музыкальным вибрирующим звуком), которые могут воспроизводиться индивидуально или в сочетании, а уровень их может регулироваться пользователем. В способе используют встроенные громкоговорители воспроизводящего устройства (например, планшетного компьютера) или внешние громкоговорители, соединенные с воспроизводящим устройством.
Задача изобретения заключается в создании улучшенной концепции для воспроизведения речи и для маскировки воспроизводимой речи.
Эта задача решается устройством для воспроизведения речи, предназначенным для воспроизведения речи на основании принимаемого речевого сигнала таким образом, чтобы воспроизводимая речь была разборчивой в зоне ясной речи и неразборчивой в зоне маскированной речи, при этом задача решается устройством для воспроизведения речи, содержащим:
модуль обработки аудио, выполненный с возможностью приема речевого сигнала;
набор речевых громкоговорителей, выполненных с возможностью воспроизведения речи на основании одного или более сигналов речевых громкоговорителей; и
набор громкоговорителей маскирующего звука, выполненных с возможностью создания маскирующего звука на основании одного или более сигналов громкоговорителей маскирующего звука, при этом маскирующим звуком маскируется речь в зоне маскированной речи;
в котором модуль обработки аудио содержит генератор сигналов речевых громкоговорителей, выполненный с возможностью создания одного или более сигналов речевых громкоговорителей на основании речевого сигнала;
в котором модуль обработки аудио содержит модуль анализа речевых сигналов, выполненный с возможностью создания одного или более сигналов анализа на основании спектральных и/или временных характеристик речевого сигнала;
в котором модуль обработки аудио содержит генератор маскирующего звука, выполненный с возможностью создания одного или более сигналов маскирующего звука на основании одного или более сигналов анализа; и
в котором модуль обработки аудио содержит генератор сигналов громкоговорителей маскирующего звука, выполненный с возможностью создания одного или более сигналов громкоговорителей маскирующего звука на основании одного или более сигналов маскирующего звука.
Термин «набор речевых громкоговорителей» относится к одному или более громкоговорителям, способным воспроизводить речь. По аналогии термин «набор громкоговорителей маскирующего звука» относится к одному или более громкоговорителям, способным создавать маскирующие звуки. Однако в общем случае набор речевых громкоговорителей отделен от набора громкоговорителей маскирующего звука, так что конкретный громкоговоритель принадлежит либо к набору речевых громкоговорителей, либо к набору громкоговорителей маскирующего звука, но не к обоим наборам. В результате речевые громкоговорители могут быть расположены так, чтобы речь, воспроизводимая речевыми громкоговорителями, преимущественно направлялась в зону ясной речи, тогда как громкоговорители маскирующего звука могут быть расположены так, чтобы маскирующий звук, создаваемый громкоговорителями маскирующего звука, преимущественно направлялся в зону маскированной речи.
Изобретением предоставляется улучшенная концепция воспроизведения речи, неразборчивой для нежелательного слушателя или нежелательных слушателей (которых можно отнести к любителям подслушивать) и в то же время остающейся понятной для предопределенного слушателя или предопределенных слушателей в другом месте.
В рассматриваемом сценарии воспроизводимая речь предполагается разборчивой в заданной области, которая именуется зоной ясной речи. В то же самое время воспроизводимая речь должна быть неразборчивой в другой заданной области, которая именуется зоной маскированной речи, при этом обе зоны могут быть расположены по соседству. Это желательно, когда неизбежный любитель подслушивать стоит вблизи предопределенного слушателя.
Понимание речи предотвращается посредством маскирующего звука (маскирующего шума), который генерируется адаптивно в зависимости от свойств речи (маскируемого сигнала), воспроизводимой в зоне ясной речи или вблизи нее. Иначе говоря, «маскируемый сигнал» означает речь, которую следует маскировать. Маскирующий звук воспроизводится в зоне маскированной речи или вблизи нее.
Генератор сигналов речевых громкоговорителей может содержать модуль представления сигналов. Аналогичным образом, генератор сигналов громкоговорителей маскирующего звука может содержать модуль представления сигналов.
В противоположность некоторым похожим технологиям задача концепции, описываемой в этой заявке, не заключается в маскировке речи одного или более присутствующих собеседников, а в маскировке воспроизводимой речи, которая, воспроизводится, например, устройством связи при свободных руках оператора, при этом воспроизводимая речь основана на удаленном сигнале, принимаемом устройством связи при свободных руках оператора.
Изобретение прежде всего способствует достижению скрытности речи, а не повышению рабочего комфорта находящихся вблизи сотрудников. Скрытность речи создается, если человек, который находится вблизи говорящего (умышленно или неумышленно), не может постичь смысл речи или понять суть. Это особенно важно в случае телефонного разговора при свободных руках оператора, когда удаленный участник потенциально не осведомлен о любителе подслушивать.
Изобретением охватывается оптимальное встраивание генератора маскирующего шума в устройство для воспроизведения звука, такое как устройство связи. Учитываются следующие аспекты:
-Обеспечение необходимой информацией генератора маскирующего шума.
-Воспроизведение сигнала ясной речи преимущественно в определенной зоне ясной речи.
-Воспроизведение маскирующего шума преимущественно в определенной зоне маскированной речи.
Чтобы обеспечить необходимую информацию для генератора маскирующего шума, принимаемый речевой сигнал до его воспроизведения непосредственно исследуется в устройстве для воспроизведения речи.
Согласно изобретению маскирующий звук адаптируется к поступающему речевому сигналу. Для достижения этого речевой сигнал непосредственно анализируется модулем анализатора речевого сигнала до преобразования речевого сигнала в речь с использованием речевых громкоговорителей. В противоположность этому, в решениях из предшествующего уровня техники речь преобразуется с использованием микрофона в сигнал, который затем анализируется.
Изобретением обеспечивается улучшение адаптации маскирующего звука к воспроизводимой речи. Одна причина этого заключается в том, что является возможной упреждающая адаптация маскирующего звука, поскольку анализ поступающего речевого сигнала в зависимости от времени может быть сделан до получения впоследствии речи. В противоположность этому, в решениях из предшествующего уровня техники с использованием сигнала с микрофона для анализа воспроизводимой речи возможна только последующая адаптация маскирующего звука. В результате маскирующий звук имеет небольшую громкость и может быть получено слабое заглушение, недостаточное для того, чтобы сделать речь неразборчивой в зоне маскированной речи.
Что касается различия терминов «незаметный» и «ненавязчивый», то можно отметить следующее. В системах маскирования речи из предшествующего уровня техники термин «ненавязчивый» может также интерпретироваться как «незаметный». То есть, слушатель будет приноравливаться к равномерному маскирующему шуму и игнорировать его спустя некоторое время. В нашем случае маскирующий шум является столь очевидным, что его невозможно игнорировать, поэтому он не является незаметным, но все же может быть «ненавязчивым» в том смысле, что он является «приятным и не отвлекающим.
Маскировка может осуществляться таким способом, что она будет ненавязчивой и приятной для предопределенного слушателя, и также таким способом, что подслушивающее лицо не будет отвлекаться от любой задачи, относящейся к нему. Следовательно, дальнейшее преимущество настоящего изобретения заключается в том, что возможна генерация такого ненавязчивого, но все же эффективного маскирующего звука.
Создание локализуемого маскирующего звука в случае предложенной концепции не является крайне необходимым, поскольку подслушивающее лицо не отвлекается от своей основной задачи. Маскирующий звук не следует делать незаметным и нет необходимости иметь его постоянно включенным (то есть, если конфиденциальный разговор не поддерживается, маскирующий звук может быть выключен). Подслушивающему лицу хорошо известно, что когда осуществляется телефонный разговор или проводятся переговоры (и только тогда), он будет слышать маскирующий звук, который используется для сокрытия переговоров.
В результате этого, поскольку как предопределенный слушатель, так и подслушивающее лицо допускают существование средства для маскировки переговоров, оба будут допускать наличие такого заметного маскирующего звука.
Маскировке речи согласно изобретению не присущи упомянутые выше ограничения систем подавления шума, поскольку она не основана на точном подавлении звуковых волн, при котором маскировка может достигаться воспроизведением очень громких маскирующих звуков. Вместо этого она направлена на запрещение распознавания речи человека, которое основано на тональной, спектральной и переходной структурах речевого сигнала. Маскирующий звук обычно также имеет тональную, спектральную или переходную структуру (или сочетания из них). Маскирующий шум можно генерировать способом, при котором осуществляется суперпозиция его с маскируемым сигналом на месте нахождения подслушивающего лица, что приводит к выровненному сигналу, из которого удалены различимые признаки речи. С другой стороны, также можно использовать такой маскирующий сигнал, при котором суперпозиция имеет различимые признаки речи с признаками маскирующего звука, в значительной степени делающими неясными признаки речи. Последний способ допускает некоторую степень свободы при выборе маскирующих сигналов и также облегчает достижение маскировки. В обоих случаях возможен достаточный маскирующий звук при низком уровне звука.
В изобретении предлагается концепция представления неразборчивой речи с использованием ненавязчивого маскирующего звука, который не отвлекает подслушивающее лицо от основной выполняемой задачи. (Например, водитель сосредотачивается на вождении. В действительности, прослушивание приятного звука маскирующего шума может даже меньше отвлекать, чем прослушивание разговора. Таким образом, система содействует повышению безопасности движения).
Среда автомобиля является предпочтительным сценарием применения. В этом сценарии имеются достоверные сведения о конкретных условиях в салоне автомобиля (например, о пространственном положении предопределенного слушателя, подслушивающего лица, громкоговорителей, об акустике пространства воспроизведения и т.д.). Таким образом, можно соответственно адаптировать различные этапы обработки. В этом заключается преимущество перед обычными системами маскировки.
В среде автомобиля, взятой в качестве примера, важно, чтобы водитель (приравненный к подслушивающему лицу) не отвлекался от вождения. Таким образом, звуковое пространство, которое локализуется (например, впереди водителя), нисколько не мешает.
Однако изобретение не ограничено средой автомобиля.
Согласно предпочтительному варианту осуществления изобретения генератор сигналов речевых громкоговорителей выполнен с возможностью создания множества сигналов речевых громкоговорителей и независимого регулирования характеристик каждого сигнала речевого громкоговорителя из множества сигналов речевых громкоговорителей, чтобы регулировать пространственные признаки речи. В частности, характеристики регулируемых сигналов речевых громкоговорителей могут содержать уровень и/или временную задержку каждого из сигналов речевых громкоговорителей.
Согласно предпочтительному варианту осуществления изобретения генератор сигналов громкоговорителей маскирующего звука выполнен с возможностью создания множества сигналов громкоговорителей маскирующего звука и независимого регулирования характеристик каждого сигнала громкоговорителя маскирующего звука из множества сигналов громкоговорителей маскирующего звука, чтобы регулировать пространственные признаки маскирующего звука. В частности, характеристики сигналов громкоговорителей маскирующего звука, подлежащие регулированию, могут содержать уровень и/или временную задержку каждого из сигналов громкоговорителей маскирующего звука.
Благодаря этим особенностям способы воспроизведения пространственных звуков можно использовать для повышения действия систем маскировки речи на стороне речевых громкоговорителей, а также на стороне громкоговорителей маскирующего звука.
Средство воспроизведения пространственных звуков можно использовать для повышения уровня речи в зоне ясной речи и в то же время для снижения уровня речи в зоне маскированной речи. И наоборот, то же самое относится к маскирующему звуку. Способами, обладающими таким действием, являются
-концентрация излучения,
-многозонное воспроизведение,
-надлежащее размещение громкоговорителей (предпочтительно вблизи слушателя в каждой зоне).
Из предшествующего уровня техники известно использование речевых громкоговорителей в качестве громкоговорителей маскирующего звука, но это не является хорошим предметом выбора. В этом случае маскирующий звук будет иметь наибольшую интенсивность в зоне ясной речи, что нежелательно. Поэтому не речевые громкоговорители, а другие громкоговорители маскирующего звука могут быть расположены вблизи зоны маскированной речи или в ней, чтобы маскирующий звук воспроизводился преимущественно на этом месте.
Согласно предпочтительному варианту осуществления изобретения генератор маскирующего звука содержит множество источников маскирующего звука, выполненных с возможностью создания исходного сигнала маскирующего звука, и множество модулей адаптации исходных сигналов маскирующего звука, при этом каждый из модулей адаптации исходных сигналов маскирующего звука назначен одному из источников маскирующего звука, при этом назначенный модуль адаптации маскировки выполнен с возможностью адаптации исходного сигнала маскирующего звука соответствующего источника маскирующего звука на основании сигнала анализа, чтобы создавать один сигнал маскирующего звука из одного или более сигналов маскирующего звука.
Этим аспектом изобретения охватывается генератор маскирующего шума. В этом варианте осуществления генератор маскирующего шума отличается от генератора маскирующего шума из предшествующего уровня техники использованием группы многочисленных источников сигнала для генерации маскирующего звука, при этом смешанный маскированный звук может адаптироваться в реальном времени при использовании параметров, получаемых в результате анализа речевого сигнала.
Согласно предпочтительному варианту осуществления изобретения по меньшей мере один источник маскирующего звука представляет собой источник музыки, выполненный с возможностью создания исходного сигнала музыкального маскирующего звука, при этом назначенный модуль адаптации маскировки выполнен с возможностью адаптации исходного сигнала музыкального маскирующего звука на основании сигнала анализа, чтобы создавать один сигнал маскирующего звука из одного или более сигналов маскирующего звука.
Согласно предпочтительному варианту осуществления изобретения по меньшей мере один источник маскирующего звука представляет собой источник непрерывного шума, выполненный с возможностью создания исходного сигнала непрерывного шумового маскирующего звука, при этом назначенный модуль адаптации маскировки выполнен с возможностью адаптации исходного сигнала непрерывного шумового маскирующего звука на основании сигнала анализа, чтобы создавать один сигнал маскирующего звука из одного или более сигналов маскирующего звука.
Согласно предпочтительному варианту осуществления изобретения по меньшей мере один источник маскирующего звука представляет собой источник динамического шума, выполненный с возможностью создания исходного сигнала динамического шумового маскирующего звука, при этом назначенный модуль адаптации маскировки выполнен с возможностью адаптации исходного сигнала динамического шумового маскирующего звука на основании сигнала анализа, чтобы создавать один сигнал маскирующего звука из одного или более сигналов маскирующего звука.
Таким образом, маскирующий звук может генерироваться так, что он маскирует речь, и в то же время не воспринимается как отвлекающий, фактически может восприниматься как расслабляющий. Преимущество концепции изобретения перед концепцией из предшествующего уровня техники заключается в том, что маскирующий звук можно создавать при использовании множества различных сигналов маскирующего звука с различными характеристиками, которые при существующем положении дел могут автоматически адаптироваться в реальном времени. Вследствие различных характеристик множества сигналов маскирующего звука каждый сигнал может использоваться для решения конкретной задачи (ими могут быть, например, звук морского берега для получения основного эффекта маскировки, фильтрованный шум, быстро адаптирующийся к речевому сигналу, для маскировки важных частей речи и музыка для гарантии, что маскирующий звук не будет беспокоящим). Индивидуальная адаптация сигналов маскирующего звука к ситуации позволяет мгновенно реагировать на изменения речи (например, быстро выбирать сигнал шумового маскирующего звука), хотя при этом маскирующий звук не должен восприниматься как неустановившийся (например, сигнал музыкального маскирующего звука должен выбираться с намного меньшей постоянной времени и в пределах ограниченного диапазона).
Поскольку различные признаки речи наиболее эффективно разрушаются шумом соответствующих различных видов, концепция изобретения является более эффективной, чем концепция из предшествующего уровня техники. При эффективном совместном использовании этих признаков можно создавать менее навязчивый маскирующий звук. В этом изобретении рассматриваются следующие аспекты:
-Определение набора подходящих маскирующих сигналов.
-Получение или генерация таких сигналов.
-Получение информации или использование прогнозирования для определения параметров при смешении.
-Адаптация маскирующих сигналов.
Существует мнение, что более эффективные маскирующие сигналы также являются более навязчивыми. То же самое относится к быстрым изменениям свойств маскирующего сигнала. В изобретении предпочтительно использовать звуки следующих видов:
-Случайный шум, хорошо известный из предшествующего уровня техники и наряду с некоторыми другими представленный в одном источнике сигнала согласно изобретению. Как известно из предшествующего уровня техники, огибающей спектра этого сигнала можно придавать определенную форму для оптимизации маскирующей способности. Известно, что этот сигнал является очень эффективным при маскировке, хотя он также воспринимается как навязчивый.
-Естественные шумы, представляющие собой звуки акустического окружения, которые могут восприниматься в реальном мире. Они включают в себя, но без ограничения ими, звуки морского берега, водопадов, улиц, мест вблизи автомобильных двигателей, скоплений людей и ресторанов. Поскольку людям известны эти шумы, они, возможно, будут восприниматься как менее навязчивые, чем случайный шум. Однако, поскольку свойства этих шумов часто являются нестационарными, их маскирующая способность изменяется во времени.
-Музыкальные сигналы, обычно воспринимаемые как приятные, хотя их маскирующая способность является скорее низкой. Кроме того, для поддержания приятного восприятия они должны изменяться (например, их уровень) медленно. Наконец, музыкальные сигналы также являются нестационарными и для них присущи те же самые проблемы, что и для естественных шумов. Однако в сочетании с некоторым количеством шума (естественного или случайного) они являются эффективными.
Сигналы упомянутых выше видов можно получать с помощью модулей адаптации исходных сигналов маскирующего звука следующими способами:
-Считыванием из записи информации, в которой сигналы сохраняются, при этом их свойства известны заранее. Последнее обстоятельство можно использовать для оптимизации последующей адаптации.
-Искусственным генерированием модулями. В случае сигналов случайного шума, шум обычно должен быть псевдослучайным шумом. В случае естественных шумов свойства шумов можно задавать. Этим преодолеваются ограничения, налагаемые отсутствием регулирования (отсутствием стационарности) записанных сигналов. Для такого генератора «естественного» шума можно использовать внешний источник данных для лучшего соответствия данному сценарию. Например, можно рассматривать частоту вращения двигателя в сценарии в автомобиле для идеальной имитации соответствия шуму двигателя.
-Измерением в реальном времени с помощью микрофона (например, при усилении шума автомобиля).
-Генерированием приятного маскирующего шума (например, подобного шуму волн, подобного шуму ветра), которое может производиться в реальном времени звуковым генератором, который специально рассчитан для маскировки речи. Кроме того, его можно адаптировать к характеристикам различных говорящих субъектов и разговорным стилям (приданием определенной формы спектру путем спектрального сдвига и/или усиления участков спектра).
-Применением того же самого к музыке, сигнал которой также может автоматически формироваться в реальном времени с помощью надлежащих алгоритмов.
-В ином случае использованием предварительно записанных музыки и шума (возможно, будет достаточно коротких петель записи).
В зависимости от маскируемой речи все сигналы, которые смешиваются с образованием маскирующего звука, могут адаптироваться индивидуально. Во время разработки могут иметься определенные параметры, которые отображают эффективность и навязчивость индивидуального маскирующего сигнала, которые в таком случае при оптимизации объединяются в функции стоимости. Важный аспект заключается в том, что предопределенный слушатель не должен заливаться маскирующим шумом. В некоторой степени это уже достигается динамической адаптацией маскирующего звука к речи, поскольку ясная речь будет преобладать на месте нахождения слушателя, при этом активность ясной речи и маскирующего звука будут сильно коррелированными.
Способы адаптации сигнала маскирующего шума для наилучшей возможной маскировки принимаемого речевого сигнала включают в себя:
-Распознавание тональной структуры маскируемого сигнала, который может быть подавлен при следующем свойстве маскирующего шума: тональная структура отличается от тональной структуры маскируемого сигнала. Структура может быть случайной (например, музыкальным шумом) или определенной (например, записью музыки).
-Распознавание спектральной структуры маскируемого сигнала, который может быть подавлен при следующем свойстве маскирующего звука: заполнение спектральных промежутков в суперпозиции маскирующего звука и маскируемого звука должно быть таким, чтобы унимодальный или плоский спектр воспринимался как имеющий такую выраженную пространственную структуру, при которой спектральная структура маскируемого сигнала делается неясной.
-Распознавание переходной структуры маскируемого сигнала, который может быть подавлен при следующем свойстве маскирующего звука: наличие переходной структуры, которая отличается от переходной структуры маскируемого сигнала; присутствующая частота переходных процессов в маскирующем шуме может быть адаптирована к маскируемому сигналу, при этом фактическое инициирование события не зависит от маскируемого сигнала; создание случайной переходной структуры в маскирующем шуме для дальнейшего запутывания подслушивающего лица.
Согласно предпочтительному варианту осуществления модуль обработки аудио содержит модуль адаптивной обработки речи, выполненный с возможностью создания адаптированного речевого сигнала на основании речевого сигнала, при этом генератор сигналов речевых громкоговорителей выполнен с возможностью создания одного или более сигналов речевых громкоговорителей на основании адаптированного речевого сигнала.
При расширенном доступе к устройству для воспроизведения речи маскируемый сигнал (ясный речевой сигнал) может быть модифицирован для облегчения маскирования его. Меры для достижения этого включают в себя:
-Ограничение полосы частотами, которые могут быть в достаточной степени маскированы.
-Задержку, в соответствии с которой генератор маскирующего шума будет иметь больше времени для адаптации маскирующего шума. Кроме того, такая задержка позволит адаптировать маскирующий шум даже до воспроизведения маскируемого сигнала. Таким образом, можно использовать эффекты прямой маскировки, известные из психоакустики. Однако такая задержка должна быть достаточно малой, чтобы она не воспринималась общающимися лицами.
-Обработку/демпфирование/подавление переходных процессов в сигнале ясной речи, которые особенно трудно маскировать. Эту меру следует использовать осторожно, чтобы не ухудшить разборчивость для предопределенного слушателя.
-Снижение изменения уровня, например, с помощью процессора динамики (например, компрессора). Кроме того, при этом будет уменьшаться изменение оптимального маскирующего звука, так что этот звук будет становиться более приятным.
Согласно предпочтительному варианту осуществления изобретения модуль обработки аудио выполнен с возможностью приема сигнала настройки, содержащего информацию относительно настройки набора речевых громкоговорителей и/или настройки набора громкоговорителей маскирующего звука.
Благодаря этим особенностям модуль обработки аудио может быть легко адаптирован к различным конфигурациям громкоговорителей. Сигнал настройки может использоваться в генераторе сигналов речевых громкоговорителей, в генераторе сигналов громкоговорителей маскирующего звука и/или в генераторе маскирующего звука, в частности, в модулях адаптации исходных сигналов маскирующего звука.
Маскирующий звук можно адаптировать в реальном времени не только при использовании параметров, получаемых в результате анализа речевого сигнала. Как отмечается ниже, вместо этого можно использовать дополнительные источники информации.
Основным источником информации для адаптации маскирующего шума является сигнал, подлежащий маскированию (маскируемый сигнал). Он может быть дополнен измеряемыми сигналами. Вследствие причинной зависимости можно непосредственно рассматривать только предшествующие и текущие свойства сигнала. Однако из кодирования речи известно, что огибающую спектра можно в известной мере прогнозировать для отрезка времени в несколько десятков миллисекунд. Такой прогноз можно использовать для адаптации маскирующего звука к предполагаемым свойствам маскируемого звука. Кроме того, это позволяет осуществлять адаптацию маскирующего звука более медленно/гладко, так что он будет восприниматься как более приятный. Следует отметить, что это является альтернативой задержке воспроизводимой ясной речи.
Вторым источником информации могут быть задаваемые пользователем параметры, в соответствии с которыми можно регулировать степень маскировки. Если желательна только небольшая степень конфиденциальности, можно выбирать маскирующий звук таким, чтобы он был очень ненавязчивым. С другой стороны, если содержание речи является конфиденциальным и необходимо, чтобы ни одно слово не было понято подслушивающим лицом, обработку можно адаптировать к этому. В этом случае как предопределенный слушатель, так и подслушивающее лицо будут воспринимать более навязчивый маскирующий шум.
Кроме того, подслушивающее лицо может иметь ограниченный доступ к устройству для обработки звука, так что оно может задавать маскирующий звук исходя из своих предпочтений (например, оно может выбирать между различными маскирующими музыкальными сопровождениями). Важно, чтобы во время применяемых измерений не был период, в течение которого речь является понятной. Поэтому все музыкальное сопровождение должно выбираться заранее, поскольку не каждый фрагмент музыки/музыкального сопровождения пригоден для э