2403627 - Система искажения голоса диктора

Система искажения голоса диктора

Иллюстрации

Показать все

Изобретение относится к технике противодействия опознаванию личности по голосу и предназначено для использования, например, в охранных системах. Система содержит генератор базисных сигналов, формирователь параметров разбиения диапазона частот, интеграторы, формирователь порогового уровня, блок питания, формирователь параметров смещения позиций значимых интервалов спектра, цифровое записывающее устройство, блок дискретизации, блок дискретного преобразования Фурье, основной и два дополнительных блока нормирования спектра Фурье, основной и дополнительный блоки формирования огибающей спектра Фурье, блок формирования параметров изменения огибающей спектра Фурье, основной и дополнительный компараторы, основной и дополнительный сумматоры, блок определения максимумов и соответствующих им аргументов, регистратор максимальных значений и соответствующих им аргументов, блок динамического программирования, блок принятия решений, блок определения позиций значимых интервалов спектра, блок определения смещенных позиций значимых интервалов спектра, блок обратного преобразования Фурье, блок памяти, блок сглаживания фазы и блок воспроизведения. Принцип действия системы основан на использовании статистических методов обработки сигналов и средств формирования спектральных характеристик голоса диктора. Система может применяться для обеспечения возможности искажения голоса диктора в соответствии с заданными параметрами, прослушивания искаженного голоса диктора, выбора конечного варианта искажения, а также для передачи в режиме реального времени искаженного голоса диктора на выход аудиоустройства с возможностью дальнейшей трансляции по каналам связи. Использование предложенной системы позволяет снизить значение вероятности распознавания голоса за счет применения различных вариантов трансформации спектральных характеристик исходного голоса диктора. 7 ил.

Реферат

Изобретение относится к технике противодействия опознаванию личности по голосу и предназначено для использования в охранных системах, включающих в себя средства формирования спектральных характеристик голоса для его искажения. Кроме того, изобретение может быть применено в мобильных и стационарных телефонах, а также в средствах трансляции информации по каналам связи.

Известна система для выделения частоты основного тона с помощью узкополосного фильтра (Вокодерная телефония. Под ред. А.А.Пирогова. М.: Связь, 1974). Указанным фильтром осуществляется слежение за изменением частоты первой гармоники речевого сигнала. При этом ширина полосы итерационно подстраивается под среднюю частоту основного тона, рассчитываемую на основании выходной функции этого фильтра и передаваемую на фильтр благодаря органу обратной связи. Это предопределяет высокое качество выделения частоты основного тона при условии, что фильтр подстраивается под диктора в течение нескольких минут.

Однако известная система является непригодной для выявления частоты основного тона в сообщениях длительностью в несколько секунд, что не позволяет на последующих этапах формировать варианты искажения голоса диктора в соответствии с заданными параметрами.

Известна система для выделения частоты основного тона с предварительной записью речевого сигнала и его последующей обработкой, охватывающая три канала обработки речевого сигнала (М.Е.Hernandez-Diaz Huici and J.V. Lorenzo Ginori Combined algorithm for pitch detection of speech signals // Electronics Letters 5-th January 1995 Vol.31, No. 1, pp.15-16). В первом канале проводится амплитудная селекция по схеме Голда, во втором канале используется аппроксимация первой гармоники основного тона экспоненциальной функцией, а в третьем канале выполняется вычисление корреляционной функции по схеме Медана. В том случае, когда разность между полученными значениями оценок частоты основного тона для различных каналов не превышает заданную величину, считают, что частота основного тона найдена.

Недостаток известной системы состоит в том, что точности каждого из использующихся алгоритмов являются недостаточно высокими, что исключает последующее формирование искажения голоса с заданными параметрами.

Известны различные системы, позволяющие в условиях присутствия шумовой составляющей в акустическом сигнале выделять речевую составляющую сигнала (RU 231830, 27.06.2004; RU 296376, 27.03.2007; RU 2271578, 10.03.2006; RU 2263358, 27.10.2005; RU 2103753, 27.01.1998; RU 2161826, 10.01.2001 и др.). В охранных системах объектов недвижимости и транспортных средств получили распространение системы речевой верификации пользователя, в том числе с анализом текстозависимых параметров и физиологических особенностей личности (RU 95103817 А1, 20.12.1995; RU 2077999 C1, 27.04.1997).

Однако известные системы не обеспечивают формирование спектрального состава речевой составляющей сигнала в соответствии с заданным алгоритмом искажения голоса.

Также известна система для определения параметров линейчатых спектров вокализованных звуков, представленная в RU 2364957, 27.12.2007 г. и содержащая последовательно соединенные цифровое записывающее устройство, блок дискретизации, блок дискретного преобразования Фурье, блок нормирования спектра Фурье, формирователь результирующей матрицы сверток, сумматор, регистратор максимальных значений, формирователь вектора признаков, блок линий задержки, блок формирования мер веса последовательности информативных признаков, блок перебора последовательности компонент информативных признаков и выделения спектров, обладающих линейчатостью и гладкостью динамики частоты основного тона, компаратор, селектор компонентов преобразования Фурье и блок регистрации информативных признаков. Кроме того, в систему входят блок питания, блок памяти, генератор базисных сигналов, формирователь параметров разбиения диапазона частот основного тона голоса, формирователь мер схожести и формирователь порогового уровня.

Недостатком известной системы является отсутствие возможности искажения голоса диктора в соответствии с заданными параметрами и выбора вариантов изменения спектральных характеристик исходного голоса диктора.

Наиболее близкой к заявленному техническому решению является система голосовой идентификации (RU 85445, 05.05.2009 г.), содержащая генератор базисных сигналов, формирователь параметров разбиения диапазона частот, интеграторы, блок формирования последовательности векторов признаков, формирователь порогового уровня, блок формирования потенциалов единичных зарядов, блок формирования модуля градиентов, блок памяти идентификационных номеров дикторов, цифровое запоминающее устройство, блок дискретизации, блок дискретного преобразования Фурье и блок нормирования спектра Фурье, компаратор, сумматор, дополнительный сумматор, блок определения максимумов и соответствующих им аргументов, регистратор максимальных значений, блок динамического программирования, дополнительный компаратор, блок принятия решений, переключатель режимов, блок определения условной вероятности, блок умножения, дополнительный блок принятия решений, блок упорядочивания векторов, селектор, блок предварительной кластеризации последовательности векторов признаков, блок определения статистических характеристик кластеров и блок памяти вероятностных характеристик.

Недостаток известной системы определяется низким значением вероятности неправильного распознавания голоса диктора при разборчивом и естественном звучании речи.

Задачей изобретения является обеспечение возможности эффективного искажения голоса диктора в условиях сохранения разборчивости и естественности звучания речи.

Технический результат, достигаемый при решении задачи, выражается в снижении вероятности голосовой идентификации личности.

Технический результат обеспечивается системой искажения голоса диктора, содержащей генератор базисных сигналов, формирователь параметров разбиения диапазона частот, интеграторы, формирователь порогового уровня, блок питания, подключенный к питающим входам составных блоков системы, формирователь параметров смещения значимых интервалов спектра, последовательно соединенные цифровое записывающее устройство, блок дискретизации, блок дискретного преобразования Фурье и блок нормирования спектра Фурье, последовательно соединенные блок формирования огибающей спектра Фурье и первый дополнительный блок нормирования спектра Фурье, последовательно соединенные блок формирования параметров изменения огибающей спектра Фурье и дополнительный блок формирования огибающей спектра Фурье, последовательно соединенные компаратор, сумматор, дополнительный сумматор, блок определения максимумов и соответствующих им аргументов, регистратор максимальных значений и соответствующих им аргументов, блок динамического программирования, дополнительный компаратор, блок принятия решений, блок определения позиций значимых интервалов спектра, блок определения смещенных позиций значимых интервалов спектра, второй дополнительный блок нормирования спектра Фурье, блок обратного преобразования Фурье, блок памяти, блок сглаживания фазы и блок воспроизведения, при этом

входы интеграторов соединены с соответствующими выходами блока нормирования спектра Фурье и генератора базисных сигналов, а выходы параллельно подключены к входам компаратора и сумматора,

выход формирователя параметров разбиения диапазона частот соединен с одним из входов блока определения максимумов и соответствующих им аргументов,

выход формирователя порогового уровня подключен к задающему входу дополнительного компаратора, выход формирователя параметров смещения позиций значимых интервалов спектра соединен с одним из входов блока определения смещенных позиций значимых интервалов спектра,

один из выходов блока дискретного преобразования спектра Фурье дополнительно параллельно подключен к входу блока формирования огибающей спектра Фурье, одному из входов первого дополнительного блока нормирования спектра Фурье и одному из входов блока определения позиций значимых интервалов спектра,

а выходы первого дополнительного блока нормирования спектра Фурье и дополнительного блока формирования огибающей спектра Фурье соединены с соответствующими входами второго дополнительного блока нормирования спектра Фурье.

На фиг.1 представлена структурная схема системы искажения голоса диктора,

на фиг.2 - график вейвлет - функции, используемой для анализа спектра звука,

на фиг.3 - пример свертки спектра Фурье с вейвлет - функциями в выбранном отсчете спектра,

на фиг.4 - граф схемы динамического программирования на последовательности множеств пар максимумов и их аргументов,

на фиг.5 - выделенные значимые участки спектра, подвергаемые преобразованиям,

на фиг.6 - аппроксимация сглаженного спектра звука (сплошная линия), полученного по значимым участкам спектра тремя гауссоидами (пунктирные линии),

на фиг.7 - спектр исходного сигнала (пунктирная линия) и спектр сигнала после процедуры смещения линий (сплошная линия).

Система искажения голоса диктора содержит генератор 1 базисных сигналов, формирователь 2 параметров разбиения диапазона частот, интеграторы 3, 4, 5, формирователь 6 порогового уровня, блок 7 питания, подключенный к питающим входам составных блоков системы, формирователь 8 параметров смещения позиций значимых интервалов спектра, последовательно соединенные цифровое записывающее устройство 9, блок 10 дискретизации, блок 11 дискретного преобразования Фурье и блок 12 нормирования спектра Фурье, последовательно соединенные блок 13 формирования огибающей спектра Фурье и первый дополнительный блок 14 нормирования спектра Фурье, последовательно соединенные блок 15 формирования параметров изменения огибающей спектра Фурье и дополнительный блок 16 формирования огибающей спектра Фурье, последовательно соединенные компаратор 17, сумматор 18, дополнительный сумматор 19, блок 20 определения максимумов и соответствующих им аргументов, регистратор 21 максимальных значений и соответствующих им аргументов, блок 22 динамического программирования, дополнительный компаратор 23, блок 24 принятия решений, блок 25 определения позиций значимых интервалов спектра, блок 26 определения смещенных позиций значимых интервалов спектра, второй дополнительный блок 27 нормирования спектра Фурье, блок 28 обратного преобразования Фурье, блок 29 памяти, блок 30 сглаживания фазы и блок 31 воспроизведения, при этом

входы интеграторов 3, 4, 5 соединены с выходом блока 12 нормирования спектра Фурье и выходом генератора 1 базисных сигналов, а выходы параллельно подключены к входам компаратора 17 и сумматора 18,

выход формирователя 2 параметров разбиения диапазона частот соединен с одним из входов блока 20 определения максимумов и соответствующих им аргументов,

выход формирователя 6 порогового уровня подключен к задающему входу дополнительного компаратора 23, выход формирователя 8 параметров смещения позиций значимых интервалов спектра соединен с одним из входов блока 26 определения смещенных позиций значимых интервалов спектра,

один из выходов блока 11 дискретного преобразования Фурье дополнительно параллельно подключен к входу блока 13 формирования огибающей спектра Фурье, одному из входов первого дополнительного блока 14 нормирования спектра Фурье и одному из входов блока 25 определения позиций значимых интервалов спектра,

а выходы первого дополнительного блока 14 нормирования спектра Фурье и дополнительного блока 16 формирования огибающей спектра Фурье соединены с соответствующими входами второго дополнительного блока 27 нормирования спектра Фурье.

Система искажения голоса диктора функционирует следующим образом.

Акустический сигнал поступает на вход цифрового записывающего устройства 9, на выходе которого формируется записанный оцифрованный сигнал. В блоке 10 дискретизации осуществляется его оконное преобразование (дискретизация), при этом не перекрывающиеся интервалы окон имеют длительность не менее 0,032 с и следуют друг за другом со смещением, длительность которого не превышает 0,010 с. Для получения сигнала, соответствующего каждому окну, в блоке 11 происходит вычисление дискретного преобразования Фурье. Блок 12 определяет спектр Фурье и осуществляет его последующее нормирование в соответствии с зависимостью

где - компоненты нормированного спектра Фурье,

φ_i - компоненты исходного спектра Фурье,

j - номер компонента спектра Фурье,

n - количество компонентов спектра Фурье.

Генератор 1 базисных сигналов формирует управляющие сигналы, структура которых определяется параметрами вейвлет-функции W={w(ω, jτ)}_Y (фиг.2), имеющей вид

где τ - шаг анализа частоты основного тона,

j - номер отсчета вейвлет-функции, j=0, …, Y;

ω_min - минимальное значение частоты основного тона (~80 Гц,),

ω_max - максимальное значение частоты основного тона (~450 Гц),

ω - текущее значение частоты,

π=3,14.

Управляющие базисные сигналы с выхода блока 1 поступают на входы интеграторов 3-5, которые проводят интегрирование нормированного спектра Фурье φ(ω) с параметрическим классом вейвлет-функций W={w(ω, jτ)}_Y (фиг.2). Результатом работы интегратора 3 является вычисление значения интегралов вида

где переменная ξ определяет местоположение максимума вейвлет-функции на спектре.

Результатом работы интегратора 4 является вычисление значения интегралов вида

а результатом работы интегратора 5 является вычисление значения интегралов вида

На фиг.3 представлено примерное наложение вейвлет-функций в выбранном отсчете спектра Фурье. Свертка спектра Фурье с вейвлет-функциями всех возможных масштабов производится в каждом отсчете спектра, причем суммы свертки определяются отдельно для каждой полуволны вейвлет-функций.

С выхода интеграторов 3-5 сигналы поступают на входы сумматора 18 и компаратора 17. В компараторе 17 проводится сравнение значений сигналов, полученных с выходов интеграторов 3-5 для каждого значения положения вейвлет-функций ξ и каждого значения основного тона jτ. На выходе компаратора появляется положительное значение +U, если выполняются условия

Если же условия (6) не выполняются, то на выходе компаратора появляется отрицательное значение -U.

Сумматор 18 при появлении на выходе компаратора 17 отрицательного значения -U формирует на своем выходе ноль. Если же значение на выходе компаратора положительно +U, то он формирует на своем выходе значение g_j(ξ), которое образуется на основе значений сигналов, полученных с выходов интеграторов 3-5, т.е.

В дополнительном сумматоре 19 суммируются значения сигналов g_j(ξ) для различных значений смещения h и частоты основного тона jτ

где h - значение смещения.

В блоке 20 определения максимумов и соответствующих им аргументов определяются значения максимумов для каждого из трех диапазонов частот основного тона

и соответствующих аргументов максимумов

Эти значения сохраняются в регистраторе 21 максимальных значений и соответствующих им аргументов. Границы диапазонов частот (от 90 до 180 Гц, от 180 до 360 Гц, от 360 до 450 Гц) заданы формирователем 2 параметров разбиения диапазона частот основного тона голоса, разбитого на три неперекрывающихся диапазона. Верхнюю границу первого диапазона выбирают из условия G1=2G_min, где G_min - известное минимальное значение частоты основного тона мужского голоса, верхнюю границу второго диапазона - из условия G₂=4G_min, а верхнюю границу третьего диапазона принимают равной известному максимальному значению частоты G_max основного тона женского голоса. По мере накопления регистратором 21 максимальных значений и соответствующих им аргументов 4-х значений они передаются в блок 22 динамического программирования, реализующего поиск наиболее вероятной траектории с использованием алгоритма динамического программирования.

Функционирование блока 22 динамического программирования осуществляется на основе введенной меры вероятностей следования пар (значение максимума, значение аргумента максимума) друг за другом

где σ - дисперсия частоты основного тона,

t - дискретное время,

, - компоненты вектора информативных признаков, взятые в дискретные моменты времени t; t=1, 2….

- максимальное значение интеграла (9), взятое в момент времени t,

τ - шаг анализа частоты основного тона.

Граф связей во времени между последовательностью состояний представлен на фиг.4, при этом каждое ребро графа соответствует вычислению меры схожести этих пар.

На выходе блока 22 динамического программирования формируется сигнал, соответствующий значению вероятности наиболее вероятной траектории и поступающий на вход дополнительного компаратора 23 для сравнения со значением порогового уровня, которое задается формирователем 6 порогового уровня. Если значение сигнала с блока 22 динамического программирования превышает значение установленного порога, то блоком 24 принятия решений принимается решение о том, что на интервале времени, на котором получена последовательность из четырех спектров, присутствует основной тон и соответственно вокализированный участок речи. По первому найденному интервалу устанавливается граница начала речи, а по последнему интервалу, на котором вероятность траектории не преодолела порог, устанавливается окончание речи. Управляющий сигнал с выхода блока 24 принятия решений поступает на один из входов блока 25 определения позиций значимых интервалов спектра, на другой вход которого поступает сигнал с выхода блока 11 дискретного преобразования Фурье. На основе значений гармоник частот основного тона и их полос спектра, им соответствующих, в блоке 25 определения позиций значимых интервалов спектра выделяются позиции значимых подвергаемых преобразованиям интервалов спектра (фиг.5, масштаб амплитуды - линейный), информационный сигнал о которых поступает на один из входов блока 26 определения смещенных позиций значимых интервалов спектра. При этом в формирователе 8 параметров смещения позиций значимых интервалов спектра формируются величины смещений позиции значимых интервалов линейчатого спектра, поступающие на другой вход блока 26 определения смещенных позиций значимых интервалов спектра, в результате чего определяются новые позиции значимых интервалов линейчатого спектра. На основе спектра, полученного в блоке 11 дискретного преобразования Фурье, в блоке 13 формирования огибающей спектра Фурье формируется огибающая спектра E(ω) и проводится ее разложение на взвешенную сумму 3-х несимметричных гауссоид

где a_i - амплитуда i-й гауссоиды,

θ - параметры гауссоиды,

exp=2,72.

В приведенных зависимостях указаны положение i-й гауссоиды и значения среднеквадратических отклонений слева и справа, соответственно. В данном случае реализуется предположение о том, что звуки речи могут быть описаны с помощью трех формант, и параметр положения гауссоиды, по сути, определяет частоту форманты, а среднее правой и левой дисперсий гауссоиды определяет ширину формантной области. На фиг.6 масштаб изменения амплитуды принят линейным. В первом дополнительном блоке 14 нормирования спектра Фурье проводится нормирование спектра, полученного от блока 11 дискретного преобразования Фурье по огибающей,

определяемой зависимостью (12) и полученной на выходе блока 13 формирования огибающей спектра Фурье.

В блоке 15 формирования параметров изменения огибающей спектра Фурье формируются величины изменений амплитуд и частот формант {Δω₁, Δω₂, Δω₃, Δа₁, Δа₂, Δа₃}, в соответствии с которыми в дополнительном блоке 16 формирования огибающей спектра Фурье формируется сигнал, соответствующий новой огибающей

и поступающий на один из входов второго дополнительного блока 27 нормирования спектра Фурье, осуществляющего перенормирование реальной и мнимых частей преобразования Фурье. С выхода блока 27 сигнал поступает на блок 28 обратного преобразования Фурье, на выходе которого формируется окно искаженного сигнала, помещаемое далее в блок 29 памяти.

После накопления в блоке 29 памяти двух окон искаженного сигнала они поступают в блок 30 сглаживания фазы, который предотвращает появление щелчков при наложении сигналов с различными фазами. Результирующий сигнал поступает на блок 31 воспроизведения, в качестве которого могут быть использованы, например, усилитель и акустические колонки. На фиг.7 в логарифмическом масштабе представлены полученные экспериментально спектры исходного сигнала и сигнала после процедуры смещения линий. Питание системы осуществляется от блока 7 питания, подключенного к питающим входам составных блоков системы.

Система искажения голоса диктора может применяться для обеспечения возможности искажения голоса диктора в соответствии с заданными параметрами, прослушивания искаженного голоса диктора, выбора конечного варианта искажения, а также для передачи в режиме реального времени искаженного голоса диктора на выход аудиоустройства с возможностью дальнейшей трансляции по каналам связи.

Использование системы искажения голоса диктора позволяет снизить значение вероятности распознавания голоса за счет использования различных вариантов трансформации спектральных характеристик исходного голоса диктора.

Система искажения голоса диктора, содержащая генератор базисных сигналов, формирователь параметров разбиения диапазона частот, интеграторы, формирователь порогового уровня, блок питания, подключенный к питающим входам составных блоков системы, формирователь параметров смещения позиций значимых интервалов спектра, последовательно соединенные цифровое записывающее устройство, блок дискретизации, блок дискретного преобразования Фурье и блок нормирования спектра Фурье, последовательно соединенные блок формирования огибающей спектра Фурье и первый дополнительный блок нормирования спектра Фурье, последовательно соединенные блок формирования параметров изменения огибающей спектра Фурье и дополнительный блок формирования огибающей спектра Фурье, последовательно соединенные компаратор, сумматор, дополнительный сумматор, блок определения максимумов и соответствующих им аргументов, регистратор максимальных значений и соответствующих им аргументов, блок динамического программирования, дополнительный компаратор, блок принятия решений, блок определения позиций значимых интервалов спектра, блок определения смещенных позиций значимых интервалов спектра, второй дополнительный блок нормирования спектра Фурье, блок обратного преобразования Фурье, блок памяти, блок сглаживания фазы и блок воспроизведения, при этом входы интеграторов соединены с соответствующими выходами блока нормирования спектра Фурье и генератора базисных сигналов, а выходы параллельно подключены к входам компаратора и сумматора, выход формирователя параметров разбиения диапазона частот соединен с одним из входов блока определения максимумов и соответствующих им аргументов, выход формирователя порогового уровня подключен к задающему входу дополнительного компаратора, выход формирователя параметров смещения позиций значимых интервалов спектра соединен с одним из входов блока определения смещенных позиций значимых интервалов спектра, один из выходов блока дискретного преобразования спектра Фурье дополнительно параллельно подключен к входу блока формирования огибающей спектра Фурье, одному из входов первого дополнительного блока нормирования спектра Фурье и одному из входов блока определения позиций значимых интервалов спектра, а выходы первого дополнительного блока нормирования спектра Фурье и дополнительного блока формирования огибающей спектра Фурье соединены с соответствующими входами второго дополнительного блока нормирования спектра Фурье.

Система искажения голоса диктора

Патент 2403627