Способ компиляционного фонемного синтеза русской речи и устройство для его реализации
Иллюстрации
Показать всеИзобретение относится к речевой информатике и приборостроению для синтеза речевых сообщений по тексту в системах акустического общения человека с автоматам. Состав элементов компиляции акустической базы данных согласная-гласная (СГ-слоги) и гласная-согласная (ГС-слоги), отдельные гласные и согласные. Способы их соединения: непосредственное соединение либо микширование для фонемосочетаний вида согласная-гласная-согласная-согласная (...СГСС...) и согласная-гласная-согласная конечная (...СГСконечная). Устройство для компиляционного фонемного синтеза русской речи, содержащее текстовый процессор, соединенный с акустической базой данных и блоком формирования звукового сигнала, который соединен с блоком воспроизведения, блока формирования СГС, вход которого соединен с соответствующими выходами акустической базы данных и текстового процессора, а выход соединен с входом блока формирования звукового сигнала. Технический результат - повышение естественности речи и скорости синтеза по тексту за счет совершенствования структуры элементов компиляции и использования способа соединения их с учетом фонетических особенностей русского языка. 2 н.п. ф-лы, 2 ил.
Реферат
Изобретение относится к речевой информатике и приборостроению для синтеза речевых сообщений по тексту в системах акустического общения человека с автоматами.
Известен способ синтеза речи по тексту путем компиляции фрагментов заранее записанных сигналов гласных и открытых слогов типа согласный-гласный (СГ-слоги) и формирования фрагментов из последующих гласных только в сочетаниях согласных из СГ-слогов и для конечных согласных из нейтральных СГ-слогов, а также за счет уменьшения громкости краев фрагментов, соединяемых при воспроизведении [1].
Недостатком этого способа является то, что при формировании сочетания фонем вида согласная-гласная-согласная (СГС) между гласной и согласной нет естественного перехода, что снижает качество синтезированной речи.
Из известных наиболее близким по сущности является способ компиляционного синтеза речи, основанный на стыковке фрагментов фонограмм заранее записанных дифонов (80-120 мс) и протяжных гласных звуков, которые вводят на 20-40 мс перед предударными дифонами и на 40-60 мс перед ударными [2].
Недостатком способа является наличие двух разрывов при вставке стационарных гласных между дифонами в сочетаниях фонем вида согласная-гласная-согласная (СГС), а также гласная при этом формируется соединением 3-х различных звуковых единиц, что ведет к ухудшению качества речи и снижению скорости синтеза.
Известно устройство, описанное в [2], которое осуществляет ввод текста с дополнительными знаками ударений в тестовый процессор, соединенный с постоянными раздельными запоминающими устройствами, где хранят заранее записанные дифоны и протяжно произнесенные отдельные гласные звуки соответственно. Считываемые фонограммы поблочно через буферное запоминающее устройство соответственно выбранным длительностям преобразуют цифроаналоговым преобразователем и воспроизводят электроакустическим агрегатом.
Недостаток устройства заключается в том, что оно не позволяет уменьшить число соединений и количество звуковых единиц при формировании гласной для сочетания фонем вида согласная-гласная-согласная (СГС).
Цель изобретения - повышение естественности и разборчивости речи и скорости синтеза по тексту за счет совершенствования структуры элементов компиляции и использования способов соединения их с учетом фонетических особенностей русского языка.
Это достигается тем, что в способе компиляционного фонемного синтеза речи производят образование фрагмента компиляции для согласных разделенных гласной типа согласная-гласная-согласная (СГС) за счет объединения на участке гласной открытых СГ-слогов и закрытых ГС-слогов в сочетаниях фонем вида согласная-гласная-согласная-согласная (...СГСС...) и согласная-гласная-согласная конечная (СГСконечная) в слове. Улучшение же качества соединения в сочетаниях СГС достигается тем, что слог выступает как фонетическая единица в правилах русского слогоделения и сохранение естественных переходов в открытых СГ- и закрытых ГС-слогах наиболее предпочтительно в соединениях гласных между согласными, а использование этих переходов одновременно обеспечивает улучшение качества синтезируемой речи [3, 4, 5]. В этом случае объединение реализуется фазированным сложением конечного участка СГ-слога и начального участка, дополнительно сформированного ГС-слога с укороченным интервалом гласной до длительности участка наложения (δt=40-60 мс). При этом выполняются изменения уровня огибающей от 1 до 0 и от 1 до 0 соответственно для этих элементов компиляции на данном участке при сохранении длительности гласной в слове. Например, слово убранство после фонетического анализа состоит из идентификаторов элементов компиляции (акустических данных), разделенных между собой чертой: УБ-РА-АН-С-Т-ВО, где
УБ - закрытый ГС-слог;
С, Т, - отдельные согласные;
РА, ВО - открытые СГ-слоги;
АН - ГС-слог для формирования фрагмента компиляции СГС.
Объединение элементов компиляции для идентификаторов РА и АН выполняется вариантом микширования (фиг.1), для остальных - непосредственным соединением. В этом примере изменения уровня огибающей от 1 до 0 и от 1 до 0 на участке соединения элементов компиляции выполнены по линейному закону.
Фрагменты звуковых сигналов ра и ан подвергнуты предварительному изменению уровня огибающей по закону от 1 до 0 и от 0 до 1 на участках t0-t1 и t0-t2 и подлежат микшированию на этом участке (δt) общей гласной а. Формирование фонетических единиц производится по значениям их приоритетов: СГ-слоги (1 уровень, высший), признак формирования фрагмента компиляции типа СГС (2 уровень), основные ГС-слоги (3 уровень), отдельные гласные и согласные (4 уровень). Анализ последовательности до 4-х фонем обеспечивает возможность формирования всех типов фонетических единиц.
Сущность изобретения пояснены на фиг.1, где схематически представлены порядок формирования фрагмента компиляции СГС и устройство на фиг.2, реализующее предлагаемый способ компиляционного фонемного синтеза русской речи.
Устройство содержит блоки: 1 - текстовый процессор; 2 - база акустических данных; 3 - блок формирования согласная-гласная-согласная (СГС); 4 - блок формирования звукового сигнала; 5 - блок воспроизведения. Текстовый процессор (1) выполняет функции: нормализация текста; фонетическая транскрипция по разбивке слова на фонетические единицы по принципу приоритетов; идентификация звуковых единиц; селекция фонемосочетаний вида согласная-гласная-согласная-согласная (...СГСС...) и согласная-гласная-согласная (...СГСконечная); организация управления параметрами элементов компиляции и слоговым ударением. Акустическая база данных (2) содержит используемые звуковые единицы естественной речи русского языка, выполненные для слогов в ударном и безударном вариантах. Номера внутри блока (2) обозначают структуру вызываемых звуковых единиц по их типам: отдельные гласные и согласные (2.1); открытые СГ-слоги (2.2); закрытые ГС-слоги (2.3). Блок формирования СГС (3) предназначен для формирования звуковой единицы типа согласная-гласная-согласная (СГС) за счет объединения СГ-слога и ГС-слога. Блок формирования звукового сигнала (4) выполняет операции формирования элементов компиляции с изменением акустических единиц по заданным управляющим параметрам и реализации их соединения. Блок воспроизведения (5) воспроизводит синтезированную речь.
Предлагаемый способ реализуется следующим образом. Информация после текстового процессора (1), освобожденная от цифр и знаков пунктуации, представляет последовательность идентификаторов звуковых единиц, поступающую вместе с признаком ударения на вход акустической базы данных (2). Одновременно с этим текстовый процессор (1) в результате селекции последовательности типов фонем вида ...СГСС... и ...СГСконечная вырабатывает признак на формирование фрагмента компиляции СГС, который поступает на блок формирования СГС (3), в котором производится генерирование фрагмента компиляции типа СГС при наличии признака формирования фрагмента СГС. Информация управления параметрами элементов компиляции с текстового процессора (1), звуковые единицы акустической базы данных (2) и элементы компиляции типа СГС блока формирования СГС (3) подаются на блок формирования звукового сигнала (4), где производится полная сборка звукового сигнала, который поступает на блок воспроизведения (5).
Источники информации
1. Авторское свидетельство СССР №1531133, кл. G 10 L 5/02, 23.12.89.
2. Авторское свидетельство СССР №1599888, кл. G 10 L 5/02, 15.10.90.
3. В.Н.Сорокин. Синтез речи. - М.: Наука. Гл. ред. Физ-мат. лит., 1992 г.
4. Искусственный интеллект: в 3 кн. к.1 Системы общения и экспертные системы: справочник под ред. Э.В.Попова. М.: Радио и связь, 1990. - 484 с.
5. Современный русский язык. Фонетика. Лексика. Фразеология. Морфология (имена). Конспект лекций. Назаренко Е., г.Ростов-на-Дону, изд-во «Феникс», 2003 г.
1. Способ компиляционного фонемного синтеза русской речи путем стыковки фрагментов фонограмм заранее записанных дифонов (80-120 мс) и протяжных гласных звуков, которые вводят на 20-40 мс перед предударными дифонами и на 40-60 мс перед ударными, отличающийся тем, что сначала производят запись в акустическую базу данных звуковых единиц естественной речи типа согласная-согласная (СГ-слоги), гласная-согласная (ГС-слоги) и отдельные гласные и согласные, затем при фонетической транскрипции текста осуществляют приоритетное разбиение слова с выделением фрагмента типа согласная-гласная-согласная СГС, а затем при синтезе генерируют элементы компиляции типа согласный-гласный-согласный (СГС) для сочетаний фонем вида согласный-гласный-согласный-согласный (...СГСС...) и согласный-гласный-согласный (...СГСконечная) процедурой соединения СГ- и ГС-слогов способом фазированного сложения их на конечном интервале общей гласной равном 40-60 мс с изменением огибающей на этих интервалах при сохранении длительности гласной в слове, а также формируют элементы компиляции по сигналам служебной информации с последующим их соединением.
2. Устройство для компиляционного фонемного синтеза русской речи, содержащее текстовый процессор, соединенный с акустической базой данных и блоком формирования звукового сигнала, который соединен с блоком воспроизведения, отличающееся тем, что введен блок формирования СГС, вход которого соединен с соответствующими выходами акустической базы данных и текстового процессора, а выход соединен с входом блока формирования звукового сигнала.