Способ слоговой компиляции речи
Иллюстрации
Показать всеРеферат
1. СПОСОБ СЛОГОВОЙ КОМПИЛЯЦИИ РЕЧИ по тексту, использующий набор заранее записанных сигна i l .i,:--#K:-J - . -V- . , 1 .Ч S ц г.,; : ...: « и ..:,.-.-ХЧ:л..; S eJits.ij Mrif лов открытых слогов типа согласный гласный и отдельных гласных фиксированной длительности, отличающийся тем, что, с целью повышения качества звучания компилированной речи, перед согласными звуками слогов формируют переходные сегменты различной длительности из последующих гласных звуков. 2. Способ по п. 1, отличающийся тем, что длительность переходных сегментов выбирают в зависимости от предшествующего звука в пределах 0,1-0,4 от фиксированной длительности гласных, при этом, если этот звук согласный, S то длительность берут наименьшую, а если гласный, то длительность (Л берут тем бс5льшую, чем больше различия в характеристиках между типами гласных. сл 00
СОЮЗ СОВЕТСНИХ
СОЦИАЛИСТИЧЕСНИХ
РЕСПУБЛИН ц5п С 10 б. 1/06 ю ты
Фиг.1
ГОСУДАРСТВЕННЫЙ КОМИТЕТ СССР
FlO ДЕЛАМ ИЗОБРЕТЕНИЙ И ОТКРЫТИЙ (21t 3525639/18-10 (22! 21.12.82 (46) 23.02.84. Бюл. Р 7 (721 A.Ï. Ваййшток, А.В. Книппер, И.A. Орлов и В.Г. Потапов (71I ИйститУт проблем передачи информацйй Ан СССР (53) 534.42(088.8 } (561 1. Патент СИ Р 4278838, кл. G 10 L 1/00, 1981.
2. Патент Франции 9 1602936, кл. Q 10 L 1/00, 1971.
3. Токура Е. и Сагисаки Е. Синтез по правилам, использующий
СГ-слоги и его качество. — Доклады секции речи Акустического общества
Японии, 1980, с. 371-376 ° (54)(57 1 1. СПОСОБ СЛОГОВОЙ КОМПИЛЯЦИИ РЕЧИ по тексту, использующий набор заранее записанных сигна„„SU„„ 1 075300 лов открытых слогов типа согласный— гласный и отдельных гласных фиксированной длительности, о т л и ч а ю шийся тем, что, с целью повышения качества звучания компилированной речи, перед согласными звуками слогов формируют переходные сегменты различной длительности из последующих гласных звуков.
2. Способ по п. 1, о т л и— ч а ю шийся тем, что длительность переходных сегментов выбирают в зависимости от предшествующего звука в пределах 0,1-0,4 от фиксированной длительности гласных, при этом, если этот звук согласный, то длительность берут наименьшую, щ а если гласный, то длительность берут тем ббльшуш, чем больше рееличия в характеристиках между типами гласных. С:
1075300
Изобретение относится к приборостроению и может быть использовано для синтеза произвольного речевого сообщения.
Известны способы компиляции речи из отдельных речевых элементов, 5 которые реализуются последовательным соединением аллофонов (частей фонем ) или дифонов (сочетанием отрезков. двух звуков)(1 ) и Г21.
Однако указанные способы облада- 10 ют тем недостатком, что при аллофонном или дифонном синтезах речи требуются, соответственно, или сложные программы управления, осуществляющие сшивание речи иэ аллофонов с 15 учетом их контекстной и позиционной вариативности, или большое число дифонов разнообразного типа, отражающих коартикуляционные связи между двумя соседними звуками.
Наиболее близким по технической сущности к изобретению является способ слоговой компиляции речи по тексту, использующий набор заранее записанных сигналов открытых слогов типа согласный — гласный и отдельных:. гласных фиксированной длительности, в котором произвольное сообщение формируют последовательным выбором и объединением слогов и отдельных звуков линейным интерполированием их параметров на постоянном временном интервале. Позиционную изменчивость звуков задают контуром основного тона и длительностью гласных и согласных звуков на основе фонети- 35 ко-просодического анализа синтезируемого текста (3 1.
Однако известный способ слоговой компиляции речи не имитирует естественные коартикуляционные связи 40 между соединяемыми слогами и звуками при их линейном интерполировании на постоянном временном интервале. Поэтому слоговая компиляция речи, обладая высокой разборчивостью,45 имеет выраженную слоговую структуру, что воспринимается слушающими как ухудшение качества звучания компилированной речи.
Целью изобретения является повышение качества звучания компилированной речи.
Поставленная цель достигается тем, что согласно способу слоговой компиляции речи по тексту, использующему набор заранее записанных сигналов открытых слогов типа согласный — гласный и отдельных гласных фиксированной длительности, перед согласными звуками слогов формируют переходные сегменты различной 60 длительности иэ последующих гласных звуков фиксированной длительности.
При этом длительность переходных сегментов выбирают в зависимости от предшествующего звука в пределах 65
0,1-0,4 от фиксированной длительности гласных, причем, если этот звук согласный, то длительность берут наименьшую, а если гласный, то тем большую, чем больше различия в характеристиках между типами гласных.
Более высокое качество звучания компилированной речи по предлагаемому способу объясняется тем, что при сшивании слогов и звуков в слитное речевое сообщение между естественными речевыми элементами формируют переходные сегменты различной длительности из гласного звука последующего слога. Эти переходные сегменты создают искусственную коартикуляцию звуков, близкую к естественной, так как для тех случаев, когда перестройка артикуляторных органов человека более длительна, обеспечивается большая длительность переходных сегментов.
На фиг. 1 показано формирование переходов, имитирующих коартикуляцию между сшиваемыми базовыми элементами речи; на фиг. 2 — блоксхема системы, реализующей способ слоговой компиляции речи.
Различия между параметрами гласных, интерпретируемые фазовыми порт-. ретами на плоскостях формантных часTOT F1 Fg P2 3 опреде расстояние в этих пространствах.
Длительность элементов речи, хранящихся в памяти, 300 мс. Если предшествующий звук согласный, то длительность переходного сегмента составляет 20-30 мс, а если гласный, то 50-120 мс, т.е. длительность переходного гласного составляет
0,1-0,4 от фиксированной длительности гласных, хранящихся в памяти.
Способ слоговой компиляции речи манжет быть реализован в соответствии со структурной схемой (фиг. 2) .
В лингвистическом процессоре 1 осуществляют фонетико-просодическое преобразование текстовой записи синтезируемой речи. На выходе этого блока текст представляют цепочкой открытых слогов и отдельных гласных звуков. Просодический анализатор задает контур основного тона и производит маркировку слогов на ударные, предударные и эаударные. В блоке эмуляции эффекта коартикуляции 2 осуществляют вставку гласных сегментов в цепочку символов с блока 1 в соответствии с предлагаемым способом. В вычислителе временных интервалов 3 формируют временные траектории параметров синтезируемого сообщения и его просодические характеристики для дальнейшего их преобразования в речевой сигнал синтезатором 4 вокодерного типа. Базовые
1075300
Составитель В.Суханов
Редактор Н.Пушненкова Техред С.Мигунова Корректор Г.ОгаР
Заказ 508/44
Тираж 375 Подписное
ВНИИПИ Государственного комитета СССР по делам изобретений и открытий
113035, Москва, Ж-35, Раушская наб., д. 4/5
Филиал ППП "Патент", г. Ужгород, ул. Проектная, 4 элементы, которые могут быть представлейы для экономии памяти в параметрическом виде, хранят в блоке 5 памяти и вызывают блоком 3 по мере образования временных траекторий параметров синтезируемого сообщения. Громкоговоритель б осуществляет преобразование речевого сигнала на выходе синтезатора 4 в акустические колебания.
Использование предлагаемого способа слоговой компиляции речи позволит повысить качество звучания синтезированной речи.