2510954 - Способ переозвучивания аудиоматериалов и устройство для его осуществления

Способ переозвучивания аудиоматериалов и устройство для его осуществления

Иллюстрации

Показать все

Способ и устройство позволяют повысить качество проведения фазы обучения, улучшить степень совпадения голоса пользователя (целевого диктора) в конвертированном речевом сигнале, обеспечить возможность одноразового проведения фазы обучения для различных аудиоматериалов. Указанный технический результат достигается тем, что в программно управляемом электронном устройстве обработки информации (ПУЭУОИ) формируют акустическую базу исходных аудиоматериалов (АБИА) и акустическую обучающую базу (АОБ). Передают данные из АБИА для отображения списка исходных аудиоматериалов на экране монитора. При выборе из списка АБИА по меньшей мере одного аудиоматериала, данные о нем передают для сохранения в ОЗУ ПУЭУОИ. Осуществляют выбор из АОБ обучающих фраз диктора файлы, которые преобразуют в звуковые фразы и передают их пользователю на устройство воспроизведения звука. Пользователь посредством микрофона воспроизводит звуковые фразы, в процессе воспроизведения которых на экране монитора отображают текст воспроизводимой фразы и курсор, перемещающийся по тексту фразы в соответствии с тем, как пользователь должен ее воспроизвести. Создают файлы в соответствии с воспроизводимыми фразами, которые сохраняют по порядку воспроизведения фраз в формируемой акустической базе целевого диктора (АБЦД). ПУЭУОИ производит контроль скорости воспроизводимой фразы и ее громкости. Формируют файл функции конверсии. Файлы АБИА, используя файл функции конверсии, конвертируют для сохранения в формируемой акустической базе конвертированных аудиоматериалов (АБКА) и предоставления пользователю данных о конвертированных аудиоматериалах на экране монитора. Устройство содержит соответствующие функциональные блоки, реализующие способ. 2 н. и 11 з.п. ф-лы, 11 ил.

Реферат

Изобретение относится к электронной технике, преимущественно с использованием программно управляемых электронных устройств обработки информации, и может быть использовано в синтезе речи.

Известно устройство для определения и коррекции акцента, включающее в себя: (а) средства для ввода нежелательных речевых образов, в которых упомянутые выше речевые образы оцифровываются, анализируются и сохраняются в цифровой памяти в виде библиотеки нежелательных речевых образов; (b) средства для ввода правильных речевых образов, соответствующих упомянутым выше нежелательным речевым образам, в которых упомянутые выше правильные речевые образы оцифровываются, анализируются и сохраняются в цифровой памяти в виде библиотеки правильных речевых образов; (с) средства для активного распознавания поступающих речевых образов, сравнения упомянутых выше распознанных речевых образов с нежелательными речевыми образами, сохраненными в цифровой памяти в виде библиотеки нежелательных речевых образов, и удаления и постановки в очередь замены нежелательных речевых образов, выявленных в упомянутых выше поступающих речевых образах; (d) средства для анализа упомянутых выше нежелательных речевых образов, выявленных в поступающих речевых образах, и определения однозначно соответствующих им правильных речевых образов; и (е) средства для замены упомянутых выше нежелательных речевых образов, выявленных в поступающих речевых образах, упомянутыми выше правильными речевыми образами, которые признаны однозначно соответствующими упомянутым выше нежелательным речевым образам, с получением в результате выходных речевых образов, в которых упомянутые выше нежелательные речевые образы удалены и заменены упомянутыми выше правильными речевыми образами (Заявка на патент США №20070038455. G10L 13/00, опубл. 15.02.2007).

В этом устройстве входной аудиосигнал анализируется на наличие предварительно заданных нежелательных речевых образов, т.е. фонем или фонемных групп, которые нуждаются в исправлении, например, представляющих собой иностранный акцент. Эти нежелательные образы затем изменяются или полностью заменяются предварительно сохраненными звуковыми образами, скорректированными на тональность голоса пользователя. Уровень коррекции речи, т.е. набор подлежащих изменению фонем может задаваться нужным образом. Устройство работает в двух режимах: первый - режим обучения, т.е. сохранение нежелательных фонем и звуковых образов для их замены, а второй - режим исправления, т.е. в котором осуществляется изменение фонем на основе сохраненной информации. Для осуществления этого изобретения используется программное обеспечение и оборудование на базе компьютера. Оборудование, принцип действия которого основан на параллельной обработке сигналов, позволяет корректировать акцент в реальном времени с различными уровнями сложности, вплоть до сверхсложных систем коррекции различных акцентов у нескольких пользователей, базирующихся на многоконтурной архитектуре, состоящей из нескольких микросхем и плат.

Ограничением этого устройства является возможность только коррекции нежелательных фонем и невозможность регулирования других речевых характеристик, например, изменения тембра голоса.

Известно устройство обработки речевой информации для модуляции входного голосового сигнала путем преобразования его в выходной голосовой сигнал, содержащее устройство ввода, выполненное с возможностью введения звукового сигнала, представляющего собой входной голосовой сигнал с характерным частотным спектром, устройство обработки звукового сигнала, выполненное с процессором, обеспечивающим изменение частотного спектра входного голосового сигнала, базу данных параметров, в которой сохраняется несколько наборов параметров, каждый из которых индивидуально характеризует изменение частотного спектра процессором, устройство управления, которое выбирает из базы данных параметров нужный набор параметров и настраивает процессор с помощью выбранного набора параметров, и устройство воспроизведения, выполненное с возможностью вывода звукового сигнала, обработанного процессором и представляющим собой голосовой сигнал с выходными характеристиками частотного спектра, соответствующими выбранному набору параметров (Патент США №5847303, G10H 1/36, опубл. 08.12.1998).

В этом устройстве осуществляется конвертация частотного диапазона, которая позволяет мужчинам петь караоке женским голосом и наоборот. Кроме того, устройство позволяет петь песню караоке голосом выбранного профессионального певца/певицы за счет изменения частотного спектра. Таким образом, устройство позволяет изменять речевые характеристики в соответствии с набором заранее заданных параметров, хранящихся в базе данных вычислительного устройства, например, компьютера.

Ограничениями устройства являются: звуковой сигнал можно преобразовать только в заранее заданный звуковой сигнал, характеризующийся заранее сохраненными параметрами в базе данных; невозможность воспроизведения измененного звукового сигнала в другой точке пространства, т.к. устройство предназначено только для использования в караоке, данное устройство в режиме реального времени может использовать только один пользователь.

Известно устройство для конвертации входящего голосового сигнала в выходящий голосовой сигнал в соответствии с целевым голосовым сигналом, содержащее источник входящего звукового сигнала, запоминающее устройство, которое временно хранит исходные данные, которые соотносятся и берутся из целевого голоса, анализирующее устройство, которое анализирует входящий голосовой сигнал и извлекает из него ряд фреймов входящих данных, представляющих входящий голосовой сигнал, производящее устройство, которое производит ряд фреймов целевых данных, представляющих собой целевой голосовой сигнал, основанный на исходных данных, корректируя фреймы целевых данных относительно фреймов входящих данных, и синтезирующее устройство, которое синтезирует выходящий голосовой сигнал в соответствии с фреймами целевых данных и фреймами входящих данных, при этом производящее устройство выполнено на базе характеристического анализатора, который выполнен обеспечивающим извлечение из входящего голосового сигнала характеристического вектора, являющегося характеристикой выходного голосового сигнала, и на базе корректирующего процессора, при этом запоминающее устройство сохраняет данные характеристических векторов для использования при распознавании их, содержащихся во входящем голосовом сигнале, и сохраняет данные функции преобразования, которые являются частью исходных данных и представляют собой характеристику целевого поведения голосового сигнала, причем корректирующий процессор определяет данные распознавания характеристических векторов и данные функции преобразования в отношении данных выходной корректировки, соответствующей информации о тоне данных функции преобразования, информации об амплитуде данных целевого поведения и информации о форме огибающего спектра характеристического вектора, при этом анализирующее устройство, характеристический анализатор, корректирующий процессор и синтезирующее устройство соединены последовательно, выход данных характеристических векторов запоминающего устройства подсоединен к входу данных характеристического анализатора, а выход данных функции преобразования запоминающего устройства подсоединен к входу данных корректирующего процессора, при этом в устройство введены переключатель режима обучения/эксплуатации и анализатор входного сигнала, источник входящего звукового сигнала подсоединен к входу переключателя режима обучения/эксплуатации, запоминающее устройство снабжено блоком фонограмм, обеспечивающим хранение данных базы фонограмм профессиональных исполнителей, вход/выход переключателя режима обучения/эксплуатации подсоединен к входу/выходу анализатора входного сигнала, а его выход - к входу блока фонограмм запоминающего устройства, первый выход данных блока фонограмм подсоединен к входу анализатора входного сигнала, а второй выход данных блока фонограмм - к входу анализирующего устройства, анализатор входного сигнала выполнен обеспечивающим разложение входящего голосового сигнала, поступающего на его вход/выход через переключатель режима обучения/эксплуатации от источника входящего звукового сигнала, на синусоидальные компоненты сигнала, шумовые компоненты сигнала и остаточные компоненты сигнала и выполнен с возможностью формирования наборов характеристических векторов и функций преобразования для каждой упомянутой компоненты по отдельности и передачи их в запоминающее устройство, анализирующее устройство выполнено обеспечивающим разложение входящего голосового сигнала с блока фонограмм на синусоидальные компоненты сигнала, шумовые компоненты сигнала и остаточные компоненты сигнала, а характеристический анализатор и корректирующий процессор выполнены с возможностью обработки упомянутых компонент по отдельности (Патент РФ №2393548, G10L 13/00, опубл. 27.06.2010).

Устройство позволяет обеспечить в караоке исполнение песни голосом пользователя, но в манере и с качественным уровнем исполнения профессионального певца (например, не хуже уровня исполнения известного исполнителя данной песни), при этом минимизируются ошибки, допускаемые пользователем при исполнении.

Ограничением устройства являются невозможность контроля режима обучения для получения наиболее высокого качества воспроизведения в режиме эксплуатации.

Известен способ конверсии голоса, включающий фазу обучения, заключающуюся в динамическом выравнивании речевых сигналов текстов целевого и исходного дикторов, в формировании соответствующих кодовых книг отображения и функции конверсии речевых сигналов, а также фазу конверсии, заключающуюся в определении параметров речевого сигнала исходного диктора, в конверсии параметров речевого сигнала исходного диктора в параметры речевого сигнала целевого диктора и в синтезе конвертированного речевого сигнала, причем в фазе обучения в речевом сигнале целевого и исходного дикторов в фрейме анализа выделяют гармоники основного тона, шумовую компоненту и переходную компоненту, при этом вокализованный фрейм речевого сигнала представляют в виде гармоник основного тона и шумовой компоненты, а переходная компонента состоит из невокализованных фреймов речевого сигнала, обрабатывают фрейм речевого сигнала исходного диктора и определяют его вокализованность, если фрейм речевого сигнала вокализован, то определяют его частоту основного тона, если основной тон не выявлен, то фрейм является переходным, а если фрейм не вокализован и не является переходным, то обрабатываемый фрейм представляют как паузу речевого сигнала, далее переходный фрейм формируют с помощью линейного предсказателя с возбуждением по его кодовой книге, определяют коэффициенты фильтра линейного предсказателя и параметры долговременного фильтра линейного предсказателя, которые затем на основании соответствующих кодовых книг отображения конвертируют в параметры целевого диктора и синтезируют переходный фрейм целевого диктора, в фазе конверсии, если фрейм речевого сигнала исходного диктора вокализован, то определяют частоту основного тона речевого сигнала и временной контур ее изменения и с помощью дискретного преобразования Фурье, согласованного с частотой основного тона, далее производят разделение фрейма речевого сигнала исходного диктора на компоненты - на гармоники частоты основного тона и на шумовую компоненту, равную остаточному шуму от разности фрейма исходного диктора и ресинтезированного фрейма по гармоникам основного тона, эти упомянутые компоненты на основании кодовых книг отображения конвертируют в параметры целевого диктора, при этом дополнительно учитывают конверсию частоты основного тона для исходного диктора, синтезируют компоненту гармоник основного тона и шумовую компоненту целевого диктора, которые суммируют с синтезированной переходной компонентой и паузой речевого сигнала (Патент РФ №2427044, G10L 21/00, опубл. 20.08.2011).

Способ позволяет повысить степень совпадения голоса целевого диктора в конвертированном речевом сигнале за счет улучшения разборчивости и узнаваемости голоса непосредственно целевого диктора.

Ограничением известного технического решения является то, что он является полностью текстозависимым и невозможно контролировать процесс (фазу) обучения для наиболее качественного воспроизведения речевого сигнала до и после его конвертирования.

В процессе проведения патентного поиска с точки зрения достигаемого технического результата аналогов заявленному техническому решению не выявлено.

Решаемая изобретением задача - повышение качества и технико-эксплуатационных характеристик.

Технический результат, который может быть получен при осуществлении заявленных способа и устройства, - повышение качества фазы обучения и темпа ее проведения, улучшение степени совпадения голоса пользователя (целевого диктора) в конвертированном речевом сигнале за счет улучшения точности, разборчивости и узнаваемости голоса непосредственно пользователя, обеспечение возможности одноразового проведения фазы обучения для конкретного аудиоматериала, и использования этих данных фазы обучения для переозвучивания других аудиоматериалов.

В заявленном техническом решении в фазе обучения могут применяться следующие базы:

- Универсальная. Предназначена для переозвучивания голосом пользователя любых аудиоматериалов (аудиокниг). То есть пользователь единожды обучает программно управляемое электронное устройство обработки информации по данной базе и далее имеет возможность переозвучивать любые аудиокниги без дообучения устройства. Таким образом, при последующем воспроизведении аудиоматериалов получают текстонезависимость.

- Специализированная. Подготавливается программно управляемым электронным устройством обработки информации под конкретную совокупность аудиоматериалов (то есть для одной группы аудиокниг нужна одна база, для другой группы - другая база. Текстозависимость).

Для решения поставленной задачи с достижением указанного технического результата способ переозвучивания аудиоматериалов заключается в том, что в программно управляемом электронном устройстве обработки информации формируют акустическую базу исходных аудиоматериалов, включающую параметрические файлы, и акустическую обучающую базу, включающую wav файлы обучающих фраз диктора и соответствующую акустической базе исходных аудиоматериалов, транспортируют данные из акустической базы исходных аудиоматериалов для отображения списка исходных аудиоматериалов на экране монитора, при выборе пользователем из списка акустической базы исходных аудиоматериалов по меньшей мере одного аудиоматериала, данные о нем передают для сохранения в оперативное запоминающее устройство программно управляемого электронного устройства обработки информации, и осуществляют выбор из акустической обучающей базы соответствующих wav файлов обучающих фраз диктора выбранному аудиоматериалу, которые преобразуют в звуковые фразы и передают их пользователю на устройство воспроизведения звука, пользователь посредством микрофона воспроизводит звуковые фразы, в процессе воспроизведения которых на экране монитора отображают текст воспроизводимой фразы и курсор, перемещающийся по тексту фразы в соответствии с тем, как пользователь должен ее воспроизвести, в соответствии с воспроизводимыми фразами создают wav файлы, которые сохраняют по порядку воспроизведения фраз в формируемой акустической базе целевого диктора, при этом программно управляемое электронное устройство обработки информации производит контроль скорости воспроизводимой фразы и ее громкости, по wav файлам сохраненным в акустической базе целевого диктора и wav файлам акустической обучающей базы формируют файл функции конверсии, затем параметрические файлы акустической базы исходных аудиоматериалов, используя файл функции конверсии, конвертируют и преобразуют в wav файл для сохранения в формируемой акустической базе конвертированных аудиоматериалов и предоставления пользователю конвертированных аудиоматериалов на экране монитора.

Возможны дополнительные варианты осуществления способа, в которых целесообразно, чтобы:

- при использовании в качестве управляемого электронного устройства обработки информации удаленного сервера или компьютера, функционирующего в многопользовательском режиме, дополнительно производили регистрацию пользователя;

- перед воспроизведением пользователем посредством микрофона звуковых фраз, производили запись фонового шума, которую сохраняют в виде wav файла в акустической базе целевого диктора, а программно управляемое электронное устройство обработки информации осуществляет шумоподавление фонового шума;

- при контроле скорости воспроизводимой фразы программно управляемое электронное устройство обработки информации осуществляет фильтрацию цифрового RAW-потока, соответствующего воспроизводимой фразе, рассчитывают мгновенную энергию и сглаживают результаты расчета мгновенной энергии, сравнивают значение сглаженного значения средней энергии с заданным пороговым значением, подсчитывают среднюю продолжительность пауз в wav файле, и программно управляемое электронное устройство обработки информации принимает решение о соответствии скорости речи эталонной;

- при контроле скорости воспроизводимой фразы программно управляемое электронное устройство обработки информации осуществляет оценку длительности слоговых сегментов, для этого производят нормирование речевого сигнала воспроизводимой фразы, фильтрацию, детектирование, перемножение огибающих сигналов воспроизводимой фразы, дифференцирование, сравнение полученного сигнала воспроизводимой фразы с пороговыми напряжениями и выделение логического сигнала, соответствующего наличию слогового сегмента, рассчитывают длительность слогового сегмента, после чего программно управляемое электронное устройство обработки информации принимает решение о соответствии скорости речи эталонной;

- при контроле громкости воспроизводимой фразы задают нижнюю границу диапазона громкости и верхнюю границу диапазона громкости, сравнивают громкость воспроизводимой фразы с границами диапазона громкости, при громкости воспроизводимой фразы вне упомянутых границ диапазона программно управляемое электронное устройство обработки информации отображает на экране монитора сообщение о нарушении громкости воспроизводимой фразы;

- после сохранения wav файлов в акустической базе целевого диктора и wav файлов в акустической обучающей базе программно управляемое электронное устройство обработки информации производит нормализацию wav файлов, их обрезку, шумоподавление и контроль соответствия воспроизведенного и отображенного текста воспроизводимой фразы.

Для решения поставленной задачи с достижением указанного технического результата устройство переозвучивания аудиоматериалов содержит блок управления, блок выбора аудиоматериалов, акустическую базу исходных аудиоматериалов, акустическую базу целевого диктора, блок обучения, блок воспроизведения фраз, блок записи фраз, акустическую обучающую базу, блок конверсии, базу функции конверсии, акустическую базу конвертированных аудиоматериалов, блок отображения результатов конверсии, монитор, клавиатуру, манипулятор, микрофон, устройство воспроизведения звука, при этом выход клавиатуры подсоединен к первому входу блока управления, к первому входу блока выбора аудиоматериалов, и к первому входу блока отображения результатов конверсии, выход манипулятора подсоединен к второму входу блока управления, к второму входу блока выбора аудиоматериалов, и к второму входу блока отображения результатов конверсии, вход монитора подсоединен к выходу блока выбора аудиоматериалов, к выходу блока обучения, к первому выходу блока воспроизведения фраз, к выходу блока записи фраз, к выходу блока конверсии, к выходу блока отображения результатов конверсии, вход устройства воспроизведения звука подсоединен к второму выходу блока воспроизведения фраз, выход микрофона подсоединен к входу блока записи фраз, первый вход/выход блока управления подсоединен к первому входу/выходу блока выбора аудиоматериалов, второй вход/выход блока управления - к первому входу/выходу акустической базы целевого диктора, третий вход/выход блока управления - к первому входу/выходу блока обучения, четвертый вход/выход блока управления - к первому входу/выходу блока конверсии, пятый вход/выход блока управления - к первому входу/выходу блока отображения результатов конверсии, второй вход/выход блока выбора аудиоматериалов подсоединен к первому входу/выходу акустической базы исходных аудиоматериалов, а второй вход/выход акустической базы исходных аудиоматериалов подсоединен к четвертому входу/выходу блока конверсии, второй вход/выход акустической базы целевого диктора подсоединен к первому входу/выходу блока записи фраз, а второй вход/выход блока записи фраз - к третьему входу/выходу блока обучения, второй вход/выход блока обучения подсоединен к первому входу/выходу блока воспроизведения фраз, а второй вход/выход блока воспроизведения фраз - к входу/выходу акустической обучающей базы, четвертый вход/выход блока обучения подсоединен к первому входу/выходу базы функций конверсии, второй вход/выход базы подсоединен к второму входу/выходу блока конверсии, третий вход/выход блока конверсии подсоединен к второму входу/выходу акустической базы конвертированных аудиоматериалов, а первый вход/выход акустической базы конвертированных аудиоматериалов подсоединен к второму входу/выходу блока отображения результатов конверсии.

Возможен дополнительный вариант выполнения устройства, в котором целесообразно, чтобы в устройство были введены блок авторизации/регистрации и база зарегистрированных пользователей, выход клавиатуры подсоединен к первому входу блока авторизации/регистрации, а выход манипулятора подсоединен к второму входу блока авторизации/регистрации, вход монитора подсоединен к выходу блока авторизации/регистрации, шестой вход/выход блока управления подсоединен к первому входу/выходу блока авторизации/регистрации, а второй вход/выход блока 20 авторизации/регистрации подсоединен к входу/выходу базы зарегистрированных пользователей.

Указанные преимущества заявленного технического решения, а также его особенности поясняются с помощью лучшего варианта выполнения со ссылками на прилагаемые фигуры.

Фиг.1 изображает функциональную схему заявленного устройства;

Фиг.2 - графический интерфейс формы выбора аудиоматериалов;

Фиг.3 - графический интерфейс формы авторизации/регистрации;

Фиг.4 - графический интерфейс формы записи фонового шума;

Фиг.5 - графический интерфейс формы воспроизведения фразы;

Фиг.6 - графический интерфейс формы воспроизведения (записи) прослушанной фразы;

Фиг.7 - подблоки блока записи фраз на фиг.1;

Фиг.8 - блок-схему алгоритма выделения и измерения длительности пауз;

Фиг.9 - блок-схему алгоритма оценки длительности слоговых сегментов;

Фиг.10 - графический интерфейс формы конверсии аудиоматериалов;

Фиг.11 - графический интерфейс формы результатов конверсии. Поскольку способ переозвучивания материалов детально раскрывается при описании работы устройства, то первоначально приводится описание самого устройства.

Устройство (фиг.1) переозвучивания аудиоматериалов содержит блок 1 управления, блок 2 выбора аудиоматериалов, акустическую базу 3 исходных аудиоматериалов, акустическую базу 4 целевого диктора, блок 5 обучения, блок 6 воспроизведения фраз, блок 7 записи фраз, акустическую обучающую базу 8, блок 9 конверсии, базу 10 функции конверсии, акустическую базу 11 конвертированных аудиоматериалов, блок 12 отображения результатов конверсии, монитор 13, клавиатуру 14, манипулятор 15 («мышь»), микрофон 16, устройство 17 воспроизведения звука, выполненное из динамиков 18 и/или наушников 19. Выход клавиатуры 14 подсоединен к первому входу блока 1 управления, к первому входу блока 2 выбора аудиоматериалов, и к первому входу блока 12 отображения результатов конверсии. Выход манипулятора 15 подсоединен ко второму входу блока 1 управления, к второму входу блока 2 выбора аудиоматериалов, и к второму входу блока 12 отображения результатов конверсии. Вход монитора 13 подсоединен к выходу блока 2 выбора аудиоматериалов, к выходу блока 5 обучения, к первому выходу блока 6 воспроизведения фраз, к выходу блока 7 записи фраз, к выходу блока 9 конверсии, к выходу блока 12 отображения результатов конверсии. Вход устройства 17 воспроизведения звука (динамиков 18 и/или наушников 19) подсоединен ко второму выходу блока 6 воспроизведения фраз. Выход микрофона 18 подсоединен к входу блока 9 записи фраз. Первый вход/выход блока 1 управления подсоединен к первому входу/выходу блока 2 выбора аудиоматериалов, второй вход/выход блока 1 управления - к первому входу/выходу акустической базы 4 целевого диктора, третий вход/выход блока 1 управления - к первому входу/выходу блока 5 обучения, четвертый вход/выход блока 1 управления - к первому входу/выходу блока 9 конверсии, пятый вход/выход блока 1 управления - к первому входу/выходу блока 12 отображения результатов конверсии. Второй вход/выход блока 2 выбора аудиоматериалов подсоединен к первому входу/выходу акустической базы 3 исходных аудиоматериалов, а второй вход/выход акустической базы 3 исходных аудиоматериалов подсоединен к четвертому входу/выходу блока 9 конверсии. Второй вход/выход акустической базы 4 целевого диктора подсоединен к первому входу/выходу блока 7 записи фраз, а второй вход/выход блока 7 записи фраз - к третьему входу/выходу блока 5 обучения. Второй вход/выход блока 5 обучения подсоединен к первому входу/выходу блока 6 воспроизведения фраз, а второй вход/выход блока 6 воспроизведения фраз - к входу/выходу акустической обучающей базы 8. Четвертый вход/выход блока 5 обучения подсоединен к первому входу/выходу базы 10 функций конверсии, второй вход/выход базы 10 подсоединен к второму входу/выходу блока 9 конверсии. Третий вход/выход блока 9 конверсии подсоединен к второму входу/выходу акустической базы 11 конвертированных аудиоматериалов, а первый вход/выход акустической базы 11 конвертированных аудиоматериалов подсоединен к второму входу/выходу блока 12 отображения результатов конверсии.

В устройство могут быть введены блок 20 авторизации/регистрации и база 21 зарегистрированных пользователей, выход клавиатуры 14 подсоединен к первому входу блока 20 авторизации/регистрации, а выход манипулятора 15 подсоединен к второму входу блока 20 авторизации/регистрации, вход монитора 13 подсоединен к выходу блока 20 авторизации/регистрации, шестой вход/выход блока 1 управления подсоединен к первому входу/выходу блока 20 авторизации/регистрации, а второй вход/выход блока 20 авторизации/регистрации подсоединен к входу/выходу базы 21 зарегистрированных пользователей.

Устройство может представлять собой удаленный сервер (на фиг.1 показано штрихпунктиром S), на котором установлено специализированное программное обеспечение (СПО) - блоки 1-12, тогда пользователь со своего компьютерного устройства (на фиг.1 условно показано штрих пунктиром С), при помощи монитора 13, клавиатуры 14, манипулятора 15 («мышь») имеет возможность, например, через сеть Интернет связаться с сайтом удаленного сервера S и осуществить запуск его функций, или устройство S посредством сети Интернет может быть установлено непосредственно на персональном компьютере пользователя или установлено на нем при помощи компакт диска (Compact Disc) или DVD диска (Digital Versatile Disc), тогда устройства S и С являются единым целым.

Работает устройство (фиг.1) следующим образом.

С помощью клавиатуры 14 и/или манипулятора 15 пользователь осуществляет запуск блока 1 управления, который с его первого входа/выхода передает на первый вход/выход блока 2 выбора аудиоматериалов команду на начало функционирования устройства. С второго входа/выхода блока 2 на первый вход/выход акустической базы 3 исходных аудиоматериалов направляется запрос на получение списка аудиоматериалов, содержащегося в ней. Аудиоматериалы, предназначенные для переозвучивания, хранятся в акустической базе 3 в виде параметрических аудиофайлов, например, с расширением war, которые могут быть получены и установлены в акустической базе 3 исходных аудиоматериалов при помощи сети Интернет, компакт дисков и т.п.

В акустической базе 11 конвертированных аудиоматериалов, в акустической обучающей базе 8 и в акустической базе 4 целевого диктора аудиоматериалы хранятся в виде WAV файлов (wav от англ. wave «волна»).

Преобразование WAV-аудиофайла в параметрический аудиофайл, например, с расширением war или наоборот осуществляется известным образом модулем параметризации (на фиг.1 не показан).

Параметрический файл с расширением war описывает аудиосигнал в виде параметров модели речеобразования. Модель речеобразования для использования в данном техническом решении состоит из частоты основного тона (1-ый параметр), вектора мгновенных амплитуд (2-ой параметр), вектора мгновенных фаз (3-ий параметр) и шумового остатка (это 4-ый параметр). Указанные параметры характеризуют акустический сигнал (один такой набор соответствует 5 мс) и нужны для выполнения процедуры конверсии. В процессе конверсии данные параметры изменяются с параметров, соответствующих исходному диктору, на параметры, соответствующие целевому диктору (пользователю), после чего из них формируется (синтезируется) выходной сигнал в формате wav.

Отличия параметрического аудиофайла от файла в формате wav заключаются в том, что wav описывает сигнал в виде последовательности временных отсчетов, в то время как параметрический аудиофайл описывает сигнал в виде набора параметров модели речеобразования, которые изменяются в процессе конверсии. Основное преимущество параметрического файла заключается в том, что сигнал в виде последовательности временных отсчетов не может быть непосредственно обработан так, как этого требует задача конверсии (например, нельзя оценить и изменить его тембр). Недостатки параметрического файла перед файлом в формате wav заключаются в том, что если не требуется модифицировать речь, то он требует больше дискового пространства и не обеспечивает полного восстановления исходного сигнала.

Принципиально важным поэтому с точки зрения быстродействия и осуществления конверсии является то, что в акустической базе 3 исходных аудиоматериалов файлы хранятся в виде параметрических фалов с расширением war (или эквивалентным), а в акустической базе 4 целевого диктора, в акустической обучающей базе 8 - в акустической базе 11 конвертированных аудиоматериалов - в виде wav файлов (или эквивалентных).

После обработки запроса с первого входа/выхода акустической базы 3 передается на второй вход/выход блока 2 выбора аудиоматериалов данные о списке аудиоматериалов, которые с выхода блока 2 поступают на монитор 13 пользователя и отображаются на его экране в графическом интерфейсе (фиг.2).

Графический интерфейс, содержащий список аудиоматериалов, может иметь различный внешний вид, форму и инструменты (на фиг.2 показан один из возможных вариантов его выполнения).

Например, форма выбора аудиоматериалов имеет строку 22 фильтрации аудиоматериалов со следующими инструментами:

«Все» - кнопка 23, при нажатии которой с помощью манипулятора 15 в форме выбора аудиоматериалов отображается полный перечень аудиоматериалов из акустической базы 3 исходных аудиоматериалов;

«Новые» - кнопка 24, при нажатии которой в форме выбора аудиоматериалов отображается информация об N (задается в параметрах конфигурации устройства) аудиоматериалах, установленных последними (по времени) в акустическую базу 3 исходных аудиоматериалов;

«Популярные» - кнопка 25, при нажатии которой в форме выбора аудиоматериалов отображается информация об N аудиоматериалах, наиболее часто переозвучиваемых пользователями;

«Возраст» - выпадающий список 26 выбора диапазона возрастов. После выбора значения возраста в выпадающем списке 26 «Возраст», графический интерфейс выбора аудиоматериалов отображает перечень аудиоматериалов, рассчитанных (по интересу) для выбранного возраста;

«Поиск» - поле 27 ввода строки поиска аудиоматериалов. Поиск осуществляется по Наименованию аудиоматериалов (Текстовая строка, ассоциированная с каждым аудиоматериалом: каждому аудиоматериалу соответствует свое наименование. Наименование аудиоматериала храниться в акустической базе 3 исходных аудиоматериалов). После ввода поисковой строки (критерия поиска) в поле «Поиск» форма выбора аудиоматериалов отображает перечень аудиоматериалов, соответствующих введенному критерию поиска. Например, если в поле «Поиск» введено значение «доктор», то в графическом интерфейсе выбора аудиоматериалов отобразятся аудиоматериалы, у которых в названии содержится слово «доктор» («Доктор Айболит», «Доктор Живаго» и т.д.).

Область 28 содержит список аудиоматериалов, отфильтрованных согласно указанных в строке 22 фильтрации критериям. Каждая запись списка отображает информацию, ассоциированную с конкретным аудиоматериалом и хранящуюся в акустической базе 3 исходных аудиоматериалов. Данная информация включает:

Наименование 29 аудиоматериала;

Графическое изображение 30;

Краткое описание 31 содержимого аудиоматериала.

Форма графического интерфейса также содержит:

Кнопку 32 «Выбрать», при нажатии которой блок 2 выбора аудиоматериалов помещает соответствующий аудиоматериал в список аудиоматериалов на переозвучивание - «корзину» (термин «корзина» означает список аудиофайлов, выбранных пользователем для переозвучивания из акустической базы 3). «Корзина» храниться в оперативном запоминающем устройстве (ОЗУ) блока 2. При необходимости блок 1 оперативно извлекает «корзину» из блока 2. По существу блок 1 управления функционально является диспетчером процессов устройства, по аналогии с диспетчером процессов Windows, блок 1 синхронизирует работу остальных блоков 2-12 в соответствии с технологическими операциями, выполняемых ими, и последовательности их функционирования.

Кнопку 33 «Переозвучить», при нажатии которой запускается процесс переозвучивания аудиоматериалов, добавленных в список аудиоматериалов на переозвучивание («корзину»). Если «Корзина» пуста, кнопка «Переозвучить» недоступна.

Пользователь, с помощью клавиатуры 14 и/или манипулятора 15, добавляет в «корзину» при нажатии кнопки 32 «Выбрать» в отображенном на экране монитора 13 списке интересующие его аудиоматериалы.

Блок 2 выбора аудиоматериалов формирует список выбранных пользователем аудиоматериалов следующим образом.

При нажатии инструмента - кнопки 32 «Выбрать» операционная система устройства инициирует событие нажатия кнопки - выбран материал для переозвучивания. Сведения об осуществлении этого события (команда) передаются в блок 2 выбора аудиоматериалов, который перемещает выбранные аудиоматериалы в «корзину» - список, содержащий сведения о выбранных пользователем аудиоматериалах и хранящийся в ОЗУ блока 2).

Точно так же, как описано выше пользователь с помощью клавиатуры 14 и/или манипулятора 15, подает посредством кнопки 33 «Переозвучить» блоку 2 выбора аудиоматериалов команду запуска процесса переозвучивания аудиоматериалов в «корзине».

С первого входа/выхода блока 2 выбора аудиоматериалов передается на первый вход/выход блока 1 управления команда о завершении формирования «корзины», т.е. выбора пользователем, по меньшей мере, одного аудиоматериала для переозвучивания.

Возможно несколько вариантов исполнения устройства переозвучивания аудиоматериалов:

- в виде СПО, установленного на компьютере и функционирующего в однопользовательском режиме. В этом случае авторизация/регистрация не требуется и блок 20 авторизации/регистрации, а также база 21 зарегистрированных пользовател

Способ переозвучивания аудиоматериалов и устройство для его осуществления

Патент 2510954