2632424 - Способ и сервер для синтеза речи по тексту

Способ и сервер для синтеза речи по тексту

Иллюстрации

Показать все

Изобретение относится к средствам синтеза речи по тексту. Технический результат заключается в повышении естественности человеческого голоса в синтезированной речи. Акустическая пространственная модель обучается на основе обучающих данных речевых атрибутов с использованием глубокой нейронной сети для определения факторов взаимозависимости между речевыми атрибутами в обучающих данных. Глубокая нейронная сеть создает единственную непрерывную акустическую пространственную модель на основе факторов взаимозависимости. Акустическая пространственная модель, таким образом, учитывает множество взаимозависимых речевых атрибутов и дает возможность моделировать непрерывный спектр взаимозависимых речевых атрибутов. Далее происходит получение текста; получение выбора одного или нескольких речевых атрибутов, причем каждый речевой атрибут обладает весом выбранного атрибута. Текст преобразуется в синтезированную речь с использованием акустической пространственной модели, и синтезированная речь обладает выбранным речевым атрибутом. Синтезированная речь выводится в виде аудио, обладающего выбранным речевым атрибутом. 2 н. и 12 з.п. ф-лы, 4 ил.

Реферат

Область техники

[0001] Настоящее техническое решение относится к способу и системе синтеза речи по тексту. В частности, предложены способ и система для вывода синтезированной речи с одним или несколькими выбранными речевыми атрибутами.

Уровень техники

[0002] В системах преобразования текста в речь (от англ. text-to-speech (TTS) - текст-в-речь) часть текста (или аудио текстовый файл) преобразовывается в аудио-речь (или речевой аудио-файл). Такие системы используются в широком диапазоне приложений, например, в электронных играх, устройствах для чтения электронных книг, устройствах, выполненных с возможностью чтения электронных писем, спутниковой навигации, автоматизированных телефонных системах и автоматизированных системах оповещения. Например, некоторые системы мгновенных сообщений (от англ. instant messaging (IM)) используют синтез TTS для преобразования текстового чата в речь. Это может быть очень удобно для людей, которым трудно читать, людям, ведущим машину, или людям, которые просто не хотят отвлекаться от своего занятия, чтобы переключить внимание на окно IM.

[0003] Проблема с синтезом TTS заключается в том, что синтезированная речь может лишиться таких атрибутов как эмоциональность, речевая выразительность, личные особенности диктора. Часто все синтезированные голоса звучат одинаково. Сейчас существует необходимость в том, чтобы голоса таких систем звучали как естественные человеческие голоса.

[0004] В патенте США No. 8,135,591, опубликованном 13 марта 2012 года, раскрыт способ и система обучения системы преобразования текста в речь для использования в области синтеза речи. Способ включает в себя: создание речевой базы аудио-файлов, включающих в себя аудио-файлы, включающие в себя голоса, связанные с конкретной предметной областью, и обладающие различными просодиями; и обучение системы синтеза речи по тексту, с использованием базы данных, посредством выбора аудио-сегментов с просодией на основе по меньшей мере одного диалогового состояния. Система включает в себя процессор, речевую базу аудио-файлов и модули для осуществления способа.

[0005] В патентной заявке США No. 2013/0262119, опубликованной 3 октября 2013 года, раскрыт способ преобразования текста в речь, выполненный с возможностью выводить речь с выбранным голосом диктора и выбранным атрибутом диктора. Способ включает в себя ввод текста; разделение введенного текста на последовательность акустических единиц; выбор диктора для введенного текста; выбор атрибута диктора для введенного текста; преобразование последовательности акустических единиц в последовательность речевых векторов с использованием акустической модели; и вывод последовательности акустических векторов в виде аудио с выбранным голосом диктора и выбранным атрибутом диктора. Акустическая модель включает в себя первый набор параметров, относящихся к голосу диктора, и второй набор параметров, относящихся к атрибутам диктора, причем эти параметры не перекрываются. Выбор голоса диктора включает в себя выбор параметров из первого набора параметров, а выбор атрибута диктора включает в себя выбор параметров из второго набора параметров. Акустическая модель обучается с использованием способа обучения, адаптивного к кластеру (англ. cluster adaptive training method (CAT)), где диктор и атрибуты диктора адаптируются посредством применения весов к параметрам модели, причем параметры модели были организованы в кластеры, и для каждого кластера было создано дерево принятия решений. Описаны варианты осуществления технического решения, где акустическая модель является скрытой марковской моделью (англ. Hidden Markov Model (НММ)).

[0006] В патенте США No. 8,135,591, опубликованном 11 ноября 2014 года, раскрыт способ и система синтеза речи по тексту с персонализированным голосом. Способ включает в себя получение сопроводительного аудио-ввода речи в форме аудио-коммуникации от диктора, осуществившего ввод, и создание набора данных голоса для диктора, осуществившего ввод. Текстовый ввод получен на том же самом устройстве, что приняло аудио-ввод, и текст синтезируется из текстового ввода в синтезированную речь с использованием набора данных голоса для персонализации синтезированной речи, чтобы синтезированная речь звучала как голос диктора, осуществившего ввод. Кроме того, способ включает в себя анализ текстана выразительность и добавление выразительности в синтезированную речь. Аудио-коммуникация может быть частью видео-коммуникации, и аудио-ввод может иметь связанный визуальный ввод изображения диктора, осуществившего ввод. Синтез по тексту может включать в себя предоставление синтезированного изображения, персонализированного так, чтобы оно выглядело как изображение диктора, осуществившего ввод, с добавленными из визуального ввода выражениями.

Раскрытие

[0007] Задачей предлагаемого технического решения является устранение по меньшей мере некоторых недостатков, присущих известному уровню техники.

[0008] Одним объектом настоящего технического решения является способ синтеза речи по тексту (англ. text-to-speech synthesis (TTS)), выполненный с возможностью выводить синтезированную речь, обладающую выбранным речевым атрибутом. Способ выполняется на вычислительном устройстве. Способ включает в себя следующие этапы обучения акустической пространственной модели: а) получение обучающих текстовых данных и соответствующих обучающих акустических данных, причем соответствующие обучающие акустические данные являются произнесенным представлением обучающих текстовых данных, и соответствующие обучающие акустические данные связаны с одним или несколькими определенными речевыми атрибутами; б) извлечение одной или нескольких фонетических и лингвистических характеристик обучающих текстовых данных; в) извлечение вокодерных характеристик соответствующих обучающих акустических данных, и корреляция вокодерных характеристик с фонетическими и лингвистическими характеристиками обучающих текстовых данных и с одним или несколькими определенными речевыми атрибутами, что, таким образом, создает набор обучающих данных речевых атрибутов; и г) использование глубокой нейронной сети (англ. deep neural network (DNN)) для определения факторов взаимозависимости между речевыми атрибутами в обучающих данных. Глубокая нейронная сеть создает единственную непрерывную акустическую пространственную модель на основе факторов взаимозависимости, причем акустическая пространственная модель, таким образом, учитывает множество взаимозависимых речевых атрибутов и обеспечивает возможность моделировать непрерывный спектр взаимозависимых речевых атрибутов.

[0009] Способ дополнительно включает в себя следующие этапы TTS с использованием акустической пространственной модели: д) получение текста; е) получение выбора речевого атрибута, причем речевой атрибут обладает весом выбранного атрибута; ж) преобразование текста в синтезированную речь с использованием акустической пространственной модели, причем синтезированная речь обладает выбранным речевым атрибутом; и з) вывод синтезированной речи в виде аудио, обладающего выбранным речевым атрибутом.

[0010] В некоторых вариантах осуществления настоящего технического решения на этапе извлечения одной или нескольких фонетических и лингвистических характеристик из обучающих текстовых данных выполняют разделение обучающих текстовых данных на звуки (англ. phones). В некоторых вариантах осуществления настоящего технического решения на этапе извлечения вокодерных характеристик соответствующих обучающих акустических данных выполняют понижение размерности формы волн соответствующих обучающих акустических данных.

[0011] Один или несколько речевых атрибутов могут быть определены во время этапов обучения. Аналогично, один или несколько речевых атрибутов могут быть определены во время этапов преобразования / синтеза речи. Неограничивающие примеры речевых атрибутов включают в себя: эмоции, пол, интонации, акценты, речевые стили, динамику и личные особенности диктора. В некоторых вариантах осуществления настоящего технического решения определяют и выбирают два или несколько речевых атрибута. Каждый выбранный речевой атрибут обладает соответствующим весом выбранного атрибута. В тех вариантах осуществления настоящего технического решения, где выбирают два или несколько речевых атрибута, выведенная синтезированная речь обладает каждым из двух или несколькими выбранными речевыми атрибутами.

[0012] В некоторых вариантах осуществления настоящего технического решения способ дополнительно включает в себя этапы: получения второго текста; получения второго выбранного речевого атрибута, причем второй выбранный речевой атрибут обладает весом второго выбранного атрибута; преобразование второго текста во вторую синтезированную речь с использованием акустической пространственной модели, причем вторая синтезированная речь обладает вторым выбранным речевым атрибутом; и вывода второй синтезированной речи в виде аудио, обладающего вторым выбранным речевым атрибутом.

[0013] Другим объектом настоящего технического решения является сервер. Сервер включает в себя носитель информации; процессор, функционально соединенный с носителем информации и выполненный с возможностью сохранять объекты на носителе информации. Процессор дополнительно выполнен с возможностью осуществлять: а) получение обучающих текстовых данных и соответствующих обучающих акустических данных, причем соответствующие обучающие акустические данные являются произнесенным представлением обучающих текстовых данных, и соответствующие обучающие акустические данные связаны с одним или несколькими определенными речевыми атрибутами; б) извлечение одной или нескольких фонетических и лингвистических характеристик обучающих текстовых данных; в) извлечение вокодерных характеристик соответствующих обучающих акустических данных, и корреляция вокодерных характеристик с фонетическими и лингвистическими характеристиками обучающих текстовых данных и с одним или несколькими определенными речевыми атрибутами, что, таким образом, создает набор обучающих данных речевых атрибутов; и г) использование глубокой нейронной сети (англ. deep neural network (DNN)) для определения факторов взаимозависимости между речевыми атрибутами в обучающих данных, причем глубокая нейронная сеть создает единственную непрерывную акустическую пространственную модель на основе факторов взаимозависимости, причем акустическая пространственная модель, таким образом, учитывает множество взаимозависимых речевых атрибутов и дает возможность моделировать непрерывный спектр взаимозависимых речевых атрибутов.

[0014] Процессор дополнительно выполнен с возможностью осуществлять: д) получение текста; е) получение выбора речевого атрибута, причем речевой атрибут обладает весом выбранного атрибута; ж) преобразование текста в синтезированную речь с использованием акустической пространственной модели, причем синтезированная речь обладает выбранным речевым атрибутом; и з) вывод синтезированной речи в виде аудио, обладающего выбранным речевым атрибутом.

[0015] В контексте настоящего описания «сервер» подразумевает под собой компьютерную программу, работающую на соответствующем оборудовании, которая способна получать запросы (например, от клиентских устройств) по сети и выполнять эти запросы или инициировать выполнение этих запросов. Оборудование может представлять собой один физический компьютер или одну физическую компьютерную систему, но ни то, ни другое не является обязательным для данного технического решения. В контексте настоящего технического решения использование выражения «сервер» не означает, что каждая задача (например, полученные команды или запросы) или какая-либо конкретная задача будет получена, выполнена или инициирована к выполнению одним и тем же сервером (то есть одним и тем же программным обеспечением и/или аппаратным обеспечением); это означает, что любое количество элементов программного обеспечения или аппаратных устройств может быть вовлечено в прием/передачу, выполнение или инициирование выполнения любого запроса или последствия любого запроса, связанного с клиентским устройством, и все это программное и аппаратное обеспечение может быть одним сервером или несколькими серверами, оба варианта включены в выражение «по меньшей мере один сервер».

[0016] В контексте настоящего описания, если конкретно не указано иное, «клиентское устройство» подразумевает под собой электронное устройство, связанное с пользователем и включающее в себя любое аппаратное устройство, способное работать с программным обеспечением, подходящим к решению соответствующей задачи. Таким образом, примерами клиентских устройств (среди прочего) могут служить персональные компьютеры (настольные компьютеры, ноутбуки, нетбуки и т.п.) смартфоны, планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы. Следует иметь в виду, что компьютерное устройство, ведущее себя как клиентское устройство в настоящем контексте, может вести себя как сервер по отношению к другим клиентским устройствам. Использование выражения «клиентское устройство» не исключает возможности использования множества клиентских устройств для получения/отправки, выполнения или инициирования выполнения любой задачи или запроса, или же последствий любой задачи или запроса, или же этапов любого вышеописанного способа.

[0017] В контексте настоящего описания, если конкретно не указано иное, «компьютерное устройство» подразумевает под собой любое электронное устройство, выполненное с возможностью работать с программным обеспечением, подходящим к решению соответствующей задачи. Компьютерное устройство может являться сервером, клиентским устройством и так далее.

[0018] В контексте настоящего описания, если конкретно не указано иное, термин «база данных» подразумевает под собой любой структурированный набор данных, не зависящий от конкретной структуры, программного обеспечения по управлению базой данных, аппаратного обеспечения компьютера, на котором данные хранятся, используются или иным образом оказываются доступными для использования. База данных может находиться на том же оборудовании, выполняющем процесс, на котором хранится или используется информация, хранящаяся в базе данных, или же база данных может находиться на отдельном оборудовании, например, выделенном сервере или множестве серверов.

[0019] В контексте настоящего описания, если конкретно не указано иное, «информация» включает в себя любую информацию любого типа, включая информацию, которую можно хранить в базе данных. Таким образом, информация включает в себя, среди прочего, аудиовизуальные произведения (фотографии, видео, звукозаписи, презентации и т.д.), данные (картографические данные, данные о местоположении, цифровые данные и т.д.), текст (мнения, комментарии, вопросы, сообщения и т.д.), документы, таблицы и т.д.

[0020] В контексте настоящего описания, если конкретно не указано иное, «компонент» подразумевает под собой программное обеспечение (соответствующее конкретному аппаратному контексту), которое является необходимым и достаточным для выполнения конкретной(ых) указанной(ых) функции(й).

[0021] В контексте настоящего описания, если конкретно не указано иное, термин «носитель информации» подразумевает под собой носитель абсолютно любого типа и характера, включая ОЗУ, ПЗУ, диски (компакт диски, DVD-диски, дискеты, жесткие диски и т.д.), USB флеш-накопители, твердотельные накопители, накопители на магнитной ленте и т.д.

[0022] В контексте настоящего описания, если конкретно не указано иное, термин «вокодер» подразумевает под собой аудио-процессор, который анализирует речевой ввод с помощью определения характеристических элементов (например, компонентов частоты, компонентов шума и т.д.) аудио-сигнала. В некоторых случаях вокодер может быть использован для синтеза нового аудио-вывода, на основе существующего аудио-образца, с помощью добавления характеристических элементов к существующему аудио-образцу. Другими словами, вокодер может использовать спектр частот одного аудио-образца для модулирования спектра частот другого аудио-образца. «Вокодерные характеристики» подразумевают под собой характеристические элементы аудио-образца, определенные вокодером, например, характеристики формы волн аудио-образца, такие как частота и т.д.

[0023] В контексте настоящего описания, если конкретно не указано иное, термин «текст» подразумевает под собой последовательность символов и слов, которые эти символы образуют, причем эта последовательность может быть прочитана человеком. Текст может, в общем случае, быть кодированным в машиночитаемые форматы, например, ASCII. Текст в общем случае отличается от бессимвольных закодированных данных, например, графических изображений в форме растровых изображений, и программного кода. Текст может быть в различных формах, например, он может быть написан или напечатан, например, в виде книги или документа, электронного сообщения, текстового сообщения (например, отправленного в системе мгновенных сообщений) и т.д.

[0024] В контексте настоящего описания, если конкретно не указано иное, термин «акустический» подразумевает под собой звуковую энергию в форме волн, обладающих частотой, в общем случае находящейся в диапазоне, слышимом человеком. «Аудио» подразумевает под собой звук в акустическом диапазоне, слышимом человеком. Термины «речь» и «синтезированная речь» в общем случае используются здесь, подразумевая под собой аудио- или акустические (например, озвученные) представления текста. Акустические данные и аудио-данные могут иметь много различных форм, например, он могут быть записями, песнями и т.д. Акустические данные и аудио-данные могут быть сохранены в файле, например, в MP3 файле, который может быть сжат для хранения или более быстрой передачи.

[0025] В контексте настоящего описания, если конкретно не указано иное, выражение «речевой атрибут» подразумевает под собой характеристики голоса, например, эмоцию, речевой стиль, акцент, личные особенности диктора, интонацию, динамику или отличительные черты диктора (пол, возраст и т.д.) Например, речевой атрибут может быть эмоциями злости, грусти, счастья, нейтральным настроением, взволнованным настроением, приказным тоном, мужским полом, женским полом, пожилым возрастом, молодым возрастом, прерывистостью или плавностью, убыстряющимся темпом, быстрым темпом, громкостью, «нежностью» (англ. - soft), конкретным местным или иностранным акцентом и т.д. Возможно множество речевых атрибутов. Кроме того, речевой атрибут может меняться в непрерывном диапазоне, например, промежуточном между «грустью» и «счастьем», или «грустью» и «злостью».

[0026] В контексте настоящего описания, если конкретно не указано иное, выражение «глубокая нейронная сеть» подразумевает под собой систему программ и структур данных, созданных для приближенного моделирования процессов в человеческом мозге. Глубокие нейронные сети в общем случае включают в себя серию алгоритмов, которые могут идентифицировать лежащие в основе отношения и связи в наборе данных, используя процесс, который имитирует работу человеческого мозга. Расположения и веса связей в наборе данных в общем случае определяют вывод. Глубокая нейронная сеть, таким образом, в общем случае открыта для всех данных ввода или параметров одновременно, во всей их полноте, и, следовательно, способна моделировать их взаимозависимость. В отличие от алгоритмов машинного обучения, которые используют деревья принятия решений и, следовательно, имеют свои ограничения, глубокие нейронные сети не ограничены и, следовательно, подходят для моделирования взаимозависимостей.

[0027] В контексте настоящего описания, если конкретно не указано иное, слова «первый», «второй», «третий» и т.д. используются в виде прилагательных исключительно для того, чтобы отличать существительные, к которым они относятся, друг от друга, а не для целей описания какой-либо конкретной передачи данных между этими существительными. Так, например, следует иметь в виду, что использование терминов «первый сервер» и «третий сервер» не подразумевает какого-либо порядка, отнесения к определенному типу, хронологии, иерархии или ранжирования (например) серверов/между серверами, равно как и их использование (само по себе) не предполагает, что некий «второй сервер» обязательно должен существовать в той или иной ситуации. В дальнейшем, как указано здесь в других контекстах, упоминание «первого» элемента и «второго» элемента не исключает возможности того, что это один и тот же фактический реальный элемент. Так, например, в некоторых случаях, «первый» сервер и «второй» сервер могут являться одним и тем же программным и/или аппаратным обеспечением, а в других случаях они могут являться разным программным и/или аппаратным обеспечением.

[0028] Каждый вариант осуществления настоящего технического решения преследует по меньшей мере одну из вышеупомянутых целей и/или объектов. Следует иметь в виду, что некоторые объекты данного технического решения, полученные в результате попыток достичь вышеупомянутой цели, могут удовлетворять и другим целям, отдельно не указанным здесь.

[0029] Дополнительные и/или альтернативные характеристики, аспекты и преимущества вариантов осуществления настоящего технического решения станут очевидными из последующего описания, прилагаемых чертежей и прилагаемой формулы изобретения.

Краткое описание чертежей

[0030] Для лучшего понимания настоящего технического решения, а также других его аспектов и характерных черт, сделана ссылка на следующее описание, которое должно использоваться в сочетании с прилагаемыми чертежами, где:

[0031] На Фиг. 1 представлена принципиальная схема системы, выполненной в соответствии с вариантом осуществления настоящего технического решения, не ограничивающим его объем.

[0032] На Фиг. 2 представлена блок-схема способа, выполняемого в системе, изображенной на Фиг. 1, в соответствии с вариантами осуществления настоящего технического решения, не ограничивающими его объем.

[0033] На Фиг. 3 представлена принципиальная схема обучения акустической пространственной модели с помощью исходного текста и акустических данных в соответствии с вариантами осуществления настоящего технического решения, не ограничивающими его объем.

[0034] На Фиг. 4 представлена принципиальная схема синтеза речи по тексту, выполненного в соответствии с вариантами осуществления настоящего технического решения, не ограничивающими его объем.

Осуществление

[0035] На Фиг. 1 представлена схема системы 100, выполненная в соответствии с вариантами осуществления настоящего технического решения, не ограничивающими его объем. Важно иметь в виду, что нижеследующее описание системы 100 представляет собой описание иллюстративных вариантов осуществления настоящего технического решения. Таким образом, все последующее описание представлено только как описание иллюстративных примеров настоящего технического решения. Это описание не предназначено для определения объема или установления границ настоящего технического решения. Некоторые полезные примеры модификаций системы 100 также могут быть охвачены нижеследующим описанием. Целью этого является также исключительно помощь в понимании, а не определение объема и границ настоящего технического решения. Эти модификации не представляют собой исчерпывающий список, и специалистам в данной области техники будет понятно, что возможны и другие модификации. Кроме того, это не должно интерпретироваться так, что там, где не были изложены примеры модификаций, никакие модификации невозможны, и/или что то, что описано, является единственным вариантом осуществления этого элемента настоящего технического решения. Как будет понятно специалисту в данной области техники, это, скорее всего, не так. Кроме того, следует иметь в виду, что система 100 представляет собой в некоторых конкретных проявлениях достаточно простой вариант осуществления настоящего технического решения, и в подобных случаях этот вариант представлен здесь с целью облегчения понимания. Как будет понятно специалисту в данной области техники, многие варианты осуществления настоящего технического решения будут обладать гораздо большей сложностью.

[0036] Система 100 включает в себя сервер 102. Сервер 102 может представлять собой обычный компьютерный сервер. В примере варианта осуществления настоящего технического решения, сервер 102 может представлять собой сервер Dell™ PowerEdge™, на котором используется операционная система Microsoft™ Windows Server™. Излишне говорить, что сервер 102 может представлять собой любое другое подходящее аппаратное и/или прикладное программное, и/или системное программное обеспечение или их комбинацию. В представленном варианте осуществления настоящего технического решения, не ограничивающем его объем, сервер 102 является одиночным сервером. В других вариантах осуществления настоящего технического решения, не ограничивающих его объем, функциональность сервера 102 может быть разделена и может выполняться с помощью нескольких серверов.

[0037] В некоторых вариантах осуществления настоящего технического решения сервер 102 может находиться под контролем и/или управлением поставщика приложения, которое использует синтез речи по тексту (TTS), например, электронной игры, устройства для чтения электронных книг, устройства, выполненного с возможностью чтения электронных писем, спутниковой навигации, автоматизированной телефонной системы и автоматизированной системы оповещения. В альтернативных вариантах осуществления настоящего технического решения сервер 102 может получать доступ к приложению, использующему синтез TTS, предоставляемый сторонними поставщиками. В альтернативных вариантах осуществления настоящего технического решения сервер 102 может находиться под контролем и/или управлением или может получать доступ к поставщику сервисов TTS и других сервисов, включающих в себя TTS.

[0038] Сервер 102 включает в себя носитель 104 информации, который может использоваться сервером 102. В общем случае носитель 104 информации может быть выполнен как носитель любого характера и вида, включая ОЗУ, ПЗУ, диски (компакт диски, DVD-диски, дискеты, жесткие диски и т.д.), USB флеш-накопители, твердотельные накопители, накопители на магнитной ленте и т.д. а также их комбинацию.

[0039] Варианты осуществления сервера 102 хорошо известны. Таким образом, достаточно отметить, что сервер 102 включает в себя, среди прочего, интерфейс 109 сетевой связи (например, модем, сетевую карту и тому подобное) для двусторонней связи по сети 110 передачи данных; и процессор 108, соединенный с интерфейсом 109 сетевой передачи данных и носителем 104 информации, причем процессор 108 выполнен с возможностью выполнять различные процедуры, включая те, что описаны ниже. С этой целью процессор 108 может иметь доступ к машиночитаемым инструкциям, хранящимся на носителе 104 информации, выполнение которых инициирует реализацию процессором 108 различных описанных здесь процедур.

[0040] В некоторых вариантах осуществления настоящего технического решения, не ограничивающих его объем, сеть 110 передачи данных может представлять собой Интернет. В других вариантах осуществления настоящего технического решения сеть 110 передачи данных может быть реализована иначе - в виде глобальной сети передачи данных, локальной сети передачи данных, частной сети передачи данных и т.п.

[0041] Носитель 104 информации выполнен с возможностью хранить данные, включая машиночитаемые инструкции и другие данные, включая текстовые данные, аудио-данные, акустические данные и так далее. В некоторых вариантах осуществления настоящего технического решения носитель 104 информации может хранить по меньшей мере часть данных в базе данных 106. В других вариантах осуществления настоящего технического решения носитель 104 информации может хранить по меньшей мере часть данных в любом наборе данных, который отличается от базы данных.

[0042] Носитель 104 информации может хранить машиночитаемые инструкции, которые управляют обновлениями, заполнением и модификациям базы данных 106 и/или другими наборами данных. Более конкретно, машиночитаемые инструкции, хранящиеся на носителе 104 информации могут позволить серверу 102 получить (например, обновить) информацию о текстовых образцах и аудио-образцах по сети 110 передачи данных и сохранить информацию о текстовых образцах и аудио-образцах, включая информацию об их фонетических характеристиках, лингвистических характеристиках, вокодерных характеристиках, речевых атрибутах и т.д. в базе данных 106 и/или других наборах данных.

[0043] Данные, сохраненные на носителе 104 информации (и, более конкретно, по меньшей мере частично, в некоторых вариантах осуществления настоящего технического решения, в базе данных 106), могут включать в себя, среди прочего, текстовые образцы и аудио-образцы любого типа. Неограничивающие примеры текстовых образцов и/или аудио-образцов включают в себя книги, статьи, журналы, электронные сообщения, текстовые сообщения, письменные сообщения, голосовые записи, речи, видео игры, графические материалы, озвученный текст, песни, видео и аудиовизуальные работы.

[0044] Машиночитаемые инструкции, сохраненные на носителе 104 информации, при их исполнении могут инициировать получение процессором 108 инструкции на выведение синтезированной речи 440, обладающей выбранным речевым атрибутом 420 (Фиг. 4). Инструкция на выведение синтезированной речи 440, обладающей выбранным речевым атрибутом 420, может быть инструкцией пользователя 121, полученной сервером 102 от клиентского устройства 112, которое будет описано подробнее ниже. Инструкция на выведение синтезированной речи 440, обладающей выбранным речевым атрибутом 420, может быть инструкцией клиентского устройства 112, полученной сервером 102 от клиентского устройства 112. Например, в ответ на запрос пользователя 121 клиентскому устройству 112 прочесть текстовое сообщение вслух, клиентское устройство 112 может отправить серверу 102 соответствующий запрос на предоставление пользователю 121, через модуль 118 вывода и аудио-вывод 140 клиентского устройства 112, вывода входящего текстового сообщения в виде синтезированной речи 440, обладающей выбранным речевым атрибутом 420.

[0045] Машиночитаемые инструкции, сохраненные на носителе 104 информации, при их исполнении могут дополнительно инициировать преобразование процессором 108 текста в синтезированную речь 440, с использованием акустической пространственной модели 340, причем синтезированная речь 440 обладает выбранным речевым атрибутом 420. В общем случае, процесс преобразования может быть разбит на две части: процесс обучения, в котором создается акустическая пространственная модель 340 (в общих чертах изображено на Фиг. 3), и «рабочий» процесс, в котором акустическая пространственная модель 340 используется для преобразования полученного текста 410 в синтезированную речь 440, обладающую выбранным речевым атрибутом 420 (в общих чертах изображено на Фиг. 4). Каждая из этих частей будет рассмотрена по очереди.

[0046] В процессе обучения машиночитаемые инструкции, хранящиеся на носителе 104 информации при их исполнении могут инициировать получение процессором 108 обучающих текстовых данных 312 и соответствующих обучающих акустических данных 322. Форма обучающих текстовых данных 312 никак конкретно не ограничена и может быть, например, частью написанного или отпечатанного текста 410 любого типа, например, книгой, статьей, электронным сообщением, текстовым сообщением 410 и так далее. В некоторых вариантах осуществления настоящего технического решения обучающие текстовые данные 312 получены с использованием текстового ввода 130 и модуля 113 ввода. В альтернативных вариантах осуществления настоящего технического решения обучающие текстовые данные 312 получены с использованием второго модуля (не изображен) ввода в сервере (102). Обучающие текстовые данные 312 могут быть получены от клиента электронной почты, устройства чтения электронных книг, системы обмена сообщениями, веб-браузера, или от другого приложения, включающего в себя текст. Альтернативно, текстовые данные 312 могут быть получены от операционной системы компьютерного устройства (например, сервера 102 или клиентского устройства 112). Форма обучающих акустических данных 322 также никак конкретно не ограничена, и может представлять собой, например, запись человека, читающего вслух обучающие текстовые данные 312, записанную речь, пьесу, песню, видео и так далее.

[0047] Обучающие акустические данные 322 являются озвученным (например, аудио) представлением обучающих текстовых данных 312 и связаны с одним или несколькими определенными речевыми атрибутами, причем один или несколько определенных речевых атрибутов описывает характеристики обучающих акустических данных 322. Один или несколько определенных речевых атрибутов никак конкретно не ограничены и могут соответствовать, например, эмоции (злость, счастье, грусть, и т.д.), полу диктора, акценту, интонации, динамике (громкости, «нежности» и т.д.), личным особенностям диктора и т.д. Обучающие акустические данные 322 могут быть получены как любой тип аудио-образца, например, как запись, MP3 и т.д. В некоторых вариантах осуществления настоящего технического решения обучающие акустические данные 322 получены с использованием аудио-ввода (не изображен) и модуля 113 ввода. В альтернативных вариантах осуществления настоящего технического решения обучающие акустические данные 322 получены с использованием второго модуля (не изображен) ввода в сервере (102). Обучающие акустические данные 322 могут быть получены от приложения, включающего в себя аудио-контент. Альтернативно, акустические данные 322 могут быть получены от операционной системы компьютерного устройства (например, сервера 102 или клиентского устройства 112).

[0048] Обучающие текстовые данные 312 и обучающие акустические данные 322 могут происходить из различных источников. Например, обучающие текстовые и/или акустические данные могут быть извлечены из сообщений электронной почты, загруженных с удаленного сервера, и так далее. В некоторых неограничивающих вариантах осуществления настоящего технического решения обучающие текстовые и/или акустические данные сохраняются на носителе 104 информации, например, в базе данных 106. В альтернативных неограничивающих вариантах осуществления настоящего технического решения обучающие текстовые и/или акустические данные получены (например, загружены) сервером 102 с клиентского устройства 112 по сети 110 передачи данных.В других вариантах осуществления настоящего технического решения обучающие текстовые и/или акустические данные извлечены (например, загружены) с внешнего источника (не изображен) по сети 110 передачи данных. В некоторых вариантах осуществления настоящего технического решения обучающие текстовые данные 312 введены пользователем 121 с использованием текстового ввода 130 и модуля 113 ввода. Аналогично, обучающие акустические данные 322 могут быть введены пользователем 121 с помощью аудио-ввода (не изображен), соединенного с модулем 113 ввода.

[0049] В таком варианте осуществления настоящего технического решения сервер 102 запрашивает обучающие текстовые и/или акустические данные у внешнего источника (не изображен), который может являться, например, поставщиком подобных данных. Следует ясно понимать, что источником обучающих текстовых и/или акустических данных может являться любой подходящий источник, например, любое устройство, которое оптически сканирует изображения и преобразует их в цифровые изображения, любое устройство, которое записывает аудио-образцы, и так далее.

[0050] Могут быть получены один или несколько наборов обучающих текстовых данных 312. В некоторых неограничивающих вариантах осуществления могут быть получены два или несколько наборов обучающих текстовых данных 312. В некоторых неограничивающих вариантах осуществления, два или несколько соответствующих наборов обучающих акустических данных 322 могут быть получены для каждого набора полученных обучающих текстовых данных 312, причем каждый набор обучающих акустических данных 322 связан с одним или несколькими определенными речевыми

Способ и сервер для синтеза речи по тексту

Патент 2632424