Динамическая поддержка произношения для обучения распознаванию японской и китайской речи

Патент 2344492

Авторы

Правообладатели

МАЙКРОСОФТ КОРПОРЕЙШН (US)

Классы МПК

G10L15 - Распознавание речи (G10L 17/00 имеет преимущество)

Динамическая поддержка произношения для обучения распознаванию японской и китайской речи

Иллюстрации

Показать все

Изобретение относится к распознаванию образов, конкретно к усовершенствованию для обучения современных систем распознавания речи. Сущность заявленного изобретения состоит в том, что система обучения распознаванию речи предназначена для языков, основанных на системе иероглифического письма Канджи. Система загружает вспомогательное средство произношения для каждого до единого иероглифа в обучающей речи, но, фактически, не отображает иероглиф до тех пор, пока система обучения не обнаружит трудность произношения. Когда трудность произношения идентифицирована, отображают связанное вспомогательное средство (руби) произношения для затруднительного иероглифа. Технический результат- возможность упрощения отображения обучения речи и повышения точности распознавания речи. 2 н.п и 11 з.п. ф-лы, 6 ил.

Реферат

Предшествующий уровень техники

Настоящее изобретение относится к распознаванию образов. Более конкретно, настоящее изобретение относится к усовершенствованию для обучения современных систем распознавания речи.

Системы распознавания речи обычно обучают для того, чтобы расширить их возможность распознавать разговорную речь. Во время процесса обучения обучающее лицо будет читать или каким-либо иным способом предоставлять сравнительно объемное количество речи в систему распознавания речи. Речь, предоставленная в систему, известна и, следовательно, произнесение обучающим лицом известной речи может использоваться для того, чтобы настраивать математические модели, используемые для распознавания речи, чтобы посредством этого повысить точность. Обычно, чем больше объем речи, которая предоставлена системе распознавания речи во время обучения, тем более точным будет последующее распознавание речи.

Таким образом, процесс обучения системы распознавания речи может требовать некоторого времени. Возможность поддерживать комфортные условия для обучающего в процессе обучения акустической модели как можно дольше является очень важной. Для восточных языков, таких как японский или китайский, в этом отношении имеется определенная проблема. Современный японский язык, как китайский язык, с трудом записывается с помощью системы иероглифического письма Kanji (Канджи). Канджи (или китайские символы) является иероглифами, которые представляют звук и значение, что иногда создает проблемы для пользователей в произношении. Разработаны вспомогательные средства произношения, называемые руби («кана» для японского языка, «пин йин» для китайского языка), для того, чтобы обеспечивать обозначение произношения для этой цели. В настоящее время во время обучения распознаванию речи для языков, основанных на системе иероглифического письма Kanji, руби для данного слова отображают над каждым до единого словом, необходимым для обучения речи. Таким образом, одновременное отображение речи для обучающего лица, чтобы читать, и связанного руби может быть сравнительно громоздким и путанным. Кроме того, полагают, что отображение руби для каждого до единого слова, фактически, может раздражать тех обучающих лиц, которые знают, как произносить подавляющее большинство слов в сеансе обучения.

Обеспечение сеанса обучения распознаванию речи, который облегчает произношение китайских и японских букв, в то же время одновременно упрощение отображения обучения и отсутствие оскорбления (раздражения) обучающего лица внесло бы существенный прогресс в обучение распознаванию речи для языков, основанных на системе иероглифического письма Kanji, таких как китайский и японский. Кроме того, полагают, что такая система улучшила бы возможность обучающего лица обучать речи более точно в течение более длительного периода времени, таким образом улучшая общее распознавание речи системы речи. Улучшенное распознавание дополнительно улучшило бы общее впечатление пользователя о системе распознавания речи.

Краткое изложение изобретения

Раскрыта система обучения распознаванию речи для языков, основанных на системе иероглифического письма Канджи. Система загружает вспомогательное средство произношения для каждого до единого иероглифа при обучении речи, но, фактически, не отображает иероглиф до тех пор, пока обучающая система не обнаружит трудность произношения. Когда трудность произношения идентифицирована, отображают связанное вспомогательное средство (руби) произношения для затруднительного иероглифа.

Краткое описание чертежей

Фиг.1 - блок-схема вычислительной среды, в которой может быть применено настоящее изобретение;

фиг.2 - блок-схема альтернативной вычислительной среды, в которой может быть применено настоящее изобретение;

фиг.3 - схематическое изображение пользовательского интерфейса обучения распознаванию речи в соответствии с предшествующим уровнем техники;

фиг.4 - схематическое изображение пользовательского интерфейса обучения распознаванию речи в соответствии с вариантом осуществления настоящего изобретения;

фиг.5 - другое схематическое изображение пользовательского интерфейса обучения распознаванию речи в соответствии с вариантом осуществления настоящего изобретения;

фиг.6 - блок-схема способа выборочной помощи произношению во время обучения речи в соответствии с вариантом осуществления настоящего изобретения.

Подробное описание иллюстративных вариантов осуществления

Фиг.1 иллюстрирует пример подходящей среды 100 вычислительной системы, в которой может быть реализовано изобретение. Среда 100 вычислительной системы является только одним примером подходящей вычислительной среды и не предназначена для того, чтобы предложить какие-либо ограничения относительно рамок объема использования функциональных возможностей изобретения. Также вычислительная среда 100 не должна интерпретироваться как имеющая какую-либо зависимость или требование, относящиеся к любому компоненту или комбинации компонентов, проиллюстрированных в примерной рабочей среде 100.

Изобретение осуществимо с другими многочисленными вычислительными средами или конфигурациями вычислительных систем общего назначения или специализированных вычислительных систем. Примеры известных вычислительных систем, сред и/или конфигураций, которые могут быть подходящими для использования с изобретением, включают в себя, но не ограничиваются ими персональные компьютеры, серверные компьютеры, карманные или портативные устройства, мультипроцессорные системы, системы, основанные на микропроцессорах, телевизионные приставки, программируемую бытовую электронику, сетевые ПК, миникомпьютеры, универсальные компьютеры, телефонные системы, распределенные вычислительные среды, которые включают в себя любые из упомянутых выше систем или устройств, или тому подобные.

Изобретение может быть описано в общем контексте доступных для выполнения с помощью компьютера инструкций, таких как программные модули, выполняемые компьютером. Обычно программные модули включают в себя стандартные подпрограммы, программы, объекты, компоненты, структуры данных и т. д., которые выполняют конкретные задачи или реализуют конкретные абстрактные типы данных. Изобретение также может быть применено в распределенных вычислительных средах, где задачи выполняют с помощью удаленных обрабатывающих устройств, которые связаны через коммуникационную сеть. В распределенной вычислительной среде программные модули могут быть расположены на запоминающем носителе как локального, так и удаленного компьютера, включая запоминающие устройства памяти.

Со ссылкой на фиг.1 примерная система, предназначенная для реализации изобретения, включает в себя вычислительное устройство общего назначения в виде компьютера 110. Компоненты компьютера 110 могут включать в себя, но не ограничиваться ими, центральный процессор 120, системную память 130 и системную шину 121, которая соединяет различные компоненты системы, включая системную память, с процессором 120.

Системная шина 121 может относиться к любому из нескольких типов конструкций шин, включая шину памяти или контроллер памяти, периферийную шину и локальную шину, использующие любую из множества архитектур шин. В качестве примера, а не ограничения, такие архитектуры включают в себя шину промышленной стандартной архитектуры (ISA, ПСА), шину микроканальной архитектуры (МСА, МКА), шину расширенной промышленной стандартной архитектуры (EISA, РПСА), локальную шину Ассоциации по стандартам видеооборудования (VESA) и шину межсоединения периферийных компонентов (PCI, МПК), также известную как шина второго уровня (Mezzanine).

Компьютер 110 обычно включает в себя множество доступных для чтения с помощью компьютера носителей. Доступные для чтения с помощью компьютера носители могут быть любыми имеющимися носителями, к которым можно осуществлять доступ с помощью компьютера 110, и включают в себя как энергозависимые носители, так и энергонезависимые носители, сменные и постоянные носители. В качестве примера, а не ограничения, доступный для чтения с помощью компьютера носитель может содержать носитель компьютерной памяти и коммуникационную среду. Носитель компьютерной памяти включает в себя как энергозависимые носители, так и энергонезависимые носители, сменные и постоянные носители, реализованные с помощью любого способа или технологии, для запоминания информации, такой как доступные для чтения с помощью компьютера инструкции, структуры данных, программные модули или другие данные. Носитель компьютерной памяти включает в себя, но не ограничен ими, RAM (ОЗУ), ROM (ПЗУ), EEPROM (ЭСППЗУ - электрически стираемое программируемое ПЗУ), флэш-память или другую технологию памяти, CD-ROM (ПЗУ на компакт-диске), универсальные цифровые диски (DVD, УЦД) или другие запоминающие устройства на оптическом диске, магнитных кассетах, магнитной ленте, запоминающее устройство на магнитном диске или другие магнитные запоминающие устройства или любые другие носители, которые могут быть использованы для того, чтобы запоминать необходимую информацию, и к которым можно осуществлять доступ с помощью компьютера 110. Коммуникационная среда (носитель) обычно реализует доступные для чтения с помощью компьютера инструкции, структуры данных, программные модули или другие данные в модулированном сигнале данных, таком как сигнал несущей или другом механизме переноса, и включает в себя любой носитель для доставки информации. Понятие "модулированный сигнал данных" означает сигнал, который имеет один или более из его параметров установленными или измененными таким образом, чтобы кодировать информацию в сигнале. В качестве примера, а не ограничения, коммуникационная среда включает в себя проводной носитель, такой как проводная сеть или непосредственное проводное соединение и беспроводной носитель, такой как акустический, РЧ, инфракрасное излучение или другой беспроводной носитель. Комбинации любых из перечисленных выше носителей также должны быть включены в рамки доступных для чтения с помощью компьютера носителей.

Системная память 130 включает в себя запоминающую среду компьютера в виде энергозависимой и/или энергонезависимой памяти, такой как память, предназначенная только для чтения (ROM, ПЗУ) 131 и память произвольного доступа (RAM, ОЗУ) 132. Базовая система ввода/вывода 133 (BIOS), содержащая базовые подпрограммы, которые помогают передавать информацию между элементами внутри компьютера 110, такую как во время запуска, обычно хранится в ПЗУ 131. ОЗУ 132 обычно содержит данные и/или программные модули, которые являются оперативно доступными с помощью процессора 120 и/или являются выполняемыми в текущий момент в процессоре 120. В качестве примера, а не ограничения, фиг.1 иллюстрирует операционную систему 134, прикладные программы 135, другие программные модули и программные данные 137.

Компьютер 110 также может включать в себя другие сменные/постоянные энергозависимые/энергонезависимые компьютерные запоминающие носители. Только в качестве примера фиг.1 иллюстрирует накопитель 141 на жестком диске, который считывает из постоянного энергонезависимого магнитного носителя и записывает на него, накопитель 151 на магнитном диске, который считывает из сменного, энергонезависимого магнитного диска 152 или записывает на него, и накопитель 155 на оптическом диске, который считывает из сменного, энергонезависимого оптического диска 156, такого как ПЗУ на компакт-диске или другой оптический носитель, или записывает на него. Другие сменные/постоянные, энергозависимые/энергонезависимые компьютерные запоминающие носители, которые могут использоваться в примерной операционной среде, включают в себя, но не ограничены ими, кассеты на магнитных лентах, платы флэш-памяти, цифровые универсальные диски, цифровую видеоленту, твердотельное ОЗУ, твердотельное ПЗУ и тому подобные. Накопитель 141 на жестком диске обычно соединен с системной шиной 121 через интерфейс постоянной памяти, такой как интерфейс 140, а накопитель 151 на магнитном диске и накопитель 155 на оптическом диске обычно соединены с системной шиной 121 с помощью интерфейса сменной памяти, такого как интерфейс 150.

Накопители и связанные с ними компьютерные запоминающие носители, обсужденные выше и проиллюстрированные на фиг.1, обеспечивают запоминание доступных для чтения компьютером инструкций, структур данных, программных модулей и других данных для компьютера 110. Например, на фиг.1 накопитель 141 на жестком диске проиллюстрирован как хранящий операционную систему 144, прикладные программы 145, другие программные модули 146 и программные данные 147. Заметим, что эти компоненты могут быть либо теми же, что и операционная система 134, прикладные программы 135, другие программные модули 136 и программные данные, или отличными от них. Операционной системе 144, прикладным программам 145, другим программным модулям 146 и программным данным 147 на фигуре даны разные номера для того, чтобы проиллюстрировать, что они, как минимум, являются разными экземплярами (копиями).

Пользователь может вводить команды и информацию в компьютер 110 через устройства ввода, такие как клавиатура 162, микрофон 163 и указывающее устройство 161, такое как "мышь", шаровой манипулятор или сенсорная панель. Другие устройства ввода (не изображены) могут включать в себя джойстик, игровую панель, антенну спутниковой связи, сканер или тому подобные. Эти и другие устройства ввода часто соединены с процессором 120 через пользовательский входной интерфейс 160, который соединен с системной шиной, но могут быть соединены с помощью другой конструкции интерфейса и системной шины, такой как параллельный порт, игровой порт или универсальная последовательная шина (USB, УПШ). Монитор 191 или другой тип устройства отображения также соединен с системной шиной 121 через интерфейс, такой как видеоинтерфейс 190. Кроме монитора компьютеры также могут включать в себя другие периферийные устройства вывода, такие как громкоговорители 197 и принтер 196, которые могут быть соединены через выходной периферийный интерфейс 190.

Компьютер 110 может работать в сетевой среде с использованием логических соединений с одним или более удаленных компьютеров, таких как удаленный компьютер 180. Удаленный компьютер 180 может быть персональным компьютером, карманным устройством, сервером, маршрутизатором, сетевым ПК, устройством однорангового узла сети или другим обычным узлом сети, и обычно включает в себя многие или все элементы, описанные выше относительно компьютера 110. Логические соединения, изображенные на фиг.1, включают в себя локальную сеть (LAN, ЛС) 171 и глобальную сеть (WAN, ГС) 173, но также могут включать в себя другие сети. Такие сетевые среды являются обычными в учреждениях, в компьютерных сетях предприятий, в интрасетях и в Internet.

При использовании в сетевой среде ЛС компьютер 110 соединен с ЛС 171 через сетевой интерфейс или адаптер 170. При использовании в сетевой среде ГС компьютер 110 обычно включает в себя модем 172 или другое средство для установления связи через ГС 173, такую как Internet. Модем 172, который может быть внутренним или внешним, может быть соединен с системной шиной 121 через пользовательский входной интерфейс 160 или другой подходящий механизм. В сетевой среде программные модули, изображенные относительно компьютера 110, или их части могут запоминаться в запоминающем устройстве удаленной памяти. В качестве примера, а не ограничения, фиг.1 изображает удаленные прикладные программы 185 как находящиеся в удаленном компьютере 180. Понятно, что изображенные сетевые соединения являются примерными и могут использоваться любые другие средства установления линии связи между компьютерами.

Фиг.2 - блок-схема подвижного устройства 200, которое является примерной вычислительной средой. Подвижное устройство 200 включает в себя микропроцессор 202, память 204, компоненты 206 ввода/вывода (Вв/Выв) и интерфейс 208 связи для связи с удаленными компьютерами или другими подвижными устройствами. В одном варианте осуществления вышеупомянутые компоненты соединены для взаимодействия друг с другом через подходящую шину 210.

Память 204 реализована как энергонезависимая электронная память, такая как память произвольного доступа (ПЗУ) с модулем батарейной поддержки (не изображен), таким образом, что информация, запомненная в памяти 204, не теряется, когда выключается общее питание в подвижное устройство 200. Часть памяти 204 предпочтительно выделена как адресуемая память, предназначенная для выполнения программы, в то время как другая часть памяти 204 предпочтительно используется для запоминания, таким образом, чтобы имитировать запоминание на дисководе.

Память 204 включает в себя операционную систему 212, прикладные программы 214, а также объектно-ориентированную память 216. Во время работы операционная система 212 предпочтительно выполняется с помощью процессора 202 из памяти 204. Операционная система 212 в одном предпочтительном варианте осуществления является операционной системой товарной марки WINDOWS СЕ, коммерчески доступной из корпорации Microsoft. Операционная система 212 предпочтительно предназначена для подвижных устройств и реализует средства базы данных, которые могут быть использованы приложениями 214 посредством множества объявленных интерфейсов и способов прикладного программирования. Объекты в хранилище 216 объектов поддерживают с помощью приложений 214 и операционной системы 212, по меньшей мере частично, в ответ на обращения к объявленным интерфейсам и методам прикладного программирования.

Интерфейс 208 связи представляет многочисленные устройства и технологии, которые дают возможность подвижному устройству 200 посылать и принимать информацию. Устройства включают в себя, например, проводные и беспроводные модемы, спутниковые приемники и широковещательные тюнеры для многих устройств. Подвижное устройство также может быть непосредственно соединено с компьютером, чтобы обмениваться с ним данными. В таких случаях интерфейс 208 связи может быть инфракрасным приемопередатчиком или последовательным или параллельным соединением связи, все из которых могут передавать поточную информацию.

Компоненты 206 ввода/вывода включают в себя множество устройств ввода, таких как сенсорный экран, кнопки, ролики и микрофон, а также множество устройств вывода, включая звуковой генератор, вибрационное устройство и дисплей. Устройства, перечисленные выше, представлены в качестве примера и необязательно все должны присутствовать в подвижном устройстве 200. Кроме того, другие устройства ввода/вывода могут быть присоединены к подвижному устройству 200 или связаны с ним в рамках объема настоящего изобретения.

В соответствии с одним аспектом настоящего изобретения используют компонент пользовательского интерфейса, который динамически отображает руби только для слов, в которых обучающее лицо имеет трудность произношения. Этот новый компонент 240 ПИ (пользовательского интерфейса) предоставляет японским и китайским пользователям более дружелюбный и удобный сеанс обучения. Фиг.3 иллюстрирует компонент пользовательского интерфейса в соответствии с предшествующим уровнем техники. В прошлом модуль 230 пользовательского интерфейса "отображение файла подсказки" перед отображением читаемого предложения обучающему лицу подготавливал руби 232 для всех слов, а затем отображал все руби 232 вместе с целым предложением. Затем компонент 230 пользовательского интерфейса согласно предшествующему уровню техники ожидал из извещений от механизма (средства) распознавания речи, чтобы подсвечивать произносимые слова, чтобы показывать продвижение и чтобы повторно создавать контекстно-независимые грамматики, чтобы продолжать адаптацию для остальных предложений, если обнаружены какие-либо отказы или преждевременные длинные паузы.

В соответствии с одним широким аспектом настоящего изобретения модуль 240 пользовательского интерфейса подготавливает руби, но, фактически, не отображает ни один из них. В результате обучающее лицо видит только обыкновенные предложения, когда они начинают каждую новую страницу в обучающем тексте. Это проиллюстрировано на фиг.4. Когда модуль 240 пользовательского интерфейса продолжает предложения, модуль 240 будет отображать руби вблизи затруднительного слова каждый раз, когда наблюдается сложность произношения (отказ распознавания речи или длинная пауза идентификации). Модуль 240 предпочтительно включает в себя часть 244 обучающего текста для отображения некоторого количества обучающего текста. Модуль 240 также включает в себя канал 246 связи, предназначенный для приема извещений от средства (механизма) 248 распознавания речи. В прошлом механизм распознавания речи просто обеспечивал бы указание распознанных слов таким образом, что обучающему лицу соответствующим образом подсказывали продолжать чтение. Однако модуль 240 использует канал связи с механизмом (средство) 248 распознавания, чтобы принимать извещения о трудностях произношения. В ответ модуль 240 выборочно отображает руби только для тех слов, на которых обучающее лицо столкнулось с трудностью произношения. Таким образом, полностью возможно, чтобы отображение не прерывалось или сегментировалось с помощью руби, если обучающее лицо может читать весь текст без трудностей произношения. Полагают, что это обеспечит самое простое и наиболее эффективное отображение обучения речи для обучающих лиц.

Фиг.5 иллюстрирует ситуацию, когда обучающее лицо сталкивается с трудностями произношения во время обучения речи. Модуль 240 пользовательского интерфейса отображает руби когда необходимо. В этой ситуации обучающее лицо не знает правильное произношение слова и, таким образом, уведомление об отказе генерируют с помощью механизма распознавания речи и принимают с помощью модуля 240 пользовательского интерфейса. Модуль 240 пользовательского интерфейса теперь внимательно размещает руби 242 для затруднительного слова на дисплее некоторым способом, который указывает произношение для этого слова и дает возможность этому обучающему лицу продолжать.

Фиг.6 - системная блок-схема этапов способа выборочного отображения руби для обучающего текста речи, основанного на системе иероглифического письма Канджи, в соответствии с аспектом настоящего изобретения. На этапе 300 модуль пользовательского интерфейса сначала не будет отображать никакие руби, хотя на этапе 300 все руби для обучающего текста загружены в системную память. На этапе 302 обнаруживают трудность произношения посредством распознавания речи. Такие трудности включают в себя, например, паузу или неправильное произношение. Однако могут использоваться другие подходящие обнаруживаемые трудности произношения в соответствии с вариантами осуществления настоящего изобретения.

На этапе 302 модуль распознавания речи (не изображен) информирует модуль 240 пользовательского интерфейса об обнаруженной трудности произношения. Затем управление переходит к этапу 304, где модуль пользовательского интерфейса определяет, закончена ли обучающая страница обучающим лицом. Если обучающая страница, фактически, закончена, тогда управление переходит по ветви 306, и обучение для этой страницы выполнено. Однако, как указано ветвью 308, если страница не закончена обучающим лицом, тогда модуль пользовательского интерфейса отобразит руби для следующего слова в обучающем тексте, как указано на этапе 310. Когда руби отображено, управление возвращается к этапу 302, и способ повторяют.

Несмотря на то, что настоящее изобретение описано со ссылкой на конкретные варианты осуществления, специалисты в данной области техники поймут, что могут быть сделаны изменения по форме и в деталях, не выходя за рамки объема и сущности изобретения. Например, несмотря на то, что вспомогательные средства произношения, описанные в настоящей заявке, являются текстовыми (руби), также могут динамически предоставляться другие подходящие вспомогательные средства произношения, такие как звуковые записи правильного произношения.

1. Система обучения распознаванию речи, содержащая:

модуль пользовательского интерфейса для отображения обучающего текста;

средство распознавания речи, которое предназначено для обнаружения трудности произношения затруднительного слова в обучающем тексте и передачи в модуль пользовательского интерфейса по каналу связи извещения об обнаружении трудности произношения в отношении затруднительного слова в обучающем тексте; и

вспомогательное средство произношения модуля пользовательского интерфейса для выборочного отображения на дисплее произношения для затруднительного слова в ответ на прием извещения об обнаружении трудности произношения затруднительного слова в обучающем тексте.

2. Система по п.1, в котором вспомогательное средство произношения модуля пользовательского интерфейса отображается в виде руби.

3. Система по п.1, в котором обучающий текст включает в себя, по меньшей мере, один иероглиф.

4. Система по п.3, в котором обучающий текст написан на китайском языке.

5. Система по п.3, в котором обучающий текст написан на японском языке.

6. Система по п.1, в котором вспомогательное средство произношения отображают над затруднительным словом.

7. Способ обучения посредством системы распознавания речи, причем способ содержит этапы, на которых:

загружают и отображают обучающий текст в виде, по меньшей мере, одного иероглифа.

отображают трудности произношения слов обучающего текста и принимают в модуле пользовательского интерфейса извещение о трудности произношения в отношении затруднительного слова в обучающем тексте; и

выборочно отображают произношение для затруднительного слова в ответ на прием извещения о трудности произношения в отношении затруднительного слова в обучающем тексте.

8. Способ по п.7, в котором выборочное отображение произношения затруднительного слова включает в себя отображение в виде руби.

9. Способ по п.7, в котором обучающий текст написан на китайском языке.

10. Способ по п.7, в котором обучающий текст написан на японском языке.

11. Способ по п.7, в котором извещение принимают из средства распознавания речи.

12. Способ по п.7, в котором трудность произношения включает в себя паузу.

13. Способ по п.7, в котором трудность произношения включает в себя неправильное произношение.