2477518 - Архитектура распознавания для генерации азиатских иероглифов

Архитектура распознавания для генерации азиатских иероглифов

Иллюстрации

Показать все

Изобретение относится к распознаванию речи на азиатском языке. Техническим результатом является облегчение ввода иероглифов, когда движок распознавания речи возвращает неверные иероглифы при диктовке, и, соответственно, повышение точности распознавания иероглифов при речевом вводе. Система перевода включает в себя компонент распознавания речи и компонент орфографии/исправления. Компонент распознавания речи выполнен с возможностью переключения между множеством систем письма на основе речевого ввода. Режим проверки орфографии запускают в ответ на прием речевого ввода, причем режим проверки орфографии предназначен для исправления неверного написания результатов распознавания или для генерации новых слов. Исправление получают с использованием речевого и/или мануального выбора и входа. Слова, исправленные с использованием режима проверки орфографии, исправляются как единое целое и рассматриваются как слово. Режим проверки орфографии применяется к языкам, по меньшей мере, азиатского континента, например упрощенному китайскому, традиционному китайскому и/или другим азиатским языкам, например японскому. 3 н. и 15 з.п. ф-лы, 30 ил.

Реферат

Уровень техники

Движки распознавания речи (SR) для английского языка нуждаются в мастерах орфографии, в основном вследствие неспособности включения всех или, по существу, всех правильных существительных, в частности имен, в лексикон движка. С другой стороны, набор китайских иероглифов можно считать замкнутым, поскольку все иероглифы включены в лексикон. Не нужно думать или беспокоиться о несловарных иероглифах. Однако основные проблемы в движке SR китайского языка состоят в обобществлении омофона по многим разным иероглифам. Всего в китайском языке существует около 47,000 действительных китайских иероглифов, но существует лишь около 1,600 разных, но фиксированных слогов. Это означает, что, если слоги равномерно распределены по разным иероглифам, каждый слог может соответствовать примерно 23-31 разным иероглифам, многие из которых могут иметь разный смысл.

Фиксированные слоги это набор слогов, связанных с действительными китайскими иероглифами. Например, слог “chu” соответствует иероглифам наподобие (/ch uh/ в пиньине), но не существует “chiu”, который соответствует каким-либо действительным иероглифам. Вследствие ограниченного количества фиксированных слогов существует значительное количество иероглифов, которые имеют одинаковое произношение. Ниже приведен один пример пятидесяти четырех иероглифов, имеющих одинаковое произношение /l ih/; при этом список для /l ih/ все еще не полон:

Следовательно, когда движку не удается правильно распознать слово, пользователи могут безуспешно пытаться исправить его с помощью списка альтернатив, или пытаться повторно произносить нужное слово для распознавания, в силу следующих проблем.

Во-первых, если голосовой аудиосигнал неверно обрабатывается акустической моделью (AM), или AM имеет боле низкий показатель релевантности для нужного слова, чем другие слова, тогда как другие слова имеют более высокие показатели языковой модели (LM), то, независимо от того сколько раз пользователь произносит слово, выход может не быть верным словом из списка альтернатив.

Во-вторых, предположим, что голосовой аудиосигнал правильно обрабатывается AM, но если нужный иероглиф находится в списке, где количество альтернативных элементов превышено и не представлено пользователю, то пользователи не смогут получить слово, не напечатав его. Это весьма вероятно в китайском языке, особенно, когда иероглифы также являются омофонами цифр или чисел, где движок SR также отображает разные форматы результатов ITN (Inversed-Text Normalization, например, нормализующей “twelve” в “12”) для чисел.

В-третьих, хотя для движка SR китайского языка не нужно рассматривать несловарные иероглифы, пользователи могут создавать новые слова, комбинируя разные иероглифы. Помимо новых слов, не существует пробелов между словами для указания границы слова. Для определения границ слова азиатские языки (по меньшей мере, связанные с упрощенным китайским (CHS), традиционным китайским (CHT) и японским (JPN)) требуют разбиения на слова в движке или процессе IME (редактор способов ввода). Следовательно, когда пользователь диктует движку SR китайского языка нужное существительное, например имя собственное, которое, скорее всего, является неизвестным словом, весьма маловероятно, что SR правильно обработает имя, если имя не является распространенным и не входит в обучающие данные. Даже если AM и LM работают безукоризненно, пользователи все же могут принимать выходное имя в виде иероглифов, например (упор делается на второй иероглиф, где первый иероглиф это фамилия, а второй иероглиф - имя), что отличается от желаемого выхода вследствие вышеописанной проблемы омофонов, т.е. и являются омофонами, но используются как имена других людей. Это также справедливо для человеческого восприятия при разговоре на китайском, где первый человек называет второму свое имя, и второму человеку приходится спрашивать первого, какие именно иероглифы используются в имени.

Наконец, когда пользователи пытаются исправить иероглифы в слове в процессе SR, существует возможность получить правильный выход, повторно выбирая иероглиф(ы) и/или произнесение иероглифа(ов), чтобы определить, появился ли наконец верный иероглиф в списке альтернатив. Зачастую, когда иероглифы не имеют большого количества омофонов, можно получить верное слово для замены. Однако такого рода исправление производится на основе отдельных иероглифов. Исправление не будет восприниматься в SR, поскольку SR изучает слова, а не отдельные иероглифы. Следовательно, если пользователь хочет использовать иероглиф в документе несколько раз, ему придется повторять процесс исправление process каждый раз при произнесении этого иероглифа. Таким образом, традиционные процессы распознавания громоздки и неэффективны.

Сущность изобретения

Ниже, в упрощенном виде, представлена сводка одного или нескольких вариантов осуществления для обеспечения понимания сущности таких вариантов осуществления. Эта сводка не является обширным обзором и не призвана ни идентифицировать ключевые или критические элементы, ни ограничивать объем вариантов осуществления. Ее единственной целью является представление некоторых концепций одного или нескольких вариантов осуществления в упрощенной форме в качестве прелюдии к более подробному описанию, которое приведено ниже.

Раскрытая архитектура обеспечивает режим проверки орфографии для алгоритмов распознавания азиатской речи. Это облегчает определение границ нового слова и добавление нового слова в лексикон. Следовательно, на основании режима проверки орфографии, исправление слова происходит только один раз, в отличие от традиционных систем, где исправление слова происходит несколько раз.

В частности, применительно к китайским иероглифам, режим проверки орфографии облегчает ввод китайских иероглифов, когда движок распознавания речи возвращает неверные иероглифы при диктовке. Слова, исправленные с использованием режима проверки орфографии, исправляются как единое целое и рассматриваются как слово. Дело в том, что, в отличие от английских слов, например, где границы слова легко распознаются, границы в азиатских языках неочевидны. Таким образом, ввод китайских иероглифов (в этом примере) при работе в режиме проверки орфографии сокращает или исключает неверное распознавание слова при последующей обработке распознавания.

Раскрытый режим проверки орфографии применяется к упрощенному китайскому, традиционному китайскому и/или другим азиатским языкам, например японскому, где иероглифам соответствуют определенные звуки.

Для решения вышеозначенных и родственных задач некоторые иллюстративные аспекты описаны здесь в связи с нижеследующим описанием и прилагаемыми чертежами. Однако эти аспекты представляют лишь некоторые возможные подходы к применению раскрытых здесь принципов и призваны охватывать все подобные аспекты и их эквиваленты. Другие преимущества и признаки новизны следуют из нижеследующего подробного описания, приведенного совместно с чертежами.

Краткое описание чертежей

Фиг. 1 - компьютерная система перевода.

Фиг. 2 - система, которая облегчает обобществление лексикона на основании новых слов, изученных в процессах орфографии/исправления.

Фиг. 3 - система, которая применяет компонент вывода, который облегчает автоматизацию одной или нескольких функций.

Фиг. 4 - один или несколько способов, которые могут применяться раскрытой здесь архитектурой орфографии/исправления.

Фиг. 5 - система, которая применяет произношение слова как способ указания иероглифа.

Фиг. 6 - скриншот диалогового окна орфографии, представляемого, когда пользователю нужны на выходе азиатские иероглифы/слова.

Фиг. 7 - скриншот диалогового окна орфографии, представляемого, когда пользователю нужны на выходе английские слова.

Фиг. 8 - скриншот диалогового окна орфографии, представляемого для обработки команды «омофон».

Фиг. 9 - скриншот диалогового окна режима проверки орфографии, представляемого в ответ на голосовую команду для исправления омофона.

Фиг. 10 - окно, где неверно распознанное слово исправлено, и окно списка очищено в ответ на голосовой выбор индекса.

Фиг. 11 - скриншот диалогового окна орфографии, представляемого для голосового произношения.

Фиг. 12 - скриншот диалогового окна орфографии, представляемого для исправления голосового произношения.

Фиг. 13 - скриншот диалогового окна орфографии, представляемого с пересмотренным окном списка омофонов на основании исправления голосового произношения.

Фиг. 14 - скриншот диалогового окна орфографии, представляемого, когда неверно распознанное слово исправлено, и курсор перемещается к следующему иероглифу для обработки голосового произношения, что позволяет пользователю, при необходимости, продолжать исправление на следующем иероглифе.

Фиг. 15 - система, которая применяет позитивный, нейтральный и негативный смыслы для взвешивания иероглифа в соответствии со вторым способом.

Фиг. 16 - система, которая применяет разложение на слова путем голосового ввода подкомпонентов нужного иероглифа в соответствии с третьим способом.

Фиг. 17 - скриншот диалогового окна орфографии, представляемого для распознавания и обработки японского языка путем голосового/клавиатурного ввода хираганы для получения кандзи.

Фиг. 18 - скриншот диалогового окна орфографии, представляемого для распознавания и обработки японского языка, связанного с получением ромадзи.

Фиг. 19 - способ распознавания речи в соответствии с раскрытой архитектурой.

Фиг. 20 - способ исправления результатов распознавания с использованием мастера орфографии.

Фиг. 21 - способ преобразования фонетического произношения в иероглиф.

Фиг. 22 - способ использования команд разделения в азиатском и английском языках для обработки исправления.

Фиг. 23 - способ использования команд «омофон» в мастере орфографии азиатского языка.

Фиг. 24 - способ применения весовых значений к смыслам слова.

Фиг. 25 - способ обобществления обновленного лексикона.

Фиг. 26 - способ использования разложения на иероглифы для исправления орфографических ошибок.

Фиг. 27A и 27B - способ обработки исправления на основании множественных способов для исправления орфографических ошибок.

Фиг. 28 - блок-схема вычислительной системы, способной осуществлять обработку исправления в соответствии с раскрытой архитектурой.

Фиг. 29 - блок-схема иллюстративной вычислительной среды для обработки исправления в соответствии с раскрытой архитектурой.

ПОДРОБНОЕ ОПИСАНИЕ

Здесь раскрыта архитектура, которая обеспечивает алгоритмы, данные и, по меньшей мере, пользовательский интерфейс (UI), который включает в себя режим проверки орфографии для распознавания азиатской речи и получения новых слов/иероглифов или исправления неверно распознанных иероглифов.

Теперь обратимся к чертежам, снабженным сквозной системой обозначений. В нижеследующем описании, в целях объяснения, многочисленные конкретные детали приведены для обеспечения полного понимания изобретения. Однако очевидно, что новые варианты осуществления можно осуществлять на практике без этих конкретных деталей. В других случаях, общеизвестные структуры и устройства показаны в виде блок-схемы для облегчения их описания.

На фиг. 1 показана компьютерная система перевода 100. Система 100 включает в себя компонент 102 распознавания речи, который принимает голосовой или речевой ввод на азиатском языке и осуществляет обработку распознавания на входном сигнале. В ряде случаев, процесс распознавания будет выводить неверные азиатские иероглифы и/или слова. Соответственно, система 100 дополнительно включает в себя компонент исправления 104 для генерации верного иероглифа и/или слова на основании вывода неверного азиатского иероглифа/слова и/или нового азиатского иероглифа/слова компонентом распознавания речи.

Система 100 будет описана более подробно, по меньшей мере, в контексте UI для взаимодействия с пользователем, UI диалогового окна орфографии с разделением для извлечения английских и азиатских слов, и также для обеспечения и выполнения разных команд для запуска и взаимодействия с окнами UI, и пользовательского режима проверки орфографии для захвата новых слов и определения границ слов. Система 100 также помогает пользователю получать иероглифы путем голосового ввода с использованием произношения, слов, содержащих нужные иероглифы, подкомпонентов нужных иероглифов и выбора из списка омофонов, и затем выбирает нужный иероглиф из преобразованных кандидатов. Предусмотрены хранилища данных, которые содержат данные, которые хранят информацию фонетического расстояния фонем в фонетической системе, и в таблице матрицы неточностей. Эта информация помогает пользователю быстро и легко исправлять неверно распознанное произношение, тем самым снижая вероятность того, что система будет совершать одни и те же ошибки.

Предусмотрено хранилище данных, которое содержит данные, которые содержат частоту использования каждого иероглифа и также возможные категории, в которых может существовать иероглиф, например имена собственные, названия компаний и т.д. Таким образом, при обнаружении ключевого слова активируется соответствующая категория, и иероглифы, используемые для этой категории, продвигаются выше по списку. Чтение ключевых иероглифов в слове и перенастройка списка иероглифов так, чтобы нужный иероглиф оказывался вверху списка для оставшегося исправления, также составляют часть раскрытых здесь способов.

Система 100 облегчает получение иероглифов посредством голосового ввода с использованием слов, которые содержат нужный иероглиф, а также получения иероглифов путем проверки подкомпонента иероглифа. UI системы 100 обрабатывает команды «омофон» для получения верных слов и для избавления от необходимости повторного ввода произношения. Пользователи также могут обобществлять лексикон новых слов и посылать обратно новые слова для оценивания и обновления другого лексикона. Кроме того, другие речевые вводы на азиатских языках (например, японском) могут переключаться между (например, четырьмя) разными системами письма.

На фиг. 2 показана система 200, которая облегчает обобществление лексикона на основании новых слов, изученных в процессах исправления. Система 200 включает в себя компонент 102 распознавания речи и компонент 104 орфографии/исправления, показанный на фиг. 1. Однако выход компонента 104 исправления поступает обратно на компонент распознавания 102 для обновления внутреннего лексикона 202. Заметим, однако, что лексикон 202 может быть внешним по отношению к компоненту распознавания 102.

Система 200 также может включать в себя языковую модель (LM) 204 и акустическую модель (AM) 206, как в традиционных системах распознавания. LM 204 (или файл грамматики) содержит набор вероятностей последовательностей слов. AM 206 характеризует акустическое поведение слов в виде фонем на основании голосовых данных и их транскрипций. AM 206 моделирует звуковые единицы языка на основании векторов признаков, генерируемых из речевого аудиосигнала. Компонент распознавания 102 обрабатывает вход, принятый от LM 204 и AM 206, для обеспечения наилучшего выхода. Однако, как указано, в сложных приложениях, например, для обработки распознавания азиатского языка, обеспечение правильного результата с последующим выявлением неверного результата может быть трудной задачей. Таким образом, при достижении исправленного результата, предпочтительно обновлять (или исправлять) лексикон 202. Эти обновления могут играть важную роль в таких сложных приложениях. Соответственно, при наличии соответствующих проверок безопасности, компонент обобществления 208 облегчает обобществление информации, например лексикона 202, с другими пользователями или системами и/или поставщиком лексикона для распространения нового массива лексикона. Это будет более подробно описано ниже.

На фиг. 3 показана система 300, которая применяет компонент вывода 302, который облегчает автоматизацию одной или нескольких функций. Например, выводы можно делать на основании не только пользователя (например, профилей пользователей), но и речи и действий по исправлению, которые изучает и о которых рассуждает компонент 302. Предположим, что пользователь гораздо лучше знает английский, чем китайский, и что с течением времени компонент вывода 302 узнаёт, что пользователь обычно сталкивается с ошибками распознавания речи, связанными с определенными китайскими иероглифами. Соответственно, компонент 302 может автоматизировать функции UI, чтобы пользователь не делал одни и те же ошибки, представляя интерфейс режима проверки орфографии вместо интерфейса произношения для более эффективной помощи пользователю.

В другом примере, он может узнать, что пользователь обычно предпочитает использовать режим проверки орфографии больше, чем любые другие предусмотренные режимы. Таким образом, при необходимости выбора способа, подлежащего исправлению, компонент 302 будет автоматически представлять UI режима проверки орфографии. Это всего лишь несколько примеров многочисленных выводов, которые можно делать на основании обучения и рассуждения не только о взаимодействиях с пользователем, но и о системных процессах, которые имеют тенденцию повторно происходить, на основании определенных входных критериев.

Компонент вывода 302 может применять машинное обучение и рассуждение (MLR), например, для мониторинга, анализа, вычисления и применения результатов обучения и рассуждения. Заявленная архитектура (например, в связи с выбором) может применять различные схемы на основе MLR для осуществления различных своих аспектов. Например, процесс определения, какой иероглиф или иероглиф в слове следует выбрать и представить, можно облегчить посредством системы и процесса автоматических классификаторов.

Классификатор - это функция, отображающая входной вектор атрибутов, x=(x1, x2, x3, x4, xn), в метку класса class(x). Классификатор также может выводить уверенность в том, что вход принадлежит классу, т.е. f(x)=confidence (class(x)). Такая классификация может применять вероятностный и/или другой статистический анализ (например, анализ, разложимый на утилиты и стоимости анализа для максимизации предполагаемого значения для одного или нескольких людей) для прогнозирования или вывода действия, в отношении которого пользователь желает, чтобы оно осуществлялось автоматически.

Используемый здесь, термин “выводить” или “вывод” относится, в общем случае, к процессу рассуждения о состояниях системы, среды и/или пользователя или их вывода на основании совокупности наблюдений, сделанных на основе событий и/или данных. Вывод можно применять для идентификации конкретного контекста или действия или, например, для генерации распределения вероятности по состояниям. Вывод может носить вероятностный характер, т.е. опираться на вычисление распределения вероятности по нужным состояниям на основании изучения данных и событий. Вывод также может относиться к методам, применяемым для составления событий более высокого уровня из множества событий и/или данных. Такой вывод приводит к построению новых событий или действий из множества наблюдаемых событий и/или сохраненных данных событий, в зависимости от того, коррелируют ли события в тесной временной близости, и от того, приходят ли события и данные из одного или нескольких источников событий и данных.

Метод опорных векторов (SVM) является примером классификатора, который можно применять. SVM осуществляется путем нахождения гиперповерхности в пространстве возможных входов, которая оптимальным образом отделяет инициирующие входные события от неинициирующих событий. Интуитивно, это дает правильную классификацию для данных тестирования, которые близки к обучающим данным, но не идентичны им. Можно применять и другие подходы к классификации направленных и ненаправленных моделей, включая, например, различные формы статистической регрессии, наивные байесовы классификаторы, байесовы сети, деревья решений, нейронные сети, модели на основе нечеткой логики и другие модели статистической классификации, представляющие разные картины независимости. Используемая здесь классификация также включает в себя способы, используемые для назначения ранга и/или приоритета.

Как следует из описания изобретения, заявленная архитектура может применять классификаторы, которые тренируются в явном виде (например, через общие обучающие данные), а также тренируются в неявном виде (например, путем наблюдения поведения пользователя, принимающего внешнюю информацию). Например, SVM конфигурируются на фазе обучения или тренировки в конструкторе классификаторов и модуле выбора признаков. Таким образом, классификатор(ы) можно применять для автоматического изучения и осуществления ряда функций согласно заранее определенным критериям.

Компонент вывода 302 может взаимодействовать с компонентом распознавания 102, компонентом исправления 104, лексиконом 202, LM 204 (соединение не показано), AM 206 и компонентом обобществления 208, например, для мониторинга пользовательских и системных процессов и получения данных. Использование компонента вывода 302 в системе 300 является всего лишь одним примером разнообразных путей применения и соединения вывода (умозаключения). Другими словами, компонент вывода 302 может применяться в подробных иллюстрациях системных компонентов на последующих фигурах.

На фиг. 4 показаны один или несколько способов 400, которые можно применять посредством раскрытой здесь архитектуры исправления. Например, компонент 104 орфографии/исправления может включать в себя способ 402 произношения слова, способ 404 «иероглиф в слове» и способ 406 разложения на иероглифы. Эти способы 400 обеспечивают, по меньшей мере, способы задания иероглифа. Способы задания иероглифа включают в себя задание информации о том, как произносится слово, с помощью локальных фонетических символов (например, способ произношения 402). Способ 404 «иероглиф в слове» включает в себя задание информации о том, как пишется иероглиф, путем задания слов, в которых существует иероглиф. Например, если пользователь указывает , пользователь может сказать “”. Это аналогично использованию “a, как в a pple” в английском языке.

Задание информации о том, как составляется иероглиф (или как его можно разложить), обеспечивается способом разложения 406. Другими словами, пользователь может произносить составные части иероглифа. Например, если пользователь хочет указать , пользователь может сказать “”. Все три способа (402, 404, и 406) более подробно описаны ниже.

Первый способ, способ произношения 402, можно обеспечить с использованием мастера орфографии, тогда как способы 404 и 406 можно напрямую применять без мастера. Однако следует понимать, что все способы (402, 404 и 406) можно реализовать с использованием мастера, чтобы пользователи могли выбирать один из способов для исправления слова. Также следует понимать, что использование термина “мастер” не следует рассматривать в качестве какого-либо ограничения. Другими словами, может быть представлен ряд диалогов, посвященных небольшой части общего процесса, а не тому, что обычно рассматривает мастер, ведущий пользователя по процессу.

Способ произношения 402 используется, когда пользователи пытаются печатать китайские иероглифы или слова. Использование произношений для азиатских иероглифов широко распространено в некоторых азиатских странах. Однако можно использовать и другие способы ввода вместо произношения в OS с традиционным китайским письмом. С учетом удобства, обеспечиваемого произношением, многие пользователи будут использовать произношение при печатании иероглифов с помощью клавиатуры. Это особенно актуально для пользователей в Китае при использовании OS с упрощенным китайским письмом, где пиньинь, локальная система произношения, используется для печатания иероглифов с помощью клавиатуры. Тайваньские пользователи (использующие традиционный китайский) напечатают и пробел для первого аудио тона для получения списка слов, которые используют это произношение, например , и выберут одно из слов, например второе слово . Напротив, пользователи в Китае могут напечатать “xun” получить список слов, например , и выбрать одно из слов, например второе слово .

Однако печатание занимает время и может быть сопряжено с ошибками. Это требует особенно большого времени и труда для тайваньских пользователей, поскольку фонетическая система традиционного китайского отличается от набора из двадцати шести букв (для пиньиня), используемых в континентальном китайском языке. Например, фонетические символы выглядят как , и первый символ можно рассматривать как звук /b/, но задается клавишей 1 (цифра) и ! (восклицательный знак), а не клавишей клавиатуры для буквы b. Таким образом, пользователи должны выучить, где на клавиатуре располагается каждый символ. С другой стороны, пиньинь, используемый в континентальном Китае, состоит из двадцати шести английских букв, что не требует изучения другой раскладки клавиатуры, если пользователи знакомы с расположением двадцати шести английских букв на клавиатуре.

Мастер орфографии преодолевает это ограничение, позволяя пользователю получать китайские слова с помощью голоса, а не печатания. Это особенно полезно, когда пользователи не знакомы с расположением фонетических символов и/или двадцати шести английских букв на клавиатуре, или не настолько часто имеют дело с символами, чтобы быстро выбирать и вводить символы.

Второй способ (иероглиф в слове) 404 может быть сложнее, чем способ 402 произношения слова, поскольку выбранное слово, которое содержит иероглиф, может быть любым словом, даже именами известных людей. Раскрытая архитектура будет содержать все иероглифы, используемые в китайском языке, но может не содержать все слова, особенно имена наиболее известных людей, которые еще не являются частью обучающих данных.

Пользователи могут выбирать слово, которое содержит нужный иероглиф, но иероглиф может не быть первым иероглифом в слове. Иероглиф может оказаться в середине или в конце слова. Например, пользователь может говорить , чтобы получить последний (выделенный жирным шрифтом) иероглиф .

Для получения хорошей точности распознавания, желательно понимать, слова какого типа люди используют для указания иероглифов, и либо присваивать этим словам более высокие весовые коэффициенты, либо специально обучать этим словам. Правильные сбор и организация данных позволяет повысить точность SR. Кроме того, чем лучше AM для SR, тем лучшие результаты дает этот способ. После этого применять этот способ 404 для исправления неверно распознанных китайских слов может быть проще, чем первый способ 402, поскольку количество этапов для получения верного иероглифа меньше, чем при обеспечении произношения.

Третий способ 406 можно использовать в меньшей степени для немногочисленных легко разложимых слов. Другими словами, количество слов, которые легко разложить и которые широко используются, невелико. Поэтому разложимые слова можно перечислить в грамматике (или LM) для поддержки этого способа 406.

На фиг. 5 показана система 500, которая применяет произношение слова как способ указания иероглифа. Согласно вышесказанному мастер орфографии можно применять для способа произношения. В помощь пользователям, обеспечивающим произношение и выбирающим верные иероглифы, мастер применяет один или несколько файлов данных, которые определяют отображение между иероглифами и произношением. Дополнительно, обеспечивается оптимизированный список слов-омофонов, чтобы пользователи могли быстро получить нужные иероглифы.

Ниже описаны файлы данных для преобразования между фонетическими системами и иероглифами. В этом первом примере фонетическая система описана в CHS/CHT, совместно с обзором иллюстративных файлов данных.

Как описано выше, CHS использует пиньинь, в котором также используется двадцать шесть букв английского языка, но с необязательной тоновой информацией. Напротив, CHT использует чжуинь, который представляет собой набор пиктографических символов, но не стандартный китайский. Чжуинь для CHT аналогичен международному фонетическому алфавиту (IPA) для английского языка. Например, ниже приведены фонетические представления для CHS и CHT для иероглифа :

CHS: tian

CHT:

В компоненте распознавания 102 на фиг. 5 показана совокупность 502 движков азиатского языка (обозначенных ДВИЖОК SR АЗИАНТСКОГО ЯЗЫКА₁, …, ДВИЖОК SR АЗИАНТСКОГО ЯЗЫКА_N, где N - положительное целое число). Первый движок 504 из движков 502 использует способ 402 произношения слова, который дополнительно использует три файла данных 506 для обеспечения данных. Каждый движок языка 502 использует три файла данных 506 для процесса преобразования произношения в иероглифы. В первом файле данных 508 хранятся слова в качестве индекса и информация, относящаяся к каждому слову в качестве значения, которое включает в себя произношение, тон, частоту использования и/или возможную категорию. Во втором файле данных 510 хранятся произношение в качестве индекса и все слова с этим произношением в качестве значения, и в порядке на основании частоты использования. Третий файл данных 512 используется для хранения информации матрицы неточностей среди фонем, которая позволяет пользователям эффективно исправлять неверно распознанные фонемы.

Как указано, в первом файле данных 508 хранится информация об иероглифах и произношении, тоне, частоте и/или возможной категории иероглифов. Например,

CHS:

CHT:

Для иероглифов, имеющих разное произношение в разных словах, например (этот иероглиф используется как 3-й тон в (означающий 'очень хороший'); но как 4-й тон в (означающий 'излюбленный'), возможные произношения записываются в одной строке, где элементы разделены точкой с запятой (;).

Согласно последней информации существует около 47,035 действительных китайских иероглифов, большое количество которых редко используются и накопились на протяжении истории. Лишь около 2,000 иероглифов активно используется грамотными людьми в Китае. Следовательно, иероглифы, принадлежащие набору из 2,000 активно используемых иероглифов, можно отображать в первую очередь. Чтобы знать, следует ли отображать иероглифы из активно используемого набора в вершине или вблизи вершины списка, представляемого пользователю, активно используемые иероглифы помечаются цифрой “1”, а остальные - цифрой “2”. Иероглифам, оказавшимся в конкретной категории, например имен собственных, можно назначать код категории, например “n” для имен собственных.

Система 500 также может включать в себя частотный компонент 514 для отслеживания частоты использования иероглифа и/или слова, хранящейся во втором файле данных 510. В этом втором файле данных 510 хранятся произношение и иероглифы, связанные с этим произношением, в порядке частоты появления в разных словах, а также частоты слов или иероглифов. В первом файле данных 508 указано, принадлежит ли слово 2,000 активно используемым иероглифам. В этом втором файле данных 510 иероглифы упорядочены согласно полной активной и/или неактивной частоте и согласно частоте использования, связанной с другими иероглифами-омофонами. Частотную информацию можно получить из существующих обучающих данных. Порядок во втором файле данных 510 можно регулировать на основании обучения и рассуждения о выборах пользователя. Второй файл данных 510 можно генерировать из первого файла данных 508, если более конкретную частотную информацию можно задать в первом файле данных 508. Однако второй файл данных 510 следует генерировать и сохранять в папке пользовательских профилей, чтобы второй файл 510 можно было использовать для сохранения отрегулированного порядка после обучения на основании пользовательского выбора. В нижеприведенном списке указаны произношение и частота слова. Подчеркнутые слова это те, которые редко используются.

CHS

CHT

Для сохранения действительных слогов можно обеспечить контекстно-свободную грамматику (CFG). Для CHS пользователи способны произносить “T I A N” для получения “tian” в фонетической системе CHS, с последующим его преобразованием в список иероглифов, которые используют это произношение. CFG включает в себя другую возможность, которая позволяет пользователям говорить “T I A N” для приема “tian” до преобразования в иероглифы. Этот способ группирует некоторые из дифтонгов или дифтонгов плюс концевые назальные согласно нижеследующему:

Для CHT в грамматике используются только фонемы в чжуине. Произношение, используемое в движке, также будет обеспечено в грамматике для повышения точности SR.

При неверном распознавании произношения мастер позволяет пользователю исправить произношение. После выбора фонемы для исправления мастер показывает список фонем, близких к неверно распознанным фонемам, и список можно упорядочить согласно расстоянию между двумя фонемами, в зависимости, например, от места артикуляции, манеры артикуляции, произнесения, контекста и влияния другого местного диалекта.

Многие тайваньцы говорят на мандаринском и южноминьском диалектах. Звуковая структура южноминьского диалекта оказывает сильное влияние на мандаринский диалект, по нескольким каналам. Большинство людей не отличает (ретрофлексивные согласные) от (альвеолярных согласных), и некоторые люди не отличают (лабиально-дентальный фрикативный) от (велярного фрикативного). Для некоторых диалектов в южном Китае, /n/ и /l/ неразличимы и также влияют на продукцию других изученных языков. Расстояние в наборе минимально различимых фонем задается как меньшее расстояние.

Контекст указывает, появляются ли две фонемы в одном и том же контексте. Например, (/b/) и (/p^h/) ближе в контекстуальном отношении, чем (/b/) и (/f/), поскольку за фонемами могут следо

Архитектура распознавания для генерации азиатских иероглифов

Патент 2477518