Курирование многоязычных коммерческих признаков и синтез транслитерации

Иллюстрации

Показать все

Изобретение относится к области автоматизированного лингвистического преобразования данных с конкретным фокусом на преобразовании между разными орфографиями (например, с письменности русской кириллицы на латинскую письменность) в пределах заданных контекстов (таких как названия коммерческих предприятий). Техническим результатом является повышение точности лингвистических преобразований. В способе лингвистического преобразования данных принимают входные данные, которые включают в себя строку символов на первом языке и данные семантического контекста, касающиеся источника входных данных. Разбирают строку символов в ее графемы и формируют шаблон символов, который представляет абстракцию графем. Анализируют данные семантического контекста и шаблон символов в соответствии с правилами для выдачи потенциального межъязыкового преобразования шаблона символов. Преобразуют строку символов из первого языка во второй язык в соответствии с потенциальным межъязыковым преобразованием. Анализируют признаки рабочих характеристик относительно преобразования и обновляют правила на основе признаков рабочих характеристик. 3 н. и 15 з.п. ф-лы, 18 ил., 12 табл.

Реферат

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИ

[0001] Настоящая заявка испрашивает на приоритет предварительной заявки на патент США № 61/793,044, поданной 15 марта 2013 года, содержание которой включено в настоящий документ по ссылке.

УРОВЕНЬ ТЕХНИКИ

1. ОБЛАСТЬ ТЕХНИКИ

[0002] Настоящее раскрытие относится к ситуациям, в которых информация была преобразована среди двух или более языков или систем письма с получением второго, третьего и многопорядкового представлений первоначальной информации.

2. ОПИСАНИЕ ПРЕДШЕСТВУЮЩЕГО УРОВНЯ ТЕХНИКИ

[0003] Подходы, описанные в этом разделе, являются подходами, которым могли следовать, но не обязательно подходами, которые ранее предлагались или которым следовали. Таким образом, подходы, описанные в этом разделе, могут не представлять собой предшествующий уровень техники для формулы изобретения в этой заявке и не признаются как представляющие собой предшествующий уровень техники посредством включения в этот раздел.

[0004] Настоящее описание имеет отношение к области автоматизированного лингвистического преобразования данных с конкретным фокусом на преобразовании между разными орфографиями (например, с письменности русской кириллицы на латинскую письменность) в пределах заданных контекстов (таких как названия коммерческих предприятия).

[0005] Методики предшествующего уровня техники удовлетворительно не преобразовывают разные части названия на первом языке в название на втором языке. В этом контексте "разные части" относятся к семантическим элементам, таким как названия, географические названия, имена нарицательные, качественные прилагательные, суффиксы объединения и так далее. Например, может иметься потребность преобразовать название коммерческого предприятия в России, которое исходно записано на кириллице, в латинскую письменность, которая "понятна" говорящей на немецком языке аудитории. Методики предшествующего уровня техники обычно подходили к этой проблеме, выполняя однозначное отображение и/или прямой перевод. В этом контексте, "однозначное отображение" относится к хранению и извлечению отдельного слова на целевом языке, которое было отображено на слово в исходных данных (название). В этом контексте "прямой перевод" относится к переводу значения слова (или всего названия) с исходного языка на целевой язык. Таким образом, методики предшествующего уровня техники достигли преобразований, которые "удобно произносимы", но которые, например, не преобразовывают описательную часть названия коммерческого предприятия на язык, который может понять носитель немецкого языка.

[0006] Другая проблема методик предшествующего уровня техники состоит в том, что в случае, когда методика производит ошибочный перевод или преобразование, методика не имеет никакого автоматического способа улучшения качества перевода или преобразования. Таким образом, методики предшествующего уровня техники не извлекают уроки из опыта и не используют его в своих интересах.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

[0007] Обеспечен способ, который включает в себя разбор строки символов на ее графемы и формирование шаблона символов, который представляет абстракцию графем. Также обеспечена система, которая выполняет способ, и запоминающее устройство, которое содержит команды для управления процессором для выполнения способа.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0008] Фиг. 1 является блок-схемой логической структуры процесса для автоматизированного лингвистического преобразования данных.

[0009] Фиг. 2 является блок-схемой логической структуры хранилища справочных данных, используемого процессом на фиг. 1.

[0010] Фиг. 3 является блок-схемой логической структуры хранилища опытных данных, используемого процессом на фиг. 1.

[0011] Фиг. 4 является блок-схемой логической структуры функций первого порядка процесса на фиг. 1.

[0012] Фиг. 5 является блок-схемой логической структуры функций второго порядка процесса на фиг. 1.

[0013] Фиг. 6 является блок-схемой логической структуры рекурсивных улучшающих функций процесса на фиг. 1.

[0014] Фиг. 7 является блок-схемой последовательности операций иллюстративной операции функций первого порядка процесса на фиг. 1.

[0015] Фиг. 7А является детализацией части фиг. 7 и изображает блок-схему последовательности операций иллюстративной операции, выполняемой процессом матриц графем.

[0016] Фиг. 7B является детализацией части фиг. 7 и изображает блок-схему последовательности операций иллюстративной операции, выполняемой процессом контекстного понимания.

[0017] Фиг. 7C является детализацией части фиг. 7 и изображает блок-схему последовательности операций иллюстративной операции, выполняемой процессом семантического понимания.

[0018] Фиг. 8 является блок-схемой последовательности операций иллюстративной операции функций второго порядка процесса на фиг. 1.

[0019] Фиг. 8А является детализацией части фиг. 8 и изображает взаимодействие механизма правил и службы координации с хранилищем правил координации преобразования.

[0020] Фиг. 8B изображает обработку посредством перевода и межъязыкового преобразования примера русской кириллицы.

[0021] Фиг. 9 является блок-схемой последовательности операций иллюстративной операции рекурсивных улучшающих функций.

[0022] Фиг. 9А является детализацией части фиг. 9 и изображают символическое представление процесса эвристики и хранилища данных, на которые ссылаются субкомпоненты процесса эвристики.

[0023] Фиг. 9B является детализацией части фиг. 9 и изображает процесс интеграции и хранилища данных, на которые ссылаются субкомпоненты процесса интеграции.

[0024] Фиг. 9C изображает символическое представление механизма правил и службы координации.

[0025] Фиг. 10 является блок-схемой системы, которая использует описанные здесь способы.

[0026] Компонент или признак, который является общим для более чем одного чертежа, обозначен одним и тем же ссылочным номером на каждом из чертежей.

ОПИСАНИЕ ИЗОБРЕТЕНИЯ

[0027] Термин "межъязыковой", который используется здесь, и термин "идеографический", который используется в предварительной заявке на патент США № 61/793,044, оба означают "находящийся между или имеющий отношение к двум или более языкам".

[0028] Фиг. 1 является блок-схемой логической структуры процесса 100 для автоматизированного лингвистического преобразования данных. Процесс 100 принимает от пользователя 130, который может являться человеком или запрашивающей системой, входные данные 105, которые предоставляются среде 135 понимания межъязыкового преобразования, и производит выходные данные 106, являющиеся версией входных данных 105, которые были преобразован между двумя или более языками или системами письма. Процесс 100 производит второе, третье и многопорядковое представления входных данных 105, и таким образом, обеспечивает пользователю 130 понимание, которое превосходит буквальную транскрипцию между исходной и целевой орфографиями.

[0029] Процесс 100 обеспечивает пользователю 130 понимание, включающее в себя, но без ограничения, вывод подобия в конкретной области интер-лингвистического, т.е., между языками, или интер-орфографического, т.е., между системами письма, семантического и не семантического, контекстного и не контекстного межъязыкового преобразования или перевода. Процесс 100 обеспечивает пользователя 130 способностью распознать, проанализировать, сравнить, противопоставить или очищать информацию, содержащуюся во входных данных 105, с помощью нескольких одновременных морфологий, т.е., информации, представленной на одном или более языках или в системах письма, для транскрипции входных данных 105 между или среди различных языков, письменностей или систем письма (морфологий), посредством, среди прочего, идентификации имманентных элементов или атрибутов признаков для входных данных 105. Эти имманентные элементы служат в качестве родственных, допускающих осмысленное сравнение данных, которые произошли из несопоставимых морфологий.

[0030] Входные данные 105 включают в себя входные содержательные данные 110 и входные данные 115 семантического контекста.

[0031] Входные содержательные данные 110 являются предметными данными входящего ввода как такового, которые обычно являются названием коммерческого предприятия, выраженным на конкретном языке и в системе письма (орфографии). Входные содержательные данные 110 "не структурированы" в том смысле, что нет каких-либо указаний, присущих содержанию входных содержательных данных 110, которые помогают выполнению процесса 100.

[0032] Входные данные 115 семантического контекста являются контекстными данными, которые могут быть обнаружены или выведены, среди прочего, из анализа входных данных 105, контекста, истории или обстановки, в которой обеспечены входные данные 105, или метаданными входных данных 105. Входные данные 115 семантического контекста рассматриваются как "структурированные", поскольку это метаданные о входных содержательных данных 110, например, источник входных содержательных данных 110, дата приема входных содержательных данных 110 и система, которая передала входные содержательные данные 110 системе, которая выполняет процесс 100.

[0033] Процесс 100 включает в себя функциональность по нескольким подобластям или функциональным субагрегациям в среде 135 понимания межъязыкового преобразования, а именно, функции 140 первого порядка, функции 150 второго порядка и рекурсивные улучшающие функции 160. Среда 135 понимания межъязыкового преобразования также включает в себя хранилища 170 данных.

[0034] Хранилища 170 данных являются средствами хранения данных и включают в себя хранилище 172 справочных данных и хранилище 174 опытных данных. Хранилище 174 опытных данных обновляется на основе опыта, полученного во время выполнения процесса 100. Хранилище 172 справочных данных обновляется в соответствии с объективными правилами и стандартами, а не на основе опыта, полученного посредством выполнения процесса 100. Разделение хранилищ 170 данных на хранилище 172 справочных данных и хранилище 174 опытных данных предназначено только для удобства объяснения и не обязательно отражает физическое разделение соответствующих хранилищ.

[0035] Функции 140 первого порядка являются множеством функций, которые работают над входящими входными данными, т.е., входными данными 105 и включают в себя три субкомпонента, а именно, матрицы 142 графем, контекстное понимание 144 и семантическое понимание 146.

[0036] Функции 150 второго порядка являются множеством функций и процессов, которые работают над комбинацией входных данных 105 и выходных данных функций 140 первого порядка. Функции 170 второго порядка включают в себя два субкомпонента, а именно, перевод 152 и межъязыковое преобразование 154.

[0037] Рекурсивные улучшающие функции 160 являются множеством функций, которые работают над результатами функций 140 первого порядка и функций 150 второго порядка, а также другими входными данными, которые получены из распознавания и анализа рабочих характеристик процесса 100, чтобы повысить эффективность и производительность процесса 100. Такой анализ включает в себя курирование и синтез справочных данных, которые находятся в хранилище 174 опытных данных. Рекурсивные улучшающие функции 160 включают в себя два субкомпонента, а именно, эвристику 162 и интеграцию 164.

[0038] Фиг. 2 является блок-схемой логической структуры хранилища 172 справочных данных. Хранилище 172 справочных данных включает в себя:

(a) хранилище 205 синонимов, которое хранит множества синонимов и альтернативные записи для конкретных слов или других лингвистических субкомпонентов;

(b) хранилище 210 стилей, которое содержит информацию и качественные данные, такие как относительные весовые коэффициенты или оценки, о стилистических аспектах письменного языка;

(c) хранилище 215 стандартизации, которое содержит правила и словари для помощи в стандартизации слов, фраз или других лингвистических субкомпонентов;

(d) словарь 220 перевода, который содержит правила для перевода конкретных слов, фраз или других лингвистических субкомпонентов из исходной орфографии в целевую орфографии и потенциальных переводов между этими двумя орфографиями (то есть, исходной орфографией и целевой орфографией);

(e) хранилище 225 межъязыкового преобразования, которое содержит правила для межъязыкового преобразования конкретных слов, фраз или других лингвистических субкомпонентов из исходной орфографии в целевую орфографию и потенциальных межъязыковых преобразований между этими двумя орфографиями (то есть, исходной орфографией и целевой орфографией).

(f) хранилище 230 типов источников, которое содержит информацию о типах источников данных;

(g) хранилище 235 правил координации преобразования, которое содержит правила координации; и

(h) хранилище 240 правил оптимизации, которое содержит правила для оптимизации всей системы.

[0039] Фиг. 3 является блок-схемой логической структуры хранилища 174 опытных данных. Хранилище 174 опытных данных включает в себя:

(a) хранилище 305 анализатора графем, которое содержит словари и правила для разбора и анализа графем;

(b) хранилище 310 частот шаблонов графем, которое содержит частотности графем;

(c) хранилище 315 уникальности, которое содержит правила, таблицы частот и словари, имеющие отношение к уникальности слов, фраз и других лингвистических субкомпонентов;

(d) хранилище 320 источников, которое содержит информацию о конкретных источниках данных;

(e) хранилище 325 статистических данных, которое содержит статистику, сформированную при выполнении субкомпонентов среды 135 понимания межъязыкового преобразования;

(f) архив 330, который содержит все выходные данные обработки входных данных 105 среды 135 понимания межъязыкового преобразования;

(g) хранилище 335 сигналов, которое содержит, среди прочего, семафоры и оценки, полученные из рабочих характеристик среды 135 понимания межъязыкового преобразования;

(h) хранилище 340 альтернатив, которое содержит альтернативные записи для конкретных слов, фраз и других лингвистических субкомпонентов; и

(i) хранилище 345 рабочих характеристик, которое содержит статистику, относящуюся к ключевым показателям рабочих характеристик для среды 135 понимания межъязыкового преобразования.

[0040] Фиг. 4 является блок-схемой логической структуры функций 140 первого порядка. Как отмечено ранее, функции 140 первого порядка включают в себя матрицы 142 графем, контекстное понимание 144 и семантическое понимание 146.

[0041] Матрицы 142 графем являются коллекцией подпроцессов компонентов, которые работают над входными данными 105 на самых базовых семантических уровнях, например, сокращение входных данных 105 до их основных графем. Матрицы 142 графем включают в себя средство 405 разбора и анализа графем, средство 410 отображения шаблонов графем и средство 415 моделирования шаблонов графем.

[0042] Средство 405 разбора и анализа графем выполняет разбор и анализируют входные данные 105 с использованием, среди прочего, словарей и метаданных, хранящихся в хранилище 305 анализатора графем, чтобы распознать и присвоить атрибуты семантическим элементам, которые подаются в другие процессы.

[0043] Средство 410 отображения шаблонов графем использует выходные данные средства 405 разбора и анализа графем и снимает неоднозначность, т.е., расщепляет семантические шаблоны содержания входных данных 105 символическим образом. Выходные данные средства 410 отображения шаблонов графем являются символическим шаблоном, т.е., абстрагированным представлением, которое раскрывает структуру содержания входных данных 105. Примером такого разрешения неоднозначности будет преобразование "Jim's Mowing Springvale" в "PN-CD-GL", где "PN" обозначает имя собственное, "CD" обозначает коммерческое описание, и "GL" обозначает географическое местоположение.

[0044] Средство 415 моделирования шаблонов графем берет выходные данные модуля средства 410 отображения шаблонов графем и использует данные в хранилище 310 частот шаблонов графем, чтобы различить шаблоны, которые подобны составляющим графемам входных данных 105. Тест на подобие является больше чем поверхностным подобием шаблона.

[0045] Контекстное понимание 144 является коллекцией подпроцессов компонентов, которые работают над входными данные 105 на контекстном уровне. Таким образом, они анализируют входные данные 105 с учетом атрибутов и признаков, которые происходят из источника, времени и содержания входных данных 105, но выше семантического анализа базового уровня графемы. Контекстное понимание 144 включает в себя анализатор 420 контекста, классификатор 425 источников, анализатор 430 уникальности и генератор 435 альтернатив.

[0046] Анализатор 420 контекста анализирует входные данные 105 посредством анализа их содержания на уровне, который сосредотачивается на совокупном значении содержания, а также атрибутов, сформированных средством 410 отображения шаблонов графем и средством 415 моделирования шаблонов графем. Этот анализ включает в себя анализ содержания входных данных 105, чтобы найти, среди прочего, "специальную терминологию" и "жаргон", и могут иметь ссылку на функции, такие как геокодеры, т.е. службы, которые разрешают идентифицирующая информацию географических объектов, и промышленные словари, например, отраслевые списки акронимов для конкретной страны на конкретном языке. Основными выходными данными анализатора 420 контекста являются метаданные об анализе, выполненном анализатором 420 контекста, то есть, классификации и определения характеристик содержания входных данных 105.

[0047] Может иметься несколько итераций обработки между анализатором 420 контекста и компонентами матриц 142 графем по мере уточнения классификаций и шаблонов.

[0048] Классификатор 425 источников анализирует метаданные источников о входных данных 105, которые обеспечены в пределах входных данных 115 семантического контекста, имея ссылку на исторические данные об источниках и типах источников предыдущих входных данных для процесса 100, исторические данные содержатся хранилище 320 источников и хранилище 230 типов источников. Выходными данными классификатора 425 источников являются описательные данные о структуре (такие как данные о стиле, тональной и грамматической структуре) и качественные аспекты (такие как достоверность, точность, изменчивость, полнота и сложность) типичных входных данных из источников, которые являются теми же или аналогичными источнику входных данных 105.

[0049] Анализатор 430 уникальности анализирует входные данные 105 на уникальность на уровне слов (или других лингвистических субкомпонентов), а также уникальность групп слов или фраз относительно различных исходных уровней с учетом хранилища 315 уникальности как справочных данных. Выходными данными анализатора 430 уникальности являются оценки, которые описывают относительную уникальность входных данных 105 и их составных частей.

[0050] Генератор 435 альтернатив формирует альтернативные слова (или другие представлений в графемах), фразы и названия для составных частей входных данных 105. Эти альтернативы являются контекстными (что означает, что они основаны не на стандартных таблицах частот или правилах уровня языка), основаны на опыте и берутся из хранилища 340 альтернатив в качестве источника.

[0051] Семантическое понимание 146 является набором подпроцессов компонентов, которые работают над входными данными 105 на уровне языка. Таким образом, они работают на уровне предполагаемого лингвистического контекста входных данных (например, русская кириллица или более специфический "язык", такой как русская кириллица, для наименования правительственных органов). Семантическое понимание 146 включает в себя процесс 440 стандартизации, анализатор 445 синонимов и анализатор 450 стиля.

[0052] Процесс 440 стандартизации выполняет процессы очистки, разбора и стандартизации над входными данными 105, чтобы создать "наилучший стандартный ракурс" их содержания. Процесс 440 стандартизации использует данные в хранилище 215 стандартизации.

[0053] Анализатор 445 синонимов анализирует слова или другие лингвистические субкомпоненты входных данных 105, чтобы получить синонимы как альтернативы для заданного языка входных данных 105. Анализатор 445 синонимов использует хранилище 205 синонимов.

[0054] Анализатор 450 стиля анализирует стиль языка входных данных 105 (в том числе наблюдения относительно тональности, формальности, жаргона, акронимов, сокращений и т.д.) и вычисляет оценки и индикаторы, чтобы представлять заданный в виде атрибута стиль. Анализатор 450 стиля использует данные в хранилище 345 стилей. Выходными данными анализатора 450 стиля являются оценки и признаки, которые описывают стилистические качества входных данных 105.

[0055] Фиг. 5 является блок-схемой логической структуры функций 150 второго порядка. Как отмечено ранее, функции второго порядка включают в себя перевод 152 и межъязыковое преобразование 154. Функции 150 второго порядка используют механизм 525 правил и службу 530 координации.

[0056] Механизм 525 правил использует правила, содержащиеся в хранилище 235 правил координации преобразования.

[0057] Служба 530 координации является системой потока операций, которая использует потоки операций и логическую схему принятия решений, содержащиеся в хранилище 235 правил координации преобразования.

[0058] Механизм 525 правил и служба 530 координации работают совместно по функциям 150 второго порядка, то есть, по переводу 152 и межъязыковому преобразованию 154 для упорядочения выходных данных составных частей функций 140 первого порядка, чтобы установить расположение входных данных 105 и их составных частей.

[0059] Потоки операций и множества правил, исполняемые механизмом 525 правил и службой 530 координации, содержатся в хранилище 235 правил координации преобразования. Эти потоки операций и правила используют признаки, оценки и другие данные, которые формируют выходные данные функций 140 первого порядка.

[0060] Перевод 152 состоит из подпроцессов, которые преобразовывают слова (или другие лингвистические субкомпоненты) из входных данных 105 между языками. В связи с этим перевод 152 включает в себя поиск 505 переведенных зарезервированных слов и процесс 510 перевода.

[0061] Поиск 505 переведенных зарезервированных слов является процессом, посредством которого части входных данных 105, включающие в себя метаданные и варианты, сформированные функциями 140 первого порядка, анализируются с использованием словаря 220 перевода, чтобы произвести их потенциальные специализированные или основанные на специальной терминологии переводы.

[0062] Процесс 510 перевода переводит части входных данных 105, включающих в себя метаданные и варианты, сформированные функциями 140 первого порядка, между языками, например, русским и английским языками. Процесс 510 перевода может включать в себя вызов веб-сервисов, приложений и других систем, которые выполняют функции перевода.

[0063] Межъязыковое преобразование 154 состоит из нескольких подпроцессов, которые переводят слова (или другие лингвистические субкомпоненты) из входных данных 105 между языками. Межъязыковое преобразование 154 включает в себя поиск 515 зарезервированных слов между словарями и процесс 520 преобразования.

[0064] Поиск 515 зарезервированных слов между словарями является процессом, посредством которого части входных данных 105, включающие в себя метаданные и варианты, сформированные функциями первого порядка 140, анализируются с использованием словаря 220 транслитерации, чтобы произвести потенциальные переводы, которые являются специализированными или основанными на специальной терминологии преобразованиями входных данных 105 или их частей.

[0065] Процесс 520 преобразования транслитерирует части входных данных 105 между письменностями (например, из греческой письменности в латинскую письменность). Процесс 520 преобразования может включать в себя вызов веб-сервисов, приложений и других систем, которые выполняют функции транслитерации.

[0066] Фиг. 6 является блок-схемой логической структуры рекурсивных улучшающих функций 160. Как отмечено ранее, рекурсивные улучшающие функции 160 включают в себя эвристику 162 и интеграцию 164. Механизм 525 правил и служба 530 координации, которые используются функциями 150 второго порядка, также используется рекурсивными улучшающими функциями 160 и работают совместно по эвристике 162 и интеграции 164, чтобы произвести оптимизацию и улучшения эффективности и производительности процесса 100.

[0067] Как упомянуто выше, служба 530 координации является системой потока операций, которая в контексте рекурсивных улучшающих функций 160 использует потоки операций и логическую схему принятия решений, содержащиеся в хранилище 240 правил оптимизации.

[0068] Эвристика 162 является коллекцией подпроцессов компонентов, которые постоянно анализируют выходные данные (содержащиеся в архиве 330) всех субкомпонентов среды 135 понимания межъязыкового преобразования, а также выходные данные 106, которые хранятся в архиве 330, чтобы оптимизировать рабочие характеристики процесса 100 в соответствии с наблюдаемым поведением. Процесс 100 посредством эвристики 162 является самоусовершенствующимся. Таким образом, эвристика 162 учится на опыте и изменяет или повторно упорядочивает потоки операций, исполняемые в рамках процесса 100, чтобы произвести самые оптимальные или диспозитивные результаты. Эвристика 162 включает в себя статистический анализатор 605, средство 610 упорядочения словарей и средство 615 оценки сигналов.

[0069] Статистический анализатор 605 выполняет статистические анализы, такие как частотный анализ фраз слов или других лингвистических субкомпонентов входных данных 105, и измерения основной тенденции через исторические данные исторических входных и выходных данных процесса 105 среды 135 понимания межъязыкового преобразования, содержащихся в архиве 330 и в хранилище 174 опытных данных, чтобы создать оценки и другие признаки, которые сохраняются в хранилище 325 статистики, и которые могут использоваться в качестве ресурса при настройке функций 140 первого порядка и функций 150 второго порядка посредством интеграции 164.

[0070] Средство 610 упорядочения словарей использует, среди прочего, выходные данные статистического анализатора 605, чтобы создать или обновить потоки операций, которые повторно упорядочивают порядок словарей, в том числе хранилища 225 межъязыкового преобразования, хранилища 205 синонимов, хранилища 310 частот шаблонов графем, хранилища 315 уникальности и хранилища 340 альтернатив, с тем чтобы самые оптимальные или диспозитивные записи возвращались процессами, которые используют эти хранилища (например, извлечение данных из хранилища 310 частот шаблонов графем310).

[0071] Средство 615 оценки сигналов исполняет подпрограммы для присвоения атрибутов приоритета различным признакам и метрикам, полученным из рабочих характеристик процесса 100, и отправляет эти оценки в хранилище 335 сигналов.

[0072] Интеграция 164 является коллекцией подпроцессов компонентов, которые используют, среди прочего, выходные данные эвристики 162 и затем обеспечивают входные данные потокам операций, исполняемым механизмом 525 правил и службой 530 координации для внесения изменений в процессы и подпрограммы в пределах субкомпонентов среды 135 понимания межъязыкового преобразования, чтобы увеличить эффективность и производительность рабочих характеристик процесса 100. Эти изменения записываются как записи в хранилище 240 правил оптимизации. В связи с этим интеграция 164 включает в себя исторический анализатор 620 и оптимизатор 625.

[0073] Исторический анализатор 620 анализирует признаки рабочих характеристик (в том числе, но без ограничения, времена выполнения, использование ресурсов, использование хранилищ данных, присвоение атрибутов качества и достоверности и оценки отзывов пользователей) среды 135 понимания межъязыкового преобразования во время выполнения процесса 100. Признаки рабочих характеристик записываются в хранилище 345 рабочих характеристик историческим анализатором 620, и признаки рабочих характеристик считываются оптимизатором 625 для выбора процессов для обновления или модификации.

[0074] Оптимизатор 625 использует, среди прочего, признаки рабочих характеристик, сформированные историческим анализатором 620, и выполняет обновления хранилища 240 правил оптимизации и инициирует выполнение подпрограмм оптимизации в механизме 525 правил и службе 530 координации.

[0075] Фиг. 7 является блок-схемой последовательности операций функций 140 первого порядка для примера русской кириллицы.

[0076] Фиг. 7А является детализацией части фиг. 7 и изображают блок-схему последовательности операций, выполняемой матрицами 142 графем, для примера русской кириллицы.

[0077] Фиг. 7B является детализацией части фиг. 7 и изображает блок-схему последовательности операций, выполняемой контекстным пониманием 144, для примера русской кириллицы.

[0078] Фиг. 7C является детализацией части фиг. 7 и изображает блок-схему последовательности операций, выполняемой семантическим пониманием 146, для примера русской кириллицы.

[0079] Согласно фиг. 7 функции 140 первого порядка принимают входные данные 105, которые в этом примере представляют собой текст "Невское электромонтажное общество" на русской кириллице как содержательные данные 110 запроса из источника "Partner Collection System" 1 января 2014 года как входные данные 115 семантического контекста. Функции 140 первого порядка производят промежуточные выходные данные 760, которые сохраняются в архиве 330.

[0080] Согласно фиг. 7А средство 405 разбора и анализа графем выполняет разбор входных данных 105 и, имея ссылку на хранилище 305 анализатора графем, присваивает классификации составным частям (графемам, словам, фразам и т.д.) содержательных данных 110 запроса.

[0081] В этом примере средство 405 разбора и анализа графем анализирует входные содержательные данные 110 и классифицирует их, как показано в таблице 1.

ТАБЛИЦА 1
Часть входных данных Метаданные: тип Метаданные: порядок
Невское Существительное - Название N1
Электромонтажное Прилагательное - дескриптор N2
Общество Существительное - Тип коммерческого предприятия N3

[0082] Средство 410 отображения шаблонов графем берет входные содержательные данные 110 и метаданные (показанные выше в столбцах 2 и 3 в таблице 1), сформированные средством 405 разбора и анализа графем, и создает "шаблон графем", который является абстракцией грамматической и семантической структуры содержательных данных 110 запроса.

[0083] В этом примере средство 410 отображения шаблонов графем производит шаблон: 1N:GN-2N:CD-3S:IN, означающий, что входные данные состоят из двух основных частей, названия (N) и суффикса (S), а также трех детализированных частей: географического названия (GN), коммерческого описания (CD) и суффикса объединения (IN).

[0084] Средство 415 моделирования шаблонов графем берет выходные данные средства 410 отображения шаблонов графем и выполняет поиск в хранилище 310 частот шаблонов графем, чтобы найти шаблоны, которые являются существенным образом подобными.

[0085] Таблица 2 представляет пример некоторых шаблонов, извлеченных средством 415 моделирования шаблонов графем. На практике также будут извлечены другие шаблоны, такие как показанные на фиг. 7А, внутри средства 415 моделирования шаблонов графем.

ТАБЛИЦА 2
Первоначальный шаблон (произведенный средством 410 отображения шаблонов графем) Извлеченный шаблон (извлеченный средством 415 моделирования шаблонов графем)
IN:GN-2N:CD-3S:IN GN-CD-* PN-GN-CD-IN CD-GN-IN IN-CD-GN

[0086] Согласно фиг. 7B классификатор 425 источников анализирует метаданные источников входных данных (входных данных 115 семантического контекста). В этом примере источник "Partner Collection System" найден с помощью ключа "PCS", и классификатор 425 источников извлекает из хранилища 320 источников метаданные, показанные в таблице 3.

ТАБЛИЦА 3
Код источника Метаданные
PCS Оценка наличия суффикса объединения: 10
Оценка изменчивости: 33
Оценка точности: 62

[0087] Список метаданных в таблице 2 является лишь иллюстративный и не представляет замкнутое множество.

[0088] Анализатор 420 контекста берет входные данные 105 и выходные данные матриц 142 графем и, имея ссылку на геокодеры и коммерческие словари, производит детализированные классификации составных частей (слов и фраз или эквивалентов) содержания входных данных 105. В этом примере детализированные классификации показаны в таблице 4.

ТАБЛИЦА 4
Часть входных данных Анализ контекста
Невское Имя собственное - место, Санкт-Петербург; Пригород, Река; Семантическая группа - Приморский
Электромонтажное Прилагательное - промышленный; Сфера деятельности - инженерная деятельность; Сфера деятельности - электрический

Общество Имя - тип объединения; Национальный; Универсальный; Среднего размера

[0089] Новые метаданные, (т.е., анализ контекста, показанный в таблице 4) могут быть сохранены как коды или маркеры для эффективного использования другими компонентами.

[0090] Генератор 435 альтернатив берет входные данные 105 и, имея ссылку на хранилище 340 альтернатив, формирует альтернативные данные, показанные в таблице 5.

ТАБЛИЦА 5
Часть входных данных Альтернативы
Невское 1. Санкт-Петербург, St Petersburg 2. Река Нева, Neva River
Электромонтажное 1. Электрических подрядчика
Общество [нет]

[0091] Анализатор 430 уникальности берет входные данные 105 (включающие в себя выходные данные других частей функций 140 первого порядка) и, имея ссылку на хранилище 315 уникальности, формирует оценки уникальности, т.е., оценки, которые обозначают уникальность частей входных данных 105. Оценки уникальности для настоящего примера показаны в таблице 6.

ТАБЛИЦА 6
Часть входных данных Шаблон Уникальность
Невское Электромонтажное Общество GN-CD-IN 100
Невское Электромонтажное GN-CD 86
Невское GN 15
Электромонтажное CD 6
Общество IN 1

[0092] Анализатор 430 уникальности при формировании оценок уникальности также принимает во внимание дополнительные данные, сформированные генератором 435 альтернатив.

[0093] Согласно фиг. 7C процесс 440 стандартизации стандартизирует содержание входных данных 105 (включающих в себя альтернативы, сформированные генератором 43 альтернатив) с использованием зависящих от словаря правил (в этом случае соответствующим словарем является "Русские коммерческими