Способ и сервер транскрипции лексической единицы из первого алфавита во второй алфавит
Иллюстрации
Показать всеИзобретение относится к способу и системе транскрипции лексической единицы из первого алфавита во второй. Техническим результатом является расширение арсенала технических средств транскрипции лексической единицы из первого алфавита во второй алфавит. В способе транскрипции лексической единицы из первого алфавита во второй алфавит получают пару, содержащую лексическую единицу в первом алфавите и соответствующую ей транскрипцию во втором алфавите. Причем лексическая единица и транскрипция разделены на сегменты. При этом внутри пары каждый сегмент лексической единицы обладает соответствующим сегментом в транскрипции лексической единицы, и каждая лексическая единица представляет собой последовательность последовательно чередующихся гласных и согласных сегментов, один гласный сегмент или один согласный сегмент. Определяют для каждого заданного сегмента лексической единицы его контекст. Обучают сервер вычислению теоретического символа второго алфавита, представляющего собой транскрипцию конкретного заданного сегмента на основе контекста конкретного заданного сегмента лексической единицы. 2 н. и 28 з.п. ф-лы, 3 ил.
Реферат
Область техники, к которой относится изобретение
[0001] Настоящее техническое решение относится к способу и системе транскрипции лексической единицы из первого алфавита во второй.
Уровень техники
[0002] В мире существует множество систем письма. Система письма является традиционным способом визуального представления вербальной коммуникации. Несмотря на то что и письмо и речь удобны для передачи сообщений, письмо отличается тем, что является надежной формой для хранения и передачи информации. Процессы кодирования и декодирования систем письменности предусматривают одинаковое понимание пишущего и читающего значений, которыми обладают наборы символов, составляющие текст.
[0003] Основные признаки систем письма могут быть разделены на большие категории, такие как алфавиты, слоговое письмо и логографическое письмо. Каждая конкретная система может обладать признаками из более чем одной категории. К категории алфавита относится стандартный набор гласных или согласных букв (основные письменные символы или графемы) для кодирования на основе общего принципа, состоящего в том, что буквы (или пары\группы букв) представляют собой звуки речи. В слоговом письме каждый символ соответствует одному слогу или более. В логографическом письме каждый символ представляет собой слово, морфему или другую семантическую единицу. Другие категории включают в себя консонантное письмо (также называемое «абджад»), которое отличается от алфавитов, тем, что в нем не указываются гласные, а также абугиды или альфасилибарии, в которых каждый символ представляет собой пару согласная-гласная. В алфавитах обычно содержится от 20 до 35 символов, которые полностью могут выразить язык, в то время как слоговое письмо может обладать 80-100, а логографическое - несколькими сотнями символов.
[0004] Письмо обычно записывается на жесткий носитель, например, бумагу или электронный носитель, хотя могут быть использованы и менее надежные носители, например, запись на дисплее монитора, на песке или летательным аппаратом в воздухе.
[0005] В компьютерных технологиях пользователям предоставляются услуги на многих языках. Во многих случаях, поставщики услуг переводят пользовательские интерфейсы на различные языки, чтобы пользователи могли читать знаки и другие указатели на родном языке или на известном им иностранном языке. Тем не менее, иногда необходима транскрипция, а не перевод.
[0006] Каждый язык обладает множеством правил и множеством исключений из них. В результате, создание транскрипций хорошего качества может быть затруднительным. Следовательно, существует необходимость в улучшении методик создания транскрипций.
Раскрытие изобретения
[0007] Таким образом, техническим результатом предлагаемого технического решения является достижение заявленных назначений, а именно транскрипции лексической единицы из первого алфавита во второй алфавит.
[0008] Первым объектом настоящего технического решения является способ транскрипции лексической единицы из первого алфавита во второй алфавит, способ выполняется на сервере. Способ включает в себя: (i) получение пары, в которой присутствует (i) лексическая единица, записанная в первом алфавите, и (ii) соответствующая транскрипция лексической единицы, записанная во втором алфавите, причем лексическая единица и транскрипция соответствующей лексической единицы разделяются на соответствующие сегменты таким образом, что в паре каждый сегмент лексической единицы обладает соответствующим сегментом в транскрипции лексической единицы, и таким образом, что каждая лексическая единица включает в себя одно из: (i) последовательность последовательно чередующихся гласного сегмента и согласного сегмента, (ii) один гласный сегмент, (iii) один согласный сегмент; каждый гласный сегмент состоит по меньшей мере из одной гласной, а каждый согласный сегмент состоит по меньшей мере из одной согласной; и (ii) определение, для каждого заданного сегмента лексической единицы, его контекста; (iii) обучение сервера вычислению теоретической частоты по меньшей мере одного символа из второго алфавита, который представляет транскрипцию указанного конкретного заданного сегмента с учетом контекста этого конкретного заданного сегмента лексической единицы.
[0009] В некоторых вариантах осуществления настоящего технического решения, лексическая единица выбирается из: слова или словосочетания.
[0010] В некоторых вариантах осуществления настоящего технического решения, лексическая единица содержит по меньшей мере один специальный символ.
[0011] В некоторых вариантах осуществления настоящего технического решения, по меньшей мере один специальный символ в словосочетании, который расположен между согласной и гласной перед гласной, квалифицируется одним из выбранного из: гласной или согласной, и указанный по меньшей мере один символ, если он квалифицируется гласной, становится частью соседнего гласного сегмента, и указанный по меньшей мере один символ, если он квалифицируется согласной, становится частью соседнего согласного сегмента.
[0012] В некоторых вариантах осуществления настоящего технического решения, по меньшей мере один специальный символ в словосочетании, который расположен между гласной и согласной перед согласной, квалифицируется одним из выбранного из: гласной или согласной, и указанный по меньшей мере один символ, если он квалифицируется гласной, становится частью соседнего гласного сегмента, и указанный по меньшей мере один специальный символ, если он квалифицируется согласной, становится частью соседнего согласного сегмента.
[0013] В некоторых вариантах осуществления настоящего технического решения, по меньшей мере один специальный символ квалифицируется несуществующим.
[0014] В некоторых вариантах осуществления настоящего технического решения, по меньшей мере один специальный символ является любым одним из выбранного: пробел, дефис, разрыв строки, разрыв страницы, и апостроф.
[0015] В некоторых вариантах осуществления настоящего технического решения, контекст лексической единицы выбирается из: предшествующего контекста и последующего контекста.
[0016] В некоторых вариантах осуществления настоящего технического решения, предшествующий контекст заданного сегмента является любым выбранным из: предшествующим соседним сегментом лексической единицы или предшествующим окончанием лексической единицы; последующий контекст заданного сегмента является любым выбранным из: последующим соседним сегментом лексической единицы или последующим окончанием лексической единицы.
[0017] В некоторых вариантах осуществления настоящего технического решения, по меньшей мере один сегмент лексической единицы является немой буквой, и соответствующая транскрипция лексической единицы будет включать в себя символ, представляющий немую букву.
[0018] В некоторых вариантах осуществления настоящего технического решения, второй алфавит представляет собой один из выбранного: (i) алфавит, отличный от первого алфавита; или (ii) фонетический алфавит.
[0019] В некоторых вариантах осуществления настоящего технического решения способ дополнительно включает в себя повторение:
получения пары, в которую входит (i) лексическая единица, записанная в первом алфавите, и (ii) соответствующая транскрипция лексической единицы, записанная во втором алфавите, лексическая единица и транскрипция соответствующей лексической единицы были разделены в соответствующие сегменты, таким образом,
чтобы внутри пары, каждый сегмент лексической единицы обладал соответствующим сегментом в транскрипции лексической единицы, и таким образом,
чтобы каждая лексическая единица содержала одно из выбранного: (i) последовательность последовательно чередующихся гласного и согласного сегмента, (ii) один гласный сегмент, (iii) один согласный сегмент; каждый гласный сегмент состоит по меньшей мере из одной гласной, а каждый согласный сегмент состоит по меньшей мере из одной согласной; и
определения для каждого заданного сегмента лексической единицы его контекста;
обучения сервера вычислению теоретической частоты по меньшей мере одного символа второго алфавита, представляющего собой транскрипцию конкретного заданного сегмента на основе контекста указанного конкретного заданного сегмента лексической единицы,
в отношении множества пар, каждая из которых содержит лексическую единицу и соответствующую транскрипцию, и
обучение сервера вычислению теоретической частоты транскрипции заданного сегмента на основе контекста заданного сегмента представляет собой обучение сервера с помощью алгоритма машинного обучения.
[0020] В некоторых вариантах осуществления настоящего технического решения, способ дополнительно включает в себя: получение от клиентского устройства запроса, который интерпретируется как запрос на транскрипцию второй лексической единицы, записанной в первом алфавите, во второй алфавит; разделение второй лексической единицы на одно выбранное из: (i) один гласный сегмент; (ii) один согласный сегмент; (iii) последовательность последовательно чередующихся гласного сегмента и согласного сегмента; применение теоретической частоты транскрипции каждого сегмента второй лексической единицы, теоретическая частота основана на контексте каждого заданного сегмента во второй лексической единице, и создание транскрипции второй лексической единицы во втором алфавите.
[0021] В некоторых вариантах осуществления настоящего технического решения, способ дополнительно включает в себя передачу клиентскому устройству инструкций отобразить пользователю транскрипцию второй лексической единицы на второй язык.
[0022] В некоторых вариантах осуществления настоящего технического решения, по меньшей мере один сегмент лексической единицы является немой буквой, и инструкции отобразить пользователю транскрипцию второй лексической единицы на второй язык включает в себя инструкцию опустить отображение символа, который представляет немую букву.
[0023] В некоторых вариантах осуществления настоящего технического решения, в которых получение от клиентского устройства запроса на транскрипцию второй лексической единицы, записанной в первом алфавите, во второй алфавит, включает в себя получение поискового запроса, способ дополнительно включает в себя проведение поиска с использованием транскрипции второй лексической единицы во второй алфавит в качестве поискового запроса, и создание страницы результатов поиска.
[0024] В некоторых вариантах осуществления настоящего технического решения, способ дополнительно включает в себя передачу клиентскому устройству инструкций отобразить страницу результатов поиска.
[0025] Другим объектом настоящего технического решения является сервер. Сервер включает в себя носитель информации. Сервер включает в себя процессор. Процессор соединен с носителем информации. Процессор выполнен с возможностью получать доступ к машиночитаемым командам, которые инициируют процессор выполнять этапы, включающие в себя: (i) получение пары, в которой присутствует (i) лексическая единица, записанная в первом алфавите, и (ii) соответствующая транскрипция лексической единицы, записанная во втором алфавите, причем лексическая единица и транскрипция соответствующей лексической единицы разделяются на соответствующие сегменты таким образом, чтобы в паре каждый сегмент лексической единицы обладал соответствующим сегментом в транскрипции лексической единицы, и таким образом, чтобы каждая лексическая единица включала в себя одно из: (i) последовательность последовательно чередующихся гласного сегмента и согласного сегмента, (ii) один гласный сегмент, (iii) один согласный сегмент; каждый гласный сегмент состоит по меньшей мере из одной гласной, а каждый согласный сегмент состоит по меньшей мере из одной согласной; и (ii) определение, для каждого заданного сегмента лексической единицы, его контекста; (iii) обучение сервера вычислению теоретической частоты по меньшей мере одного символа из второго алфавита, который представляет транскрипцию указанного конкретного заданного сегмента с учетом контекста этого конкретного заданного сегмента лексической единицы.
[0026] В некоторых вариантах осуществления настоящего технического решения, лексическая единица выбирается из: слова или словосочетания.
[0027] В некоторых вариантах осуществления настоящего технического решения, лексическая единица содержит по меньшей мере один специальный символ.
[0028] В некоторых вариантах осуществления настоящего технического решения, по меньшей мере один специальный символ в словосочетании, который расположен между согласной и гласной перед гласной, квалифицируется одним выбранным из: гласной или согласной, и указанный по меньшей мере один символ, если он квалифицируется гласной, становится частью соседнего гласного сегмента, и указанный по меньшей мере один символ, если он квалифицируется согласной, становится частью соседнего согласного сегмента.
[0029] В некоторых вариантах осуществления настоящего технического решения, по меньшей мере один специальный символ в словосочетании, который расположен между гласной и согласной перед согласной, квалифицируется одним выбранным из: гласной или согласной, и указанный по меньшей мере один символ, если он квалифицируется гласной, становится частью соседнего гласного сегмента, и указанный по меньшей мере один символ, если он квалифицируется согласной, становится частью соседнего согласного сегмента.
[0030] В некоторых вариантах осуществления настоящего технического решения, по меньшей мере один специальный символ квалифицируется несуществующим.
[0031] В некоторых вариантах осуществления настоящего технического решения, по меньшей мере один специальный символ является любым одним из выбранного: пробел, дефис, разрыв строки, разрыв страницы, и апостроф.
[0032] В некоторых вариантах осуществления настоящего технического решения, контекст лексической единицы выбирается из: предшествующего контекста и последующего контекста.
[0033] В некоторых вариантах осуществления настоящего технического решения, предшествующий контекст заданного сегмента является любым выбранным из: предшествующим соседним сегментом лексической единицы или предшествующим окончанием лексической единицы; последующий контекст заданного сегмента является любым выбранным из: последующим соседним сегментом лексической единицы или последующим окончанием лексической единицы.
[0034] В некоторых вариантах осуществления настоящего технического решения, по меньшей мере один сегмент лексической единицы является немой буквой, и соответствующая транскрипция лексической единицы будет включать в себя символ, представляющий немую букву.
[0035] В некоторых вариантах осуществления настоящего технического решения, второй алфавит представляет собой один из выбранного: (i) алфавит, отличный от первого алфавита; или (ii) фонетический алфавит.
[0036] В некоторых вариантах осуществления настоящего технического решения, процессор дополнительно выполнен с возможностью повторять, в отношении нескольких пар, каждая из которых включает в себя лексическую единицу и соответствующую транскрипцию, этапы:
получения пары, в которую входит (i) лексическая единица, записанная в первом алфавите, и (ii) соответствующая транскрипция лексической единицы, записанная во втором алфавите, лексическая единица и транскрипция соответствующей лексической единицы были разделены в соответствующие сегменты, таким образом,
чтобы внутри пары, каждый сегмент лексической единицы обладал соответствующим сегментом в транскрипции лексической единицы, и таким образом,
чтобы каждая лексическая единица содержала одно из выбранного: (i) последовательность последовательно чередующихся гласного и согласного сегмента, (ii) один гласный сегмент, (iii) один согласный сегмент; каждый гласный сегмент состоит по меньшей мере из одной гласной, а каждый согласный сегмент состоит по меньшей мере из одной согласной; и
определения для каждого заданного сегмента лексической единицы его контекста;
обучения сервера вычислению теоретической частоты по меньшей мере одного символа второго алфавита, представляющего собой транскрипцию конкретного заданного сегмента на основе контекста указанного конкретного заданного сегмента лексической единицы,
и обучение сервера вычислению теоретической частоты транскрипции заданного сегмента на основе контекста заданного сегмента представляет собой обучение сервера с помощью алгоритма машинного обучения.
[0037] В некоторых вариантах осуществления настоящего технического решения, процессор дополнительно выполнен с возможностью выполнять: получение от клиентского устройства запроса, который может быть интерпретирован как запрос на транскрипцию второй лексической единицы, записанной в первом алфавите, во второй алфавит; разделение лексической единицы на одно из выбранного: (i) один гласный сегмент; (ii) один согласный сегмент; (iii) последовательность последовательно чередующихся гласного сегмента и согласного сегмента; применение теоретической частоты транскрипции каждого сегмента второй лексической единицы, теоретическая частота основана на контексте каждого заданного сегмента во второй лексической единице, и создание транскрипции второй лексической единицы во втором алфавите.
[0038] В некоторых вариантах осуществления настоящего технического решения, процессор дополнительно выполнен с возможностью передавать клиентскому устройству инструкции отобразить пользователю транскрипцию второй лексической единицы на второй язык.
[0039] В некоторых вариантах осуществления настоящего технического решения, по меньшей мере один сегмент лексической единицы является немой буквой, и инструкции отобразить пользователю транскрипцию второй лексической единицы на второй язык включает в себя инструкцию опустить отображение символа, который представляет немую букву.
[0040] В некоторых вариантах осуществления настоящего технического решения, в которых получение от клиентского устройства запроса на транскрипцию второй лексической единицы, записанной в первом алфавите, во второй алфавит, включает в себя получение поискового запроса, процессор дополнительно выполнен с возможностью проведения поиска с использованием транскрипции второй лексической единицы во второй алфавит в качестве поискового запроса, и создания страницы результатов поиска.
[0041] В некоторых вариантах осуществления настоящего технического решения, процессор дополнительно выполнен с возможностью передавать клиентскому устройству инструкции отобразить страницу результатов поиска.
[0042] В контексте настоящего описания, если конкретно не указано иное, «сервер» подразумевает под собой компьютерную программу, работающую на соответствующем оборудовании, которая способна получать запросы (например, от клиентских устройств) по сети и выполнять эти запросы или инициировать выполнение этих запросов. Оборудование может представлять собой один физический компьютер или одну физическую компьютерную систему, но ни то, ни другое не является обязательным для настоящего технического решения. В контексте настоящего технического решения использование выражения «сервер» не означает, что каждая задача (например, полученные команды или запросы) или какая-либо конкретная задача будет получена, выполнена или инициирована к выполнению одним и тем же сервером (то есть одним и тем же программным обеспечением и/или аппаратным обеспечением); это означает, что любое количество элементов программного обеспечения или аппаратных устройств может быть вовлечено в прием/передачу, выполнение или инициирование выполнения любого запроса или последствия любого запроса, связанного с клиентским устройством, и все это программное и аппаратное обеспечение может быть одним сервером или несколькими серверами, оба варианта включены в выражение «по меньшей мере один сервер».
[0043] В контексте настоящего описания, если конкретно не указано иное, «информация» включает в себя любую информацию любого типа, включая информацию, которую можно сохранять на носителе информации. Таким образом, информация включает в себя, без установления ограничений, любые индексы, базы данных, массивы информации, любые файлы, аудиовизуальные произведения (фотографии, фильмы, звукозаписи, презентации и так далее), данные (картографические данные, данные о местоположении, количественные данные и так далее), текст (мнения, комментарии, вопросы, сообщения, слова и словосочетания, записанные в любом алфавите и так далее), документы, таблицы и так далее.
[0044] В контексте настоящего описания, если специально не указано иное, термин «алфавит» означает стандартный набор символов (основные письменные символы или графемы), которые используются для письма на конкретном языке, на основе общего принципа, что буквы представляют собой фонемы (основные важные звуки) разговорного языка. В контексте настоящего описания если специально не указано иное, стандартный набор символов, используемый в двух или более различных языках, означает два или более алфавита, несмотря на то, что эти наборы букв могут быть идентичными. Не ограничивающие примеры алфавитов включают в себя латинский алфавит и алфавиты на основе латинского, например, английский, итальянский, немецкий, французский, польский и другие алфавиты, алфавиты на основе кириллицы, например, русский алфавит, болгарский алфавит, украинский алфавит и так далее, греческий алфавит, армянский алфавит, грузинский алфавит и другие. Некоторые алфавиты, например, английский и итальянский, могут содержать идентичные наборы символов. В контексте настоящего технического решения, два алфавита, которые обладают идентичными наборами символов, являются двумя различными алфавитами.
[0045] В контексте настоящего описания, если специально не указано иное, термин «фонетический алфавит» означает алфавитную систему фонетической транскрипции. Он может быть разработан как стандартное представление звуков разговорного языка. Фонетические символы алфавита созданы из одного или нескольких элементов двух основных типов, букв и диакритических знаков. Например, звук английской буквы (t) в фонетическом алфавите может быть представлен одной буквой [t] или сочетанием буквы и диакритического знака , в зависимости от степени точности. Части используется косая черта для обозначения расширенной или фонетической транскрипции; таким образом, символ /t/ является менее конкретным, и одновременно может подразумевать и и [t], в зависимости от контекста и языка. Фонетический алфавит является типом алфавита.
[0046] В контексте настоящего описания, если специально не указано иное, термин «лексическая единица» означает слово или словосочетание, записанное в конкретном алфавите. Лексическая единица может включать в себя и специальные символы, например, пробел, дефис, разрыв строки, разрыв страницы, апостроф, и другие. Некоторые примеры лексических единиц во французском алфавите: (а) "", (b) "bonjour", (с) "qu'est-ce qu'un statut", (d) "", (e) "". Некоторые примеры лексических единиц в английском алфавите: (a) "a", (b) "statement", (b) "ID", (с) "well-being", (d) "a patent for an invention is the grant of a property right to the inventor".
[0047] В контексте настоящего описания, если специально не указано иное, термин «согласная» означает символ алфавита, представляющий звук речи, который выражается в артикуляции с полностью или частично перекрытым вокальным трактом. Примерами являются: звук [р], произносимый с помощью губ; звук [t], произносимый с помощью передней части языка; звук [k], произносимый с помощью задней части языка; звук [h], произносимый с помощью гортани; звуки [f] и [s], произносимые с помощью усиленного пропускания воздуха через узкий канал (фрикативы); и звуки [m] и [n], произносимые с помощью пропускания воздуха через нос (назальные). С согласными контрастируют гласные. В контексте настоящего описания, в некоторых вариантах осуществления настоящего технического решения специальные символы обычно считаются согласными, несмотря на то, что им может не соответствовать никакой звук в разговорной речи.
[0048] В контексте настоящего описания, если специально не указано иное, термин «гласная» означает символ алфавита, представляющий звук разговорного языка, который произносится с открытым вокальным трактом таким образом, что не создается никакого искусственного нагнетания в какой-либо точке выше вокальной щели. С гласными контрастируют согласные. В контексте настоящего описания, в некоторых вариантах осуществления настоящего технического решения специальные символы обычно считаются гласными, несмотря на то, что им может не соответствовать никакой звук в разговорной речи.
[0049] В контексте настоящего описания, если специально не указано иное, термин «гласный сегмент» означает сегмент лексической единицы, который состоит по меньшей мере из одной гласной. Гласный сегмент состоит из всех гласных в лексической единице, примыкающих друг к другу, которые не разделены друг от друга по меньшей мере одной согласной. Если специализированный символ квалифицируется гласной, то он становится частью соседнего гласного сегмента.
[0050] В контексте настоящего описания, если специально не указано иное, термин «согласный сегмент» означает сегмент лексической единицы, который состоит по меньшей мере из одной согласной. Согласный сегмент состоит из всех согласных в лексической единице, примыкающих друг к другу, которые не разделены друг от друга по меньшей мере одной гласной. Если специализированный символ квалифицируется согласной, то он становится частью соседнего согласного сегмента.
[0051] В контексте настоящего описания, если специально не указано иное, термин «транскрипция» означает представление речи или жестов в письменной форме. Источником транскрипции может быть либо высказывание (речь или язык жестов) или ранее существующий текст в другой системе письма, включая ранее существующий текст, записанный на другом языке или записанный с помощью другого алфавита.
[0052] В контексте настоящего описания, если конкретно не указано иное, «компонент» подразумевает под собой программное обеспечение (соответствующее конкретному аппаратному контексту), которое является необходимым и достаточным для выполнения конкретной(ых) указанной(ых) функции(й).
[0053] В контексте настоящего описания, если конкретно не указано иное, термин «носитель информации» подразумевает под собой носитель абсолютно любого типа и характера, включая ОЗУ, ПЗУ, диски (компакт диски, DVD-диски, дискеты, жесткие диски и т.д.), USB флеш-накопители, твердотельные накопители, накопители на магнитной ленте и т.д.
[0054] В контексте настоящего описания, если конкретно не указано иное, слова «первый», «второй», «третий» и т.д. используются в виде прилагательных исключительно для того, чтобы отличать существительные, к которым они относятся, друг от друга, а не для целей описания какой-либо конкретной передачи данных между этими существительными. Так, например, следует иметь в виду, что использование терминов «первый заранее определенный индекс» и «третий заранее определенный индекс» не подразумевает какого-либо порядка, отнесения к определенному типу, хронологии, иерархии или ранжирования (например) графических объектов/между заранее определенными индексами, равно как и их использование (само по себе) не предполагает, что некий «второй заранее определенный индекс» обязательно должен существовать в той или иной ситуации. В дальнейшем, как указано здесь в других контекстах, упоминание "первого" элемента и "второго" элемента не исключает возможности того, что это один и тот же фактический реальный элемент. Так, например, в некоторых случаях, "первый" сервер и "второй" сервер могут являться одним и тем же программным и/или аппаратным обеспечением, а в других случаях они могут являться разным программным и/или аппаратным обеспечением.
[0055] Каждый вариант осуществления настоящего технического решения преследует по меньшей мере одну из вышеупомянутых целей и/или объектов. Следует иметь в виду, что некоторые объекты настоящего технического решения, полученные в результате попыток достичь вышеупомянутой цели, могут удовлетворять и другим целям, отдельно не указанным здесь.
[0056] Дополнительные и/или альтернативные характеристики, аспекты и преимущества вариантов осуществления настоящего технического решения станут очевидными из последующего описания, прилагаемых чертежей и прилагаемой формулы изобретения.
Краткое описание чертежей
[0057] Для лучшего понимания настоящего технического решения, а также других его аспектов и характерных черт сделана ссылка на следующее описание, которое должно использоваться в сочетании с прилагаемыми чертежами, где:
[0058] На Фиг. 1 представлена принципиальная схема системы, выполненной в соответствии с вариантом осуществления настоящего технического решения.
[0059] На Фиг. 2 представлен носитель информации системы, показанной на Фиг. 1, носитель информации хранит различные пары лексических единиц, записанные в первом алфавите, и соответствующие транскрипции лексических единиц, записанные во втором алфавите, устройство хранения информации реализовано в соответствии с не ограничивающими вариантами осуществления настоящего технического решения.
[0060] На Фиг. 3 представлена блок-схема исполняемого на компьютере способа, реализованного в соответствии с вариантами осуществления настоящего технического решения, не ограничивающими его объем.
Осуществление изобретения
[0061] На Фиг. 1 представлена схема системы 100, выполненной в соответствии с вариантами осуществления настоящего технического решения, не ограничивающими его объем. Важно иметь в виду, что нижеследующее описание системы 100 представляет собой описание иллюстративных вариантов осуществления настоящего технического решения. Таким образом, все последующее описание представлено только как описание иллюстративного примера настоящего технического решения. Это описание не предназначено для определения объема или установления границ настоящего технического решения. Некоторые полезные примеры модификаций системы 100 также могут быть охвачены нижеследующим описанием. Целью этого является также исключительно помощь в понимании, а не определение объема и границ настоящего технического решения. Эти модификации не представляют собой исчерпывающий список, и специалистам в данной области техники будет понятно, что возможны и другие модификации. Кроме того, это не должно интерпретироваться так, что там, где это еще не было сделано, т.е. там, где не были изложены примеры модификаций, никакие модификации невозможны, и/или что то, что описано, является единственным вариантом осуществления этого экземпляра настоящего технического решения. Как будет понятно специалисту в данной области техники, это, скорее всего, не так. Кроме того, следует иметь в виду, что система 100 представляет собой в некоторых конкретных проявлениях достаточно простой вариант осуществления настоящего технического решения, и в подобных случаях представлен здесь с целью облегчения понимания. Как будет понятно специалисту в данной области техники, многие варианты осуществления настоящего технического решения будут обладать гораздо большей сложностью.
[0062] Система 100 включает в себя сервер 102. Сервер 102 может представлять собой обычный компьютерный сервер. В примере варианта осуществления настоящего технического решения, сервер 102 может представлять собой сервер Dell™ PowerEdge™, на котором используется операционная система Microsoft™ Windows Server™. Излишне говорить, что сервер 102 может представлять собой любое другое подходящее аппаратное и/или прикладное программное, и/или системное программное обеспечение или их комбинацию. В представленном варианте осуществления настоящего технического решения, не ограничивающем его объем, сервер 102 является одиночным сервером. В других вариантах осуществления настоящего технического решения, не ограничивающих его объем, функциональность сервера 102 может быть разделена, и может выполняться с помощью нескольких серверов.
[0063] Сервер 102 включает в себя носитель 104 информации, который может быть использован сервером 102. В общем случае, носитель 104 информации может быть реализован как носитель абсолютно любого типа и характера, включая ОЗУ, ПЗУ, диски (компакт диски, DVD-диски, дискеты, жесткие диски и т.д.), USB флеш-накопители, твердотельные накопители, накопители на магнитной ленте и т.д. Носитель 104 информации выполнен с возможностью хранения информации, включая машиночитаемые инструкции или другие данные, включая, в качестве не ограничивающего примера, пары лексических единиц, записанные в первом алфавите, и соответствующие транскрипции этих лексических единиц, записанные во втором алфавите, лексические единицы и транскрипции соответствующих лексических единиц разделены на соответствующие сегменты.
[0064] Варианты осуществления сервера 102 хорошо известны в данной области техники. Таким образом, достаточно отметить, что каждый сервер 102 включает в себя, среди прочего, интерфейс 106 сетевой связи (например, модем, сетевую карту и тому подобное) для двусторонней связи по сети ПО передачи данных; и процессор 108, соединенный с интерфейсом 106 сетевой связи и носителем 104 информации, процессор 108 выполнен с возможностью выполнять различные процедуры, включая те, что описаны ниже. С этой целью процессор 108 может иметь доступ к машиночитаемым инструкциям, хранящимся на носителе 104 информации, выполнение которых инициирует процессор 108 выполнять различные описанные здесь процедуры.
[0065] Носитель 104 информации может хранить базу данных (не показана), в которой могут храниться пары лексических единиц и транскрипций.
[0066] Носитель 104 информации может хранить машиночитаемые инструкции, выполнение которых инициирует процессор 108 получать пары лексических единиц, записанных в первом алфавите, и соответствующие транскрипции этих лексических единиц, записанные во втором алфавите. Лексические единицы и транскрипции соответствующей лексической единицы могут быть разделены на соответствующие сегменты таким образом, чтобы в паре каждый сегмент лексической единицы обладал соответствующим сегментом в транскрипции лексической единицы, и таким образом, чтобы каждая лексическая единица включала в себя одно из: (i) последовательность последовательно чередующихся гласного сегмента и согласного сегмента; (ii) один гласный сегмент; (iii) один согласный сегмент. Пары, которые разделены на соответствующие сегменты, могут быть, например, получены от оператора человека. Лексические единицы могут быть разделены на сегменты оператором человеком или любым подходящим вычислительным устройством. Соответствующие транскрипции могут быть разделены на сегменты оператором человеком.
[0067] Процессор 108, например, может получать пару, в которой лексическая единица записана на русском языке с помощью кириллического алфавита, а транскрипции соответствующей лексической единицы записаны в английском алфавите с помощью комбинации английских букв, для связи фонетики русской лексической единицы: "здравствуйте - zdrahstvooytyeh", которая уже разделена на соответствующие сегменты следующим образом: "здр|а|вств|у|йт|е - zdr|ah|stv|oo|yt|yeh". В качестве другого примера, процессор 108 может получать пару, в которой лексическая единица записана на французском языке с помощью французского алфавита, а транскрипции соответствующей лексической единицы записаны в английском алфавите с помощью комбинации английских букв для связи фонетики французской лексической единицы: "bonjour - bonzhoor", которая уже разделена на соответствующие сегменты следующим образом: "b|o|nj|ou|r - b|o|nzh|oo|r". Пары лексических единиц, записанные в первом алфавите, и соответствующие транскрипции этих лексических единиц, записанные во втором алфавите представлен