Адаптивный контекстно-тематический машинный перевод

Иллюстрации

Показать все

Изобретение относится к области машинного перевода текста на естественном языке. Техническим результатом является повышение точности машинного перевода с языка пользователя на иностранный язык, повышение универсализации и экономии вычислительных мощностей при переводе. В способе предоставления информации автоматической системе машинного перевода принимают текст на языке пользователя, который потом разделяют на отдельные исходные фразы-предложения. Автоматическая система путем анализа и сравнения подбирает стандартные фразы, аналогичные каждой исходной фразе, хранящиеся в ее базе данных. Предлагают пользователю выбрать тему стандартной фразы из набора тем в базе данных и переводят фразу на иностранный язык. Если в базе данных не имеется стандартных фраз-аналогов заданной пользователем исходной фразе, то такую исходную информацию отправляют в источник надежной информации вместе с исходным текстом, где подбирают стандартные фразы-аналоги неизвестным исходным фразам и выполняют переводы этих фраз, а также подбирают темы к этим новым стандартным парам "фраза-перевод". Новые темы и стандартные фразы к ним со своими точными переводами встраивают в автоматическую систему машинного перевода. 6 з.п. ф-лы, 4 ил.

Реферат

Изобретение относится к машинному переводу.

В настоящее время растет рынок машинного перевода с широким применением цифровых интернет-технологий. Несмотря на их бурное развитие, качество машинного перевода практически не растет, все усилия сводятся к тому, чтобы по возможности точнее передать общий смысл переводимых текстов, но точность такого перевода весьма относительна. Такие переводы могут только сэкономить время специалистам при знакомстве со специализированными текстами, когда они похожи и многократно пропускаются через системы машинного перевода с корректировками из надежного источника информации.

Такая методика практически непригодна для межличностного общения разноязыких людей на бытовые темы при обычном разговоре. В то же время уже есть программные приложения, позволяющие делать машинный перевод не только текстовых, но и голосовых сообщений.

В целом все методики и системы современного машинного перевода разрабатываются и имеют конечную цель воспроизвести как можно точнее работу переводчика-человека, специалиста самого высокого класса. Для этого разрабатываются сложнейшие системы структурного и статистического анализа различных языков, задействуются все более мощные вычислительные ресурсы. Но решение задачи не просматривается, ибо это задача создания полноценного искусственного интеллекта.

Сущность изобретения

Варианты осуществления настоящего изобретения относятся к реализуемому при помощи компьютера способу предоставления информации автоматической системе машинного перевода для повышения точности перевода с языка пользователя на иностранный язык, для повышения его универсализации, для экономии вычислительных мощностей. Данный способ включает прием исходного текста на языке пользователя и подачу его для перевода отдельными предложениями-фразами для перевода. Автоматическая система машинного перевода ищет в своих базах данных стандартные фразы-аналоги полученным исходным фразам и темы, которым соответствуют найденные фразы-аналоги. После отбора пользователем нужной темы, если стандартная фраза-аналог исходной фразы представлена в нескольких темах в базе данных системы, автоматическая система машинного перевода дает этой фразе однозначно точный перевод на иностранные языки, которые заготовлены в ее базе данных. Если же стандартная фраза представлена только в одной теме, то она переводится сразу, без подбора темы пользователем. Если какие-то фразы из исходного текста не имеют стандартных фраз-аналогов и своих тем в автоматической системе машинного перевода, то в процессе перевода исходного текста эти новые данные по ним создаются и закладываются в базы данных автоматической системы машинного перевода через связанный с ней удаленный источник надежной информации. Наиболее близким аналогом заявленного изобретения является "Адаптивный машинный перевод", патент RU 2382399 С2 от 18.06.2004 года. Недостатком этого аналога является то, что он ориентирован на перевод сразу всего заданного ему текста, подвергая его сложному грамматическому, семантическому и экстралингвистическому анализу, после чего полученный перевод подвергается статистическому сравнению с похожими текстами и дорабатывается уже после этого сравнения. Но поскольку любой язык постоянно и быстро меняется, вбирая в себя новые слова, смыслы, подтексты и термины, то такая методика перевода обречена на неизбежное отставание и использование все больших вычислительных мощностей, никогда не выходя за понимание общего смысла переводимого текста и не давая исчерпывающего представления о его деталях и тонкостях. А для чисто разговорного общения между людьми этот способ вообще непригоден, так как способен менять в течение непродолжительного времени перевод одних и тех же фраз.

Предлагаемое же изобретение упрощает задачу для автоматической системы машинного перевода тем, что пользователь приспосабливается к ее ограниченным возможностям, задавая для перевода не произвольные тексты целиком, а отдельные фразы, каждая из которых представляет законченный мини-контекст для каждого своего слова и входит в группу фраз, соответствующих определенной теме, которая тоже задается в качестве команды. Таким образом автоматическая система машинного перевода просто ищет в заданной теме стандартные фразы-аналоги фразе, заданной пользователем, и, если выбран нужный аналог, то он тут же получает этот перевод в самом точном и однозначном виде из базы данных автоматической системы. Если же какой-то темы с соответствующими ей стандартными фразами и их переводами еще нет в системе машинного перевода, то с помощью источника надежной информации, в котором могут быть задействованы и переводчики-специалисты, всегда может быть создана новая тема и наполнена соответствующими стандартными фразами с их точными переводами и постоянно пополняемыми наборами фраз - нестандартных соответствий. Таким образом экономится время пользователей, особенно при личном диалоговом общении, и нет необходимости в больших вычислительных мощностях для сложного анализа задаваемых текстов. Тем же, кто хочет перевести иностранный текст на свой язык, эта методика пока не поможет, зато может резко облегчить и ускорить работу профессиональных переводчиков-специалистов, которые, зная иностранный язык и переводя на него тексты, могли бы к тому же пополнять базы данных системы автоматического машинного перевода созданными ими стандартными парами "фраза-перевод" с соответствующими новыми темами. Данный способ резко облегчает переводы исходных текстов на последующие иностранные языки потому, что имея уже один готовый перевод исходного текста, можно этот перевод задавать системе, и она его гораздо легче переведет на другие языки, поскольку он будет состоять из одних стандартных фраз с уже выбранными для них темами.

Можно сказать, что по сравнению с уже имеющимися системами автоматического машинного перевода, с тем же патентом 2382399, данный способ резко упрощает процесс перевода и своей адаптации за счет того, что весь анализ переводимых фраз сводится к поиску аналогов в базах данных путем сравнения, а адаптация (обучение!) - к пополнению баз данных новыми темами с наборами новых стандартных пар "фраза-перевод" с сопутствующими им наборами нестандартных фраз-аналогов. Однако это не исключает в будущем встраивания и использования в настоящем изобретении уже имеющихся методик компьютерного анализа и перевода, вероятностных и статистических, которые применяются в том же способе по патенту 2382399, для повышения степени автоматизации процесса перевода. Но и в этом случае задача для указанных методик будет резко упрощена, поскольку работать придется с отдельными фразами без ориентации на смысл и специализацию всего массива похожих текстов, как это происходит сейчас. Таким образом достигается универсальность настоящего изобретения для максимально точного перевода любых текстов, а не только близких по тематике, как в уже действующих системах автоматического машинного перевода, а общее упрощение работы системы многократно снизит требования к мощности вычислительных ресурсов для ее обеспечения.

Данное изобретение можно использовать с множеством любых вычислительных систем, сред или конфигураций вычислительной системы общего или специального назначения.

Примеры хорошо известных вычислительных систем, сред и/или конфигураций, пригодных для использования с настоящим изобретением, включают персональные компьютеры, серверы, карманные или портативные устройства, мультипроцессорные системы, системы на основе микропроцессоров, приставки, программируемую бытовую электронику, сетевые ПК, мини-компьютеры, универсальные ЭВМ, телефонные системы, распределенные вычислительные среды, содержащие любые из перечисленных систем или устройств и т.п., но не ограничиваются упомянутым.

Краткое описание чертежей

Рис. 1 - Структурная схема, иллюстрирующая сервис адаптивного машинного перевода, соответствующий настоящему изобретению.

Рис. 2 - Структурная схема, иллюстрирующая поиск стандартных фраз-аналогов и тем в базах данных автоматической системы машинного перевода, соответствующий настоящему изобретению.

Рис. 3 - Структурная схема одного конкретного применения вариантов осуществления настоящего изобретения.

Рис. 4 - Структурная схема второго конкретного применения вариантов осуществления настоящего изобретения.

Подробное описание вариантов осуществления настоящего изобретения

На рис. 1 структурно показано, как работает адаптивная система машинного перевода в соответствии с настоящим изобретением.

Голосом или с помощью клавиатуры, а также с любого машиночитаемого носителя пользователь вводит в систему автоматического машинного перевода исходный текст 1, там происходит процесс разделения исходного текста 2 на отдельные фразы-предложения по таким признакам, как заглавные буквы в начале предложения и точка, вопросительный и восклицательный знаки в конце предложения. Затем исходной фразе 3 проводится автоматический процесс подбора 4 стандартной фразы-аналога в базах данных системы, затем стандартной фразе-аналогу 5 система осуществляет автоматический подбор тем 6 из своих баз данных, после чего пользователем выбирается из представленного набора тем подходящая 7. Если в базах данных системы есть только одна тема для стандартной фразы-аналога, то участие пользователя не требуется. Затем стандартная фраза, соответствующая своей теме подвергается процессу автоматического перевода 11, который состоит в том, что данной фразе в базах данных системы отыскивается однозначно точный перевод 12. Если же какой-то исходной фразе текста автоматическая система не находит у себя стандартных аналогов, то эта фраза 8 вместе с исходным текстом поступают по сети Интернет в удаленный источник надежной информации 9, где, либо автоматически, либо при участии человека-переводчика, новой фразе подбирается стандартный аналог и тема, либо из тем, имеющихся в базах данных системы, либо новая тема, соответственно создается стандартная пара "фраза-перевод" 10, которая вместе с новой темой закладывается в базы данных поиска автоматической системы машинного перевода 4, 6, 11. Исходная фраза, не имевшая до этого стандартных аналогов тоже закладывается в базы данных поиска, как нестандартное соответствие стандартной паре "фраза-перевод". В конечном итоге получается автоматически созданный перевод исходной фразы в виде однозначно точного перевода найденной ей стандартной фразы-аналога 12. После перевода всех исходных фраз система машинного перевода выдает полный перевод исходного текста 13.

На рис. 2 отображен поиск стандартных соответствий по базам данных системы автоматического машинного перевода. В базах данных собраны все темы, которые когда-либо задавались системе, каждой теме соответствует свой набор стандартных фраз со своими однозначно точными переводами, а каждой стандартной фразе имеется свой набор исходных фраз, которые когда-либо задавались в систему машинного перевода и прошли через источник надежной информации для подбора им стандартной пары "фраза-перевод" в соответствии с заданной темой.

Исходная фраза 1 сравнивается в со всеми стандартными и нестандартными фразами в базе данных 2, где расположены все стандартные фразы с соответствующими им нестандартными фразами-аналогами, которые когда-либо задавались для перевода системе машинного перевода. Если нашлась стандартная фраза-аналог 3, то она поступает в базу данных 4, где расположены все темы со своими наборами соответствующих им стандартных фраз. После этого пользователь видит все темы 5, в наборах которых присутствует нужная ему стандартная фраза. Из них он выбирает одну 6, которая ему нужна.

На рис. 3 показан вариант использования настоящего изобретения при переводе исходного текста профессиональным переводчиком на иностранный язык. В этом случае системе посылается сигнал о том, что будет работать пользователь-переводчик, в системе предусматривается такая опция. Далее все идет по следующей схеме. Задается исходный текст 1, разбивается на исходные фразы-предложения 2, и, если этим фразам в системе есть стандартные аналоги и темы, то все идет так, как показано на рис. 1, но если находятся исходные фразы без стандартных аналогов и тем 8 в базах данных системы, то переводчик сам делает перевод фразы 9, после чего она вместе с исходным текстом поступает в источник надежной информации 10, где им дается, если нужно, стандартная модификация, и эти новые данные 11 поступают в базы данных 4, 6, 12 системы автоматического машинного перевода.

Таким образом переводчик может сэкономить много времени и сил при переводе больших текстов, а также, имея готовый перевод, скажем на английский язык, состоящий из стандартных фраз, да еще имея тему каждой фразы, поскольку можно запросить ее у системы, он легко, точно и быстро переведет с помощью системы этот текст на любые другие языки, которыми сам не владеет. Также это возможно и для обычного пользователя, что подробно показано на рис. 4.

На рис. 4 показан вариант использования настоящего изобретения при переводе уже готового перевода исходного текста на дополнительные языки. Пользователь имеет готовый перевод исходного текста на какой-то язык. Следовательно, этот перевод состоит из одних стандартных фраз. В системе будет предусмотрена опция, благодаря которой пользователь может запросить электронную версию перевода с проставлением каждой фразе текста названия ее темы. После чего пользователь дает сигнал системе, что ей предстоит перевод на соответствующий язык текста, состоящего из стандартных фраз с указанием их тем. В системе отключаются ненужные звенья и далее все идет следующим путем, исходный текст из стандартных фраз с темами по каждой фразе 1, задается в систему и делается его разделение на фразы предложения со своими темами 2, затем каждая тема 3 со своей стандартной фразой 4 поступают в автоматический процесс перевода стандартной фразы 5, выдавая ее автоматически созданный перевод 6.

На конечном этапе получаем автоматически созданный перевод исходного текста.

1. Реализуемый с помощью компьютера способ предоставления информации автоматической системе машинного перевода, заключающийся в том, что: исходный текст на языке пользователя предварительно разбивается для анализа и перевода на отдельные фразы, каждая из которых представляет одно законченное предложение, каждой исходной фразе автоматическая система подбирает в своей базе данных стандартную фразу-аналог, после чего пользователь может видеть набор тем, в которых присутствует выбранная стандартная фраза в базе данных, если она присутствует сразу в нескольких темах, пользователь указывает тему, которую должна освещать выбранная им стандартная фраза, после чего дается однозначно точный перевод стандартной фразы на иностранный язык в соответствии с темой, которую эта фраза должна освещать, если стандартная фраза присутствует только в одной теме, то переводится сразу без участия пользователя, если исходной фразе нет в базе данных стандартных фраз-аналогов, то система посылает эту фразу вместе с исходным текстом в связанный с ней по сети Интернет источник надежной информации, где данной фразе готовится стандартный аналог, который либо закрепляется за одной из тем, имеющихся в базе данных системы, либо ему подбирается своя тема, подобранной стандартной фразе дается однозначный стандартный перевод на иностранные языки, после чего все эти результаты закладываются в базу данных автоматической системы машинного перевода, причем исходная нестандартная фраза тоже закладывается в базу данных, как одно из нестандартных соответствий стандартной паре "фраза-перевод", созданных для новой темы источником надежной информации, а потом перевод новой стандартной фразы предоставляется пользователю в составе перевода всего исходного текста.

2. Способ по п. 1, отличающийся тем, что предоставление информации автоматической системе машинного перевода производится отдельными законченными фразами-предложениями без необходимости анализировать смысл всего текста.

3. Способ по п. 1, отличающийся тем, что подготовка информации для перевода производится автоматической системой машинного перевода путем предварительного подбора стандартных фраз-аналогов исходных фраз и соответствующих им тем в имеющихся базах данных.

4. Способ по п. 1, отличающийся тем, что каждой стандартной фразе на исходном языке в базах данных автоматической системы машинного перевода соответствует однозначно точный стандартный перевод на языках перевода.

5. Способ по п. 1, отличающийся тем, что предусматривает пополнение баз данных автоматической системы машинного перевода новыми темами с соответствующими им наборами стандартных фраз и их стандартными переводами.

6. Способ по п. 1, отличающийся тем, что исходные фразы, которым подбираются стандартные пары "фраза-перевод" через источник надежной информации, в дальнейшем закладываются в базы данных системы автоматического перевода как часть набора нестандартных соответствий для каждой стандартной пары "фраза-перевод".

7. Способ по п. 6, отличающийся тем, что в базах данных автоматической системы машинного перевода каждой стандартной паре "фраза-перевод" предусмотрен постоянно пополняемый набор нестандартных фраз-соответствий на языке пользователя.