Адаптивный машинный перевод

Реферат

 

Изобретение относится к машинному переводу. Изобретение позволяет повысить точность машинного перевода. Способ предоставления информации автоматической системе машинного перевода для повышения точности перевода включает прием исходного текста. От автоматической системы машинного перевода принимается пробный перевод, соответствующий исходному тексту. Кроме того, принимается коррекционная информация, сконфигурированная таким образом, чтобы осуществить коррекцию, по меньшей мере, одной ошибки в пробном переводе. На конечном этапе автоматической системе машинного перевода предоставляется информация для снижения вероятности того, что эта ошибка будет повторяться в последующих переводах, созданных этой системой, при этом указанная информация встраивается в автоматическую систему машинного перевода. 4 н. и 34 з.п. ф-лы; 11 ил.

ПРЕДПОСЫЛКИ СОЗДАНИЯ ИЗОБРЕТЕНИЯ

Настоящее изобретение относится к машинному переводу. В частности, настоящее изобретение относится к средствам для систематического совершенствования применяемой пользователем автоматической системы машинного перевода в обычном рабочем процессе получения откорректированных переводов из надежного источника.

В результате роста международного общения, обусловленного появлением таких технологий, как Интернет, в последние годы стал более широко использоваться машинный перевод и, в частности, получила большее распространение компьютерная система перевода текстов на естественных языках. В некоторых случаях машинный перевод может выполняться автоматически. Однако иногда в процесс создания качественного перевода необходимо вмешательство человека. Если говорить в общем, переводы, основанные на использовании человеческих ресурсов, являются более точными, но менее эффективными с точки зрения времени и стоимости по сравнению с полностью автоматизированными системами. В некоторых системах перевода к взаимодействию с человеком прибегают только в том случае, когда точность перевода имеет решающее значение. В общем случае время и стоимость, связанные с вмешательством человека, приходится затрачивать каждый раз, когда требуется особенно точный перевод.

Качество технических переводов, созданных с использованием полностью автоматизированной системы машинного перевода, с ростом потребности в подобных системах, в общем, не повышается. Общепризнанным фактом является то, что для получения автоматического перевода более высокого качества в конкретной области (или по конкретной тематике) должна быть произведена существенная настройка системы машинного перевода. В типичном случае настройка включает добавление специализированной терминологии и правил перевода текстов в требуемой области. Такая настройка в обычном случае выполняется квалифицированными специалистами по вычислительной лингвистике, использующими полуавтоматизированные средства для добавления терминов в онлайновые словари и пишущими лингвистически ориентированные правила, в типичном случае на специальных языках правил. Этот тип настройки является относительно дорогостоящим.

Кроме всего прочего, переводческие сервисы, доступные потребителям из множества источников, не могут обеспечить экономически эффективные, высококачественные, адаптированные переводы. Например, в настоящее время широкому кругу пользователей доступны архивированные и находящиеся во всемирной паутине системы перевода. Однако эти системы перевода трудно или невозможно настроить для специальной области или тематики. Кроме того, существуют коммерческие системы перевода. Эти системы могут быть настроены для конкретных областей, однако процесс настройки является утомительным и в типичном случае достаточно дорогостоящим. Также предлагаются услуги перевода, основанные на непосредственном участии человека (то есть услуги переводчиков, предлагаемые во всемирной паутине либо основанные на почтовых заказах). Однако использование услуг переводчиков в типичном случае требует выплаты гонорара за каждый переводимый документ, и это расходы, которые никогда не прекращаются.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Варианты осуществления настоящего изобретения относятся к реализуемому при помощи компьютера способу предоставления информации автоматической системе машинного перевода для повышения точности перевода. Данный способ включает прием исходного текста. От автоматической системы машинного перевода принимается пробный перевод, соответствующий исходному тексту. Также принимается коррекционная информация, сконфигурированная таким образом, чтобы осуществить коррекцию, по меньшей мере, одной ошибки в пробном переводе. На конечном этапе автоматической системе машинного перевода предоставляется информация для снижения вероятности того, что упомянутая ошибка будет повторяться в последующих переводах, созданных этой системой.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Фиг.1 - структурная схема одной примерной конфигурации, с использованием которой может быть реализовано настоящее изобретение.

Фиг.2 - структурная схема другой примерной конфигурации, с использованием которой может быть реализовано настоящее изобретение.

Фиг.3 - структурная схема, иллюстрирующая сервис адаптивного машинного перевода, соответствующий настоящему изобретению.

Фиг.4 - блок-схема, иллюстрирующая использование показателя достоверности в контексте сервиса адаптивного машинного перевода.

Фиг.5А - структурная схема одного конкретного применения вариантов осуществления настоящего изобретения.

Фиг.5В - структурная схема другого конкретного применения вариантов осуществления настоящего изобретения.

Фиг.6 - структурная схема системы машинного перевода, с использованием которой может быть реализовано настоящее изобретение.

Фиг.7 - блок-схема, иллюстрирующая вариант осуществления настоящего изобретения, в котором применяемая пользователем система перевода обновляется дистанционно.

Фиг.8 - блок-схема, иллюстрирующая вариант осуществления настоящего изобретения, в котором применяемая пользователем система перевода обновляется локально.

Фиг.9 - структурная схема еще одного конкретного применения вариантов осуществления настоящего изобретения.

ПОДРОБНОЕ ОПИСАНИЕ ПРИМЕРНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ

I. ПРИМЕРЫ ОПЕРАЦИОННОЙ СРЕДЫ

Различные аспекты настоящего изобретения относятся к включению адаптивного машинного перевода в обычный рабочий процесс получения откорректированных переводов из надежного источника. Однако перед более подробным рассмотрением данного изобретения будут описаны варианты примерной среды, в которой оно может быть реализовано.

На Фиг.1 изображен пример подходящей конфигурации вычислительной системы 100, с использованием которой может быть реализовано данное изобретение. Конфигурация вычислительной системы 100 является всего лишь одним из примеров подходящей вычислительной среды и не подразумевает какого-либо ограничения объема использования или функциональных возможностей данного изобретения. Кроме того, конфигурация вычислительной системы 100 не должна восприниматься как зависящая от какого-либо одного из изображенных ее компонентов или их комбинации либо как требующая их наличия.

Данное изобретение можно использовать с множеством других вычислительных систем, сред или конфигураций вычислительной системы общего или специального назначения. Примеры хорошо известных вычислительных систем, сред и/или конфигураций, пригодных для использования с настоящим изобретением, включают персональные компьютеры, серверы, карманные или портативные устройства, мультипроцессорные системы, системы на основе микропроцессоров, приставки, программируемую бытовую электронику, сетевые ПК, мини-компьютеры, универсальные ЭВМ, телефонные системы, распределенные вычислительные среды, содержащие любые из перечисленных систем или устройств и т.п., но не ограничиваются упомянутым.

Настоящее изобретение может быть описано в общем контексте исполняемых компьютером команд, например программных модулей, выполняемых компьютером. В основном программные модули включают процедуры, программы, объекты, компоненты, структуры данных и т.д., выполняющие конкретные задачи или использующие конкретные абстрактные типы данных. Настоящее изобретение создано с учетом его реализации в распределенных вычислительных средах, где задачи выполняются устройствами удаленной обработки, которые соединены посредством сети связи. В распределенной вычислительной среде программные модули находятся в компьютерных средствах хранения как локального, так и удаленного компьютера, включающих запоминающие устройства. Задачи, выполняемые программами и модулями, описаны ниже с помощью чертежей. Специалисты в данной области техники могут реализовать приведенные описания и чертежи в виде исполняемых процессором команд, которые могут быть записаны на машиночитаемом носителе любого типа.

Как показано на Фиг.1, примерная система, реализующая данное изобретение на практике, включает вычислительное устройство общего назначения в виде компьютера 110. Компоненты компьютера 110 могут включать процессор 120, системную память 130 и системную шину 121, соединяющую различные компоненты системы, включая системную память, с процессором 120, но не ограничиваются упомянутым. Системная шина 121 может относиться к любому из нескольких типов шинных архитектур, включая шину памяти или контроллер памяти, шину периферийных устройств и локальную шину на основе любой из множества шинных архитектур. В качестве примера, не подразумевающего ограничение, подобные архитектуры включают шину ISA (архитектура промышленного стандарта), шину MCA (микроканальная архитектура), шины EISA (расширенная архитектура промышленного стандарта), локальную шину VESA (стандарт высокоскоростной локальной видеошины) и шину PCI (локальная шина для системных плат), также известную как Mezzanine bus.

Компьютер 110 в типичном случае содержит множество машиночитаемых носителей информации. Машиночитаемые носители могут представлять собой любые существующие носители, к которым может обращаться компьютер 110, и включают как энергозависимые, так и энергонезависимые носители, съемные и несъемные носители. В качестве примера, не подразумевающего ограничение, машиночитаемые носители могут включать компьютерные средства хранения и коммуникационные среды. Компьютерные средства хранения включают как энергозависимые, так и энергонезависимые, съемные и несъемные носители, использующие любой способ или технологию хранения такой информации, как машиночитаемые команды, структуры данных, программные модули или другие данные. Компьютерные средства хранения включают оперативное запоминающее устройство (ОЗУ, RAM), постоянное запоминающее устройство (ПЗУ, ROM), электрически стираемое программируемое постоянное запоминающее устройство (ЭСППЗУ, EEPROM), флэш-память или другие виды памяти, ПЗУ на компакт-дисках (CD-ROM), цифровые универсальные диски (DVD) или другие оптические диски, кассеты с магнитной лентой, магнитную ленту, магнитные диски, или другие магнитные носители, или любой другой носитель, который может использоваться для хранения требуемой информации и к которому может обращаться компьютер 110.

Коммуникационные среды в типичном случае воплощают машиночитаемые команды, структуры данных, программные модули или другие данные в виде модулированного сигнала данных, например несущей волны или другого механизма передачи, и включают любую среду доставки информации. Термин "модулированный сигнал данных" означает сигнал, одна или более характеристик которого заданы или изменяются таким образом, чтобы закодировать информацию в данном сигнале. В качестве примера, не подразумевающего ограничение, коммуникационная среда включает проводную среду, например проводную сеть или прямое соединение, и беспроводную среду, например акустическую, радиочастотную, инфракрасную и другую беспроводную среду. Комбинации любого из вышеупомянутого также представляют собой машиночитаемую среду.

Системная память 130 содержит компьютерное средство хранения в виде энергозависимой и/или энергонезависимой памяти, например ПЗУ 131 и ОЗУ 132. Базовая система ввода/вывода 133 (BIOS), содержащая основные процедуры, помогающие элементам компьютера 110 обмениваться информацией, например, во время запуска, в типичном случае хранится в ПЗУ 131. ОЗУ 132 в типичном случае содержит данные и/или программные модули, которые непосредственно доступны процессору 120 и/или используются им в текущий момент. В качестве примера, не подразумевающего ограничение, на Фиг.1 изображена операционная система 134, прикладные программы 135, другие программные модули 136 и программные данные 137.

Компьютер 110 может также содержать другие съемные/несъемные энергозависимые/энергонезависимые компьютерные средства хранения. Только в качестве примера на Фиг.1 изображены накопитель 141 на жестких дисках, считывающий информацию с несъемного, энергонезависимого магнитного носителя или записывающий информацию на него, накопитель 151 на магнитных дисках, считывающий информацию со съемного, энергонезависимого магнитного диска 152 или записывающий информацию на него, и накопитель 155 на оптических дисках, считывающий информацию со съемного, энергонезависимого оптического диска 156, например диска CD-ROM или другого оптического носителя, и записывающий информацию на него. Другие съемные/несъемные, энергозависимые/энергонезависимые компьютерные средства хранения, которые могут использоваться в примерной операционной среде, включают кассеты с магнитной лентой, карты флэш-памяти, цифровые универсальные диски, кассеты для цифрового видео, твердотельное ОЗУ, твердотельное ПЗУ и т.п., но не ограничиваются упомянутым. Накопитель 141 на жестких дисках в типичном случае соединен с системной шиной 121 посредством интерфейса несъемных запоминающих устройств, например интерфейса 140, а накопитель 151 на магнитных дисках и накопитель 155 на оптических дисках в типичном случае соединены с системной шиной 121 при помощи интерфейса съемных запоминающих устройств, например, интерфейса 150.

Рассмотренные выше и изображенные на Фиг.1 накопители и соответствующие им компьютерные средства хранения обеспечивают хранение машиночитаемых команд, структур данных, программных модулей и других данных для компьютера 110. Например, на Фиг.1 накопитель 141 на жестких дисках изображен как средство хранения операционной системы 144, прикладных программ 145, других программных модулей 146 и программных данных 147. Отметим, что эти компоненты могут быть идентичны или отличаться от операционной системы 134, прикладных программ 135, других программных модулей 136 и программных данных 137. Операционная система 144, прикладные программы 145, другие программные модули 146 и программные данные 147 обозначены здесь отличающимися номерами, чтобы проиллюстрировать то, что они представляют собой, как минимум, другие копии.

Пользователь может вводить команды и информацию в компьютер 110 при помощи устройств ввода, например клавиатуры 162, микрофона 163, и координатно-указательного устройства 161, например мыши, трекбола или сенсорной панели. Другие устройства ввода (не показаны) могут включать джойстик, игровую панель, спутниковую параболическую систему, сканер или т.п. Эти и другие устройства ввода часто соединяют с процессором 120 через интерфейс 160 ввода пользователем, соединенный с системной шиной, но могут быть соединены при помощи других интерфейсов и шин другой архитектуры, таких как параллельный порт, игровой порт или универсальная последовательная шина (USB). С системной шиной 121 через интерфейс, например видеоинтерфейс 190, также соединен монитор 191 или другое устройство отображения информации. Кроме монитора компьютеры могут также содержать другие периферийные устройства вывода, например динамики 197 и принтер 196, которые могут быть соединены через интерфейс 195 периферийных устройств вывода.

Компьютер 110 работает в сетевой среде, используя логические соединения с одним или более удаленными компьютерами, например удаленным компьютером 180. Удаленный компьютер 180 может представлять собой персональный компьютер, карманное устройство, сервер, маршрутизатор, сетевой ПК, устройство, соединенное через одноранговую сеть, или другой общий сетевой узел, и в типичном случае содержит многие или все элементы, описанные выше применительно к компьютеру 110. Логические соединения, изображенные на Фиг.1, включают локальную вычислительную сеть (ЛВС) 171 и глобальную вычислительную сеть (ГВС) 173, но могут также включать и другие сети. Такие сетевые среды представляют собой офисные серверы, компьютерные сети предприятий, сети интранет и Интернет.

При использовании в сетевой среде ЛВС компьютер 110 соединен с ЛВС 171 посредством сетевого интерфейса или адаптера 170. При использовании в сетевой среде ГВС компьютер 110 в типичном случае включает модем 172 или другие средства для установления связи в ГВС 173, например Интернет. Модем 172, который может быть внутренним или внешним, может быть соединен с системной шиной 121 посредством интерфейса 160 ввода пользователем или другого подходящего устройства. В сетевой среде программные модули, описанные применительно к компьютеру 110, или их части могут храниться в удаленном запоминающем устройстве. В качестве примера, не подразумевающего ограничение, на Фиг.1 удаленные прикладные программы 185 изображены как находящиеся на удаленном компьютере 180. Понятно, что показанные сетевые соединения являются примерными и могут быть использованы другие средства установления канала связи между компьютерами.

Необходимо отметить, что настоящее изобретение может быть реализовано с использованием компьютерной системы, подобной описанной с использованием Фиг.1. Однако настоящее изобретение может быть реализовано с использованием сервера, компьютера, выделенного для обработки сообщений, или распределенной системы, в которой различные части настоящего изобретения могут быть реализованы с использованием различных частей этой распределенной вычислительной системы.

Фиг.2 представляет собой структурную схему мобильного устройства 200, являющегося другим примером подходящей вычислительной системы, в которой может быть реализовано настоящее изобретение. Конфигурация вычислительной системы 200 является всего лишь еще одним примером подходящей вычислительной системы и не предполагает какого-либо ограничения объема использования или функциональных возможностей данного изобретения. Также вычислительная система 200 не должна восприниматься как зависящая от какого-либо из изображенных ее компонентов или их комбинации либо как требующая их наличия.

Мобильное устройство 200 включает микропроцессор 202, память 204, компоненты 206 ввода/вывода и связной интерфейс 208 для связи с удаленными компьютерами или другими мобильными устройствами. В одном из вариантов для связи друг с другом данные компоненты соединены при помощи соответствующей шины 210.

Память 204 реализована как энергонезависимая электронная память, например ОЗУ с резервным аккумуляторным модулем (не показан), в результате чего информация, хранящаяся в памяти 204, не теряется при отключении основного питания мобильного устройства 200. Часть памяти 204 предпочтительно выделена как адресуемая память для исполнения программ, в то время как другая часть памяти 204 предпочтительно применяется для хранения, например, имитирующего хранение с использованием дискового накопителя.

Память 204 содержит операционную систему 212, прикладные программы 214, а также область 216 объектно-ориентированной памяти. Во время работы операционная система 212 предпочтительно исполняется процессором 202 из памяти 204. Операционная система 212 в одном из предпочтительных вариантов представляет собой операционную систему WINDOWS® CE, предлагаемую на рынке Microsoft Corporation. Операционная система 212 предпочтительно разработана для мобильных устройств и реализует средства управления базами данных, которые могут использоваться приложениями 214 при помощи набора открытых интерфейсов и способов прикладного программирования. Объекты, находящиеся в области 216 объектно-ориентируемой памяти, используются приложениями 214 и операционной системой 212, по меньшей мере, отчасти в ответ на обращения к упомянутым открытым интерфейсам и способам прикладного программирования.

Связной интерфейс 208 представляет собой различные устройства и технологии, позволяющие мобильному устройству 200 передавать и принимать информацию. Упомянутые устройства включают в качестве всего лишь нескольких примеров проводные и беспроводные модемы, спутниковые приемники и телевизионные тюнеры. Мобильное устройство 200 может также непосредственно устанавливать соединение с компьютером для обмена данными. В таких случаях связной интерфейс 208 может представлять собой инфракрасный приемопередатчик либо последовательное или параллельное соединение, при этом все из перечисленного способно передавать потоковую информацию.

Компоненты 206 ввода/вывода включают множество устройств ввода, например сенсорный экран, клавиши, ролики и микрофон, а также множество устройств вывода, включая звуковой генератор, виброустройство и дисплей. Перечисленные выше устройства приведены в качестве примера и не обязательно все присутствуют в мобильном устройстве 200. Кроме того, в пределах объема настоящего изобретения к мобильному устройству 200 могут быть присоединены или использоваться вместе с ним и другие устройства ввода/вывода.

II. КРАТКОЕ ОПИСАНИЕ СЕРВИСА АДАПТИВНОГО МАШИННОГО ПЕРЕВОДА

Фиг.3 представляет собой структурную схему, иллюстрирующую адаптивный машинный перевод в обычном рабочем процессе получения откорректированных переводов из надежного источника.

Было проведено исследование, целью которого являлась автоматизация настройки автоматических систем машинного перевода с использованием различных методов обучения машины, включая статистический и основанный на примерах методы. При помощи таких методов система машинного перевода способна усваивать соответствие перевода из уже переведенных материалов (часто называемые битекстами или двуязычными массивами), которые содержат предложения на одном (исходном) языке и соответствующие переведенные (целевые) предложения на другом языке. Кроме того, такие системы машинного перевода могут усваивать дополнительные соответствия из "сравнимых" массивов или тексты, которые не являются точными переводами друг друга, но которые оба описывают похожие понятия и события как на исходном, так и на целевом языках. Они могут далее использовать одноязычные массивы для усвоения гибких конструкций на целевом языке. Согласно одному из основных аспектов настоящего изобретения эти технологии настройки применяются в традиционной среде управления документооборотом и используют его преимущества. А именно, данные для обучения автоматической системы перевода создаются в ходе обычного процесса создания документов, получения соответствующих переводов и их коррекции пользователем системы. Обучающие данные делают возможной систематическую настройку применяемой пользователем автоматической системы машинного перевода.

Как показано на Фиг.3, варианты реализации настоящего изобретения относятся к включению адаптивной системы машинного перевода в среду управления документооборотом или рабочую среду, где пользователи передают исходный документ 302 автоматическому переводчику, находящемуся на компьютере пользователя (или на сервере, связанном с пользователем) для перевода. Это действие представлено блоком 330. Исходный документ 302 и автоматически созданный перевод 304 передаются надежному источнику модификации (т.е. человеку-переводчику) для просмотра и коррекции. Это действие представлено блоком 332.

Откорректированный перевод 306 и оригинал исходного документа 302 обрабатываются для создания совокупности обновленных и предположительно точных соответствий 308 перевода. Это действие представлено блоком 334. Согласно одному из вариантов реализации настоящего изобретения соответствия 308 создаются самонастраивающейся системой машинного перевода, которая работает параллельно самонастраивающейся системе машинного перевода, используемой пользователем. Согласно одному из вариантов реализации настоящего изобретения обновленные соответствия 308 перевода помещаются в обновленную базу данных (или, если используется статистическая система машинного перевода, они отражаются в обновленной таблице статистических параметров), которая посылается обратно пользователю вместе с откорректированным переведенным документом. Эти обновления встраиваются в применяемую пользователем автоматическую систему машинного перевода. Когда в следующий раз пользователь пытается перевести похожий текстовый материал 310, система автоматически создает перевод 312 более высокого качества на основе обновлений, возвращенных с ранее откорректированными документами. Это действие представлено блоком 336. Необходимо отметить, что данный процесс обучения, а также все описанные здесь сходные процессы обучения в качестве примера помогают при последующих переводах, осуществляемых в обоих направлениях языковой пары (т.е. испанский - английский и английский - испанский).

Необходимо отметить, что на основе откорректированного перевода 306 и исходного документа 302 может быть создано множество различных типов обучающих данных. Эти различные типы обучающих данных могут быть использованы для адаптации применяемой пользователем автоматической системы перевода. Обновление соответствий перевода является всего лишь одним из примеров в пределах объема настоящего изобретения. В пределах данного объема находится также обновление любого источника знаний. Также в пределах этого объема находится любое обновление какого-либо статистического или основанного на примерах средства обучения. Конкретные примеры будут подробно описаны ниже.

По мере того как пользователь получает автоматический перевод различных документов и посылает из системы результаты для надежного последующего редактирования или постредактирования (т.е. коррекции и модификации), применяемая пользователем автоматическая система перевода постепенно самонастраивается, чтобы обеспечить более эффективный перевод похожих документов. Необходимость дорогостоящей настройки устраняется, и пользователь в последующем будет получать автоматические переводы более высокого качества. Адаптация и настройка применяемой пользователем автоматической системы перевода (в качестве примера) происходит "за сценой", пока пользователь занят в обычном процессе получения качественных переводов.

Согласно одному из вариантов реализации настоящего изобретения автоматически созданный перевод 304 содержит автоматически созданный показатель достоверности, указывающий качество всего перевода и/или его части. Показатель достоверности (в качестве примера) основан на предполагаемой удовлетворенности пользователя полученным результатом. Создание и использование такого показателя достоверности описано в заявке на патент США 10/309,950 на "Систему и способ для усвоения машиной показателя достоверности машинного перевода" от 4 декабря 2002 года, переуступленной правообладателю настоящей заявки и включенной в настоящее описание посредством ссылки во всей своей полноте.

Фиг.4 представляет собой блок-схему последовательности операций, иллюстрирующую введение показателя достоверности в описанную самонастраивающуюся систему машинного перевода. На этапе 402 пользователь получает автоматический перевод исходного документа. Документ содержит отмеченную информацию о показателе достоверности, относящуюся ко всему документу и/или одной или более его отдельных частей. На этапе 404 пользователь выбирает для последующего редактирования одну или более частей, имеющих низкую оценку достоверности. Эти части передаются надежному источнику модификации (т.е. человеку-переводчику) для коррекции. Откорректированные части обрабатываются вместе с оригиналом исходного документа для создания совокупности обновленных и предположительно точных соответствий перевода. Согласно одному из вариантов реализации настоящего изобретения эта обработка выполняется самонастраивающейся системой машинного перевода, работающей параллельно с самонастраивающейся системой машинного перевода, применяемой пользователем.

На этапе 406 обновленные соответствия перевода посылаются обратно пользователю вместе с откорректированными переведенными частями (или полностью откорректированным переведенным документом). На этапе 408 обновления встраиваются в применяемую пользователем автоматическую систему машинного перевода. В следующий раз, когда пользователь пытается перевести похожий текстовой материал, применяемая им автоматическая система машинного перевода создаст перевод более высокого качества.

III. КОНКРЕТНЫЕ ВАРИАНТЫ ПРИМЕНЕНИЯ

Фиг.5А и 5В представляют собой структурные схемы конкретных применений описанных выше вариантов адаптивной системы машинного перевода. Конкретные применения являются всего лишь примерами и не предполагают какого-либо ограничения объема использования изобретения или его функциональных возможностей. Кроме того, конкретные варианты применения не должны восприниматься как зависящие от какого-либо из изображенных компонентов или их комбинации либо как требующие их наличия.

Фиг.5А представляет собой структурную схему вычислительной системы 500. Пользователь 502 использует вычислительное устройство 504, чтобы сделать возможным взаимодействие с надежным источником 506 модификации через компьютерную сеть 505 (т.е. Интернет). Источник 506 в качестве примера представляет собой переводческий сервис, реализованный в вычислительном устройстве и предоставляемый вычислительному устройству 504 и его пользователю 502 по сети 505.

Вычислительное устройство 504, так же как и вычислительное устройство, в котором реализован источник 506 модификации, могут представлять собой любые из множества известных вычислительных устройств, включая любое из описанных применительно к Фиг.1 и 2, но не ограничиваясь ими. Связь между вычислительным устройством 504 и источником 506 модификации в сети 505 может осуществляться с использованием любого из множества известных способов сетевой связи, включая любой из описанных применительно к Фиг.1 и 2, но не ограничиваясь ими. Согласно одному из вариантов реализации настоящего изобретения вычислительное устройство 504 представляет собой беспроводное мобильное устройство-клиент, конфигурация которого позволяет связываться с реализованным на сервере источником 506 модификации по беспроводной сети. Согласно другому варианту реализации настоящего изобретения вычислительное устройство 504 представляет собой персональный компьютер-клиент, конфигурация которого позволяет осуществлять связь с реализованным на сервере источником 506 модификации через Интернет. Это всего лишь два из множества конкретных вариантов реализации настоящего изобретения в пределах его объема.

Вычислительное устройство 504 содержит автоматическую систему 508 перевода. Пользователь 502 (в качестве примера) передает образец текста системе 508 для создания соответствующего автоматического перевода. Если пользователь 502 не удовлетворен одной или более частями перевода, созданного системой 508 перевода (т.е. пользователь не удовлетворен указанным низким показателем достоверности), то автоматический перевод передается источнику 506 модификации вместе с копией исходного документа. Источник 506 проводит коррекцию автоматического перевода. Согласно одному из вариантов реализации настоящего изобретения автоматический перевод корректирует человек-переводчик 510. Согласно другому варианту реализации настоящего изобретения коррекцию осуществляет надежная автоматизированная система. Откорректированный перевод возвращается в вычислительное устройство 504 для предоставления пользователю 502.

Обучающий генератор 512 используется для обработки автоматического перевода, откорректированного перевода и/или исходного документа с целью создания совокупности обучающих данных, которые могут быть использованы для адаптации автоматической системы 508 перевода. Обучающий генератор 512 представляет собой компонент, хранящийся в источнике 506 модификации, либо в вычислительном устройстве 504, либо в отдельном, но доступном независимом месте (т.е. хранящийся на независимом и доступном сервере). Если обучающий генератор 512 хранится вместе с источником 506 модификации, созданная обучающая информация передается (в качестве примера) автоматической системе 508 перевода вместе с соответствующим откорректированным переводом. Если обучающий генератор 512 хранится в вычислительном устройстве 504, то данная информация непосредственно реализуется в системе 508. Хранение обучающего генератора 512 вместе с источником 506 модификации снижает требования, касающиеся объема памяти и вычислительной мощности, предъявляемые к вычислительному устройству 504. Кроме того, такая конфигурация позволяет поддерживать и управлять обучающим генератором 512 из централизованного источника.

Согласно одному из вариантов реализации настоящего изобретения для облегчения адаптации автоматической системы 508 перевода обучающий генератор 512 находится как в надежном источнике 506 модификации, так и в вычислительном устройстве 504. Обучающие генераторы 512 из данной пары (в качестве примера) идентичны или существенно похожи. Эта пара обучающих генераторов 512 (в качестве примера) связана с самонастраивающимися системами машинного перевода (такая система будет подробно описана с использованием Фиг.6). После завершения последующего редактирования с использованием источника 506 модификации созданный откорректированный перевод вместе с оригиналом исходного текста (в качестве примера) обрабатывается посредством фазы обучения самонастраивающейся системы машинного перевода, реализованной на источнике 506 модификации. Во время фазы обучения усваиваются корректные соответствия перевода. Эти соответствия помещаются в обновленную базу данных (или, если используется статистическая система, они отражаются в обновленной таблице статистических параметров), посылаемую в версию системы машинного перевода, реализованной на вычислительном устройстве 504. Затем эти обновления автоматически встраиваются в версию самонастраивающейся системы на компьютере пользователя (или, как будет описано ниже, в версию, поддерживаемую на сервере). Когда в следующий раз пользователь будет пытаться перевести похожий текстовой материал, его/ее система перевода автоматически создаст перевод более высокого качества на основе обновлений, возвращенных с ранее откорректированными документами.

Согласно одному из вариантов реализации настоящего изобретения надежный источник 506 модификации связан с сервером, работающим в сети 505. Обучающий генератор 512 установлен и работает на том же сервере. Переводы и обучающая информация, предоставляемые пользователю 502 с использованием источника 506 модификации в качестве примера, но не обязательно, предоставляются на платной основе (т.е. оплачиваются на повременной основе или на основе подписки).

Фиг.5В представляет собой структурную схему вычислительной системы 520. Элементы, показанные на Фиг.5В, идентичные или сходные с элементами, показанными на Фиг.5А, обозначены теми же ссылочными номерами. Как показано на Фиг.5В, один или более пользователей 502 взаимодействуют с одним или более вычислительных устройств 522, которые могут устанавливать соединение с сервером 524. Автоматическая система 508 перевода, которая (в качестве примера) связана с пользователем 502, хранится и работает на сервере 524. Сервер 524 может устанавливать соединение с сетью 505. Пользователь 502 использует вычислительное устрой