Способы и системы для перевода с одного языка на другой
Иллюстрации
Показать всеИзобретение относится к области перевода с одного языка на другой. Изобретение позволяет повысить качество и удобство перевода текста на естественном языке. Беспроводному мобильному устройству предоставляется услуга перевода посредством избирательной загрузки информации с сервера. Загружаемая информация включает в себя архитектуру перевода, имеющую независимое от языка средство перевода и, по меньшей мере, одну зависящую от языка базу данных перевода. Зависящая от языка база данных перевода включает в себя шаблоны перевода и словарь перевода. Также может загружаться специализированная база данных для выбранного города или городов мира. Перевод между языками осуществляется путем применения в средстве перевода зависящей от языка базы данных перевода и базы данных перевода, специфической для конкретного города. Для упрощения процесса перевода средство перевода реализует управляемую пользователем схему замены терминов. 3 н. и 21 з.п. ф-лы, 5 ил.
Реферат
Предшествующий уровень техники
Настоящее изобретение относится к переводу с одного языка на другой. В частности, настоящее изобретение относится к услуге перевода, которая предоставляется устройству по сети.
В нашем, все в большей степени взаимосвязанном, современном мире становятся все более и более частыми определенные ситуации, в которых языковой барьер затрудняет общение. Типичная ситуация представляет собой иностранного путешественника, который не может понимать местный язык, связанный со страной, в которую он прибыл. Такому путешественнику сложно общаться с местным населением даже при помощи простейших выражений. Например, иностранный путешественник, не знающий языка той страны, в которой он находится, будет испытывать трудности в повседневном общении с местным населением при решении даже простых задач. В качестве всего лишь нескольких примеров такие задачи могут включать в себя, регистрацию и выписку из гостиницы, заказ такси, поиск туалета или пункта обмена валют.
Ожидается, что популярность беспроводных мобильных устройств (таких как, персональные цифровые информационные устройства (PDA), карманные ПК, наладонные компьютеры, переносные компьютеры, смартфоны, интеллектуальные мобильные телефоны и т.п.) в будущем будет продолжать увеличиваться. Ожидается, что такой рост популярности совпадает с уменьшением стоимости беспроводных услуг связи и услуг связи третьего поколения (3G).
Таким образом, со временем будет возрастать потребность в реализации действенной и эффективной универсальной системы перевода с одного языка на другой для мобильных устройств. Устройство, реализующее такую систему, будет помогать отдельным людям, таким как иностранные путешественники, желающим преодолеть проблемы, возникающие из-за языковых барьеров. Однако технологические ограничения затрудняют предоставление высококачественного перевода для текста на естественном языке (т.е. текста без существенных ограничений). Такие ограничения должны быть преодолены или обойдены, для того чтобы сделать возможной по-настоящему действенную и эффективную мобильную систему перевода.
Сущность изобретения
Варианты осуществления настоящего изобретения в общем случае имеют отношение к мобильному переводчику с одного языка на другой, который облегчает общение между людьми, говорящими на разных языках. Некоторые конкретные варианты осуществления изобретения имеют отношение к услуге перевода, которая предоставляется беспроводному мобильному устройству путем избирательной загрузки информации из сервера. Загружаемая информация включает в себя архитектуру перевода, имеющую независимое от языка средство перевода и, по меньшей мере, одну зависящую от языка базу данных перевода. Зависящая от языка база данных перевода включает в себя шаблоны перевода и словарь перевода. Также может быть загружена специализированная база данных для выбранного города или городов мира. Перевод между языками осуществляется путем применения в средстве перевода зависящей от языка базы данных перевода, и, необязательно, специфической для данного города базы данных перевода. Для упрощения процесса перевода средство перевода реализует управляемую пользователем схему замещения термов.
Перечень фигур чертежей
Фиг.1 - блок-схема иллюстративного вычислительного устройства.
Фиг.2 - блок-схема иллюстративного вычислительного устройства.
Фиг.3 - блок-схема иллюстративной среды вычислительной системы.
Фиг.4 - общая блок-схема алгоритма, иллюстрирующая процесс от ввода данных до получения перевода.
Фиг.5 - более детализированная блок-схема алгоритма, иллюстрирующая полный процесс от ввода данных до получения перевода.
ПОДРОБНОЕ ОПИСАНИЕ ИЛЛЮСТРАТИВНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ
I. Иллюстративное подходящее вычислительное устройство
На Фиг.1 показан пример подходящей компьютерной системы 100, в которой может быть реализован вариант осуществления настоящего изобретения. Компьютерная система 100 является только одним примером подходящей компьютерной системы и не предназначена для введения каких-либо ограничений как на объем, так и на функциональность данного изобретения. Также компьютерную систему 100 не следует интерпретировать как имеющую какую-либо зависимость или требования в отношении любого ее показанного компонента или их комбинации.
Обращаясь к Фиг.1, иллюстративное устройство, подходящее для данного изобретения, включает в себя компьютерное устройство общего назначения в виде компьютера 110. Компоненты компьютера 110 могут включать в себя, но не в ограничительном смысле, процессорное устройство 120, системную память 130 и системную шину 121, связывающую различные компоненты системы, в том числе и системную память, с процессорным устройством 120. Системная шина 121 может быть шинной структурой любого типа, включая шину памяти или контроллер памяти, периферийную шину и локальную шину с любой из многочисленных шинных архитектур. Для примера, но не с целью ограничения, такие архитектуры включают в себя шину архитектуры промышленного стандарта (ISA), шину микроканальной архитектуры (МСА), расширенную ISA (EISA) шину, локальную шину ассоциации стандартов видеоэлектроники (VESA) и шину соединений периферийных компонентов (PCI), также известную как шину Mezzanine.
Компьютер 110 обычно включает в себя ряд машиночитаемых носителей данных. Машиночитаемые носители данных могут быть любыми доступными носителями данных, к которым может осуществить доступ компьютер 110, и включают в себя как энергозависимые, так и энергонезависимые носители данных и как съемные, так и несъемные носители данных. Для примера, но не с целью ограничения, машиночитаемые носители данных могут включать в себя компьютерные носители данных и среды передачи. Компьютерные носители данных включают в себя как энергозависимые, так и энергонезависимые и как съемные, так и несъемные носители данных, реализованные с применением любого способа или технологии хранения информации, такой как машиночитаемые команды, структуры данных, программные модули или другие данные. Компьютерные носители данных включают в себя, но не в ограничительном смысле ОЗУ, ПЗУ, EEPROM, флэш-память или память другой технологии, ПЗУ на компакт-диске (CD-ROM), универсальные цифровые диски (DVD) или другие оптические носители данных, магнитные кассеты, магнитные ленты, носители данных на магнитных дисках или другие устройства хранения данных на магнитных носителях, или любые другие носители данных, которые могут быть использованы для хранения необходимой информации и к которым может осуществить доступ компьютер 110.
Среды передачи обычно воплощают машиночитаемые команды, структуры данных, программные модули или другие данные в виде сигнала модулированного данными, такого как сигнал несущей или другой транспортный механизм, и включают в себя любые среды доставки информации. Термин "сигнал модулированный данными" означает сигнал, имеющий одну или более его характеристик, установленных или изменяемых для обеспечения кодирования информации в этом сигнале. Для примера, но не с целью ограничения, среды передачи включают в себя проводные среды, такие как проводная сеть или прямое кабельное соединение, беспроводные среды, такие как акустические, РЧ (радиочастотные), инфракрасные и другие беспроводные среды. В число машиночитаемых носителей также следует включить любую комбинацию упомянутых выше носителей.
Системная память 130 включает в себя компьютерные носители данных в виде энергозависимой и/или энергонезависимой памяти, такой как постоянное запоминающее устройство (ПЗУ) 131 и оперативное запоминающее устройство (ОЗУ) 132. Базовая система 133 ввода/вывода (BIOS), содержащая основные процедуры, содействующие передаче информации между элементами в компьютере 110, как, например, во время запуска, обычно хранится в ПЗУ 131. ОЗУ 132 обычно содержит данные и/или программные модули, которые являются непосредственно доступными и/или выполняются в настоящее время процессорным устройством 120. Для примера, но не с целью ограничения, на Фиг.1 показаны операционная система 134, прикладные программы 135, другие программные модули 136 и данные 137 программ.
Компьютер 110 также может включать в себя другие сменные/несменные, энергозависимые/энергонезависимые компьютерные носители данных. Исключительно в качестве примера, на Фиг.1 показан накопитель 141 на жестких магнитных дисках, считывающий и записывающий на несъемный, энергонезависимый магнитный носитель данных, привод 151 магнитного диска, считывающий и записывающий на съемный, энергонезависимый магнитный диск 152 и привод 155 оптического диска, считывающий и записывающий на съемный, энергонезависимый оптический диск 156, такой как CD-ROM или другой оптический носитель данных. Другие сменные/несменные, энергозависимые/энергонезависимые компьютерные носители данных, которые могут применяться в иллюстративной рабочей среде, включают в себя, но не в ограничительном смысле, кассеты с магнитной лентой, карты флэш-памяти, универсальные цифровые диски, цифровую видеоленту, твердотельное ОЗУ, твердотельное ПЗУ и т.п. Накопитель 141 на жестких магнитных дисках обычно соединен с системной шиной 121 посредством интерфейса несъемной памяти, такого как интерфейс 140, и привод 151 магнитного диска и привод 155 оптического диска обычно соединены с системной шиной 121 посредством интерфейса съемной памяти, такого как интерфейс 150.
Приводы и связанные с ними компьютерные носители данных, обсуждаемые выше и проиллюстрированные на Фиг.1, обеспечивают в компьютере 110 хранение машиночитаемых команд, структур данных, программных модулей и других данных. Например, на Фиг.1 накопитель на жестких магнитных дисках изображен хранящим операционную систему 144, прикладные программы 145, другие программные модули 146 и данные 147 программ. Необходимо заметить, что эти компоненты могут быть теми же самыми или отличными от операционной системы 134, прикладных программ 135, других программных модулей 136 и данных 137 программ. Операционная система 144, прикладные программы 145, другие программные модули 146 и данные 147 программ имеют в данном случае отличающиеся номера для иллюстрации того, что, по меньшей мере, они являются отличающимися копиями.
Пользователь может вводить команды и информацию в компьютер 110 через устройства ввода, такие как клавиатура 162, микрофон 163 и указывающее устройство 161, такое как мышь, трекбол или сенсорный планшет. Другие устройства ввода (не показаны) могут включать в себя джойстик, игровую панель, спутниковую параболическую антенну, сканер или подобное устройство. Эти и другие устройства ввода часто соединены с процессорным устройством 120 через интерфейс 160 пользовательского ввода, связанный с системной шиной, но могут быть подсоединены через другой интерфейс или шинные структуры, такие как параллельный порт, игровой порт или универсальную последовательную шину (USB). Монитор 191 или другое устройство отображения также подсоединены к системной шине 121 через интерфейс, такой как видеоинтерфейс 190. Помимо монитора, компьютеры могут также включать в себя другие периферийные устройства вывода, такие как громкоговорители 197 и принтер 196, которые могут быть подсоединены через периферийный интерфейс 195 вывода.
Компьютер 110 может работать в сетевой среде, используя логические соединения с одним или более удаленными компьютерами, таким как удаленный компьютер 180. Удаленный компьютер 180 может быть персональным компьютером, портативным устройством, сервером, маршрутизатором, сетевым ПК, одноранговым узлом сети или другим обычным узлом сети, и обычно включает в себя множество или все из элементов, описанных выше в связи с компьютером 110. Изображенные на Фиг.1 логические соединения включают в себя локальную сеть (ЛС) 171 и глобальную сеть (ГС) 173, но также могут включать в себя другие сети. Такие типы сетевого окружения являются обычными в офисах, компьютерных сетях масштаба предприятия, интрасетях, сети Интернет.
При использовании в локальной сетевой среде компьютер 110 подсоединяется к ЛС 171 через сетевой интерфейс или адаптер 170. При использовании в глобальной сетевой среде, компьютер 110 обычно включает в себя модем 172 или другие средства для установления соединения через ГС 173, такую как Интернет. Модем 172, который может быть внутренним или внешним, может быть подсоединен к системной шине 121 через интерфейс 160 пользовательского ввода или другим подходящим способом. В сетевой среде программные модули, описанные в связи с компьютером 110, или часть их, могут храниться в удаленном устройстве хранения данных. Для примера, но не с целью ограничения, на Фиг.1 показаны удаленные прикладные программы 185, как находящиеся на удаленном компьютере 180. Очевидно, что показанные сетевые соединения являются иллюстративными и могут быть использованы другие средства организации линии связи между компьютерами.
Необходимо отметить, что настоящее изобретение может быть выполнено как связанное с компьютерной системой такой, которая описана согласно Фиг.1. Однако настоящее изобретение может быть аналогично выполнено как связанное с сервером, компьютером, предназначенным для обработки сообщений, или распределенной системой, в которой разные части настоящего изобретения выполняются на разных частях распределенной компьютерной системы.
II. Другое иллюстративное подходящее компьютерное устройство
Фиг.2 представляет собой блок-схему мобильного компьютерного устройства 200. Мобильное устройство 200 включает в себя микропроцессор 202, память 204, компоненты 206 ввода/вывода (I/O) и интерфейс 208 связи для связи с удаленным компьютером или другими мобильными устройствами. В одном из вариантов осуществления изобретения внутренние компоненты устройства 200 для связи друг с другом соединены через подходящую шину 210.
Устройство 200 является примером подходящего компьютерного устройства, в котором может быть осуществлено настоящее изобретение. Устройство 200 является примером подходящего компьютерного устройства и не предназначено для введения каких-либо ограничений как на объем, так и на функциональность данного изобретения. Также устройство 200 не следует интерпретировать как имеющее какую-либо зависимость или требования в отношении любого его компонента или их комбинации, показанных в иллюстративном устройстве 200.
Память 204 реализована в виде энергонезависимой электронной памяти, такой как оперативное запоминающее устройство (ОЗУ) с резервным батарейным модулем (не показано), так что информация, хранящаяся в памяти 204, не теряется при отключении обычного питания мобильного устройства 200. Часть памяти 204 предпочтительно выделяется в качестве адресуемой памяти для выполнения программ, в то время как другая часть памяти 204 предпочтительно используется для хранения данных, например, для эмуляции хранения данных на жестком диске.
Память 204 содержит операционную систему 212, прикладные программы 214, а также и хранилище 216 объектов. Предпочтительно, во время работы операционная система 212 выполняется процессором 202 из памяти 204. В одном из предпочтительных вариантов осуществления изобретения, операционная система 212 представляет собой операционную систему WINDOWS® СЕ, серийно выпускаемую Microsoft Corporation. Операционная система 212 предпочтительно разработана для мобильных устройств и реализует функциональные возможности баз данных, которые могут быть использованы приложениями 214 через набор предоставляемых интерфейсов и методов прикладного программирования. Объекты библиотеки объектов 216 поддерживаются приложениями 214 и операционной системой 212, по меньшей мере, частично в ответ на вызовы предоставляемых интерфейсов и методов прикладного программирования.
Интерфейс 208 связи представляет множество устройств и способов, которые позволяют мобильному устройству 200 посылать и принимать информацию. Некоторые примеры данных устройств включают в себя проводные и беспроводные модемы, спутниковые приемники и широковещательные тюнеры. Мобильное устройство 200 может также быть соединено непосредственно с компьютером для обмена данными с ним. В этих случаях интерфейс 208 связи может быть инфракрасным приемопередатчиком или последовательным или параллельным коммуникационным соединением, причем все они способны передавать потоковые данные.
Компоненты 206 ввода/вывода могут включать в себя любое из множества устройств ввода данных, как, например, сенсорный экран, кнопки, роллеры и микрофон, а также множество устройств вывода, включающих в себя генератор звука, вибрационное устройство и дисплей. Перечисленные выше устройства представлены в качестве примера и необязательно каждое из них должно присутствовать в мобильном устройстве 200. Дополнительно другие устройства ввода/вывода информации могут быть подсоединены или использоваться с мобильным устройством 200 без выхода за пределы объема настоящего изобретения.
Варианты осуществления настоящего изобретения могут работать со многими средами или конфигурациями компьютерных систем общего назначения или специального назначения, отличными от иллюстрированных в данном описании. Примеры широко известных подходящих сред и конфигураций компьютерных систем включают в себя, но не в ограничительном смысле, персональные компьютеры, серверы, карманные или портативные устройства, микропроцессорные системы, системы, основанные на микропроцессорах, телевизионные приставки, программируемую бытовую электронику, сетевые ПК, миникомпьютеры, универсальные компьютеры (мэйнфреймы), системы телефонии, распределенные компьютерные среды, которые включают в себя любые вышеуказанные системы или устройства, и т.п.
Варианты осуществления настоящего изобретения могут быть описаны в общем контексте машиноисполняемых команд, таких как программные модули, выполняемые компьютером. Обычно программные модули включают в себя процедуры, программы, объекты, компоненты, структуры данных и т.д., которые выполняют отдельные задачи или реализуют определенные абстрактные типы данных. Настоящее изобретение разработано для использования в распределенных компьютерных средах, в которых задачи выполняются удаленными процессорными устройствами, которые соединены через сеть связи. В распределенной компьютерной среде программные модули размещены как на локальных, так и на удаленных компьютерных носителях данных, включающих в себя запоминающие устройства. Задачи, выполняемые программами и модулями, описаны ниже и сопровождаются чертежами. Специалисты в данной области техники могут реализовать описание и фигуры, в качестве как, например, машиноисполняемых команд, которые могут быть записаны на машиночитаемом носителе информации любого вида.
III. Иллюстративная среда компьютерной системы
Фиг.3 представляет собой блок-схему, иллюстрирующую пример подходящей среды 300 компьютерной системы, в которой может быть реализован вариант осуществления настоящего изобретения. Среда 300 компьютерной системы является только одним примером подходящей компьютерной среды и не предназначена для введения каких-либо ограничений как на объем, так и на функциональность данного изобретения. Также среду 300 компьютерной системы не следует интерпретировать как имеющую какую-либо зависимость или требования в отношении любого ее показанного компонента или их комбинации.
Среда 300 включает в себя множество клиентских средств (клиентов) 304. Клиенты иллюстративно, хотя и не обязательно, являются мобильными устройствами подобными устройству 200, показанному на Фиг.2. Клиенты не обязательно должны быть мобильными. Согласно одному из вариантов осуществления изобретения, по меньшей мере, один клиент 304 обычно является немобильным компьютерным устройством, таким как персональный компьютер подобный компьютеру 110 по Фиг.1. Данный клиент 304 может быть любым из компьютерных устройств, описанных выше в связи с Фиг.1 и 2, или каким-либо другим компьютерным устройством. Для упрощения настоящего описания иллюстративных вариантов осуществления изобретения предполагается, что клиенты 304 являются мобильными устройствами подобными устройству 200, показанному на Фиг.2. Дополнительно предполагается, что в общем случае связь с клиентами 304 осуществляется через беспроводную сеть связи. Для поддержки связи как с мобильным, так и с немобильным клиентом 304, также легко может быть использована проводная связь.
Клиенты 304 сконфигурированы для связи, по меньшей мере, временно, с сервером 302, который поддерживается в сети 310. Клиенты 304, в качестве иллюстрации, сконфигурированы для связи с сервером 302 через интерфейс связи, такой как интерфейс 208, показанный на Фиг.2. Сервер 302, в качестве иллюстрации, сконфигурирован для предоставления информации, такой как информация приложений, для клиентов 304. Такая информация может быть доступной из хранилища 214 приложений и использоваться процессором 202 для представления пользователю клиента функциональных возможностей перевода с одного языка на другой.
Варианты осуществления настоящего изобретения относятся к системе, которая предоставляет возможность клиенту 304 получать специализированную информацию, такую как информацию приложений, от сервера 302. Специализированная информация дает возможность клиенту функционировать в качестве мобильного переводчика с одного языка на другой. С помощью мобильного переводчика пользователь клиента 304 имеет возможность для осуществления некоторых видов общения, использующих конкретный естественный язык, которым он не владеет достаточно свободно. Информация, принимаемая клиентом от сервера, в качестве иллюстрации, предоставляет возможность перевода между языком, который знаком пользователю, и, по меньшей мере, одним иностранным языком, выбранным пользователем. Принимаемая информация может также включать в себя информацию, относящуюся к конкретному месту назначения (т.е. город), выбираемому пользователем.
Сервер 302 сконфигурирован для предоставления услуги практического перевода по сети (например, Интернет) для клиента 304. Клиент 304, в качестве иллюстрации, хотя и необязательно, является беспроводным мобильным устройством. Услуга, предоставляемая сервером 302 для клиента 304, в качестве иллюстрации, предоставляется на платной основе (например, разовая оплата или оплата за подписку). Услуга перевода, в качестве иллюстрации, дает возможность клиенту служить его пользователю в качестве мобильного переводчика. Пользователь может использовать мобильный переводчик для того, чтобы получить возможность участия в разговорах, используя конкретный естественный язык, которым он не владеет достаточно свободно. Например, иностранные туристы без знания языка страны посещения должны осуществлять повседневное общение с местным населением для регистрации в гостинице и выписки из нее, при заказе такси, посещении магазина и т.п. Мобильный переводчик дает возможность таким туристам осуществлять такие разговоры.
Как было описано, для того чтобы оснастить клиент 304 таким образом, чтобы он мог служить пользователю в качестве мобильного переводчика, для осуществления этой услуги с сервера 304 клиенту 302 передаются определенные элементы приложений. Элементы приложений, в качестве иллюстрации, включают в себя независимое от языка средство перевода и, по меньшей мере, одну зависящую от языка базу данных перевода. Зависящая от языка база данных, в качестве иллюстрации, включает в себя набор шаблонов перевода и словарь перевода. Функция шаблонов перевода имеет отношение к конкретной схеме перевода, которая будет описана ниже более подробно.
Элементы приложений, переданные с сервера 302 клиенту 304, также в необязательном порядке включают в себя одну или более специализированных баз данных, представляющих один или более конкретных городов назначения. Специализированные базы данных, в качестве иллюстрации, включают в себя определенные слова и фразы, связанные с городом назначения, такие как конкретные гостиницы, названия улиц, ресторанов, туристических достопримечательностей и т.п. Другие типы специализированных баз данных (например, отличающиеся от базы данных на основе городов) могут быть реализованы, не выходя за пределы объема настоящего изобретения.
Пользователь клиента 304 по желанию может запросить передачу одной или более зависящих от языка баз данных (соответствующих одному или более естественным языкам) вместе с одной или более специализированными базами данных. После передачи элементов приложений с сервера 302 на мобильное устройство клиента, осуществляется перевод между языками посредством использования в средстве перевода зависящей от языка базы данных перевода, и, необязательно, любых специализированных баз данных. Средство перевода может находиться в клиенте 204 продолжительное время или иногда передаваться клиенту 204 с сервера 202 (т.е. передаваться с зависящей от языка или специализированной базой данных). Средство перевода, в качестве иллюстрации, реализует конкретную схему перевода, описанную более подробно ниже.
Согласно одному конкретному варианту осуществления изобретения американец, путешествующий в окрестностях Пекина, может загрузить средство перевода, двусторонние китайско-английские шаблоны перевода и словарь, а также словарь перевода, ориентированный на Пекин, с сервера в свое беспроводное мобильное устройство. В Пекине американец может применять в средстве перевода зависящую от языка базу данных перевода и специфическую для данного города базу данных перевода для того, чтобы облегчить эффективное общение в Пекине. Средство перевода, в качестве иллюстрации, является независимым от языка.
IV. Интегрированная схема перевода
Существует много проблем, связанных с обеспечением перевода высокого качества для текста на естественном языке. Согласно одному из вариантов осуществления изобретения для решения некоторых из таких проблем услуга перевода, предоставляемая сервером 302 и осуществляемая клиентом 304, основывается на "интегрированной схеме перевода". Согласно этой схеме предоставляются переводы для обычных сценариев. Для каждого обычного сценария собирают обычные предложения вместе с их переводами на различные иностранные языки. Исходя из этих предложений-примеров перевод производится, используя систему перевода, основанную на примерах.
Фиг.4 представляет собой блок-схему алгоритма, иллюстрирующую в общем виде процесс работы интегрированной схемы перевода. Первым этапом этого процесса является взаимодействие пользователя клиента со своим клиентским устройством для того, чтобы произвести выбор исходного предложения 408. Как показано блоками 402, 404 и 406, пользователь может выбирать исходное предложение 408 при помощи взаимодействия, выполняемого через устройство речевого ввода, устройство рукописного ввода и/или при помощи клавиатуры. Могут использоваться другие способы ввода без выхода за пределы объема настоящего изобретения. Исходное предложение 408, в качестве иллюстрации, выбирается из зависящей от языка базы данных и специализированной базы данных, которые загружаются с сервера 302 в клиент 304. Исходное предложение 408, в качестве иллюстрации, представлено на языке, знакомом пользователю.
После выбора исходного предложения 408 переводчик 410 использует независящее от языка средство перевода для перевода исходного предложения в целевое предложение 412. Целевое предложение 412, в качестве иллюстрации, составлено на языке, который необходим пользователю для осуществления взаимодействия. Согласно блокам 414 и 416 целевое предложение 412 выводится в виде речи (т.е. искусственная речь) или выводится на дисплей пользователю клиентского устройства. Затем пользователь использует упомянутый вывод для общения на соответствующем иностранном языке. Могут быть реализованы другие виды вывода без отступления от объема настоящего изобретения.
Согласно одному из вариантов осуществления изобретения выбор исходного предложения 408 выполняется также просто, как непосредственный ввод данных пользователем. Например, пользователь может непосредственно ввести исходное предложение в клиентское устройство, используя способы речевого, рукописного ввода или при помощи клавиатуры. В качестве альтернативы, выбор исходного предложения 408 может производиться при помощи процесса выбора. Например, клиентское устройство может предоставить список исходных предложений 408, распределенных по категориям, из которых пользователь производит выбор.
Однако согласно одному из аспектов настоящего изобретения зависящая от языка база данных, загруженная в клиентское устройство, содержит ограниченное количество предложений-примеров. Если одно из таких предложений-примеров точно соответствует тому, которое ищет пользователь, оно отбирается пользователем в качестве исходного предложения 408. В противном случае, пользователь выбирает предложение-пример, которое достаточно похоже на то, которое ищет пользователь. Затем система конфигурируется для предоставления пользователю возможности изменять похожее предложение до тех пор, пока оно не примет надлежащую форму, в которой сможет служить в качестве исходного предложения 408. Пользователь, в качестве иллюстрации, изменяет похожее предложение путем замены определенных элементов предложения элементами, содержащимися в словарях, найденных в зависящей от языка базе данных и/или одной или более загруженных специализированных базах данных. Таким образом, пользователь преобразует похожее предложение в требуемое исходное предложение 408. Другими словами, выбор исходного предложения 408 может выполняться при помощи использования двух этапного процесса. Во-первых, выбирается похожее предложение. Затем похожее предложение преобразуется путем замены, добавления и/или удаления термов до тех пор, пока похожее предложение не становится в достаточной мере или точно соответствующим исходному предложению 408.
Согласно одному из аспектов настоящего изобретения похожее предложение может быть выбрано, по меньшей мере, двумя способами. Во-первых, пользователем может вручную просматриваться база данных предложений (т.е. часть зависящей от языка базы данных). Процессу просмотра, в качестве иллюстрации, содействует использованию системы, использующей меню на основе категорий. Например, пользователь может использовать устройство ввода для выбора общей категории, такой как "ТАКСИ". После выбора пользователю предоставляется список подкатегорий. Пользователь может перемещаться по системе меню до тех пор, пока не находит предложение, похожее на искомое, в качестве исходного предложения 408. Затем пользователь изменяет похожее предложение до состояния, в котором его можно будет использовать в качестве исходного предложения 408.
Однако в качестве альтернативы пользователь может начать поиск похожего предложения путем ввода искомого предложения. Затем система извлекает похожие предложения из базы данных и предоставляет их пользователю для выбора. Затем пользователь выбирает предложение, которое достаточно похоже на искомое. Затем пользователь изменяет похожее предложение до состояния, в котором его можно будет использовать в качестве исходного предложения 408. Например, пользователь может ввести "May I get to the train station quickly by taxi?" («Могу ли я быстро доехать до вокзала на такси?»). Затем система производит поиск в базе данных предложений и предоставляет список, такой как:
a. "May I get to the hotel by taxi?" («Могу ли я доехать до гостиницы на такси?»,
b. "I get to the train station by bus." («Я доберусь до вокзала на автобусе»).
с. "I get to the train station quickly." («Я быстро доберусь до вокзала»).
Затем пользователь выбирает предложение из списка для использования в качестве похожего предложения (т.е. исходное для изменения). В одном из примеров изменения пользователь может выбрать для преобразования сегмент "the hotel" («гостиница») в предложении "а" для замещения на "train station" («вокзал»). Терм "train station" («вокзал»), в качестве иллюстрации, является термом, который доступен из зависящей от языка базы данных для перевода.
Согласно одному из аспектов настоящего изобретения Фиг.5 является блок-схемой алгоритма, иллюстрирующей полный процесс, причем пользователь начинает с ввода предложения, перевод которого он ищет. Блок 502 представляет процесс ввода данных пользователем, который может производиться через устройство речевого ввода, при помощи клавиатуры, через устройство рукописного ввода или другим способом. Блок 504 представляет процесс сравнения введенных данных с предложениями и шаблонами 506, хранящимися в клиенте в качестве части, зависящей от языка базы данных (и/или части любой специализированной базы данных).
Блок 508 представляет ситуацию, в которой найдено точное соответствие данным, введенным пользователем. В такой ситуации, согласно блоку 510, словарь и правила 512, которые в качестве иллюстрации, используются в качестве части загруженных зависящей от языка базы данных и независимого средства перевода, применяются для перевода предложения 508 и генерируют выходные данные 514 (т.е., речевой вывод или вывод на дисплей).
Блок 516 представляет ситуацию, в которой не найдено точное соответствие данным, введенным пользователем, однако найдено похожее соответствие. Шаблон 516 представляет похожее соответствие, извлеченное из базы данных 506. Согласно блоку 518 пользователь преобразует похожее соответствие до тех пор, пока оно не становится разумным приближением первоначально введенных данных 502. Затем согласно блоку 510 преобразованное предложение переводится в выходные данные 514 (т.е. речевой вывод или вывод на дисплей).
Блок 520 представляет ситуацию, когда не может быть найдено ни точного соответствия, ни подходящего приближения введенных данных 502. В этом случае соответствующие введенные данные 502 возвращаются в сервер. Согласно блоку 522 введенные данные используются для обучения зависящей от языка базы данных и/или специализированных баз данных, которые впоследствии передаются другим клиентам.
V. Основанный на шаблонах машинный перевод
Согласно одному из аспектов настоящего изобретения описанный процесс перевода реализуется посредством основанного на шаблонах машинного перевода, как это показано на примере формата данных в Выражении 1:
Выражение 1
Согласно подходу основанного на шаблонах машинного перевода извлечение предложения из зависящей от языка базы данных в качестве приближения предложения, перевод которого требуется пользователю, осуществляется путем применения алгоритма, который использует подход, основанный на шаблонах. В общем случае, алгоритм содержит два этапа.
На первом этапе алгоритм выбирает предложения-кандидаты, используя подход извлечения информации на основе взвешенной частоты встречаемости терма/инверсной частоте терма во всех документах (ЧТ-ИЧД, TF-IDF). Набор предложений-примеров, обозначаемый в данном описании D, содержит некоторое количество документов, причем каждый документ фактически является предложением-примером. Результат индексации документа (который содержит только одно предложение) представляется в виде вектора весов:
Выражение 2
где dik (1≤k≤m) является весом терма tk в документе Di, и m является размерностью векторного пространства, которое определяется количеством разных термов, найденных в наборе. Термы, в качестве иллюстрации, но не обязательно, являются словами английского языка. С тем же успехом они могут быть японскими или китайскими иероглифами или любыми другими лингвистическими единицами. Вес dik терма в документе вычисляется согласно его частоте встречаемости в документе (ЧТ - частота встречаемости), а также его распространенности во всем наборе (ИЧД - инверсная частота терма во всех документах). Существует большое количество способов, которые могут применяться для вычисления din. Например, может быть использована следующая формула:
Выражение 3
где fik является частотой встречаемости терма tk в документе Di; N является общим количес