2458391 - Проверка ошибок сочетаний слов на базе сети интернет

Проверка ошибок сочетаний слов на базе сети интернет

Иллюстрации

Показать все

Изобретение относится к средствам проверки сочетаний слов. Технический результат заключается в уменьшении ошибок при переводе сочетаний слов. Сравнивают одно или более сочетаний слов из образца текста с корпусом. Идентифицируют, являются ли упомянутые сочетания слов нестандартными в упомянутом корпусе. Через устройство вывода предоставляют индикации о том, являются ли упомянутые сочетания слов нестандартными. Выполняют один или более поисков в Интернете, используя один или более терминов запроса, которые содержат каждое из одного или более упомянутых сочетаний слов. Составляют один или более терминов запроса с универсальным шаблоном, замещающим одно из слов в одном из нестандартных сочетаний слов. Выполняют поиск эталона сочетаний слов для упомянутых терминов запроса. Идентифицируют результаты поиска с относительно большой долей замещения возможным словом универсального шаблона. Предоставляют через устройство вывода результаты поиска с возможным словом в качестве потенциально правильных сочетаний слов. 3 н. и 14 з.п. ф-лы, 6 ил.

Реферат

Уровень техники

При переводе с одного языка на другой часто возникают сложности в случаях, где значение отдельных слов дополнительно зависит от контекста, в котором они используются. Когда люди изучают второй язык, который не является для них родным, для них доступно множество выборов слов, перевод которых кажется правильным, но которые в действительности не используются носителями языка в определенных группах или сочетаниях слов. Подобные сочетания слов могут быть синтаксически или грамматически корректны в абстрактном смысле, но их применение ненормально, и зачастую для носителей языка они кажутся необычными или странными. Комбинации слов на некотором языке часто соответствуют установленным шаблонам, которые формируют единые лексические элементы, так что группы слов, которые имеют схожее значение и расположены в схожем грамматическом порядке, могут не входить в категорию какого-либо лексического элемента в рамках применения языка его носителями, независимо от того, является ли данный лексический элемент для носителей языка устоявшимся и ограничивающим использование альтернативных вариантов.

Например, для лица, изучающего английский в качестве второго языка, слова "strong" (крепкий) и "powerful" (сильный) могут рассматриваться как два альтернативных перевода одного слова с его родного языка. Еще одним примером являются слова "to make" (разрабатывать) и "to do" (делать). Без достаточного опыта в использовании английского языка учащийся может написать "I had a cup of powerful tea" (Я выпил чашку сильного чая) вместо "I had a cup of strong tea" (Я выпил чашку крепкого чая) или "I did a plan" (Я сделал план) вместо "I made a plan" (Я разработал план). Подобные ошибки сочетания слов могут быть типичны для носителя любого языка, который изучает любой другой язык, который не является для него родным. Таких ошибок, как правило, удается избежать только после достаточно долгого периода контекстуального опыта и интерактивной практики языка, причем, как правило, эти ошибки не могут быть разрешены с помощью словаря или какого-либо другого типа быстро и легкодоступного языкового справочника.

Настоящий раздел приведен исключительно для предоставления общего уровня техники и не предназначен для использования в качестве помощи при определении объема формулы изобретения.

Раскрытие изобретения

В различных вариантах осуществления, которые включают в себя способы, вычислительные системы и программное обеспечение, которое кодирует выполняемые инструкции для вычислительных систем, ошибки сочетаний слов могут быть автоматически проверены посредством локальных и сетевых корпусов (совокупностей текстов), таких как сеть Интернет. Например, согласно одному иллюстративному способу одно или более сочетаний слов из образца текста сравнивают с корпусом, таким как содержимое сети Интернет. Сочетания слов идентифицируют для определения того, являются ли они нестандартными в корпусе. Через устройство вывода предоставляют индикации о том, являются ли упомянутые сочетания слов нестандартными в корпусе. Далее могут быть предприняты дополнительные шаги, такие как поиск и предоставление через устройство вывода потенциально правильных сочетаний слов.

Раздел "Раскрытие изобретения" приведен, чтобы представить в упрощенной форме выборку концепций, которые подробно описываются ниже, в разделе "Осуществление изобретения". Раздел "Раскрытие изобретения" не предназначен ни для определения ключевых или существенных отличительных признаков сущности формулы изобретения, ни для использования в качестве вспомогательного средства при определении объема формулы изобретения. Объем формулы изобретения не ограничивается реализациями, которые устраняют какие-либо или все недостатки, перечисленные в разделе "Уровень техники".

Краткое описание чертежей

Фиг.1 - иллюстрация пользовательского интерфейса для вычислительной системы, реализующей способ согласно иллюстративному варианту осуществления настоящего изобретения;

Фиг.2 - иллюстрация схемы последовательности операций способа согласно иллюстративному варианту осуществления настоящего изобретения;

Фиг.3 - иллюстрация схемы последовательности операций способа согласно иллюстративному варианту осуществления настоящего изобретения;

Фиг.4 - иллюстрация пользовательского интерфейса для вычислительной системы, реализующей способ согласно иллюстративному варианту осуществления настоящего изобретения;

Фиг.5 - структурная схема вычислительной среды, в которой могут быть реализованы некоторые варианты осуществления настоящего изобретения;

Фиг.6 - структурная схема еще одной вычислительной среды, в которой могут быть реализованы некоторые варианты осуществления настоящего изобретения.

Осуществление изобретения

На Фиг.1 проиллюстрирован интерфейс 10 проверки ошибок сочетаний слов для вычислительной системы, которая реализует способ для проверки ошибок сочетаний слов согласно иллюстративному варианту осуществления настоящего изобретения. Интерфейс 10 проверки ошибок сочетаний слов может рассматриваться как пример для вариантов осуществления, которые включают в себя вычислительные системы, выполняемые инструкции, сконфигурированные для выполнения вычислительными системами, а также контексты, которые реализуют варианты осуществления способов. В нижеизложенном описании приведены дополнительные детали различных иллюстративных вариантов осуществления настоящего изобретения. Наряду с тем, что в этот и в следующие чертежи включены определенные иллюстративные компоновки и метки, а также примеры текста, которые сравниваются с помощью реализуемого компьютером способа, они предназначены для иллюстрации всего многообразия и широкого значения, предоставленного в настоящем описании и формуле изобретения.

В иллюстративном варианте осуществления на Фиг.1 интерфейс 10 проверки ошибок сочетаний слов образует панель графического отображения, связанную с программным приложением, то есть одну из множества панелей графического отображения, которые могут быть открыты одновременно в графическом пользовательском интерфейсе на устройстве вывода, таком как монитор компьютера. Для одного иллюстративного варианта осуществления, направленного на проверку образцов текста, вводимого изучающими английский как второй язык (English as a Second Language, ESL), интерфейс 10 проверки ошибок сочетаний слов имеет метку "Проверка ESL" в строке 12 заголовка. ESL является идеальным приложением для одного иллюстративного варианта осуществления проверки ошибок сочетания слов, поскольку неправильные сочетания слов представляют большую часть ошибок студентов среднего уровня, изучающих английский как второй язык.

Следует понимать, что наряду с тем, что в нижеизложенном описании многократно цитируется иллюстративный вариант осуществления приложения проверки ESL, он представляет всего лишь иллюстративный пример, который показывает более широкие принципы, которые могут быть применены к множеству других вариантов осуществления. Например, ниже описаны другие варианты осуществления, которые могут действовать без интерфейса 10 проверки ошибок сочетаний слов, изображенного на Фиг.1, а другие дополнительные варианты осуществления могут быть направлены на учеников любого другого языка как второго языка, и другие варианты осуществления могут быть направлены, например, на детей, изучающих свой родной язык.

В этом конкретном варианте осуществления в верхней части интерфейса 10 проверки ошибок сочетаний слов присутствуют две вкладки, соответствующие двум различным режимам работы: вкладка 11 "Загрузить Предложения ESL" и вкладка 13 "Выполнить Запросы". На Фиг.1 проиллюстрирован пользовательский интерфейс 10 при выбранной вкладке 11 "Загрузить Предложения ESL" с отображением соответствующих кнопок, заголовков, текстовых окон и других элементов пользовательского интерфейса (или "виджетов"). На Фиг.4 проиллюстрирован интерфейс 10 проверки ошибок сочетаний слов при выбранной вкладке 13 "Выполнить Запросы" с отображением соответствующих элементов пользовательского интерфейса, описание которых следует ниже.

При выбранной вкладке 11 "Загрузить Предложения ESL" панель пользовательского интерфейса включает в себя множество различных интерактивных элементов пользовательского интерфейса ввода и вывода, описание которых приведено далее. Они разделены на две группы, входящие в верхнюю секцию с заголовком "Анализ Предложений" и нижнюю секцию с заголовком "Анализ Сочетаний Слов", соответственно.

В верхней части секции "Анализ Предложений" по горизонтали расположен ряд элементов интерфейса: кнопка 15 "Загрузить Из Проанализированных Файлов", кнопка 17 "Загрузить Из Необработанных Файлов", заголовок "Тип Словосочетания" перед комбинированным окном 19, в котором на данной фигуре выведена опция "Сочетание слов Глагол-Существительное" (описанное ниже), а также кнопка 21 "Извлечь Сочетания Слов". Под этими элементами управления расположено текстовое окно 23 с горизонтальной и вертикальной полосами 22, 24 прокрутки, а также строка 20 заголовка с надписью "Исходное Предложение". Ниже расположено текстовое окно 25 с заголовком "Проанализированное Предложение". В целом, эти элементы интерфейса предоставляют возможность пользователю загружать предложения из образца текста и подготавливать их для сравнения в целях выявления ошибок с сочетаниями слов в контексте, доступном через сеть.

Текстовое окно 23 включает в себя несколько образцов предложений из образца текста, такого как документ, написанный изучающим ESL. Исходя из сжатого размера бегунка 26 вертикальной полосы прокрутки 24 текстового окна 23, можно заметить, что отображаемые на фигуре предложения представляют лишь малую часть общего количества предложений, загруженных в текущий момент в текстовое окно, причем пользователь может открыть их путем перемещения бегунка 26. Отображенные в текстовом окне 23 предложения представляют типичные ошибки, которые могут допустить студенты среднего уровня, изучающие английский как второй язык: "I did a plan" (Я сделал план), "I have recognized this person for years" (Я узнал этого человека много лет) и "I had a cup of powerful tea" (Я выпил чашку сильного чая).

Эти предложения могут быть вручную загружены из документа, который открыт в другом приложении или они могут быть автоматически выбраны как содержащие ошибки типа ESL и загружены из другого документа или множества документов, после того как пользователь инициирует соответствующий процесс путем выбора кнопки 15 "Загрузить Из Проанализированных Файлов" или кнопки 17 "Загрузить Из Необработанных Файлов". В еще одном варианте осуществления некое приложение, такое как приложение обработки текста, может содержать триггер проверки ошибок ESL, который может быть активирован по умолчанию, благодаря чему в случае детектирования ошибок типа ESL в тексте, вводимом в программу обработки текста, автоматически появляется панель с рекомендацией применения интерфейса 10 проверки ошибок сочетаний слов.

Наличие кнопок 15 и 17 предполагает, что когда в приложение вводятся образцы текста, они могут быть уже проанализированы или еще не проанализированы. Если образец текста еще не проанализирован, то он, например, может быть подвергнут анализу до выполнения дальнейших этапов. Проанализированное предложение показано в текстовом окне 25. В частности, это проанализированная версия второго предложения, показанного в текстовом окне 23 и имеющего локальное выделение для индикации того, что оно выбрано пользователем, например, путем выполнения на нем левого щелчка мышью или прикосновения к нему световым пером, или с помощью некоторого другого механизма пользовательского ввода.

В последнее время технологии анализа активно изучаются в области обработки языка и понимания естественного языка. Анализ может включать в себя такие задачи, как маркировка частями речи, разбиение на отрывки и семантическое маркирование. В варианте осуществления, показанном на Фиг.1, предложение в текстовом окне 25 было подвергнуто маркировке частями речи и разбиению на отрывки. Другие варианты осуществления могут содержать другие комбинации задач анализа, включающие в себя некоторые комбинации, которые направлены на отличные от западных языков, например, сегментирование слов.

В проанализированном предложении в текстовом окне 25 за каждым словом исходного предложения следует косая черта (то есть "прямой слэш"), отделяющая это слово от двух- или трехбуквенного тега части речи, присвоенного этому слову. Некоторые иллюстративные опции для тегов частей речи приведены ниже. За точкой в конце предложения также следует косая черта, отделяющая ее от другой точки и выполняющая роль эквивалента тега части речи для обозначения функции пунктуации. Группы из одного или двух (или более - для других примеров) слов предложения также заключаются в скобки, соответствующие границам отрывка, причем сразу после открывающей скобки каждой пары скобок устанавливается двухбуквенная метка типа отрывка. Теги части речи, представленные в этом предложении, включают в себя "PRP" для личного местоимения; "VBP" для настоящего времени глагола, отличного от единственного числа третьего лица; "VBN" для глагола с причастием прошедшего времени; "DT" для определяющего слова; "NN" для имени нарицательного единственного числа или равноценного; "IN" для предлога или подчинительного союза; и "NNS" для имени нарицательного множественного числа. Иллюстративный список тегов частей речи согласно одному примеру осуществления приведен ниже, однако следует отметить, что в других вариантах осуществления могут использоваться другие схемы маркировки частями речи с другими определениями и большей или меньшей степенью детализации. Для настоящего примера осуществления некоторые теги проиллюстрированы с помощью примеров на английском языке.

Таблица 1 Иллюстративный список тегов частей речи
1. CC - Сочинительный союз (например, "and", "but", "nor", "or", "yet", "plus", "minus", "times", "over" (в смысле "разделить на"))2. CD - Количественное числительное3. DT - Определяющее слово (включает в себя артикли и неопределенные определяющие слова, например, "a", "an", "every", "no" (как артикль), "the"; и, например, "another", "any", "some", "each", "either", "neither", "that", "these", "this", "those", некоторые значения "all", "they")4. EX - "there" в экзистенциальном значении5. FW - Иностранное слово6. IN - Предлог или подчинительный союз7. JJ - Прилагательное8. JJR - Прилагательное, сравнительная степень9. JJS - Прилагательное, превосходная степень10. LS - Маркер элемента списка11. MD - Модальный глагол (например, "can", "could", "may", "might", "must", "shall", "should", "will", "would")12. NN - Существительное, нарицательное, единственное число или равноценное13. NNS - Существительное, нарицательное, множественное число14. NNP - Имя собственное, единственное число
15. NNPS - Имя собственное, множественное число16. PDT - Предетерминатор17. POS - Притяжательное окончание18. PRP - Местоимение, личное19. PRP$ - Притяжательное местоимение (например, "'s", "s'", "'")20. RB - Наречие21. RBR - Наречие, сравнительная степень22. RBS - Наречие, превосходная степень23. RP - Служебное слово24. SYM - Символ25. TO - Частица "To"26. UH - Восклицание27. VB - Глагол, базовая форма28. VBD - Глагол, прошедшее время29. VBG - Глагол, герундий или причастие настоящего времени30. VBN - Глагол, причастие прошедшего времени31. VBP - Глагол, настоящее время, отличный от третьего лица единственного числа32. VBZ - Глагол, настоящее время, третье лицо единственное число33. WDT - Вопросительное определяющее слово34. WP - Вопросительное местоимение35. WP$ - Притяжательное вопросительное местоимение ("whose")36. WRB - Вопросительное наречие

Как показано проанализированным предложением в текстовом окне 25, проанализированный образец текста также был разбит на отрывки, причем каждый определенный отрывок заключен в пару скобок и тип отрывка указан с помощью метки перед содержимым каждой пары скобок. Разбиение на отрывки является относительно легкой задачей анализа, которая может быть выполнена на основании поверхностной и локальной информации. При разбиении на отрывки предложения разделяются на неперекрывающиеся сегменты таким образом, чтобы каждый отрывок содержал одно главное слово и связанные с ним другие слова. Так, в настоящем иллюстративном варианте осуществления разбиение на отрывки может рассматриваться как разделение предложения на группы, в частности, на наименьшие групповые блоки, которые могут быть определены, чтобы предотвратить наложение групп. Разбиение на отрывки предоставляет возможность идентификации синтаксической структуры текста, а также отношений или зависимостей между группами. Например, одна именная группа может быть подлежащим глагольной группы, а вторая именная группа может быть дополнением этой глагольной группы.

Иллюстративные отрывки на Фиг.1 являются хорошими примерами этого. Первый отрывок снабжен меткой NP для именной группы и основан на единственном главном слове "I" - подлежащем этого предложения. Второй отрывок снабжен меткой VP для глагольной группы и включает в себя слова "have" и "recognized": два отдельных глагола совместно формируют причастие прошедшего времени глагола "to recognize". Третий отрывок также снабжен меткой NP и включает в себя главное слово "person" вместе со связанным, поддерживающим словом, чтобы образовать единую концепцию "this person" в качестве дополнения этого предложения. Четвертый отрывок снабжен меткой PP для предложной группы, а пятый отрывок снабжен меткой NP для еще одной именной группы, каждая из которых содержит одно слово. Точка, снабженная тегом точки, не входит в отрывки.

Система анализа, связанная с интерфейсом 10 проверки ошибок сочетаний слов или используемая им, может быть подвергнута обучению, чтобы автоматически, точно и надежно выполнять маркировку частями речи и разбиение на отрывки согласно способам, которые хорошо знакомы специалистам в области обработки естественных языков.

Нижняя секция панели пользовательского интерфейса с заголовком "Анализ Сочетаний Слов" включает в себя ряд текстовых окон 27, 29, 31 и 33, каждое из которых имеет строку заголовка и, по меньшей мере, одну полосу прокрутки. Строка заголовка текстового окна 27 имеет надпись "Сочетания Слов ESL", и показанное текстовое окно включает в себя два отрывка из предложения в текстовом блоке 25: глагольную группу "have recognized" и именную группу "this person" - дополнение этого предложения. Вышеупомянутые группы показаны с тегами частей речи, метками отрывков и скобками в следующей форме: "[VP have/VBP recognized/VBN] [NP this/DT person/NN]". Это сочетание слов было предоставлено в текстовом окне 27 из-за того, что комбинированное окно 19 типа сочетания слов установлено в значение "Сочетание слов Глагол-Существительное", то есть была выбрана опция, указывающая сочетания слов с глагольной группой и следующей именной группой, которые расположены рядом друг с другом. Сочетание слов, соответствующее этой установке, было извлечено из предложения в текстовое окно 25.

Текстовое окно 29 содержит возможные сочетания слов, что отражено в его строке заголовка. Возможные сочетания слов содержат ту же именную группу "this person", что и сочетание слов в текстовом окне 27, но уже с различными другими глаголами прошедшего времени, которые предшествуют этой именной группе. Эти возможные глаголы представляют собой возможные замены глагола "recognized" в качестве главного глагольного слова в прошедшем времени после слова "have" в глагольной группе. Они включают в себя глаголы "known", "admitted", "thought" и т.д. Среди этих возможных сочетаний нет исходного сочетания слов, поскольку сравнение исходного сочетания слов с содержимым корпуса показало, что оно либо редко используется, либо отсутствует в содержимом данного корпуса, и, следовательно, оно является нестандартным и, вероятно, неправильным.

Интерфейс 10 проверки ошибок сочетаний слов или приложение, связанное с ним или используемое с ним, может, следовательно, индицировать, что исходное сочетание слов является нестандартным в содержимом корпуса, и, следовательно, есть вероятность, что оно неправильное. В иллюстративном варианте осуществления с Фиг.1 эта индикация может быть предоставлена пользователю, например, в текстовом окне 33. В текстовом окне 33 указывается статус сочетания слов, что отражено в строке заголовка этого окна. В упомянутом окне указывается, что это сочетание слов является нестандартным в содержимом корпуса, и есть вероятность его неправильности, и под главным глагольным словом в сочетании слов, которое было определено как нестандартное, выводится волнистая линия 32, указывающая слово, которое является кандидатом на замену. Пользователь может выбрать одно из возможных сочетаний слов в текстовом окне 29, например, путем двойного щелчка на желаемом сочетании слов, чтобы заменить сочетание слов, определенное как нестандартное. Эта индикация также может быть предоставлена, например, в отдельной программе обработки текста, программе для навигации по сети или другом приложении путем добавления метки к нестандартному сочетанию слов. Для привлечения внимания пользователя подобная метка может иметь форму выделения или подчеркивания нестандартного или неправильного сочетания слов, например, посредством волнистой линии яркого цвета.

Возможные сочетания слов в текстовом окне 29 предоставлены как результат сравнения сочетания слов из текстового окна 27 с содержимым, доступным в большом корпусе. В этом иллюстративном варианте осуществления корпус может включать в себя локальный корпус и/или сетевой корпус с содержимым, которое хранится на распределенных ресурсах и которое доступно через сеть, такую как сеть Интернет. В других вариантах осуществления корпус может включать в себя содержимое других доступных сетей, таких как интранет, глобальная сеть, локальная сеть или некоторый другой тип сети. Содержимое, полученное путем поиска в сети Интернет, где в качестве корпуса используется сеть Интернет, может быть использовано вместе с поиском в обычном корпусе, таком как корпус Wall Street Journal, например. Присутствию сочетания слов в обычном корпусе может быть присвоен определенный весовой коэффициент, который больше весового коэффициента присутствия этого сочетания слов в содержимом сети Интернет, поскольку в корпусе правильное применение сочетаний слов обеспечивается в большей степени, чем в содержимом сети Интернет, где может присутствовать множество различных источников и включений случайной информации. Тем не менее, содержимое сети Интернет также обеспечивает значительные преимущества, обусловленные его гораздо большим объемом относительно любого обычного корпуса. Присутствие в обычном корпусе правильного сочетания слов, соответствующего любому заданному сочетанию слов в образце текста, маловероятно. С другой стороны, было выявлено, что, по крайней мере, на английском языке в сети Интернет может быть найдено практически любое сочетание слов, использование которого правильно, или, по меньшей мере, может быть обнаружено структурно эквивалентное сочетание слов путем поиска различных терминов на основании заданного сочетания слов, как описано ниже. Также было выявлено, что правильное сочетание слов для замены может быть обнаружено в сети Интернет для, по меньшей мере, наиболее неправильных сочетаний слов, используемых в типовых образцах текста, например, изучающими английский как второй язык. Если поиск конкретного предложения или сочетания слов в сети Интернет завершается неуспешно, то это является основанием для высокой степени уверенности в неправильности этого предложения или сочетания слов. Результаты поиска могут быть оценены, чтобы определить, встречаются ли схожие альтернативные варианты с гораздо большей частотой, чем заданное сочетание слов, и на основании этого может быть определена неправильность этого сочетания.

На момент написания настоящего документа большая часть текстового содержимого, доступного в сети Интернет, составлена на английском языке. Содержимое на множестве существующих в настоящее время языков представлено в Интернете в небольших объемах, и даже языки, разговорное применение которых широко распространено, имеют относительно скромную долю в содержимом сети Интернет. Хинди, например, является третьим разговорным языком по распространенности в мире, но, по крайней мере, в одном исследовании было выявлено, что он представлен в содержимом Интернета в меньших объемах, чем исландский язык, количество разговаривающих на котором меньше одной тысячной разговаривающих на хинди. Эффективность проверки ошибок сочетаний слов частично зависит от размера образца доступного корпуса, как базы сравнения для сочетаний слов в образце текста, который должен быть проверен. Следовательно, для проверки ошибок сочетаний слов на основе сети Интернет на других языках могут быть использованы специализированные способы, которые могут не требоваться при проверке образца текста на английском.

Эти способы могут включать в себя, например, конкретный поиск или отбор содержимого на целевом языке, который совпадает с языком образца текса, или применение специализированной сети, корпуса или цифровой библиотеки, в дополнение к сети Интернет или содержимому, доступному через сеть. Эти способы также могут включать в себя использование поисковой утилиты для индексирования и поиска содержимого, кодирование которого отличается от стандарта Unicode, например, или использование специализированных схем кодирования символов или форматов трансформации для возможности чтения, индексирования и поиска в нестандартных форматах кодирования. Присутствуют признаки того, что большой объем содержимого на языках, которые используют отличные от латинского алфавита системы правописания, даже подавляющая часть содержимого сети Интернет для некоторых языков, существует в нестандартных форматах кодирования, так что поиск с возможностью индексирования и поиска этих нестандартных форматов кодирования может привести к гораздо лучшим результатам. Согласно различным вариантам осуществления подобные способы могут улучшить эффективность системы проверки сочетаний слов на основе сети Интернет при ее применении для наиболее широкого возможного набора языков.

Дополнительные стратегии для ограничения или выбора содержимого сети Интернет, в котором выполняется поиск, могут включать в себя применение предпочтений категорий или классификаций URL-адресов. Некоторые URL-адреса могут быть специальным образом каталогизированы для предпочтительного поиска и/или для применения более высокого весового коэффициента к сочетаниям слов, обнаруживаемым в их содержимом, если известно, что их содержимое включает в себя большие библиотеки и/или корпусы надежного правильного использования языка. Это также может включать в себя предпочтительное сужение поиска или взвешивание результатов поиска на основании доменов верхнего уровня. Например, добавление порядка поиска или взвешивания результатов может быть применено к URL-адресам с доменами верхнего уровня "edu" или "gov", в противоположность доменам верхнего уровня "com" или "org". Для поисков, используемых в проверке сочетаний слов для отличных от английского языков, поиски содержимого сети Интернет на целевом языке также могут включать в себя сужение или ограничение поиска или применение весового коэффициента к его результатам на основании доменов верхнего уровня с кодами стран, назначенных странам, в которых целевой язык является официальным или используется в значительной мере. Например, приложение проверки сочетаний слов, нацеленное на проверку образца текста на французском языке, может сузить или ограничить поиск содержимого сети Интернет только сайтами с доменами верхнего уровня "fr", "be", "ch" или "ca" (коды Франции, Бельгии, Швейцарии и Канады, соответственно) или другими доменами верхнего уровня с кодами стран, где французский является официальным языком или используется в значительной мере.

В текстовом окне 31 показана часть длинного списка всех доступных глаголов, которые были обнаружены в контексте корпуса, где в сочетании слов главное слово глагольной группы предшествует словам "this person". Исходя из размера и положения бегунка вертикальной полосы прокрутки на правой стороне текстового окна 31 можно заметить, что список гораздо больше, чем часть доступных глаголов, выводимых в текущий момент в текстовом окне 31 на Фиг.1. Большинство доступных сочетаний, приведенных в текстовом окне 31, не были выбраны в качестве возможных сочетаний слов как в списке в текстовом окне 29, поскольку они не набрали достаточно высокой оценки по схеме оценки нечеткого совпадения на основании набора критериев, по которым определяется правильность совпадения исходного сочетания слов и его замена на сочетание слов, которое дает исходное значение в правильной форме.

Иллюстративные способы для сравнения сочетания слов в текстовом окне 27, для идентификации того, что оно является нестандартным в содержимом корпуса, и для предоставления предлагаемых замен для него подробно описаны со ссылкой на остальные фигуры.

Фиг.2 представляет собой иллюстрацию схемы последовательности операций способа 50 проверки сочетаний слов согласно иллюстративному варианту осуществления, определенные аспекты которого аналогичны аспектам интерфейса 10 проверки ошибок сочетаний слов, изображенного на Фиг.1. Основные этапы способа 50 показаны в сплошных контурах на схеме последовательности операций с Фиг.2. Упомянутые основные этапы включают в себя этап 51, на котором сравнивают одно или более сочетаний слов из образца текста с корпусом, как например, путем передачи содержимого, включающего в себя упомянутое сочетание слов, в виде поискового запроса в сети Интернет; этап 53, на котором идентифицируют, являются ли упомянутые сочетания слов нестандартными в данном корпусе; и этап 55, на котором через устройство вывода предоставляют индикации о том, являются ли упомянутые сочетания слов нестандартными. Как показано посредством рекурсивной стрелки, этапы 51 и 53 могут повторяться друг за другом, чтобы выполнять различные типы сравнения сочетаний слов из образца текста с корпусом и чтобы идентифицировать, являются ли эти сочетания слов нестандартными в корпусе, согласно результатам различных типов сравнений.

Этапы 51, 53 и 55 также могут включать в себя дополнительные этапы, такие как показанные в пунктирных контурах, или дополнительные этапы могут предшествовать или следовать за основными этапами. Эти дополнительные этапы включают в себя, например, этап, на котором принимают индикацию или идентифицируют сочетания слов в тексте, как например, путем приема пользовательского ввода или выбора или другой формы индикации образца текста, как на этапе 61. Также в приложении обработки текста или некотором другом программном приложении может быть включена функция по умолчанию, согласно которой вводимый человеком текст отслеживается и сканируется на предмет наличия неправильных сочетаний слов или других признаков применения неродного языка, и при обнаружении подобных признаков запускаются дополнительные этапы, как на этапе 63. Образец текста также может быть проанализирован, как для случая этапа 65 и как иллюстративно описано со ссылкой на Фиг.1, хотя к образцам текста, которые уже были подвергнуты анализу, например, могут быть применены другие варианты осуществления настоящего способа.

При сравнении с корпусом могут быть выбраны конкретные типы сочетаний слов, как на этапе 67. На этом этапе для сравнения с корпусом и выполнения дополнительных этапов проверки ошибок сочетаний слов выбирают сочетания слов, такие как сочетания слов глагол-существительное, сочетания слов предлог-существительное, сочетания слов прилагательное-существительное или сочетания слов глагол-наречение. В некоторых вариантах осуществления может использоваться какая-либо одна из этих отдельных категорий сочетаний слов, тогда как в других вариантах осуществления может использоваться любое количество или все эти типы сочетаний слов и/или дополнительные типы сочетаний слов. Было выявлено, что при использовании четырех типов сочетаний слов, перечисленных для этапа 67, охватывается существенная часть всех ошибок сочетаний слов, допускаемых типичными пользователями неродного языка. При выборе этих конкретных типов сочетаний сначала идентифицируют части речи в образце текста, как например, путем этапа подготовительного анализа, как на этапе 65 и как описано со ссылкой на Фиг.1.

Этап 53, на котором идентифицируют, являются ли сочетания слов нестандартными в корпусе, может выполняться многократно для множества отдельных запросов, которые основаны на сочетании слов в различных форматах, в результате чего формируется окончательное определение, основанное на всех использованных запросах, согласно которому определяется, являются ли сравниваемые с корпусом сочетания нестандартными в контексте этого корпуса.

Один иллюстративный вариант осуществления дополнительно проиллюстрирован в аналогичных этапах 351 и 353 на Фиг.3. В этом варианте осуществления сравнение сочетаний слов из образца текста с корпусом, как на этапе 51 на Фиг.2, может включать в себя стратегию нечеткого совпадения, согласно которой в корпусе выполняют поиск терминов запросов, которые включают в себя либо целое предложение, либо сокращенное предложение, либо пару отрывков, либо пару слов, которые образуют заданное сочетание, как показано на этапах 361, 363, 365 и 367, соответственно, на Фиг.3. Сокращенное предложение формируется путем удаления вспомогательных слов из предложения, которое включает в себя данное сочетание слов, причем в иллюстративном варианте осуществления вспомогательные слова представляют собой слова из предложения, которые могут быть предварительно определены как необязательные для сохранения заданного сочетания слов в этом предложении. Например, для предложения "I have recognized this person for years" (Я знал этого человека много лет) шаблон запроса сокращенного предложения, основанный на неправильном сочетании, может иметь форму "have recognized this person" (узнал этого человека). Термины запроса из пары отрывков и пары слов могут быть сформированы для конкретных слов или отрывков, содержащих это сочетание слов, либо из непосредственно смежных слов или отрывков, либо из слов или отрывков, которые находятся в предварительно выбранном диапазоне близости относительно друг друга внутри одного предложения, как например, при наличии не более одного или двух других слов, которые разделяют их. При поиске с нечетким совпадением в результате поиска сокращенного предложения, пары отрывков и пары слов также могут быть получены результаты с другим, но эквивалентным порядком слов или с замещающим словом для определенных функциональных слов или других типов слов, так что для нечеткого совпадения сочетание "recognize this person" (узнать этого человека) и сочетание "recognize that person" (узнать того человека) могут рассматриваться как эквивалентные.

Сочетание слов может быть идентифицировано как нестандартное, если термины запроса, которые содержат данное сочетание слов, не набирают оценку выше предопределенного порогового значения, указывающего значительное присутствие нечетких совпадений терминов запроса в корпусе. При идентификации того, являются ли сочетания слов нестандартными в корпусе, как на этапе 53 на Фиг.2, могут быть выполнены различные типы поисков терминов запроса, включая поиск совпадения предложения или сокращенного предложения, как на этапах 371 и 373, соответственно, или может быть определено пороговое значение оценки для совпадений, найденных для пар отрывков или пар слов, как на этапах 375 и 377, соответственно, на Фиг.3. Поскольку предложения и сокращенные предложения гораздо более специфичны, одно совпадение или небольшое количество совпадений с одним из них может рассматриваться как достаточное для индикации того, что сочетание слов не является нестандартным или неправильным. Поскольку пары отрывков или пары слов менее ограничены и более обычны, вероятность их обнаружения в, по меньшей мере, нескольких результатах поиска более высока даже при их неправильности, поскольку относительно небольшая часть содержимого сети Интернет написана неискусными пользователями языка. Следова

Проверка ошибок сочетаний слов на базе сети интернет

Патент 2458391