2628431 - Подбор параметров текстового классификатора на основе семантических признаков

Подбор параметров текстового классификатора на основе семантических признаков

Иллюстрации

Показать все

Изобретение относится в целом к вычислительным системам, а точнее к системам и способам обработки естественного языка. Техническим результатом является повышение точности результатов классификации. Для оценки параметров текстовых классификаторов на основе семантических признаков выполняют с помощью устройства обработки семантико-синтаксический анализ текста на естественном языке из корпуса текстов на естественном языке для создания семантической структуры, представляющей набор семантических классов. Выявляют признак текста на естественном языке, извлекаемый на основе набора значений из множества параметров извлечения признаков. Разделяют корпус текстов на естественном языке на обучающую выборку данных, включающую первое множество текстов на естественном языке, и тестовую выборку, включающую второе множество текстов на естественном языке. Определяют набор значений параметров извлечения признаков с учетом категории обучающей выборки. Оценивают полученный набор значений параметров извлечения признаков с помощью тестовой выборки. 4 н. и 16 з.п. ф-лы, 15 ил.

Реферат

ОБЛАСТЬ ТЕХНИКИ

[0001] Настоящее изобретение относится в целом к вычислительным системам, а точнее к системам и способам обработки естественного языка.

УРОВЕНЬ ТЕХНИКИ

[0002] Различные задачи обработки естественного языка могут включать классификацию текстов на естественном языке. К примерам таких задач относятся выявление семантического сходства, ранжирование результатов поиска, определение авторства текста, фильтрация спама, выбор текстов для контекстной рекламы и т.д.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

[0003] В соответствии с одним или более аспектами настоящего изобретения пример способа может включать: выполнение с помощью устройства обработки семантико-синтаксического анализа текста на естественном языке из корпуса текстов на естественном языке для создания семантической структуры, представляющей набор семантических классов; выявление признака текста на естественном языке, извлекаемого на основе набора значений из множества параметров извлечения признаков; разделение корпуса текстов на естественном языке на обучающую выборку данных, включающую первое множество текстов на естественном языке, и тестовую выборку, включающую второе множество текстов на естественном языке; определение набора значений параметров извлечения признаков с учетом категории обучающей выборки; оценку полученного набора значений параметров извлечения признаков с помощью тестовой выборки.

[0004] В соответствии с одним или более аспектами настоящего изобретения другой пример способа может включать: выполнение с помощью устройства обработки семантико-синтаксического анализа текста на естественном языке из корпуса текстов на естественном языке для создания семантической структуры, представляющей набор семантических классов; выявление модели классификатора текста, связанной с набором значений из множества гиперпараметров; разделение корпуса текстов на естественном языке на обучающую выборку данных, включающую первое множество текстов на естественном языке, и тестовую выборку, включающую второе множество текстов на естественном языке; определение набора значений гиперпараметров модели классификатора текста с учетом обучающей выборки данных; проверку оценку полученного набора значений гиперпараметров с помощью набора проверочных данных тестовой выборки.

[0005] В соответствии с одним или более аспектами настоящего изобретения пример системы может включать: память; процессор, соединенный с памятью и настроенный на: выполнение с помощью устройства обработки семантико-синтаксического анализа текста на естественном языке из корпуса текстов на естественном языке для создания семантической структуры, представляющей набор семантических классов; выявление признака текста на естественном языке, извлекаемого на основе набора значений из множества параметров извлечения признаков; разделение корпуса текстов на естественном языке на обучающую выборку данных, включающую первое множество текстов на естественном языке, и тестовую выборку, включающую второе множество текстов на естественном языке; определение набора значений параметров извлечения признаков с учетом категории обучающей выборки; оценку полученного набора значений параметров извлечения признаков с помощью тестовой выборки.

[0006] В соответствии с одним или более аспектами настоящего изобретения пример постоянного машиночитаемого носителя может включать исполняемые команды, которые при выполнении вычислительной системой заставляют эту вычислительную систему осуществлять выполнение с помощью устройства обработки семантико-синтаксического анализа текста на естественном языке из корпуса текстов на естественном языке для создания семантической структуры, представляющей набор семантических классов; выявление признака текста на естественном языке, извлекаемого на основе набора значений из множества параметров извлечения признаков; разделение корпуса текстов на естественном языке на обучающую выборку данных, включающую первое множество текстов на естественном языке, и тестовую выборку, включающую второе множество текстов на естественном языке; определение набора значений параметров извлечения признаков с учетом категории обучающей выборки; оценку полученного набора значений параметров извлечения признаков с помощью тестовой выборки.

[0007] Технический результат от внедрения изобретения состоит в получении системы классификации текстов на естественном языке, позволяющей выполнять классификацию текстов, в том числе, на различных языках, с наибольшей точностью, что обусловлено использованием для классификации не только лексических признаков, но и глубинных семантических признаков.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0008] Настоящее изобретение иллюстрируется с помощью примеров, но не ограничивается только ими, и может быть лучше понято при рассмотрении приведенного ниже описания предпочтительных вариантов реализации в сочетании с чертежами, на которых:

[0009] На Фиг. 1 показана блок-схема примера способа классификации текста на естественном языке на основе семантических признаков в соответствии с одним или более аспектами настоящего изобретения;

[00010] На Фиг. 2 показана блок-схема примера способа для определения значений параметров извлечения признаков и (или) гиперпараметров модели классификатора текста в соответствии с одним или более аспектами настоящего изобретения;

[00011] На Фиг. 3 показана блок-схема примера оптимизации методом дифференциальной эволюции для оптимизации выбранной целевой функции с целью определения значений параметров извлечения признаков и (или) гиперпараметров модели классификатора текста в соответствии с одним или более аспектами настоящего изобретения;

[00012] На Фиг. 4 показана блок-схема примера способа выполнения семантико-синтаксического анализа предложения на естественном языке 212 в соответствии с одним или более аспектами настоящего изобретения.

[00013] На Фиг. 5 схематически показан пример лексико-морфологической структуры предложения в соответствии с одним или более аспектами настоящего изобретения;

[00014] На Фиг. 6 схематически показаны языковые описания, представляющие модель естественного языка в соответствии с одним или более аспектами настоящего изобретения;

[00015] На Фиг. 7 схематически показаны примеры морфологических описаний в соответствии с одним или более аспектами настоящего изобретения;

[00016] На Фиг. 8 схематически показаны примеры синтаксических описаний в соответствии с одним или более аспектами настоящего изобретения;

[00017] На Фиг. 9 схематически показаны примеры семантических описаний в соответствии с одним или более аспектами настоящего изобретения;

[00018] На Фиг. 10 схематически показаны примеры лексических описаний в соответствии с одним или более аспектами настоящего изобретения;

[00019] На Фиг. 11 схематически показаны примеры структур данных, которые могут использоваться одним или более способами, реализованными в соответствии с одним или несколькими аспектами настоящего изобретения;

[00020] На Фиг. 12 схематически показан пример графа обобщенных составляющих в соответствии с одним или более аспектами настоящего изобретения;

[00021] На Фиг. 13 показан пример синтаксической структуры, соответствующей предложению, приведенному на Фиг. 12;

[00022] На Фиг. 14 показана синтаксическая структура, соответствующая синтаксической структуре на Фиг. 13; а также

[00023] На Фиг. 15 показана схема примера вычислительной системы, реализующей способы настоящего изобретения.

ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ РЕАЛИЗАЦИИ

[00024] В настоящем документе описаны способы и системы классификации текстов на естественном языке с помощью вычислительной системы на основе семантических признаков. В настоящем документе термин «вычислительная система» означает устройство обработки данных, оснащенное универсальным процессором, памятью и по меньшей мере одним интерфейсом связи. Примеры вычислительных систем, которые могут реализовать системы и способы настоящего изобретения, включают, помимо прочего, настольные компьютеры, ноутбуки, планшеты и смартфоны.

[00025] Классификация текстов на естественном языке может подразумевать связывание заданного текста на естественном языке, который может быть представлен, например, по меньшей мере частью документа, с одной или более категориями из определенного набора категорий. В определенных вариантах реализации набор категорий может быть определен заранее (например, получен через графический интерфейс пользователя (GUI) или интерфейс прикладного программирования (API)). Как вариант, набор категорий может быть выявлен в реальном времени в процессе выполнения классификации путем выполнения анализа текстового корпуса, в который входят тексты, подлежащие классификации (например, множество элементов из ленты новостей).

[00026] Тексты на естественном языке могут быть классифицированы на основе одного или более лексических, семантических или синтаксических признаков. Процедура оценки признаков, также называемая извлечением признаков, может включать выполнение семантико-синтаксического анализа текста на естественном языке для создания по меньшей мере одной независимой от конкретного языка семантической структуры, которая может содержать множество семантических классов, как описано более подробно ниже. Любая ссылка на «семантическую структуру» должна считаться ссылкой на одну или более семантических структур.

[00027] Например, текстовый признак может быть представлен частотой встречаемости экземпляров определенного семантического класса в представляющих текст независимых от языка семантических структурах. Независимость семантических структур от конкретного естественного языка позволяет выполнять независимую от языка классификацию текста (например, классификацию текстов, представленных на нескольких естественных языках).

[00028] Независимые от языка семантические классы составляют неотъемлемую часть используемых в данном изобретении лингвистических семантических описаний, что более подробно описано ниже. Семантические классы могут быть организованы в иерархическую структуру, которая в настоящем документе также называется «семантическая иерархия». В определенных вариантах реализации извлечение признаков может обеспечить более точные результаты за счет учета иерархии семантических классов с целью эффективного рассмотрения цепочек семантических классов, представляющих множество уровней абстракции определенного семантического понятия. Например, если признак текста представлен частотой появления экземпляров определенного семантического класса в представляющих текст независимых от языка семантических структурах, то при вычислении значения признака может учитываться встречаемость предков и (или) потомков семантического класса в семантической иерархии. Иерархия семантических классов может учитываться путем связывания определенных значений атрибутов (которые могут сопровождаться весовыми коэффициентами, отражающими связь определенного семантического класса с определенным признаком текста) с каждым семантическим классом в определенной линии наследования. В иллюстративном примере значения атрибута могут быть представлены геометрической прогрессией, состоящей из действительных чисел, которые могут увеличиваться или уменьшаться по линии наследования.

[00029] Таким образом, семантический класс может быть связан с вектором значений атрибутов, отражающих отношение семантического класса к соответствующим текстовым признакам. Значение определенного атрибута потомка или предка определенного базового семантического класса может определяться заданным изменением значения атрибута для базового семантического класса. Такая трансформация может включать умножение значения признака базового семантического класса на некоторый множитель. Трансформация может повторно применяться к значениям атрибутов, связанных с двумя или более поколениями предков и (или) потомков базового семантического класса. В иллюстративном примере последовательные трансформации могут включать умножение значения признака текущего семантического класса на заданный множитель, при этом множители, применяемые к предкам или потомкам заданного базового класса, формируют геометрическую прогрессию, состоящую из действительных чисел.

[00030] В иллюстративном примере каждый текст на естественном языке может быть представлен точкой в многомерном пространстве выбранных текстовых признаков, при этом координаты точки соответствуют значениям признаков. Поэтому выполнение классификации текстов может включать определение параметров одной или более разделительных гиперплоскостей, которые разделяют многомерное пространство на сектора, представляющие категории классификации.

[00031] Классификация текста может выполняться путем вычисления значения функции классификации, отражающей степень связи классифицируемого текста с определенной категорией из множества категорий классификации (например, вероятность связи текста с определенной категорией). Классификация текста может включать вычисление значения выбранной функции классификации для каждой категории из множества категорий классификации, а также связывание текста на естественном языке с категорией, соответствующей оптимальному (максимальному или минимальному) значению функции классификации.

[00032] В определенных вариантах реализации описанная выше процедура извлечения признаков может применяться для анализа корпуса текстов на естественном языке и создания обучающего набора данных, связывающего значения признаков и категории текстов. В иллюстративном примере набор подтверждающих данных может создаваться и (или) обновляться путем обработки множества примеров текстов на естественном языке с известной классификацией. Для каждого примера текста на естественном языке могут быть оценены выбранные признаки, а значения признаков могут быть сохранены в связи с идентификатором категории, к которой относится пример текста на естественном языке.

[00033] Как указано выше, семантическому классу может быть сопоставлен вектор значений атрибутов, отражающих отношение семантического класса к соответствующим текстовым признакам. В определенных вариантах реализации значения различных параметров процесса извлечения признаков (далее - «параметры извлечения признаков») могут быть определены путем оптимизации определенной целевой функции (например, функции соответствия, отражающей количество текстов на естественном языке из набора подтверждающих данных, которые могут быть правильно классифицированы с использованием указанных значений параметров извлечения признаков). Примеры параметров извлечения признаков могут включать количество анализируемых уровней семантической иерархии, экземпляры семантических классов которой должны быть учтены в анализируемом тексте на естественном языке, значение определенного атрибута семантического класса, который должен быть соотнесен с экземпляром семантического класса в ответ на выявление такого экземпляра в анализируемом тексте на естественном языке и т.д.

[00034] Как указано выше, классификация текста может выполняться путем вычисления функции классификации, отражающей степень связи классифицируемого текста с определенной категорией из множества категорий классификации (например, вероятность связи текста с определенной категорией). В определенных вариантах реализации в системах и способах настоящего изобретения может использоваться набор обучающих данных для определения значений одного или более гиперпараметров выбранной модели классификации текста. «Гиперпараметр» в настоящем документе означает изменяемое значение, которое определяется до применения машинного обучения для точной настройки параметров модели классификации. Поэтому гиперпараметр может быть выбран априори (например, разработчиком модели классификации) или изменен в автоматическом или ручном режиме в соответствии с одним или более аспектами настоящего изобретения. В определенных вариантах реализации значения различных гиперпараметров модели классификации текста могут быть определены путем оптимизации определенной целевой функции (например, функции соответствия, отражающей количество текстов на естественном языке из набора подтверждающих данных, которые могут быть правильно классифицированы с использованием указанных значений гиперпараметров). Примеры параметров извлечения признаков включают параметр упорядочения модели классификации, которая задействует классификатор на основе метода опорных векторов (англ. SVM, support vector machine), количество ближайших соседей, анализируемых моделью классификации, которая задействует метод к ближайших соседей и т.д.

[00035] В определенных вариантах реализации набор обучающих данных может быть разделен на обучающую выборку данных и тестовую выборку с использованием различных способов перекрестной проверки, что более подробно описано ниже. К обучающим выборкам и к тестовым выборкам затем могут быть применены способы оптимизации для определения значений одного или более параметров извлечения признаков и (или) одного или более гиперпараметров выбранной модели классификации текста.

[00036] В иллюстративном примере используется метод дифференциальной эволюции для определения значений одного или более параметров извлечения признаков и (или) одного или более гиперпараметров выбранной модели классификации текста. В иллюстративном примере итерация метода дифференциальной эволюции может включать определение значений параметров извлечения признаков и (или) гиперпараметров путем оптимизации выбранной целевой функции с помощью обучающей выборки данных с последующим созданием следующего поколения моделей классификации текста на основе текущего поколения и выбранных параметров метода дифференциальной эволюции. После выявления (путем проверки нового поколения моделей классификации текста с использованием тестового набора данных) модели классификации, превосходящей по качеству модель текущего поколения, выявленная модель текущего поколения может быть заменена моделью с более высоким качеством. Итерации метода дифференциальной эволюции могут повторяться до тех пор, пока не будет выполнено прекращающее условие, что более подробно описано ниже.

[00037] В определенных вариантах реализации один или более параметров выбранной модели классификации текста затем могут быть точно настроены способом машинного обучения (например, путем оптимизации выбранной целевой функции, которая может быть представлена функцией соответствия, отражающей количество текстов на естественном языке из набора подтверждающих данных, которые могут быть правильно классифицированы с использованием указанных значений параметров модели классификации текста).

[00038] Различные аспекты упомянутых выше способов и систем подробно описаны ниже в этом документе с помощью примеров, а не способом ограничения.

[00039] На Фиг. 1 показана блок-схема примера реализации способа 100 классификации текста на естественном языке на основе семантических признаков в соответствии с одним или несколькими аспектами настоящего изобретения. Способ 100 и (или) каждая из его отдельных функций, стандартных программ, подпрограмм или операций могут выполняться одним или более процессорами вычислительной системы (например, вычислительная система 1000 на Фиг. 15), реализующей этот способ. В некоторых вариантах реализации способ 100 может выполняться в одном потоке обработки. При альтернативном подходе способ 100 может быть реализован с помощью двух или более потоков обработки, при этом каждый поток выполняет одну или более отдельных функций, стандартных программ, подпрограмм или операций данного способа. В иллюстративном примере потоки обработки, в которых реализован способ 100, могут быть синхронизированы (например, с помощью семафоров, критических секций и (или) других механизмов синхронизации потоков). При альтернативном подходе потоки обработки, реализующие способ (100), могут выполняться асинхронно по отношению друг к другу.

[00040] В блоке 110 реализующая способ вычислительная система может выполнять семантико-синтаксический анализ исходного текста на естественном языке. При семантико-синтаксическом анализе может создаваться одна или более независимых от языка семантических структур, представляющих некоторое множество семантических классов. Каждая семантическая структура может быть представлена графом, включающим множество вершин, соответствующих семантическим классам, и множество дуг, соответствующих множеству семантических отношений, как описано более подробно ниже со ссылками на Фиг. 4-14. Независимые от языка семантические структуры могут быть использованы как источник одного или более лексических, семантических или синтаксических признаков текста на естественном языке. Например, текстовый признак может быть представлен частотностью появления в представляющих текст независимых от языка семантических структурах экземпляров указанного семантического класса и (или) экземпляров других семантических классов, связанных с указанным семантическим классом определенными семантическими отношениями (например, предок указанного семантического класса, потомок указанного семантического класса или одноуровневые родственники указанного семантического класса).

[00041] В блоке 120 вычислительная система может выбрать среди семантических классов, представленных в семантических структурах, представляющих анализируемый текст, некоторый семантический класс (далее - «базовый семантический класс»). В определенных вариантах реализации на семантический класс может быть связан с предварительно определенным перечнем семантических классов, связанных с определенными признаками, извлекаемыми из анализируемого текста.

[00042] В блоке 130 вычислительная система может сопоставить базовый семантический класс с некоторым значением, отражающим некоторый атрибут этого семантического класса. В определенных вариантах реализации указанный атрибут может представлять весовой коэффициент, выражающий отношение семантического класса к определенному признаку текста. В иллюстративном примере, если частота появления некоторой лексемы в анализируемом тексте превышает некоторое пороговое значение, текст может быть связан с заданным признаком с помощью определенного весового коэффициента (например, если частота возникновения слова «договор» в анализируемом тексте превышает 1%, текст может быть связан с признаком «юридический» с весовым коэффициентом 0,5).

[00043] В блоке 140 вычислительная система может выявить семантический класс, связанный с указанным семантическим классом через заданные семантические отношения (например, предок указанного семантического класса, потомок указанного семантического класса или одноуровневый родственник указанного семантического класса). Выявленный семантический класс далее называется связанным семантическим классом относительно базового семантического класса.

[00044] В блоке 150 вычислительная система может сопоставить выявленный связанный семантический класс со значением, отражающим указанный атрибут. Значение атрибута, который должен быть сопоставлен со связанным семантическим классом, может определяться заданной трансформацией значения атрибута для базового семантического класса. Трансформация может, например, представлять собой умножение значения признака базового семантического класса на заданный множитель.

[00045] В иллюстративном примере, если частота возникновения указанной лексемы в анализируемом тексте превышает первое пороговое значение, текст может быть связан с заданным признаком с помощью первого весового коэффициента; если частота возникновения гиперонима указанной лексемы в тексте превышает второе пороговое значение, текст также может быть связан с заданным признаком с помощью второго весового коэффициента, который может составлять часть от первого весового коэффициента. «Гипероним» означает семантический класс более высокого порядка, т.е. семантический класс, конкретные экземпляры которого формируют набор, включающий экземпляры дочернего класса.

[00046] После подтверждения в блоке 160 того, что существует по крайней мере еще один семантический класс, связанный с основным семантическим классом указанными семантическими отношениями, ранее выявленный семантический класс может быть объявлен новым базовым классом, может быть осуществлен возврат в блок 140 для повтора операций, описанных выше со ссылками на блоки 140-150, для двух или более семантических классов, связанных с базовым семантическим классом и (или) друг с другом заранее определенными семантическими отношениями. В иллюстративном примере может быть выявлена цепочка, включающая два и более предков или потомков базового семантического класса. В другом иллюстративном примере могут быть выявлены два или более потомков базового семантического класса первого поколения, являющихся одноуровневыми "братьями" по отношению друг к другу.

[00047] Если выявлено два или более семантических классов базового класса, значения атрибутов, которые должны быть связаны с выявленными связанными семантическими классами, могут быть выявлены последовательным применением заранее определенной трансформации к значениям атрибутов предшествующего семантического класса в цепочке семантических классов. Как указано выше, последовательные трансформации могут включать, например, умножение значения признака для текущего семантического класса на заданный множитель, при этом множители, применяемые к предкам или потомкам заданного базового класса, формируют прогрессию, состоящую из действительных чисел.

[00048] В блоке 170 вычислительная система может вычислить значение текстового признака, связанный с выявленной цепочкой семантических классов, используя выявленные значения атрибутов, сопоставленных с каждым семантическим классом.

[00049] После подтверждения в блоке 180 того, что в перечне анализируемых семантических классов имеется по крайней мере еще один другой базовый семантический класс, способ может вернуться назад к блоку 120; в ином случае обработка может продолжиться в блоке 190.

[00050] В блоке 190 вычислительная система может применить модель классификации с использованием вычисленных признаков текста на естественном языке для определения степени соотнесения текста на естественном языке с одной или более категориями из заранее определенного набора категорий.

[00051] Как указано выше, классификация текстов на естественном языке может подразумевать связывание заданного текста на естественном языке, который может быть представлен, например, по меньшей мере частью документа, с одной или несколькими категориями из определенного набора категорий. В определенных вариантах реализации набор категорий может быть определен заранее (например, получен через графический интерфейс пользователя (GUI) или интерфейс прикладного программирования (API)). Как вариант, набор категорий может сформироваться в процессе выполнения классификации путем выполнения анализа текстового корпуса, в который входят тексты, подлежащие классификации.

[00052] Для каждой категории из набора категорий, к которым в результате классификации может быть отнесен текст, вычислительная система может вычислить значение, выражающее вероятность того, что текст относится к соответствующей категории. Затем вычислительная система может выбрать оптимальное (например, максимальное или минимальное) значение из рассчитанных значений и связать документ с категорией, соответствующей выбранному оптимальному значению модели классификации текста. После завершения операций по классификации, указанных в блоке 190, выполнение способа может быть завершено.

[00053] Хотя в иллюстративном примере, подробно описанном ниже, функция классификации представлена наивным байесовским классификатором, способы, описанные в настоящем документе, могут использовать другие вероятностные или детерминированные функции.

[00054] В иллюстративном примере функция классификации представлена наивным байесовским классификатором:

[00055] где p(c_k|F₁, …, F_n) - условная вероятность того, что объект, имеющий значение параметра F₁, …, F_n, относится к категории C_k;

Р(с_k) - априорная вероятность того, что объект относится к категории С_k;

Z - нормализующая константа;

P(Fi|C_k) - вероятность того, что объект, имеющий значение параметра F_i, относится к категории С_k.

[00056] В другом иллюстративном примере функция классификации может быть представлена классификатором на основе метода опорных векторов (SVM). В еще одном иллюстративном примере функция классификации представлена классификатором по методу k ближайших соседей.

[00057] В определенных вариантах реализации для каждой категории из множества категорий классификации текста вычислительная система, реализующая способы, описанные в настоящем документе, может вычислять значение выбранной функции классификации, выражающее вероятность того, что текст относится к соответствующей категории. Затем вычислительная система может выбрать оптимальное (например, максимальное или минимальное) значение из рассчитанных значений и связать документ с категорией, соответствующей выбранному оптимальному значению функции классификации.

[00058] Как указано выше, семантический класс может быть связан с вектором значений атрибутов, отражающих отношение семантического класса к соответствующим текстовым признакам. В определенных вариантах реализации значения различных параметров извлечения признаков и (или) гиперпараметров модели классификации текста могут быть определены путем оптимизации определенной целевой функции (например, функция соответствия, отражающая количество текстов на естественном языке из тестового набора x данных, которые могут быть правильно классифицированы с использованием указанных значений параметров извлечения признаков).

[00059] На Фиг. 2 показана блок-схема примера способа 200 определения значений параметров извлечения признаков и (или) гиперпараметров модели текстового классификатора в соответствии с одним или несколькими аспектами настоящего изобретения. Способ 200 и (или) каждая из его отдельных функций, стандартных программ, подпрограмм или операций могут выполняться одним или более процессорами вычислительной системы (например, вычислительная система 1000 на Фиг. 15), реализующей этот способ. В некоторых вариантах реализации способ 200 может выполняться в одном потоке обработки. При альтернативном подходе способ 200 может быть реализован с помощью двух или более потоков обработки, при этом каждый поток выполняет одну или более отдельных функций, стандартных программ, подпрограмм или операций данного способа. В иллюстративном примере потоки обработки, в которых реализован способ 200, могут быть синхронизированы (например, с помощью семафоров, критических секций и (или) других механизмов синхронизации потоков). При альтернативном подходе потоки обработки, реализующие способ (200), могут выполняться асинхронно по отношению друг к другу.

[00060] В блоке 210 вычислительная система, реализующая способ, может выполнять семантико-синтаксический анализ одного или более текстов на естественном языке из набора обучающих данных. При анализе может создаваться одна или более независимых от языка семантических структур, представляющих некоторое множество семантических классов. Каждая семантическая структура может быть представлена графом, включающим узлы, соответствующие семантическим классам, и множество дуг, соответствующих семантическим отношениям, как более подробно описано ниже со ссылками на Фиг. 4-14.

[00061] В блоке 220 вычислительная система может установить один или более признаков текста, извлекаемых из семантических структур, созданных при семантико-синтаксическом анализе, как более подробно описано выше. Например, признак текста может быть представлен частотой появления в представляющих текст семантических структурах экземпляров указанного семантического класса и (или) экземпляров других семантических классов, связанных с указанным семантическим классом определенными семантическими отношениями (например, предок указанного семантического класса, потомок указанного семантического класса или одноранговые родственники указанного семантического класса, как более подробно описано выше со ссылками на Фиг. 1).

[00062] В блоке 230 вычислительная система может выполнить разбиение корпуса текстов на естественном языке на обучающую выборку, включающую первое множество текстов на естественном языке, и тестовую выборку, включающий второе множество текстов на естественном языке. В определенных вариантах реализации разделение текстового корпуса может включать перекрестную проверку (метод cross-validating) обучающей выборки и тестовой выборки. Для улучшения результата может выполняться несколько раундов перекрестной проверки с применением различных разбиений, а результаты проверки модели могут быть агрегированы по раундам (например, усреднены).

[00063] В иллюстративном примере к корпусу текстов на естественном языке может применяться способ k-кратной перекрестной проверки (cross-validating). Способ может включать случайное разделение исходного корпуса текстов на k наборов данных одинакового размера, один из которых затем используется в качестве тестовой выборки, а оставшиеся k-1 дополнительных наборов затем используются как обучающие выборки данных. Затем процесс перекрестной проверки может быть повторен k раз таким образом, чтобы каждый из k наборов данных использовался один раз в качестве тестовой выборки. После этого k результатов могут быть агрегированы для получения единого значения.

[00064] В блоке 240 вычислительная система может итеративно выявить значения указанных параметров извлечения признаков для модели классификации текста, оптимизирующей определенную целевую функцию (например, максимальное увеличение функции соответствия, отражающей количество текстов на естественном языке из тестовой выборки, которые могут быть правильно классифицированы с использованием указанных значений параметров извлечения признаков). В иллюстративном примере параметры извлечения признаков, значения которых должны быть определены, могут быть выявлены через GUI или API. При альтернативном подходе для оценки может быть выбран предварительно заданный набор параметров извлечения признаков.

[00065] В блоке 250 вычислительная система может итерационно выявить значения указанных гиперпараметров для модели классификации текста, оптимизирующей определенную целевую функцию (например, максимальное увеличение функции соответствия, отражающей количество текстов на естественном языке из набора подтверждающих данных, которые могут быть правильно классифицированы с использованием указанных значений гиперпараметров классификации текста). В иллюстративном примере параметры извлечения признаков, значения которых должны быть определены, могут быть выявлены через GUI или API. При альтернативном подходе для оценки может быть выбран предварительно заданный набор параметров извлечения признаков.

[00066] Поскольку целевая функция, применяемая для оценки параметров извлечения признаков и (или) гиперпараметров классификации текста, является недифференцируемой, способ, выбранный для оптимизации целевой функции, не должен требовать вычисления градиента целевой функции. В определенных вариантах реализации вычислительной системой может использоваться оптимизация методом дифференциальной эволюции, пример которого подробно описан ниже со ссылками на Фиг. 3. Способ оптимизации может включать итеративное выявление набора значений параметров извлечения признаков и (или) гиперпараметров классификации текста путем обработки множества обучающих текстов на естественном языке с известной классификацией. Для каждого обучающего текста вычислительной с

Подбор параметров текстового классификатора на основе семантических признаков

Патент 2628431