Способ и устройство для построения шаблона и способ и устройство для идентификации информации

Иллюстрации

Показать все

Изобретение относится к области вычислительной техники для обработки данных. Технический результат заключается в повышении точности идентификации информации для построения текстового шаблона. Технический результат достигается за счет получения выражения, которое содержит заданное ключевое слово и представляет собой цифровую информацию, сегментирования выражения для получения одного или более слов и извлечения множества заданных характеристик из одного или более слов, причем множество заданных характеристик содержит характеристическое слово, идентификации результата маркировки заданного ключевого слова в выражении на основе заданного ключевого слова, характеристического слова и заранее построенного шаблона, при этом результат маркировки представляет собой атрибут заданного ключевого слова, и определения класса информации для целевой информации на основании результата маркировки заданного ключевого слова. 6 н. и 12 з.п. ф-лы, 9 ил.

Реферат

По настоящей заявке испрашивается приоритет на основании патентной заявки Китая № 201510827530.8, поданной 24 ноября 2015 г., все содержание которой включено в настоящую заявку посредством ссылки.

Область техники, к которой относится изобретение

Настоящее раскрытие в целом относится к области обработки данных и более конкретно к способу и устройству для построения шаблона и способу и устройству для идентификации информации.

Уровень техники

В повседневной жизни пользователь часто получает короткие сообщения, такие как короткие сообщения напоминания о разговорном балансе и короткие сообщения уведомления об остатке трафика от операторов, или другую информацию, такую как короткие сообщения об информации учетной записи и короткие сообщения об оплате по кредитной карте от банков. Все эти короткие сообщения применяются для уведомления пользователя о некоторой цифровой информации, такой как разговорный баланс, баланс учетной записи, остаток трафика и т.д., с целью своевременного предоставления пользователю такой информации.

Раскрытие изобретения

Для повышения точности идентификации информации в настоящем раскрытии предлагаются способ и устройство для построения шаблона, и способ и устройство для идентификации информации.

Согласно первому аспекту настоящего раскрытия, предлагается способ построения шаблона. Способ содержит: получение множества образцов исходной информации, содержащего по меньшей мере один фрагмент исходной информации, которая принадлежит к заданному классу; в случае если исходная информация содержит заданное ключевое слово, маркировку заданного ключевого слова на основе множества заданных ключевых слов с целью получения обучающего множества образцов; сегментирование выражений, содержащих заданное ключевое слово в обучающем множестве образцов, с целью получения одного или более слов; извлечение множества заданных характеристик из одного или более слов, при этом множество заданных характеристик содержит по меньшей мере одно характеристическое слово; построение шаблона на основе заданного ключевого слова и характеристического слова в множестве заданных характеристик; и обучение шаблона на основе результатов маркировки в обучающем множестве образцов.

Согласно одному примеру, процесс извлечения множества заданных характеристик из одного или более слов содержит: извлечение множества заданных характеристик из одного или более слов посредством проверки по критерию хи-квадрат; или извлечение множества заданных характеристик из одного или более слов посредством проверки по приросту информации.

Согласно одному примеру, процесс построения шаблона на основе заданного ключевого слова и характеристического слова в множестве заданных характеристик содержит: построение наивного байесовского классификатора с характеристическим словом в множестве заданных характеристик и заданным ключевым словом, при этом соответствующие характеристические слова в наивном байесовском классификаторе независимы друг от друга.

Согласно одному примеру, процесс обучения шаблона на основе результатов маркировки в обучающем множестве образцов содержит: для каждого характеристического слова в наивном байесовском классификаторе, подсчет количества выражений, которые содержат характеристическое слово и заданное ключевое слово и представляют собой первое выражение, на основе результатов маркировки в обучающем множестве образцов; получение обученного наивного байесовского классификатора на основе соответствующих характеристических слов, заданного ключевого слова и указанного количества.

Согласно одному примеру, процесс маркировки заданного ключевого слова на основе множества заданных ключевых слов с целью получения обучающего множества образцов содержит: в случае если исходная информация содержит цифровую информацию, маркировку цифровой информации на основе множества заданных ключевых слов для получения обучающего множества образцов, причем множество заданных ключевых слов содержит информацию, указывающую атрибуты цифровой информации.

Согласно второму аспекту настоящего раскрытия, предлагается способ идентификации информации. Способ содержит: получение по меньшей мере одного выражения в целевой информации, подлежащей идентификации, причем выражение содержит заданное ключевое слово; сегментирование выражения с целью получения одного или более слов и извлечение множества заданных характеристик из одного или более слов, причем множество заданных характеристик содержит по меньшей мере одно характеристическое слово; идентификацию результата маркировки заданного ключевого слова в выражении на основе заданного ключевого слова, характеристического слова и заранее построенного шаблона.

Согласно одному примеру, способ также содержит: в случае если существует ряд выражений, чьи результаты маркировки представляют собой заданный результат маркировки, принятие заданного ключевого слова в выражении, обладающем наибольшей вероятностью быть идентифицированным, в качестве информации заданного результата маркировки.

Согласно одному примеру, процесс извлечения множества заданных характеристик из одного или более слов содержит: извлечение множества заданных характеристик из одного или более слов посредством проверки по критерию хи-квадрат; или извлечение множества заданных характеристик из одного или более слов посредством проверки по приросту информации.

Согласно одному примеру, заданное ключевое слово представляет собой цифровую информацию, и результат маркировки представляет собой атрибут цифровой информации.

Согласно третьему аспекту настоящего раскрытия, предлагается устройство для построения шаблона. Устройство содержит: модуль получения образцов, выполненный с возможностью получения множества образцов исходной информации, содержащего по меньшей мере один фрагмент исходной информации, которая принадлежит к заданному классу; модуль обработки образцов, выполненный с возможностью, в случае если исходная информация содержит заданное ключевое слово, маркировки заданного ключевого слова на основе множества заданных ключевых слов с целью получения обучающего множества образцов; модуль осуществления сегментирования, выполненный с возможностью сегментирования выражений, содержащих заданное ключевое слово в обучающем множестве образцов, с целью получения одного или более слов; модуль извлечения характеристик, выполненный с возможностью извлечения множества заданных характеристик из одного или более слов, причем множество заданных характеристик содержит по меньшей мере одно характеристическое слово; модуль построения шаблона, выполненный с возможностью построения шаблона на основе заданного ключевого слова и характеристического слова в множестве заданных характеристик; модуль обучения шаблона, выполненный с возможностью обучения шаблона на основе результатов маркировки в обучающем множестве образцов.

Согласно одному примеру, модуль извлечения характеристик выполнен с возможностью извлечения множества заданных характеристик из одного или более слов посредством проверки по критерию хи-квадрат или проверки по приросту информации.

Согласно одному примеру, модуль построения шаблона выполнен с возможностью построения наивного байесовского классификатора с характеристическим словом в множестве заданных характеристик и заданным ключевым словом, причем соответствующие характеристические слова в наивном байесовском классификаторе независимы друг от друга.

Согласно одному примеру, модуль обучения шаблона выполнен с возможностью, для каждого характеристического слова в наивном байесовском классификаторе, подсчета количества выражений, которые содержат характеристическое слово и заданное ключевое слово и представляют собой первое выражение, на основе результатов маркировки в обучающем множестве образцов, и получения обученного наивного байесовского классификатора на основе соответствующих характеристических слов, заданного ключевого слова и указанного количества.

Согласно одному примеру, заданное ключевое слово представляет собой цифровую информацию, и результаты маркировки представляют собой атрибуты цифровой информации.

Согласно четвертому аспекту настоящего раскрытия, предлагается устройство для идентификации информации. Устройство содержит: модуль получения выражений, выполненный с возможностью получения по меньшей мере одного выражения в целевой информации, подлежащей идентификации, причем выражение содержит заданное ключевое слово; модуль извлечения слов, выполненный с возможностью сегментирования выражения с целью получения одного или более слов и извлечения множества заданных характеристик из одного или более слов, причем множество заданных характеристик содержит по меньшей мере одно характеристическое слово; модуль осуществления идентификации, выполненный с возможностью идентификации результата маркировки заданного ключевого слова в выражении на основе заданного ключевого слова, характеристического слова и заранее построенного шаблона.

Согласно одному примеру, модуль осуществления идентификации выполнен с возможностью, в случае если существует ряд выражений, чьи результаты маркировки представляют собой заданный результат маркировки, принятия заданного ключевого слова в выражении, обладающем наибольшей вероятностью быть идентифицированным, в качестве информации заданного результата маркировки.

Согласно одному примеру, модуль извлечения слов выполнен с возможностью извлечения множества заданных характеристик из одного или более слов посредством проверки по критерию хи-квадрат или проверки по приросту информации.

Согласно одному примеру, заданное ключевое слово представляет собой цифровую информацию, и результаты маркировки представляют собой атрибуты цифровой информации.

Согласно пятому аспекту настоящего раскрытия, предлагается устройство для построения шаблона. Устройство содержит: процессор; память для хранения инструкций, исполняемых процессором; причем процессор выполнен с возможностью: получения множества образцов исходной информации, содержащего по меньшей мере один фрагмент исходной информации, которая принадлежит к заданному классу; в случае если исходная информация содержит заданное ключевое слово, маркировки заданного ключевого слова на основе множества заданных ключевых слов с целью получения обучающего множества образцов; сегментирования выражений, содержащих заданное ключевое слово в обучающем множестве образцов, с целью получения одного или более слов; извлечения множества заданных характеристик из одного или более слов, при этом множество заданных характеристик содержит по меньшей мере одно характеристическое слово; построения шаблона на основе заданного ключевого слова и характеристического слова в множестве заданных характеристик; и обучения шаблона на основе результатов маркировки в обучающем множестве образцов.

Согласно четвертому аспекту настоящего раскрытия, предлагается устройство для идентификации информации. Устройство содержит: процессор; память для хранения инструкций, исполняемых процессором; причем процессор выполнен с возможностью: получения по меньшей мере одного выражения в целевой информации, подлежащей идентификации, причем выражение содержит заданное ключевое слово; сегментирования выражения с целью получения одного или более слов и извлечения множества заданных характеристик из одного или более слов, причем множество заданных характеристик содержит по меньшей мере одно характеристическое слово; идентификации результата маркировки заданного ключевого слова в выражении на основе заданного ключевого слова, характеристического слова и заранее построенного шаблона.

Согласно техническим решениям, предлагаемым в настоящем раскрытии, строят шаблон для идентификации путем обучения шаблона на основе образцов, содержащих заданное ключевое слово, и идентифицируют результат маркировки заданного ключевого слова в информации, таким образом, повышается точность идентификации информации.

Следует понимать, что вышеприведенное общее раскрытие изобретения и последующее подробное раскрытие изобретения приведены исключительно в качестве примера и не ограничивают сущность настоящего изобретения.

Краткое описание чертежей

Прилагаемые графические материалы, включенные в настоящее описание и составляющие его часть, изображают варианты осуществления настоящего изобретения и совместно с описанием служат для разъяснения основных положений настоящего изобретения.

На фиг. 1 представлена блок-схема способа построения шаблона согласно одному из примеров осуществления.

На фиг. 2 представлена блок-схема другого способа построения шаблона согласно одному из примеров осуществления.

На фиг. 3 представлено схематическое изображение системы для идентификации цифровой информации в коротком сообщении при использовании способов, предложенных в настоящем раскрытии, согласно одному из примеров осуществления.

На фиг. 4 представлена блок-схема другого способа построения шаблона согласно одному из примеров осуществления.

На фиг. 5 представлена блок-схема другого способа построения шаблона согласно одному из примеров осуществления.

На фиг. 6 представлено схематическое изображение режима отображения упрощенного интерфейса согласно одному из примеров осуществления.

На фиг. 7 представлена структурная схема устройства для построения шаблона согласно одному из примеров осуществления.

На фиг. 8 представлена структурная схема устройства для идентификации информации согласно одному из примеров осуществления.

На фиг. 9 представлена структурная схема устройства для идентификации информации согласно одному из примеров осуществления.

На фиг. 10 представлена структурная схема устройства для построения шаблона согласно одному из примеров осуществления.

Осуществление изобретения

Теперь обратимся к подробному описанию вариантов осуществления, примеры которых представлены на прилагаемых чертежах. В нижеследующем описании даются ссылки на прилагаемые чертежи, на которых одинаковые ссылочные номера на разных чертежах обозначает одинаковые или подобные элементы, если не указано обратное. Реализации, описанные в последующих приведенных в качестве примера вариантах осуществления, не представляют всех реализаций, согласующихся с настоящим изобретением. Напротив, они являются исключительно примерами устройств и способов, согласующихся с аспектами, относящимися к настоящему раскрытию, в соответствии с изложенным в прилагаемой формуле изобретения.

Согласно настоящему раскрытию, предлагается способ для идентификации класса информации с использованием построенного шаблона. Например, шаблон может применяться для идентификации класса цифровой информации в коротком сообщении, отправленном оператором, или может применяться для идентификации иной информации. На фиг. 1 представлена блок-схема способа построения шаблона согласно одному из примеров осуществления, при этом способ содержит следующие этапы.

На этапе 101 получают множество образцов исходной информации, причем множество образцов исходной информации содержит по меньшей мере один фрагмент исходной информации, которая принадлежит к заданному классу.

В качестве примера идентификации короткого сообщения, отправленного оператором, исходная информация может являться коротким сообщением, отправленным оператором, и может быть перенаправлена на устройство для построения шаблона посредством смартфона, когда исходная информация получена смартфоном. Заданный класс исходной информации может являться классом информации, подлежащем идентификации посредством шаблона, подлежащего построению. Например, если шаблон для идентификации информации об оплате за телефонную связь в коротком сообщении, посланном оператором, подлежит построению, то множество образцов исходной информации может содержать по меньшей мере одно короткое сообщение, содержащее информацию об оплате за телефонную связь, а класс оплаты за телефонную связь является заданным классом.

На этапе 102, в случае если исходная информация содержит заданное ключевое слово, то ключевое слово маркируют на основе множества заданных ключевых слов с целью получения обучающего множества образцов.

Например, заданное ключевое слово, в частности, класс заданного ключевого слова может быть промаркирован, когда идентифицируют класс исходной информации. Например, когда смартфон получает короткое сообщение «ваш разговорный баланс составляет 12 юаней» для уведомления о разговорном балансе, отправленное оператором, заданное ключевое слово является «12», а маркировка заданного ключевого слова состоит в маркировке класса заданного ключевого слова. Например, «12» является разговорным балансом, а не поступлением. После того, как заданное ключевое слово в исходной информации промаркировано в множестве образцов исходной информации, множество образцов исходной информации можно назвать обучающим множеством образцов.

На этапе 103 сегментируют выражения, содержащие заданное ключевое слово в обучающем множестве образцов, с целью получения одного или более слов.

Например, слова, полученные посредством сегментирования, могут также содержать заданное ключевое слово. В примере короткого сообщения, отправленного оператором, слова, полученные посредством сегментирования короткого сообщения для уведомления о разговорном балансе, отправленного оператором, содержит и заданное ключевое слово «12», и другие слова, такие как «ваш», «разговорное время» и т.д.

На этапе 104 извлекают множество заданных характеристик из одного или более слов, причем множество заданных характеристик содержит по меньшей мере одно характеристическое слово.

Например, в словах, полученных посредством сегментирования на этапе 103, некоторые слова, такие как «ах», «ок» и т.д., могут быть бесполезны при идентификации класса заданного ключевого слова и, таким образом, могут быть отфильтрованы, а остальные слова могут использоваться для построения шаблона. Характеристические слова, содержащиеся в множестве заданных характеристик, могут быть указанными остальными словами.

На этапе 105 строят шаблон на основе заданного ключевого слова и характеристического слова в множестве заданных характеристик.

Шаблон можно строить посредством различных подходов. Например, шаблон может быть построен путем использования классификатора на основе характеристического слова, полученного посредством вышеприведенного этапа и заданного ключевого слова.

На этапе 106 шаблон обучают на основе результатов маркировки в обучающем множестве образцов.

После обучения шаблон может являться шаблоном для идентификации класса информации. Например, когда фрагмент информации или контента, содержащегося в информации, вводят в шаблон, шаблон может выдать класс информации или получить вероятности того, что информация принадлежит соответствующим известным классам.

В способе построения шаблона согласно данному варианту осуществления шаблон для идентификации строят и обучают на основе обучающего множества образцов, содержащего заданное ключевое слово, так что шаблон может использоваться для идентификации класса информации, и повышается точность идентификации информации.

На фиг. 2 представлена блок-схема способа идентификации информации согласно одному из примеров осуществления. Способ может использоваться для идентификации класса информации посредством использования обученного шаблона на фиг. 1, и может содержать следующие этапы.

На этапе 201 получают по меньшей мере одно выражение в целевой информации, подлежащей идентификации, причем выражение содержит заданное ключевое слово.

Например, когда целевая информация представляет собой короткое сообщение, отправленное оператором, в коротком сообщении может быть получено по меньшей мере одно выражение, например, выражение «как поживаете» и другое выражение «ваш разговорный баланс составляет 12 юаней». По меньшей мере одно выражение может содержать заданное ключевое слово, например, цифра разговорного баланса.

На этапе 202 выражение сегментируют для получения одного или более слов и извлекают множество заданных характеристик из одного или более слов, причем множество заданных характеристик содержит по меньшей мере одно характеристическое слово.

На этапе 203 результат маркировки заданного ключевого слова в выражении идентифицируют на основе заданного ключевого слова, характеристического слова и заранее построенного шаблона.

Например, класс информации может быть идентифицирован на основе обученного шаблона посредством идентификации результата маркировки заданного ключевого слова в целевой информации. В примере идентификации короткого сообщения, отправленного оператором, может быть идентифицировано, что результат маркировки заданного ключевого слова представляет собой разговорный баланс, путем использования шаблона.

В способе для идентификации информации согласно данному варианту осуществления, класс информации может быть идентифицирован путем использования заранее построенного шаблона, так что может быть повышена точность идентификации информации.

Ниже описывается применение способа, предложенного в настоящем раскрытии, при идентификации короткого сообщения, отправленного оператором, при этом в качестве примера берется идентификация цифровой информации в коротком сообщении. Сначала приведены несколько примеров идентификации цифровой информации в коротком сообщении.

Например, для короткого сообщения «ваш баланс составляет менее 10 юаней» информация «баланс – 10 юаней» может быть идентифицирована путем использования указанного способа, т.е. идентифицируют цифровое значение класса».

Например, для короткого сообщения «ваш остаток трафика в текущем месяце составляет 845 Мб» информация «остаток трафика – 845 Мб» может быть идентифицирована путем использования указанного способа.

Например, для короткого сообщения «ваш предоставленный баланс составляет 344 юаней, пожалуйста, подтвердите», информация «предоставленный баланс – 344 юаней» может быть идентифицирована путем использования указанного способа.

Короткие сообщения, полученные пользователем от оператора могут включать в себя множество классов коротких сообщений, например, короткие сообщения, упомянутые в вышеперечисленных вариантах осуществления. Более того, короткое сообщение иногда может включать в себя множество классов цифровой информации. Класс цифровой информации, подлежащей идентификации с помощью указанного способа, может быть задан заранее и, таким образом, может называться «заданный класс».

Предполагается, что «разговорный баланс» определяется как заданный класс в способе для идентификации информации. Когда короткое сообщение, полученное пользователем, представляет собой «ваш предоставленный баланс составляет 344 юаней, пожалуйста, подтвердите», хотя короткое сообщение также включает в себя цифру 344, оно не принадлежит к заданному классу; так что способ может возвратить нулевой результат, т.е. цифровая информация класса «разговорный баланс» не найдена. Если идентифицировано, что цифровая информация «10» в коротком сообщении «ваш разговорный баланс составляет менее 10 юаней» принадлежит к классу «разговорный баланс», цифра «10» возвращается в качестве цифры, подлежащей идентификации.

На фиг. 3 представлена система для идентификации цифровой информации в коротком сообщении при использовании способа, предложенного в настоящем раскрытии. Как показано на фиг. 3, система может содержать интеллектуальный терминал 11 и сервер 12. Интеллектуальный терминал 11 может быть смартфоном пользователя, способным получать короткое сообщение от оператора. Сервер 12 может сообщаться со смартфоном для обмена информацией между ними.

В примерах настоящего раскрытия для идентификации цифровой информации необходимо применение шаблона. В данных примерах шаблон может называться шаблоном классификатора, который применяется для идентификации класса цифровой информации в коротком сообщении. Шаблон классификатора может быть получен сервером 12 посредством обучения шаблона на основе собранных образцов и может быть отправлен в интеллектуальный терминал 11. Интеллектуальный терминал 11 идентифицирует цифровую информацию в коротком сообщении путем применения шаблона. Согласно примеру идентификации разговорного баланса путем применения способа, предлагаемого в настоящем раскрытии, ниже описываются процесс обучения шаблона на сервере и процесс идентификации цифровой информации путем применения шаблона в смартфоне.

Процесс обучения шаблона на сервере состоит в следующем.

На фиг. 4 представлена блок-схема процесса обучения шаблона в соответствии с одним из примеров осуществления. Сервер может обучать шаблон путем использования последовательности, показанной на фиг. 4, включающей в себя нижеследующие этапы, причем в качестве примера взята идентификация разговорного баланса.

На этапе 401 получают ряд образцов выражений, включающих известные классы цифровой информации.

Образцы для обучения шаблона могут быть получены на данном этапе. Например, сервер может собирать короткие сообщения, отправленные оператором, причем короткие сообщения представляют собой исходную информацию. Сервер может собирать короткие сообщения, отправленные оператором, следующим образом: ряд терминалов (например, смартфонов) активно перенаправляют короткие сообщения, отправленные оператором, на сервер до получения коротких сообщений; или сервер периодически получает короткие сообщения, отправленные оператором, от терминалов. В данном примере идентификации разговорного баланса, собранные короткие сообщения, отправленные оператором, могут содержать по меньшей мере одно короткое сообщение для уведомления о разговорном балансе.

После получения короткого сообщения выражение, содержащее сумму денег, может быть извлечено из короткого сообщения, при этом сумма денег может быть идентифицирована путем использования регулярного выражения. Регулярное выражение представляет собой логическую формулу для оперирования в символьной строке, т.е. конструирования «контрольной строки» с помощью некоторых специальных символов, которые определены заранее, и любой комбинации специальных символов и фильтрации символьной строки путем использования «контрольной строки».

Множество выражений, содержащих сумму денег, идентифицируют в качестве «Т». Например, множество Т содержит такие выражения как «ваш разговорный баланс составляет 64.8 юаней», «ваш баланс по договору составляет 924 юаней», «ваш предоставленный баланс составляет 344 юаней» и т.д.

На этапе 402 соответствующие выражения могут маркировать.

Например, классы цифровой информации в соответствующих выражениях могут быть идентифицированы на данном этапе, при этом цифровая информация, такая как 64.8, 924 и т.д. в выражениях может называться заданным ключевым словом, содержащимся в исходной информации. В данном примере классы слов могут быть маркированы вручную; согласно другим сценариям применения, классы слов могут быть маркированы автоматически сервером на основе множества заданных ключевых слов, причем множество заданных ключевых слов может содержать заданные ключевые слова и информацию их класса. Например, множество заданных ключевых слов содержит информацию, указывающую на атрибуты цифровой информации, и цифровую информацию в исходной информации маркируют на основе множества ключевых слов.

В одном примере имя класса может быть настроено. Например, может быть три класса в данном примере: «разговорный баланс», «иной баланс» и «не баланс». Для пояснения, классы цифровой информации в выражениях на этапе 401 маркируют, например, маркируют 64.8 как «разговорный баланс», маркируют 924 как «иной баланс» и маркируют 344 как «не баланс». Множество маркированных классов может быть названо T_tag, при этом соответствующие выражения в этом множестве содержат цифровую информацию, и классы цифровой информации известны.

Множество маркированных образцов исходной информации может быть названо обучающим множеством образцов, в котором заданное ключевое слово в исходной информации маркировано, например, 64.8 маркировано как «разговорный баланс».

На этапе 403 соответствующие выражения в множестве маркированных выражений сегментируют.

Например, выражения в множестве T-Tag сегментируют на этом этапе с целью получения одного или более слов, таких как «ваш», «разговорный», «баланс», «64.8», «юаней», «платеж по договору», «составляет» и т.д., причем заданное ключевое слово, например, «64.8» содержится в одном или более словах. Эти слова, полученные путем сегментирования, могут называться «характеристические слова», а множество характеристических слов идентифицируют в качестве W.

На этапе 404 слова фильтруют на основе проверки по критерию хи-квадрат или проверки по приросту информации для получения отфильтрованного множества характеристик.

Например, в характеристических словах, полученных путем сегментирования на этапе 303, некоторые слова являются бесполезными для обучения класса и, таким образом, могут быть отфильтрованы, так что характеристические слова могут быть оптимизированы. Характеристические слова на этом этапе могут быть отфильтрованы на основе проверки по критерию хи-квадрат или проверки по приросту информации.

При проверке по критерию хи-квадрат квантуют важность между характеристиками и классами, причем чем выше важность, тем выше балл характеристики, и тем выше вероятность того, что данная характеристика будет сохранена. При проверке по приросту информации измерение значимости заключается в том, как много информации несет характеристика для системы классификатора, при этом чем больше информации несет характеристика, тем более значима эта характеристика. Степени значимости характеристических слов могут квантоваться на основе проверки по критерию хи-квадрат или проверки по приросту информации, так что выборку оптимизируют. Оптимизированное множество характеристических слов идентифицируют в качестве F. Например, некоторые слова, такие как «составляет», «ваш» и т.д. могут быть отфильтрованы из характеристических слов на этапе 403. На самом деле этот этап предназначен для извлечения множества заданных характеристик из одного или более слов, полученных путем сегментирования, при этом множество заданных характеристик содержит по меньшей мере одно характеристическое слово, и характеристическое слово представляет собой оставшееся характеристическое слово.

На этапе 405 шаблон обучают путем использования наивного байесовского классификатора на основе отфильтрованного множества характеристик с целью получения заданного шаблона классификатора, принимая класс цифровой информации в качестве цели обучения.

Например, принимая в качестве цели обучения класс суммы денег, множество T_tag обучают путем использования множества F характеристических слов, которое получено путем фильтровки на этапе 404, причем шаблон могут обучать путем использования наивного байесовского классификатора. Основной способ классификации наивного байесовского классификатора состоит в следующем: на основе статистических материалов вычисляют вероятности соответствующих классов на основе некоторых характеристик с целью реализации классификации. В сценариях, в которых количество образцов относительно низкое, и шаблон обучают на основе коротких текстов, наивный байесовский классификатор может достигнуть наилучшего эффекта классификации. В данном примере могут быть вычислены вероятности того, что характеристическое слово принадлежит к соответствующим классам. Шаблон, полученный путем обучения, обозначают в качестве М.

На данном этапе шаблон строят на основе заданного ключевого слова и множества заданных характеристик и обучают на основе результатов маркировки в обучающем множестве образцов. Например, результаты маркировки в обучающем множестве образцов содержат «маркировку 64.8 как разговорный баланс»; цифры в образцах маркируют их классами; и шаблон наивного байесовского классификатора может быть построен на основе характеристических слов, таких как «разговорный», «баланс» и т.д., извлеченных из коротких сообщений; соответствующие характеристические слова в наивном байесовском классификаторе независимы друг от друга. Шаблон могут обучать, и обученный наивный байесовский классификатор может получать класс некоторой информации.

Например, когда обучают шаблон, для каждого характеристического слова в наивном байесовском классификаторе подсчитывают количество выражений, которые содержат характеристическое слово и заданное ключевое слово и являются первым выражением, на основе результатов маркировки в обучающем множестве образцов. Обученный наивный байесовский классификатор получают на основе соответствующих характеристических слов, заданного ключевого слова и указанного количества. Обученный наивный байесовский классификатор может использоваться для получения вероятностей того, что соответствующие характеристические слова принадлежат к соответствующим классам.

В данном варианте осуществления сервер может получать шаблон классификатора путем обучения образцов выражений и отправлять шаблон классификатора на смартфон для идентификации заданного целевого класса цифровой информации в коротких сообщениях, так что точность идентификации цифровой информации повышается.

Сервер отправляет шаблон М на смартфон после получения шаблона посредством обучения, так что смартфон может использовать шаблон для идентификации цифровой информации в коротких сообщениях.

Процесс идентификации цифровой информации в смартфоне состоит в следующем.

На фиг. 5 представлена блок-схема способа идентификации информации согласно одному из примеров осуществления. Смартфон может идентифицировать цифровую информацию путем использования шаблона в соответствии с последовательностью, показанной на фиг. 5. Согласно примеру идентификации разговорного баланса, способ содержит следующие этапы.

На этапе 501 получают короткое сообщение, подлежащее идентификации.

Например, на этом этапе смартфон может получить короткое сообщение от оператора, которое является целевой информацией, подлежащей идентификации.

На этапе 502 определяют, содержит ли короткое сообщение, подлежащее идентификации, сумму денег.

На этом этапе, если результат определения утвердительный, то алгоритм продолжается на этапе 503; или иначе, возвращает НОЛЬ.

На этапе 503 по меньшей мере одно выражение, содержащее сумму денег, извлекают из короткого сообщения, подлежащего идентификации.

Например, короткое сообщение, подлежащее идентификации, может содержать ряд выражений. Например, короткое сообщение «ваш предоставленный баланс составляет 344 юаней, пожалуйста, подтвердите и свяжитесь с нами, если у вас есть какие-либо вопросы» содержит множество выражений, и на этом этапе может быть выбрано выражение, содержащее цифровую информацию. Согласно данному примеру, цифровая информация является суммой денег. Например, «ваш предоставленный баланс составляет 344 юаней» является выражением, содержащим цифровую информацию, а «пожалуйста, свяжитесь с нами, если у вас есть какие-либо вопросы» является выражением, не содержащим цифровую информацию, и, таким образом, не выбирается. Выражение содержит заданное ключевое слово, например, цифровую информацию «344».

На этапе 504 выражение сегментируют, и извлекают характеристические слова на основе множества F характеристик.

Например, на этом этапе слова, принадлежащие к множеству F характеристик, полученному в варианте осуществления на фиг. 4, могут быть извлечены из выражения, полученного на этапе 503, на основе множества F характеристик; и другие слова могут быть не выбраны.

На этапе 505 прогнозируют класс цифровой информации в выр