2580424 - Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер

Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер

Иллюстрации

Показать все

Изобретение относится к системам обработки предназначенного пользователю входящего сообщения электронной почты. Технический результат заключается в обеспечении возможности выявления незначащих лексических единиц в тексте сообщения электронной почты. Такой результат достигается тем, что осуществляют синтаксический анализ сообщения электронной почты для определения лексической единицы в качестве кандидата в незначащие лексические единицы; осуществляют первую и вторую проверки кандидата в незначащие лексические единицы путем сопоставления с незначащими лексическими единицами из первой и из второй базы данных лексических единиц, где первая база данных сформирована в результате синтаксического анализа предыдущих сообщений электронной почты, предназначенных пользователю, а вторая база данных сформирована в результате синтаксического анализа предыдущих сообщений электронной почты, предназначенных группе пользователей из множества пользователей. В ответ на положительный результат любой из первой проверки и второй проверки определяют кандидата в незначащие лексические единицы в качестве незначащей лексической единицы. 2 н. и 50 з.п. ф-лы, 7 ил.

Реферат

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

[1] Настоящее решение относится к системе и способу выявления незначащих лексических единиц в тексте сообщения электронной почты.

УРОВЕНЬ ТЕХНИКИ

[2] В современных компьютерных технологиях, использование электронной почты получило широкое распространение. Пользователи сервисов электронной почты зачастую получают более десятка сообщений электронной почты в день. Некоторые пользователи получают более сотни сообщений электронной почты в день.

[3] Как правило, при составлении сообщения электронной почты, отправитель заполняет поле «Тема», где он может кратко указать содержание сообщения электронной почты. Поле «тема» позволяет получателю быстрее ориентироваться в массиве полученных сообщений электронной почты, а также сразу же по получении сообщения электронной почты составить себе представление о его важности. Например, пользователь может, не открывая сообщение электронной почты, сразу же оценить как неважное сообщение с темой «Беспрецедентные скидки на чемоданы!» и, напротив, оценить как важное сообщение с темой «Внимание, изменилось расписание Вашего рейса».

[4] В некоторых случаях, однако, поле «тема» сообщения электронной почты может быть недостаточным для определения важности сообщения электронной почты. Так может быть в случае, когда тема сообщения сформулирована автором нечетко, либо когда пользователь получает множество сообщений электронной почты со схожими темами. В таких случаях, полезной может оказаться функция просмотра нескольких первых строк сообщения электронной почты. Например, почтовый клиент Microsoft Outlook™ позволяет осуществлять просмотр первых трех строк сообщений в главном окне.

[5] В некоторых случаях, показ нескольких первых строк также не дает возможности определить важность письма. Например, так может быть, если первые строки содержат обращение и общие вводные фразы. Такие незначащие слова и фразы могут не давать хорошего представления о сути сообщения.

[6] Таким образом, в то время как существующие обычные компьютерные системы являются приемлемыми, улучшение таких систем, тем не менее, возможно.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

[7] Целью настоящего решения является устранение или смягчение по меньшей мере некоторых из неудобств, присутствующих на существующем уровне техники.

[8] В соответствии с вариантами осуществления настоящего решения, предусматривается способ компьютерной обработки предназначенного пользователю входящего текстового сообщения, включающего в себя значащие и незначащие лексические единицы, способ включающий: (i) осуществление синтаксического анализа текстового сообщения для определения по меньшей мере одной лексической единицы в качестве кандидата в незначащие лексические единицы; (ii) осуществление первой проверки по меньшей мере одного кандидата в незначащие лексические единицы путем сопоставления с незначащими лексическими единицами из первой базы данных лексических единиц, где первая база данных сформирована в результате синтаксического анализа предыдущих текстовых сообщений, предназначенных пользователю; (iii) осуществление второй проверки указанного по меньшей мере одного кандидата в незначащие лексические единицы путем сопоставления с незначащими лексическими единицами из второй базы данных незначащих лексических единиц, где вторая база данных сформирована в результате синтаксического анализа предыдущих текстовых сообщений, предназначенных группе пользователей из множества пользователей; (iv) в ответ на положительный результат любой из: первой проверки и второй проверки, определение кандидата в незначащие лексические единицы в качестве незначащей лексической единицы.

[9] В некоторых вариантах осуществления, способ включает формирование реферата текстового сообщения, причем реферат сформирован таким образом, что незначащие лексические единицы отсутствуют в реферате текстового сообщения.

[10] В некоторых вариантах осуществления, реферат текстового сообщения содержит по меньшей мере одну фразу, имеющую смысловое значение.

[11] В некоторых вариантах осуществления, реферат текстового сообщения является рефератом наиболее значимой части текстового сообщения.

[12] В некоторых вариантах осуществления, текстовое сообщение является сообщением электронной почты, и в котором наиболее значимая часть данного сообщения электронной почты определяется как наиболее значимый логический блок HTML кода из множества логических блоков HTML кода, содержащих текст.

[13] В некоторых вариантах осуществления, наиболее значимым логическим блоком HTML кода является блок HTML кода, содержащий текст, размер которого превышает размер текста любого другого логического блока HTML кода данного сообщения электронной почты.

[14] В некоторых вариантах осуществления, наиболее значимым логическим блоком HTML кода является блок HTML кода, содержащий текст, причем текст наиболее значимого логического блока HTML кода содержит наибольшее количество значащих лексических единиц по сравнению с текстами любого другого логического блока HTML кода данного сообщения электронной почты.

[15] В некоторых вариантах осуществления, реферат текстового сообщения является рефератом предопределенного количества абзацев в начале текстового сообщения.

[16] В некоторых вариантах осуществления, группа пользователей представляет собой все множество пользователей.

[17] В некоторых вариантах осуществления, способ включает получение входящего текстового сообщения.

[18] В некоторых вариантах осуществления, лексической единицей является любое из: (i) слово, (ii) словосочетание, (iii) предложение, (iv) абзац.

[19] В вариантах осуществления, определение по меньшей мере одной лексической единицы в качестве кандидата в незначащие лексические единицы является определением по меньшей мере одной лексической единицы, имеющей смысловое значение.

[20] В некоторых вариантах осуществления, определение по меньшей мере одной лексической единицы в качестве кандидата в незначащие лексические единицы осуществляется на основе синтаксического анализа одного из: (i) всего текста, содержащегося в текстовом сообщении, и (ii) фрагмента текста, содержащегося в текстовом сообщении, причем фрагмент текста, содержащийся в тексте сообщения, включает в себя предопределенное количество абзацев.

[21] В некоторых вариантах осуществления, осуществление синтаксического анализа текстового сообщения включает в себя анализ языка разметки текстового сообщения.

[22] В некоторых вариантах осуществления, анализ языка разметки текстового сообщения включает анализ по меньшей мере одного, выбранного из: вида шрифта, размера шрифта, начертания шрифта, знаков препинания, специальных знаков.

[23] В некоторых вариантах осуществления, способ включает определение контрольной суммы лексической единицы.

[24] В некоторых вариантах осуществления, контрольная сумма лексической единицы является одним из: контрольным элементом и комбинацией контрольных элементов, причем контрольным элементом является любой элемент, выбранный из: количество символов, количество букв, количество заглавных букв, количество прописных букв, количество пробелов, количество цифр в лексической единице, количество специальных знаков в лексической единице, количество слов в лексической единице, размер лексической единицы, выраженный в единицах обработки и хранения информации.

[25] В некоторых вариантах осуществления, сопоставление кандидата в незначащие лексические единицы с незначащими лексическими единицами из любой из: первой базы данных лексических единиц и второй базы данных лексических единиц, осуществляется путем сопоставления, по меньшей мере по одному предопределенному параметру, кандидата в незначащие лексические единицы с незначащими лексическими единицами из любой из: первой базы и второй базы данных лексических единиц.

[26] В вариантах осуществления, предопределенный параметр, по которому осуществляется сопоставление, является одним из: контрольной суммой и комбинацией отдельных контрольных элементов, входящих в состав контрольной суммы лексической единицы.

[27] В некоторых вариантах, результат любой из: первой проверки и второй проверки, является положительным в случае, когда сопоставление по меньшей мере по одному предопределенному параметру выявляет одно из: частичное совпадение по указанному по меньшей мере одному предопределенному параметру, причем степень совпадения превышает предустановленный порог совпадения, и полное совпадение по указанному по меньшей мере одному предопределенному параметру.

[28] В некоторых вариантах, способ включает, перед осуществлением синтаксического анализа текстового сообщения, создание по меньшей мере одной из: первой базы данных и второй базы данных.

[29] Другим объектом настоящего решения является компьютер. Компьютер включает в себя процессор. Конфигурация процессора настроена таким образом, чтобы компьютер мог: (i) осуществлять синтаксический анализ текстового сообщения для определения по меньшей мере одной лексической единицы в качестве кандидата в незначащие лексические единицы; (ii) осуществлять первую проверку по меньшей мере одного кандидата в незначащие лексические единицы путем сопоставления с незначащими лексическими единицами из первой базы данных лексических единиц, где первая база данных сформирована в результате синтаксического анализа предыдущих текстовых сообщений, предназначенных пользователю; (iii) осуществлять вторую проверку указанного по меньшей мере одного кандидата в незначащие лексические единицы путем сопоставления с незначащими лексическими единицами из второй базы данных незначащих лексических единиц, где вторая база данных сформирована в результате синтаксического анализа предыдущих текстовых сообщений, предназначенных группе пользователей из множества пользователей; (iv) в ответ на положительный результат любой из: первой проверки и второй проверки, определять кандидата в незначащие лексические единицы в качестве незначащей лексической единицы.

[30] В некоторых вариантах компьютера, конфигурация процессора настроена таким образом, чтобы компьютер мог осуществлять формирование реферата текстового сообщения, причем реферат текстового сообщения сформирован таким образом, что незначащие лексические единицы отсутствуют в реферате текстового сообщения.

[31] В некоторых вариантах воплощения компьютера, реферат текстового сообщения содержит по меньшей мере одну фразу, имеющую смысловое значение.

[32] В некоторых вариантах воплощения компьютера, реферат текстового сообщения является рефератом наиболее значимой части текстового сообщения.

[33] В некоторых вариантах воплощения компьютера, текстовое сообщение является сообщением электронной почты, в котором наиболее значимая часть данного сообщения электронной почты определяется как наиболее значимый логический блок HTML кода из множества логических блоков HTML кода, содержащих текст.

[34] В некоторых вариантах воплощения компьютера, наиболее значимым логическим блоком HTML кода является блок HTML кода, содержащий текст, размер которого превышает размер текста любого другого логического блока HTML кода данного сообщения электронной почты.

[35] В некоторых вариантах воплощения компьютера, наиболее значимым логическим блоком HTML кода является блок HTML кода, содержащий текст, причем текст наиболее значимого логического блока HTML кода содержит наибольшее количество значащих лексических единиц по сравнению с текстами любого другого логического блока HTML кода данного сообщения электронной почты.

[36] В некоторых вариантах, реферат текстового сообщения является рефератом предопределенного количества абзацев в начале текстового сообщения.

[37] В некоторых вариантах воплощения компьютера, группа пользователей представляет собой все множество пользователей.

[38] В некоторых вариантах воплощения компьютера, конфигурация процессора настроена таким образом, чтобы компьютер мог осуществлять получение входящего текстового сообщения.

[39] В некоторых вариантах воплощения компьютера, лексической единицей является любое из: (i) слово, (i) словосочетание, (iii) предложение, (iv) абзац.

[40] В некоторых вариантах, определение по меньшей мере одной лексической единицы в качестве кандидата в незначащие лексические единицы является определением по меньшей мере одной лексической единицы, имеющей смысловое значение.

[41] В некоторых вариантах, определение по меньшей мере одной лексической единицы в качестве кандидата в незначащие лексические единицы осуществляется на основе синтаксического анализа одного из: (i) всего текста, содержащегося в текстовом сообщении, и (ii) фрагмента текста, содержащегося в текстовом сообщении.

[42] В некоторых вариантах, осуществление синтаксического анализа сообщения электронной почты включает анализ языка разметки сообщения электронной почты.

[43] В некоторых вариантах воплощения компьютера, анализ языка разметки текстового сообщения включает анализ по меньшей мере одного, выбранного из: вида шрифта, размера шрифта, начертания шрифта, знаков препинания, специальных знаков.

[44] В некоторых вариантах воплощения компьютера, конфигурация процессора настроена таким образом, чтобы компьютер мог осуществлять определение контрольной суммы лексической единицы.

[45] В некоторых вариантах, контрольная сумма лексической единицы является одним из: контрольным элементом и комбинацией контрольных элементов, контрольным элементом является любой элемент, выбранный из: количество символов в лексической единице, количество букв в лексической единице, количество заглавных букв в лексической единице, количество прописных букв в лексической единице, количество пробелов в лексической единице, количество цифр в лексической единице, количество специальных знаков в лексической единице, количество слов в лексической единице, размер лексической единицы, выраженный в единицах обработки и хранения информации.

[46] В некоторых вариантах, сопоставление кандидата в незначащие лексические единицы с незначащими лексическими единицами из любой из: первой базы данных лексических единиц и второй базы данных лексических единиц, осуществляется путем сопоставления, по меньшей мере по одному предопределенному параметру, кандидата в незначащие лексические единицы с незначащими лексическими единицами из любой из: первой базы данных лексических единиц и второй базы данных лексических единиц.

[47] В некоторых вариантах, предопределенный параметр, по которому осуществляется сопоставление, является одним из: контрольной суммой и комбинацией отдельных контрольных элементов, входящих в состав контрольной суммы лексической единицы.

[48] В некоторых вариантах, результат любой из: первой проверки и второй проверки, является положительным в случае, когда сопоставление по меньшей мере по одному предопределенному параметру выявляет одно из: частичное совпадение по указанному по меньшей мере одному предопределенному параметру, причем степень совпадения превышает предустановленный порог совпадения, и полное совпадение по указанному по меньшей мере одному предопределенному параметру.

[49] В некоторых вариантах воплощения компьютера, конфигурация процессора настроена таким образом, чтобы компьютер мог осуществлять, перед осуществлением синтаксического анализа текстового сообщения, создание по меньшей мере одной из: первой базы данных и второй базы данных.

[50] Еще одним объектом настоящего решения является реализованный на компьютере способ выявления незначащих лексических единиц в текстовом сообщении. Способ включает: (i) осуществление синтаксического анализа текстового сообщения для определения меньшей мере одной лексической единицы в качестве первого кандидата в незначащие лексические единицы; (ii) определение контрольной суммы первого кандидата в незначащие лексические единицы; (iii) сопоставление, по первому критерию, первого кандидата в незначащие лексические единицы с незначащими лексическими единицами из множества лексических единиц, содержащихся в базе данных лексических единиц, где сопоставлением по первому критерию является сопоставление контрольной суммы первого кандидата в незначащие лексические единицы с контрольными суммами незначащих лексических единиц, содержащихся в базе данных лексических единиц; (iv) определение первого кандидата в незначащие лексические единицы в качестве незначащей лексической единицы, если база данных лексических единиц содержит в себе по меньшей мере одну незначащую лексическую единицу, имеющую контрольную сумму, соответствующую контрольной сумме первого кандидата в незначащие лексические единицы.

[51] В некоторых вариантах осуществления, если в базе данных лексических единиц отсутствует незначащая лексическая единица, контрольная сумма которой соответствует контрольной сумме первого кандидата в незначащие лексические единицы, способ дополнительно включает: (i) разбиение первого кандидата в лексические единицы на по меньшей мере две более мелкие лексические единицы и определение по меньшей мере одной более мелкой лексической единицы в качестве второго кандидата в незначащие лексические единицы; (ii) определение контрольной суммы второго кандидата в незначащие лексические единицы; (iii) сопоставление, по второму критерию, второго кандидата в незначащие лексические единицы с незначащими лексическими единицами, содержащимися в базе данных лексических единиц, где сопоставлением по второму критерию является сопоставление контрольной суммы второго кандидата в незначащие лексические единицы с контрольными суммами незначащих лексических единиц, содержащихся в базе данных лексических единиц; (iv) определение второго кандидата в незначащие лексические единицы в качестве незначащей лексической единицы, если база данных лексических единиц содержит в себе по меньшей мере одну незначащую лексическую единицу, имеющую контрольную сумму, соответствующую контрольной сумме второго кандидата в незначащие лексические единицы

[52] В некоторых вариантах осуществления, первый кандидат в незначащие лексические единицы является абзацем, и второй кандидат в незначащие лексические единицы является предложением из этого абзаца.

[53] В некоторых вариантах, контрольная сумма включает в себя совокупность контрольных элементов.

[54] В некоторых вариантах осуществления, контрольным элементом является любой элемент, выбранный из: количество символов в лексической единице, количество букв в лексической единице, количество заглавных букв в лексической единице, количество прописных букв в лексической единице, количество пробелов в лексической единице, количество цифр в лексической единице, количество специальных знаков в лексической единице, количество слов в лексической единице, размер лексической единицы, выраженный в единицах обработки и хранения информации.

[55] В некоторых вариантах осуществления, сопоставление по первому критерию осуществляется по первому набору контрольных элементов, и сопоставление по второму критерию осуществляется по второму набору контрольных элементов.

[56] В некоторых вариантах осуществления, первый набор контрольных элементов и второй набор контрольных элементов идентичны.

[57] В некоторых вариантах осуществления, контрольные суммы считаются соответствующими в случае идентичности контрольных сумм.

[58] В некоторых вариантах осуществления, когда сопоставление выявляет различие контрольных сумм, способ дополнительно включает: проверку степени различия контрольных сумм, и признание контрольных сумм соответствующими, когда степень различия находится в пределах предустановленной допустимой амплитуды различия.

[59] В некоторых вариантах, степень различия определяется в отношении каждого из контрольных элементов, включенных в состав контрольной суммы, и амплитуда различия установлена для каждого из контрольных элементов.

[60] В некоторых вариантах, когда база данных лексических единиц содержит по меньшей мере одну незначащую лексическую единицу, имеющую контрольную сумму, соответствующую контрольной сумме кандидата в незначащие лексические единицы, способ включает в себя осуществление познакового сравнения кандидата в незначащие лексические единицы с этой по меньшей мере одной незначащей лексической единицей и, когда определение кандидата в незначащие лексические единицы в качестве незначащей лексической единицы осуществляется в ответ на совпадение последовательности символов кандидата в незначащие лексические единицы с последовательностью символов этой по меньшей мере одной незначащей лексической единицей.

[61] В некоторых вариантах, лексическая единица из множества лексических единиц, содержащихся в базе данных лексических единиц, является незначащей, если ее весовое значение превышает предопределенное пороговое значение.

[62] В некоторых вариантах, база данных лексических единиц сформирована на основе множества лексических единиц, встречающихся во множестве текстовых сообщений, и весовое значение каждой лексической единицы прямо пропорционально частотности данной лексической единицы во множества лексических единиц, встречающихся в указанном множестве текстовых сообщений.

[63] В некоторых вариантах, осуществление синтаксического анализа текстового сообщения включает в себя анализ языка разметки текстового сообщения.

[64] В некоторых вариантах, анализ языка разметки текстового сообщения включает в себя анализ по меньшей мере одного, выбранного из: структуры текстового сообщения, вида, размера, начертания шрифта, знаков препинания, специальных знаков.

[65] В некоторых вариантах осуществления, осуществление синтаксического анализа текстового сообщения является синтаксическим анализом предопределенного количества абзацев в начале текстового сообщения.

[66] В некоторых вариантах текстовое сообщение является сообщением электронной почты.

[67] В некоторых вариантах, текстовое сообщение является сообщением электронной почты, и осуществление синтаксического анализа сообщения электронной почты является синтаксическим анализом наиболее значимой части сообщения электронной почты.

[68] В некоторых вариантах осуществления, наиболее значимая часть сообщения электронной почты определяется как наиболее значимый логический блок HTML кода из множества логических блоков HTML кода, содержащих текст.

[69] В некоторых вариантах, наиболее значимым логическим блоком HTML кода является блок HTML кода, содержащий текст, размер которого превышает размер текста любого другого логического блока HTML кода данного сообщения электронной почты.

[70] В некоторых вариантах осуществления, наиболее значимым логическим блоком HTML кода является блок HTML кода, содержащий текст, причем текст наиболее значимого логического блока HTML кода содержит наибольшее количество значащих лексических единиц по сравнению с текстами любого другого логического блока HTML кода данного сообщения электронной почты.

[71] В некоторых вариантах осуществления, лексической единицей является любое из: (i) слово, (ii) словосочетание, (iii) предложение, (iv) абзац.

[72] В некоторых вариантах, определение по меньшей мере одной лексической единицы в качестве кандидата в незначащие лексические единицы является определением по меньшей мере одной лексической единицы, имеющей смысловое значение.

[73] В некоторых вариантах, определение по меньшей мере одной лексической единицы в качестве кандидата в незначащие лексические единицы осуществляется на основе синтаксического анализа одного из: (i) всего текста, содержащегося в текстовом сообщении, и (ii) фрагмента текста, содержащегося в текстовом сообщении.

[74] В некоторых вариантах осуществления, способ дополнительно включает получение текстового сообщения.

[75] В некоторых вариантах осуществления, уникальная контрольная сумма является идентификатором уникальной лексической единицы.

[76] Еще одним объектом решения является компьютер. Компьютер включает в себя процессор. Конфигурация процессора настроена таким образом, чтобы компьютер мог: (i) осуществлять синтаксический анализ текстового сообщения; (ii) определять по меньшей мере одну лексическую единицу в качестве первого кандидата в незначащие лексические единицы; (iii) определять контрольную сумму первого кандидата в незначащие лексические единицы; (iv) сопоставлять, по первому критерию, первого кандидата в незначащие лексические единицы с незначащими лексическими единицами из множества лексических единиц, содержащихся в базе данных лексических единиц, где сопоставлением по первому критерию является сопоставление контрольной суммы первого кандидата в незначащие лексические единицы с контрольными суммами незначащих лексических единиц, содержащихся в базе данных лексических единиц; (v) определять первого кандидата в незначащие лексические единицы в качестве незначащей лексической единицы, если база данных лексических единиц содержит по меньшей мере одну незначащую лексическую единицу, имеющую контрольную сумму, соответствующую контрольной сумме первого кандидата в незначащие лексические единицы.

[77] В некоторых воплощениях, если в базе данных лексических единиц отсутствует незначащая лексическая единица, контрольная сумма которой соответствует контрольной сумме первого кандидата в незначащие лексические единицы, компьютер дополнительно осуществляет: (i) разбиение первого кандидата в лексические единицы на по меньшей мере две более мелкие лексические единицы и определение по меньшей мере одной более мелкой лексической единицы в качестве второго кандидата в незначащие лексические единицы; (ii) определение контрольной суммы второго кандидата в незначащие лексические единицы; (iii) сопоставление, по второму критерию, второго кандидата в незначащие лексические единицы с незначащими лексическими единицами, содержащимися в базе данных лексических единиц, где сопоставлением по второму критерию является сопоставление контрольной суммы второго кандидата в незначащие лексические единицы с контрольными суммами незначащих лексических единиц, содержащихся в базе данных лексических единиц; (iv) определение второго кандидата в незначащие лексические единицы в качестве незначащей лексической единицы, если база данных лексических единиц содержит в себе по меньшей мере одну незначащую лексическую единицу, имеющую контрольную сумму, соответствующую контрольной сумме второго кандидата в незначащие лексические единицы.

[78] В некоторых воплощениях, первый кандидат в незначащие лексические единицы является абзацем, и второй кандидат в незначащие лексические единицы является предложением из этого абзаца.

[79] В некоторых воплощениях, контрольная сумма включает в себя совокупность контрольных элементов.

[80] В некоторых воплощениях, контрольным элементом является любой элемент, выбранный из: количество символов в лексической единице, количество букв в лексической единице, количество заглавных букв в лексической единице, количество прописных букв в лексической единице, количество пробелов в лексической единице, количество цифр в лексической единице, количество специальных знаков в лексической единице, количество слов в лексической единице, размер лексической единицы, выраженный в единицах обработки и хранения информации.

[81] В некоторых воплощениях, сопоставление по первому критерию осуществляется по первому набору контрольных элементов, и сопоставление по второму критерию осуществляется по второму набору контрольных элементов.

[82] В некоторых воплощениях, первый набор контрольных элементов и второй набор контрольных элементов идентичны.

[83] В некоторых воплощениях, контрольные суммы считаются соответствующими в случае идентичности контрольных сумм.

[84] В некоторых воплощениях, когда сопоставление выявляет различие контрольных сумм, процессор дополнительно осуществляет: проверку степени различия контрольных сумм, и признание контрольных сумм соответствующими, когда степень различия находится в пределах предустановленной допустимой амплитуды различия.

[85] В некоторых воплощениях, степень различия определяется в отношении каждого из контрольных элементов, включенных в состав контрольной суммы, и амплитуда различия установлена для каждого из контрольных элементов, включенных в состав контрольной суммы.

[86] В некоторых воплощениях, когда база данных лексических единиц содержит в себе по меньшей мере одну незначащую лексическую единицу, имеющую контрольную сумму, соответствующую контрольной сумме кандидата в незначащие лексические единицы, конфигурация процессора настроена таким образом, чтобы компьютер мог дополнительно осуществлять познаковое сравнение кандидата в незначащие лексические единицы с этой по меньшей мере одной незначащей лексической единицей и определять кандидата в незначащие лексические единицы в качестве незначащей лексической единицы в ответ на совпадение последовательности символов кандидата в незначащие лексические единицы с последовательностью символов этой по меньшей мере одной незначащей лексической единицы.

[87] В некоторых воплощениях, лексическая единица из множества лексических единиц, содержащихся в базе данных лексических единиц, является незначащей, если ее весовое значение превышает предопределенное пороговое значение.

[88] В некоторых воплощениях, база данных лексических единиц сформирована на основе множества лексических единиц, встречающихся во множестве текстовых сообщений, и в котором весовое значение каждой лексической единицы прямо пропорционально частотности данной лексической единицы во множества лексических единиц, встречающихся в указанном множестве текстовых сообщений.

[89] В некоторых воплощениях, осуществление синтаксического анализа текстового сообщения включает в себя анализ языка разметки текстового сообщения.

[90] В некоторых воплощениях, анализ языка разметки текстового сообщения включает в себя анализ по меньшей мере одного, выбранного из: структуры текстового сообщения, вида шрифта, размера шрифта, начертания шрифта, знаков препинания, специальных знаков.

[91] В некоторых воплощениях настоящей технологии, осуществление синтаксического анализа текстового сообщения является синтаксическим анализом предопределенного количества абзацев в начале текстового сообщения.

[92] В некоторых воплощениях, текстовое сообщение является сообщением электронной почты.

[93] В некоторых воплощениях, текстовое сообщение является сообщением электронной почты, и в котором осуществление синтаксического анализа сообщения электронной почты является синтаксическим анализом наиболее значимой части сообщения электронной почты.

[94] В некоторых воплощениях, наиболее значимая часть сообщения электронной почты определяется как наиболее значимый логический блок HTML кода из множества логических блоков HTML кода, содержащих текст.

[95] В некоторых воплощениях, наиболее значимым логическим блоком HTML кода является блок HTML кода, содержащий текст, размер которого превышает размер текста любого другого логического блока HTML кода данного сообщения электронной почты.

[96] В некоторых воплощениях, наиболее значимым логическим блоком HTML кода является блок HTML кода, содержащий текст, причем текст наиболее значимого логического блока HTML кода содержит наибольшее количество значащих лексических единиц по сравнению с текстами любого другого логического блока HTML кода данного сообщения электронной почты.

[97] В некоторых воплощениях, лексической единицей является любое из: (i) слово, (ii) словосочетание, (iii) предложение, (iii) абзац.

[98] В некоторых воплощениях, определение по меньшей мере одной лексической единицы в качестве кандидата в незначащие лексические единицы является определением по меньшей мере одной лексической единицы, имеющей смысловое значение.

[99] В некоторых воплощениях, определение по меньшей мере одной лексической единицы в качестве кандидата в незначащие лексические единицы осуществляется на основе синтаксического анализа одного из: (i) всего текста, содержащегося в текстовом сообщении, и (ii) фрагмента текста, содержащегося в текстовом сообщении.

[100] В некоторых воплощениях, компьютер дополнительно осуществляет получение текстового сообщения.

[101] В некоторых воплощениях, уникальная контрольная сумма является идентификатором уникальной лексической единицы.

[102] В контексте описания, «сервер» представляет собой программу, выполняемую на соответствующем оборудовании и способную осуществлять прием запросов (например, подаваемых клиентскими устройствами), передаваемых по сети, и выполнять эти запросы или обеспечивать их выполнение. Оборудование может представлять собой один компьютер или одну компьютерную систему, однако ни одно, ни другое не является обязательным в отношении предлагаемой технологии. В данном контексте выражение «по меньшей мере один сервер» не означает, что каждая задача (например, предусмотренная принятыми инструкциями или запросами) или какая-либо конкретная задача будет принята, выполнена или ее выполнение будет обеспечено тем же самым сервером (то есть тем же самым программным обеспечением и/или оборудованием); предполагается, что прием и передача, выполнение или обеспечение выполнения любой задачи или запроса либо обработка результатов задачи или запроса может осуществлять любое число компонентов программного обеспечения или устройств и все эти компоненты программного обеспечения или оборудования могут быть представлены одним сервером или несколькими серверами, причем термин «сервер» охватывает оба указанных варианта.

[103] В контексте описания, «клиентское устройство» представляет собой любое компьютерное оборудование, обеспечивающее возможность выполнения программного обеспечения, предназначенного для решения требуемой задачи. В контексте настоящего описания, термин «клиентское устройство» в основном ассоциируется с пользователем клиентского устройства. Некоторые (не имеющие ограничительного характера) примеры клиентских устройств включают в себя персональные компьютеры (настольные компьютеры, переносные компьютеры, нетбуки и т.д.), смартфоны и планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы. Следует отметить, что в данном контексте тот факт, что устройство функционирует в качестве клиентского устройства, не исключает возможности его функционирования в качестве сервера для других клиентских устройств. Использование выражения «клиентское устройство» не препятствует применению нескольких клиентских и/или электронных устройств в процессе приема и передачи, выполнения или обеспечения выполнения задачи либо запроса или обработки результатов задачи или запроса либо этапов способа, представленного в настоящем описании.

[104] В контексте описания, термин «сообщение электронной почты» включает в себя файл, содержащий текст, формируемый отправителем и предназначенный для передачи одному или нескольким получателям посредством электронной почты. Сообщение электронной почты является разновидностью текстового сообщения.

[105] В контексте описания, «исходный код» представляет собой текст компьютерной программы на каком-либо языке программирования или языке разметки, который может быть прочтен человеком. В обобщенном смысле исходный код представляет собой любые входные данные для транслятора. Исходный код транслируется в исполняемый код до запуска программы при помощи компилятора, или может исполняться сразу при помощи интерпретатора.

[106] В контексте описания, термин «информация» включает в себя информацию любого характера или типа, которая может быть записана в базе данных. Таким образом, информация охватывает, среди прочего, аудиовизуальную информацию (изображения, фильмы, звукозаписи, презентации и т.д.), данные (данные местоположения, числовые данные и т.д.), текстовую информацию (высказ

Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер

Патент 2580424