Способ (варианты) и сервер обработки текста

Иллюстрации

Показать все

Изобретение относится к электронным устройствам и способам обработки текста. Техническим результатом является расширение арсенала технических средств создания краткого изложения цифрового текста. В способе создания краткого изложения цифрового текста создают краткое изложение цифрового текста путем выбора предложений из цифрового текста на основе вычисленной величины предложения. Величина предложения вычисляется на основе самого цифрового текста без использования онтологических словарей. Определяют величину предложения путем первоначального разбора предложения на одну или несколько концептуальных фраз и дальнейшего определения для данного предложения цифрового текста: неконтекстуальной величины для этих концептуальных фраз и контекстуальной величины для этих концептуальных фраз. 3 н. и 21 з.п. ф-лы, 4 ил.

Реферат

Область техники

[01] Настоящее техническое решение относится к электронным устройствам и способам обработки текста. Конкретнее, системы и способы относятся к обработке текстов и для создания их кратких изложений.

Уровень техники

[02] Разработки в сфере компьютерных технологий позволяют обрабатывать большие объемы данных, включая компьютерную обработку текстов. Компьютерное создание кратких изложений или конспектов документа является одной из сложных задач компьютерной лингвистики. Основная задача компьютерного создания кратких изложений документа обладает двумя аспектами: (i) скорость обработки (поскольку некоторые краткие изложения необходимо создавать «налету») и (ii) точность (т.е. предоставление краткого изложения без потерь общего смысла документа).

[03] Подобные созданные на компьютере краткие изложения используются во многих сферах компьютерных технологий, например, поисковых системах (для создания отрывков текста для включения их на страницу результатов поиска (SERP), для предоставления пользователю кратких изложений различных документов, что позволяет более эффективно осуществлять компьютерный поиск, создавать новостные ленты из новостных статей, поддерживать базы данных текстовой информации, осуществлять машинный перевод текстов и так далее.

[04] В общем случае, существуют два типа компьютерных методов создания краткого изложения данного документа. Первый тип - генеративный метод обобщения, который включает в себя выбор слов или фраз (не целых предложений) из конкретного документа. Далее в соответствии с этим способом создается краткое изложение на основе выбранных слов или фраз.

[05] Второй тип - экстрактивное обобщение - процесс выбора и извлечения «текстовых отрывков» (обычно, предложений) из документа. Излеченные отрывки текста далее переорганизуются в некотором порядке для создания краткого изложения.

[06] В патентной заявке США №US2015/0293905 описан способ обобщения документа. Определяется концепт для каждого предложения в документе. Показатели релевантности между предложениями вычисляются в соответствии с обнаруженными концептами. Далее создается граф концептов, узел которого представляет собой предложение в документе, а ребро между двумя узлами представляет собой показатель релевантности между двумя предложениями.

[07] В патенте США №US7899666 описаны способ и система автоматического извлечения отношений между концептами, которые включены в электронный текст. Аспекты примерного варианта осуществления технического решения включают в себя семантическую сеть, которая включает в себя множество лемм, сгруппированных в синонимические ряды (синсеты), которые представляют собой концепты, каждый из синсетов обладает соответствующим смыслом, и множество ссылок, соединяющих между собой синсеты, которые представляют семантические связи между синсетами. Семантическая сеть дополнительно включает в себя семантическую информацию, включающую в себя по меньшей мере одно из: 1) расширенный набор семантических связей, представляющих: иерархические семантические связи, семантические связи синеет/корпус, семантические связи глагол/субъект, семантические связи глагол/непосредственный объект и семантические связи мелкая структура/крупная структура; 2) дерево иерархических категорий, обладающее множеством категорий, причем каждая из категорий включает в себя группу из одного или нескольких синсетов и набор признаков, причем набор признаков каждой категории связан с каждым синсетом в соответствующей категории; и 3) множество доменов, причем один или несколько доменов связаны по меньшей мере с частью синсетов, и каждый домен добавляет информацию в отношении лингвистического контекста, в котором соответствующий синеет используется в языке. Лингвистическая система использует семантическую сеть для разрешения семантической неопределенности электронного текста с помощью одного или нескольких расширяемых наборов ссылок семантической связи, дерева иерархических категорий и множества доменов для назначения соответствующего одного из смыслов элементам в электронном тексте, вне зависимости от контекстуальной ссылки.

[08] Статья «Обобщение документа» ("Summarization of a Document") авторства Прабха и др., описывает обобщение документа. Способы классификации документов используются для назначения категории, распределение Бернулли используется для операции обобщения документа. Распределение Бернулли используется для поиска вероятности совместного вхождения двух терминов в большой корпус. Лексическая связь между терминами используется для получения конкретного весового коэффициента для терминов документа. Схема индексации и обобщения документа расширяется с помощью механизма лингвистического анализа. Зависящая от контекста индексная модель улучшается с помощью величин семантических весовых коэффициентов. Оценка показателя лексической связи, основанная на взаимоотношении между концептами, выполняется для операции индексации. Показатель лексической связи Бернулли используется для выполнения процесса классификации документов. Язык Java и реляционная база данных Oracle используются для процесса разработки системы. Предлагаемая модель обеспечивает высокий весовой коэффициент терминам, включающим содержимое, и, в результате, предложения представлены в таком виде, что наиболее информативные предложения отображаются в верхней части краткого изложения, что оказывает положительный эффект на качество краткого изложения.

Раскрытие

[09] Настоящее техническое решение позволяет уменьшить по меньшей мере некоторые недостатки, присущие известному уровню техники, в отношении обработки поисковых запросов.

[10] Варианты осуществления настоящего технического решения были разработаны с учетом определения разработчиками по меньшей мере одной технической проблемы, связанной с известными подходами к созданию краткого изложения документа. В ходе экстрактивного обобщения, качество краткого изложения зависит от метода, использованного для выбора отрывков текста из документа. Разработчики также обратили внимание, что отрывки текста в документе не обладают одинаковой величиной в отношении понимания основной идеи или идей, изложенных в документе. Соответственно, если некоторые предложения являются более значимыми и ценными, чем другие, было бы предпочтительно создать краткое изложение документа с помощью тех предложений, которые обладают более значимой «величиной».

[11] Разработчики также оценили тот факт, что известные на данном уровне техники методы основываются на онтологических словарях для идентификации и/или выбора отрывков текста для включения их в краткие изложения. Проблема с таким подходом на основе онтологических словарей заключается в необходимости создания таких словарей, необходимости их поддержки и сохранения в памяти до момента выполнения компьютерного обобщения текстов. Кроме того, известные на данном уровне техники методы являются максимально эффективными для обобщения текстов, которые обладают определенной темой, для которой ранее был создан словарь, поддерживающийся в актуальном состоянии.

[12] Варианты осуществления настоящего технического решения направлены по меньшей мере на некоторые из технических проблем, присущих известному уровню техники при выполнении исполняемого на компьютере способа создания краткого изложения текста путем выбора предложений из цифрового текста на основе вычисленной величины предложения. Величина предложения вычисляется на основе самого цифрового текста без использования онтологических словарей. Конкретнее, варианты осуществления технического решения определяют величину предложения путем первоначального разбора предложения на одну или несколько концептуальных фраз, и дальнейшего определения для данного предложения цифрового текста: (i) не-контекстуальной величины для этих концептуальных фраз и (ii) контекстуальной величины для этих концептуальных фраз.

[13] Первым объектом настоящего технического решения является исполняемый на компьютере способ создания краткого изложения цифрового текста. Способ может выполняться на сервере, который соединен с сетью передачи данных. Способ включает в себя: получение сервером указания на цифровой текст для обработки, цифровой текст включает в себя множество предложений; семантический анализ (парсинг) сервером каждого из множества предложений на одну или несколько концептуальных фраз, каждая из одной или нескольких концептуальных фраз обладает по меньшей мере одним словом; парсинг выполняется путем применения по меньшей мере одного параметра парсинга; выполнение сервером первого анализа для создания величины контекстно-независимой связи (CIR) для данной концептуальной фразы из одной или нескольких концептуальных фраз, величина CIR представляет первое соотношение совместного вхождения: (i) по меньшей мере одного слова из данной концептуальной фразы и (ii) по меньшей мере одного слова из каждой из оставшихся концептуальных фраз из одной или нескольких концептуальных фраз; выполнение сервером второго анализа для создания величины контекстно-зависимой связи (CDR) для данной концептуальной фразы, величина CDR представляет собой второе соотношение: (i) числа предложений, в которые данная концептуальная фраза входит совместно с другой концептуальной фразой из одной или нескольких концептуальных фраз и (ii) общее число предложений из множества предложений, которые содержат другую концептуальную фразу из цифрового текста; определение сервером общего весового коэффициента CIR и общего весового коэффициента CDR для каждой из концептуальных фраз; определение сервером для каждой из концептуальных фраз смысловой величины концепта на основе, по меньшей мере частично, их соответствующих общего весового коэффициента CIR и общего весового коэффициента CDR; определение сервером для каждого предложения из множества предложений, смысловой величины предложения на основе, по меньшей мере частично, смысловой величины концепта для каждой концептуальной фразы, содержащейся в данном предложении; определение сервером ранга каждого предложения на основе по меньшей мере определенной смысловой величины предложения; и создание сервером краткого изложения цифрового текста, краткое изложение цифрового текста включает в себя по меньшей мере одно предложение, извлеченное из цифрового текста, на основе по меньшей мере его определенного рейтинга.

[14] В некоторых вариантах осуществления способа, способ дополнительно включает в себя сохранение в памяти краткого изложения цифрового текста в связи с цифровым текстом.

[15] В некоторых вариантах осуществления способа, по меньшей мере один параметр парсинга основан по меньшей мере на одной эвристике.

[16] В некоторых вариантах осуществления способа, способ дополнительно включает в себя, до получения указания на цифровой текст для обработки, получение сервером по меньшей мере одного эвристического значения и сохранение сервером по меньшей мере одного эвристического значения.

[17] В некоторых вариантах осуществления способа, концептуальная фраза включает в себя смысловой логический элемент, который сформирован по меньшей мере одним словом.

[18] В некоторых вариантах осуществления способа, по меньшей мере один параметр парсинга идентифицирует смысловой логический элемент, основанный по меньшей мере на одном слове, которое представляет собой существительное.

[19] В некоторых вариантах осуществления способа, по меньшей мере один параметр парсинга идентифицирует смысловой логический элемент, основанный по меньшей мере на одном слове, которое представляет собой грамматический элемент на основе существительного.

[20] В некоторых вариантах осуществления способа, способ дополнительно включает в себя, до определения величины CIR и величины CDR, нормализацию каждого из по меньшей мере одного слова.

[21] В некоторых вариантах осуществления способа, способ дополнительно включает в себя, до определения величины CIR и величины CDR, определение общих синонимов между данным словом из первой концептуальной фразы и другого данного слова из второй концептуальной фразы.

[22] В некоторых вариантах осуществления способа, первый анализ представляет собой не-онтологический анализ.

[23] В некоторых вариантах осуществления способа, способ дополнительно включает в себя анализ величины CIR для определения типа взаимосвязи соответствующей данной концептуальной фразы и другой данной одной из оставшихся концептуальных фраз из одной или нескольких концептуальных фраз, которая представляет собой одну из: взаимосвязь род-вид, эквивалентную взаимосвязь и ассоциативную взаимосвязь.

[24] В некоторых вариантах осуществления способа, этап определения общего весового коэффициента CIR для данной концептуальной фразы включает в себя агрегацию множества величин CIR данной концептуальной фразы, данная величина из множества величин CIR относится к другой данной концептуальной фразе из по меньшей мере некоторых из оставшихся концептуальных фраз в цифровом тексте.

[25] В некоторых вариантах осуществления способа, по меньшей мере некоторые из оставшихся концептуальных фраз в цифровом тексте включают в себя те оставшиеся концептуальные фразы, которые были определены при первом анализе как семантически связанные с данной концептуальной фразой.

[26] В некоторых вариантах осуществления способа, по меньшей мере некоторые из оставшихся концептуальных фраз в цифровом тексте включают в себя все оставшиеся концептуальные фразы.

[27] В некоторых вариантах осуществления способа, этап определения общего весового коэффициента CDR для данной концептуальной фразы включает в себя агрегацию множества величин CDR данной концептуальной фразы, данная величина из множества величин CDR относится к другой данной концептуальной фразе из оставшихся совместно входящих фраз в цифровом тексте.

[28] В некоторых вариантах осуществления способа, определение смысловой величины концепта для данной концептуальной фразы включает в себя агрегацию величины общего весового коэффициента CIR и величины общего весового коэффициента CDR для данной концептуальной фразы.

[29] В некоторых вариантах осуществления способа, этап агрегации величины общего весового коэффициента CIR и величины общего весового коэффициента CDR данной концептуальной фразы включает в себя перемножение общего весового коэффициента CIR и величины общего весового коэффициента CDR.

[30] В некоторых вариантах осуществления способа, определение смысловой величины предложения для данного предложения включает в себя агрегацию соответствующей смысловой величины концепта для каждой концептуальной фразы, содержащейся в данном предложении.

[31] В некоторых вариантах осуществления способа, агрегация соответствующей смысловой величины концепта из каждой фразы, содержащейся в данном предложении включает в себя (i) добавление соответствующей смысловой величины концепта для каждой концептуальной фразы, содержащейся в данном предложении для создания общей величины и (ii) разделение общей величины на число концептуальных фраз в данном предложении.

[32] В некоторых вариантах осуществления способа, создание краткого изложения цифрового текста включает в себя выбор заранее выбранного числа предложений из множества предложений на основе их соответствующей смысловой величины предложения.

[33] В некоторых вариантах осуществления способа, выбор дополнительно включает в себя сохранение порядка заранее выбранного числа предложений в соответствии с цифровым текстом.

[34] В некоторых вариантах осуществления способа, способ дополнительно включает в себя, до получения указания на цифровой текст для обработки, получение указания на заранее выбранное число предложений.

[35] В некоторых вариантах осуществления способа, выбор заранее выбранного числа предложений из множества предложений на основе их соответствующей смысловой величины предложения включает в себя: (i) выбор первого подмножества заранее выбранного числа предложений из первой части цифрового текста и (ii) выбор второго подмножества заранее выбранного числа предложений из второй части цифрового текста.

[36] В некоторых вариантах осуществления способа, выполнение первого анализа для создания величины CIR данной концептуальной фразы в отношении целевой фразы, которая является другой из одной или более концептуальных фраз, включает в себя: (i) определение числа слов в данной концептуальной фразе, которое также присутствует в целевой фразе и (ii) деление числа совместно входящих слов на общее число слов в целевой фразе.

[37] Другим объектом настоящего технического решения является исполняемый на компьютере способ создания краткого изложения цифрового текста. Способ может выполняться на сервере, который соединен с сетью передачи данных. Способ включает в себя: получение сервером указания на цифровой текст для обработки, цифровой текст включает в себя множество предложений; семантический анализ (парсинг) сервером каждого из множества предложений на одну или несколько концептуальных фраз, каждая из одной или нескольких концептуальных фраз обладает по меньшей мере одним словом; парсинг выполняется путем применения по меньшей мере одного параметра парсинга; выполнение сервером первого анализа для создания величины контекстно-независимой связи (CIR) для данной концептуальной фразы из одной или нескольких концептуальных фраз, величина CIR представляет первое соотношение совместного вхождения: (i) по меньшей мере одного слова из данной концептуальной фразы и (ii) по меньшей мере одного слова из каждой из оставшихся концептуальных фраз из одной или нескольких концептуальных фраз; выполнение сервером второго анализа для создания величины контекстно-зависимой связи (CDR) для данной концептуальной фразы, величина CDR представляет собой второе соотношение: (i) числа предложений, в которые данная концептуальная фраза входит совместно с другой концептуальной фразой из одной или нескольких концептуальных фраз и (ii) общее число предложений из множества предложений, которые содержат другую концептуальную фразу из цифрового текста; определение сервером общего весового коэффициента CIR и общего весового коэффициента CDR для каждой из концептуальных фраз; определение сервером для каждой из концептуальных фраз смысловой величины концепта на основе, по меньшей мере частично, их соответствующих общего весового коэффициента CIR и общего весового коэффициента CDR; определение сервером для каждого предложения из множества предложений, смысловой величины предложения на основе, по меньшей мере частично, смысловой величины концепта для каждой концептуальной фразы, содержащейся в данном предложении; определение сервером ранга каждого предложения на основе по меньшей мере определенной смысловой величины предложения; и назначение сервером категории темы цифровому тексту, категория темы основана по меньшей мере на одной более высоко ранжированной концептуальной фразе.

[38] Еще одним объектом настоящего технического решения является сервер. Сервер включает в себя: интерфейс связи для связи с электронным устройством через сеть передачи данных, процессор, который функционально соединен с интерфейсом связи, процессор выполнен с возможностью осуществлять: получение указания на цифровой текст для обработки, цифровой текст включает в себя множество предложений; семантический анализ (парсинг) каждого из множества предложений на одну или несколько концептуальных фраз, каждая из одной или нескольких концептуальных фраз обладает по меньшей мере одним словом, путем применения по меньшей мере одного параметра парсинга; выполнение первого анализа для создания величины контекстно-независимой связи (CIR) для данной концептуальной фразы из одной или нескольких концептуальных фраз, величина CIR представляет первое соотношение совместного вхождения: (i) по меньшей мере одного слова из данной концептуальной фразы и (ii) по меньшей мере одного слова из каждой из оставшихся концептуальных фраз из одной или нескольких концептуальных фраз; выполнение второго анализа для создания величины контекстно-зависимой связи (CDR) для данной концептуальной фразы, величина CDR представляет собой второе соотношение: (i) числа предложений, в которые данная концептуальная фраза входит совместно с другой концептуальной фразой из одной или нескольких концептуальных фраз и (ii) общее число предложений из множества предложений, которые содержат другую концептуальную фразу из цифрового текста; определение общего весового коэффициента CIR и общего весового коэффициента CDR для каждой из концептуальных фраз; определение для каждой из концептуальных фраз смысловой величины концепта на основе, по меньшей мере частично, их соответствующих общего весового коэффициента CIR и общего весового коэффициента CDR; определение для каждого предложения из множества предложений, смысловой величины предложения на основе, по меньшей мере частично, смысловой величины концепта для каждой концептуальной фразы, содержащейся в данном предложении; ранжирование каждого предложения на основе по меньшей мере определенной смысловой величины предложения; и создание краткого изложения цифрового текста, краткое изложение цифрового текста включает в себя по меньшей мере одно предложение, извлеченное из цифрового текста, на основе по меньшей мере его определенного рейтинга.

[39] В контексте настоящего описания, если четко не указано иное, "электронное устройство", "пользовательское устройство", "сервер", "удаленный сервер" и "компьютерная система" подразумевают под собой аппаратное и/или системное обеспечение, подходящее к решению соответствующей задачи. Таким образом, некоторые неограничивающие примеры аппаратного и/или программного обеспечения включают в себя компьютеры (серверы, настольные компьютеры, ноутбуки, нетбуки и так далее), смартфоны, планшеты, сетевое оборудование (маршрутизаторы, коммутаторы, шлюзы и так далее) и/или их комбинацию.

[40] В контексте настоящего описания, если четко не указано иное, "машиночитаемый носитель" и "память" подразумевает под собой носитель абсолютно любого типа и характера, не ограничивающие примеры включают в себя ОЗУ, ПЗУ, диски (компакт диски, DVD-диски, дискеты, жесткие диски и т.д.), USB-ключи, флеш-карты, твердотельные накопители и накопители на магнитной ленте.

[41] В контексте настоящего описания, если четко не указано иное, «указание» информационного элемента может представлять собой сам информационный элемент или указатель, отсылку, ссылку или другой косвенный способ, позволяющий получателю указания найти сеть, память, базу данных или другой машиночитаемый носитель, из которого может быть извлечен информационный элемент. Например, указание на файл может включать в себя сам файл (т.е. его содержимое), или же оно может являться уникальным дескриптором файла, идентифицирующим файл по отношению к конкретной файловой системе, или каким-то другими средствами передавать получателю указание на сетевую папку, адрес памяти, таблицу в базе данных или другое место, в котором можно получить доступ к файлу. Как будет понятно специалистам в данной области техники, степень точности, необходимая для такого указания, зависит от степени первичного понимания того, как должна быть интерпретирована информация, которой обмениваются получатель и отправитель указателя. Например, если до установления связи между отправителем и получателем понятно, что признак информационного элемента принимает вид ключа базы данных для записи в конкретной таблице заранее установленной базы данных, содержащей информационный элемент, то передача ключа базы данных - это все, что необходимо для эффективной передачи информационного элемента получателю, несмотря на то, что сам по себе информационный элемент не передавался между отправителем и получателем указания.

[42] В контексте настоящего описания, если конкретно не указано иное, слова «первый», «второй», «третий» и т.д. используются в виде прилагательных исключительно для того, чтобы отличать существительные, к которым они относятся, друг от друга, а не для целей описания какой-либо конкретной взаимосвязи между этими существительными. Так, например, следует иметь в виду, что использование терминов «первый сервер» и «третий сервер» не подразумевает какого-либо порядка, отнесения к определенному типу, хронологии, иерархии или ранжирования (например) серверов/между серверами, равно как и их использование (само по себе) не предполагает, что некий "второй сервер" обязательно должен существовать в той или иной ситуации. В дальнейшем, как указано здесь в других контекстах, упоминание «первого» элемента и «второго» элемента не исключает возможности того, что это один и тот же фактический реальный элемент. Так, например, в некоторых случаях, «первый» сервер и «второй» сервер могут являться одним и тем же программным и/или аппаратным обеспечением, а в других случаях они могут являться разным программным и/или аппаратным обеспечением.

[43] Каждый вариант осуществления настоящего технического решения преследует по меньшей мере одну из вышеупомянутых целей и/или объектов. Следует иметь в виду, что некоторые объекты настоящего технического решения, полученные в результате попыток достичь вышеупомянутой цели, могут удовлетворять и другим целям, отдельно не указанным здесь.

[44] Дополнительные и/или альтернативные характеристики, аспекты и преимущества вариантов осуществления настоящего технического решения станут очевидными из последующего описания, прилагаемых чертежей и прилагаемой формулы изобретения.

Краткое описание чертежей

[45] Для лучшего понимания настоящего технического решения, а также других его аспектов и характерных черт сделана ссылка на следующее описание, которое должно использоваться в сочетании с прилагаемыми чертежами, где:

[46] На Фиг. 1 представлена диаграмма системы, которая подходит для реализации настоящего технического решения, и/или которая используется в сочетании с вариантами осуществления настоящего технического решения.

[47] На Фиг. 2 представлена принципиальная схема сервера обработки в системе, показанной на Фиг. 1, сервер обработки реализован в соответствии с вариантами осуществления настоящего технического решения, не ограничивающими его объем.

[48] На Фиг. 3 представлен снимок экрана, показывающий цифровой текст, который отображается на клиентском устройстве системы, показанной на Фиг. 1.

[49] На Фиг. 4 представлена блок-схема способа создания краткого изложения текста, способ выполняется сервером обработки, показанным на Фиг. 2.

[50] Также следует отметить, что чертежи выполнены не в масштабе, если специально не указано иное.

Осуществление

[51] На Фиг. 1 представлена принципиальная схема системы 100, выполненной в соответствии с вариантами осуществления настоящего технического решения, не ограничивающими его объем. Важно иметь в виду, что нижеследующее описание системы 100 представляет собой описание иллюстративных вариантов осуществления настоящего технического решения. Таким образом, все последующее описание представлено только как описание иллюстративного примера настоящего технического решения. Это описание не предназначено для определения объема или установления границ настоящего технического решения. Некоторые полезные примеры модификаций системы 100 также могут быть охвачены нижеследующим описанием. Целью этого является также исключительно помощь в понимании, а не определение объема и границ настоящего технического решения. Эти модификации не представляют собой исчерпывающий список, и специалистам в данной области техники будет понятно, что возможны и другие модификации. Кроме того, это не должно интерпретироваться так, что там, где не были изложены примеры модификаций, никакие модификации невозможны, и/или что то, что описано, является единственным вариантом осуществления этого элемента настоящего технического решения. Как будет понятно специалисту в данной области техники, это, скорее всего, не так. Кроме того, следует иметь в виду, что система 100 представляет собой в некоторых конкретных проявлениях достаточно простой вариант осуществления настоящего технического решения, и в подобных случаях представлен здесь с целью облегчения понимания. Как будет понятно специалисту в данной области техники, многие варианты осуществления настоящего технического решения будут обладать гораздо большей сложностью.

[52] Все примеры и используемые здесь условные конструкции предназначены, главным образом, для того, чтобы помочь читателю понять принципы настоящего технического решения, а не для установления границ его объема. Следует также отметить, что специалисты в данной области техники могут разработать различные схемы, отдельно не описанные и не показанные здесь, но которые, тем не менее, воплощают собой принципы настоящего технического решения и находятся в границах его объема. Кроме того, для ясности в понимании, следующее описание касается достаточно упрощенных вариантов осуществления настоящего технического решения. Как будет понятно специалисту в данной области техники, многие варианты осуществления настоящего технического решения будут обладать гораздо большей сложностью.

[53] Более того, все заявленные здесь принципы, аспекты и варианты осуществления настоящего технического решения, равно как и конкретные их примеры, предназначены для обозначения их структурных и функциональных основ. Таким образом, например, специалистами в данной области техники будет очевидно, что представленные здесь блок-схемы представляют собой концептуальные иллюстративные схемы, отражающие принципы настоящего технического решения. Аналогично, любые блок-схемы, диаграммы, псевдокоды и т.п.представляют собой различные процессы, которые могут быть представлены на машиночитаемом носителе и, таким образом, использоваться компьютером или процессором, вне зависимости от того, показан явно подобный компьютер или процессор, или нет.

[54] Функции различных элементов, показанных на фигурах, включая функциональный блок, обозначенный как "процессор", могут быть обеспечены с помощью специализированного аппаратного обеспечения или же аппаратного обеспечения, способного использовать подходящее программное обеспечение. Когда речь идет о процессоре, функции могут обеспечиваться одним специализированным процессором, одним общим процессором или множеством индивидуальных процессоров, причем некоторые из них могут являться общими. В некоторых вариантах осуществления настоящего технического решения процессор может являться универсальным процессором, например, центральным процессором (CPU) или специализированным для конкретной цели процессором, например, графическим процессором (GPU). Более того, использование термина "процессор" или "контроллер" не должно подразумевать исключительно аппаратное обеспечение, способное поддерживать работу программного обеспечения, и может включать в себя, без установления ограничений, цифровой сигнальный процессор (DSP), сетевой процессор, интегральная схема специального назначения (ASIC), программируемую пользователем вентильную матрицу (FPGA), постоянное запоминающее устройство (ПЗУ) для хранения программного обеспечения, оперативное запоминающее устройство (ОЗУ) и энергонезависимое запоминающее устройство. Также может быть включено другое аппаратное обеспечение, обычное и/или специальное.

[55] Программные модули или простые модули, представляющие собой программное обеспечение, которое может быть использовано здесь в комбинации с элементами блок-схемы или другими элементами, которые указывают на выполнение этапов процесса и/или текстовое описание. Подобные модели могут быть выполнены на аппаратном обеспечении, показанном напрямую или косвенно.

[56] Техническим результатом, на достижение которого направлено заявленное решение, является расширение технических средств создания краткого изложения цифрового текста. С учетом этих примечаний, далее будут рассмотрены некоторые не ограничивающие варианты осуществления аспектов настоящего технического решения.

[57] Система 100 включает в себя сервер 102 обработки (или, просто «сервер 102»). Сервер 102 обработки может представлять собой обычный компьютерный сервер. В примере варианта осуществления настоящего технического решения, сервер 102 обработки может представлять собой сервер Dell™ PowerEdge™, на котором используется операционная система Microsoft™ Windows Server™. Излишне говорить, что сервер 102 обработки может представлять собой любое другое подходящее аппаратное и/или прикладное программное, и/или системное программное обеспечение или их комбинацию. В представленном варианте осуществления настоящего технического решения, не ограничивающем его объем, сервер 102 обработки является одиночным сервером. В других вариантах осуществления настоящего технического решения, не ограничивающих его объем, функциональность сервера 102 обработки может быть разделена, и может выполняться с помощью нескольких серверов.

[58] Сервер 102 обработки может представлять собой конкретный сервер, выполненный и запрограммированный для осуществления различных процедур, которые будут описаны далее. В альтернативных вариантах осуществления технического решения, сервер 102 обработки может выполнять различные процедуры, которые будут описаны в дополнение к другим процедурам, которые может выполнять сервер 102 обработки. Например, сервер 102 обработки может быть выполнен как сервер поисковой системы и может быть выполнен с возможностью выполнять различные процедуры, которые будут далее описаны в дополнение к выполнению различных процедур, связанных с выполнением поисков и отрисовкой страницы результатов поиска (SERP).

[59] Варианты аппаратного осуществления сервера 102 обработки широко известны среди специалистов в данной области техники. Тем не менее, коротко говоря, сервер 102 обработки содержит интерфейс связи (не показан), настроенный и выполненный с возможностью устанавливать соединение с различными элементами через сеть 104 передачи данных. С этой целью, сервер 102 обработки соединен с сетью 104 передачи данных. В некоторых вариантах осуществления настоящего технического решения, не ограничивающих его объем, сеть 104 передачи данных может представлять собой Интернет. В других вариантах осуществления настоящего технического решения, сеть связи 104 может быть реализована иначе - в виде глобальной сети связи, локальной сети связи, частной сети связи и т.п.

[60] С сетью 104 передачи данных также соединен сервер 108 источника документа. Аналогично серверу 102 обработки, сервер 108 источника документа может быть реализован как обычный компьютерный сервер. В примере варианта осуществления настоящего технического решения, сервер 108 источника документа может также представлять собой сервер Dell™ PowerEdge™, на котором используется операционная система Microsoft™ Windows Server™.

[61] Излишне говорить, что сервер 108 источника документа может представлять собой любое другое подходящее аппаратное и/или прикладное программное, и/или системное программное обеспечение или их комбинацию. В представленном варианте осуществления настоящего технического решения, не ограничивающем его объем, сервер 108 источника документа является одиночным сервером. В других вариантах осуществления настоящего технического решения, не ограничивающих его объем, функциональность сервера 108 источника документа может быть разделена, и может выполняться с помощью нескольких серверов. Важно иметь в виду, что сервер 108 источника документа и сервер 102 обработки не обязаны быть реализованы одинаковым образом.

[62] Сервер 108 источника документа размещает содержимое, включая один или несколько цифровых документов 110. Природа одного или нескольких цифровых документов 110 никак конкретно не ограничена. Коротко говоря, данный один из одного или нескольких цифровых документов 110 (упоминается как цифровой документ 110 для простоты) содержит одно или несколько предложений. Цифровой документ 110 может представлять собой, например, веб-стран