Система для создания документов на основе анализа текста на естественном языке

Иллюстрации

Показать все

Изобретение относится к системам и способам обработки естественного языка. Технический результат заключается в расширении арсенала средств построения составного текстового документа. Способ построения составного текстового документа включает получение устройством обработки данных текста на естественном языке, выполнение устройством обработки данных анализа текста с целью определения одной или более семантической связи в пределах одной или более области текста, создание устройством обработки данных поискового запроса с целью поиска дополнительного контента, передачу устройством обработки данных поискового запроса в один или более доступный информационный ресурс данного объекта с соответствующим концептом онтологии, получение в ответ множества дополнительных единиц контента, создание устройством обработки данных составного документа, в который входит множество разделов и в каждом разделе содержится одна область текста из множества областей текста, которая содержит одну или более дополнительную единицу контента из множества единиц, относящихся к соответствующей области текста. 3 н. и 25 з.п. ф-лы, 20 ил.

Реферат

ОБЛАСТЬ ИЗОБРЕТЕНИЯ

[001] Настоящее изобретение в целом относится к вычислительным системам, а в частности - к системам и способам создания документов на основе обработки естественного языка.

УРОВЕНЬ ТЕХНИКИ

[002] Извлечение информации - одна из важнейших операций автоматической обработки текстов на естественном языке. В ходе обработки естественного языка производится разбивка исходного текста на значимые единицы (фрагменты) - слова, предложения или тематические единицы. При сегментации на предложения производится разбивка строки печатного текста на естественном языке на составные единицы - предложения. Если документ содержит несколько тематических разделов, то используется сегментация на тематические единицы; при этом возможен анализ предложений документа с целью определения различных тематических единиц на основе смысла предложений с последующей разбивкой текста документа на тематические единицы.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

[003] В соответствии с одним или несколькими аспектами настоящего изобретения, описанный в примере способ построения составного документа может включать: получение устройством обработки данных текста на естественном языке, который включает некоторое множество областей текста; выполнение устройством обработки данных анализа текста на естественном языке с целью определения одной или более семантической связи в пределах одной или более областей текста; создание устройством обработки данных поискового запроса с целью поиска дополнительного контента, относящегося по меньшей мере к одной из областей текста из множества областей текста на естественном языке, при этом поисковый запрос основывается на результатах анализа текста для по меньшей мере одной из областей текста; передачу устройством обработки данных поискового запроса в один или более доступный информационный ресурс; получение в ответ на поисковый запрос множества дополнительных единиц контента, каждая из которых относится к соответствующей области текста из множества областей текста; и создание устройством обработки данных составного документа, в который входит множество разделов, при этом в каждом разделе содержится одна область текста из множества областей текста, и при этом по меньшей мере один раздел из множества разделов, содержит одну (или более) дополнительную единицу контента из множества дополнительных единиц контента, относящихся к соответствующей области текста.

[004] В соответствии с одним или несколькими аспектами настоящего изобретения, описанное вычислительное устройство может включать: память и процессор, соединенный с запоминающим устройством, в котором процессор выполнен с возможностью выполнения следующих действий: получение устройством обработки данных текста на естественном языке, который включает некоторое множество областей текста; выполнение устройством обработки данных анализа текста на естественном языке с целью определения одной или более семантической связи в пределах одной или более областей текста; создание устройством обработки данных поискового запроса с целью поиска дополнительного контента, относящегося по меньшей мере к одной из областей текста из множества областей текста на естественном языке, при этом поисковый запрос основывается на результатах анализа текста для по меньшей мере одной из областей текста; передачу устройством обработки данных поискового запроса в один или более доступный информационный ресурс; получение в ответ на поисковый запрос множества дополнительных единиц контента, каждая из которых относится к соответствующей области текста из множества областей текста; и создание устройством обработки данных составного документа, в который входит множество разделов, при этом в каждом разделе содержится одна область текста из множества областей текста, и при этом по меньшей мере один раздел из множества разделов, содержит одну (или более) дополнительную единицу контента из множества дополнительных единиц контента, относящихся к соответствующей области текста.

[005] В соответствии с одним или несколькими аспектами настоящего изобретения, описанный в примере машиночитаемый постоянный носитель данных может содержать исполняемые команды, которые при выполнении на вычислительном устройстве приводят к следующим действиям вычислительного устройства: получение устройством обработки данных текста на естественном языке, который включает некоторое множество областей текста; выполнение устройством обработки данных анализа текста на естественном языке с целью определения одной или более семантической связи в пределах одной или более областей текста; создание устройством обработки данных поискового запроса с целью поиска дополнительного контента, относящегося по меньшей мере к одной из областей текста из множества областей текста на естественном языке, при этом поисковый запрос основывается на результатах анализа текста для по меньшей мере одной из областей текста; передачу устройством обработки данных поискового запроса в один или более доступный информационный ресурс; получение в ответ на поисковый запрос множества дополнительных единиц контента, каждая из которых относится к соответствующей области текста из множества областей текста; и создание устройством обработки данных составного документа, в который входит множество разделов, при этом в каждом разделе содержится одна область текста из множества областей текста, и при этом по меньшей мере один раздел из множества разделов, содержит одну (или более) дополнительную единицу контента из множества дополнительных единиц контента, относящихся к соответствующей области текста.

[006] Технический результат от внедрения изобретения состоит в предоставлении возможности конечному пользователю использовать при создании составных документов, например, таких, как презентации, все возможности технологии обработки естественного языка, такие как семантико-синтаксический анализ текста, перевод на другой язык, автоматическое формирование логически связанных блоков текста, классификация, выделение наиболее значимых элементов для осуществления поиска дополнительного контента, что в конечном счете приведет к сокращению времени и рутинного труда, затрачиваемых на создание и редактирование такого рода документов.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[007] Настоящее изобретение иллюстрируется на примерах без каких бы то ни было ограничений; его сущность становится понятной при рассмотрении приведенного ниже подробного описания предпочтительных вариантов реализации в сочетании с чертежами, при этом:

[008] На Фиг. 1 приведена схема компонентов верхнего уровня для примера реализации интеллектуального генератора создания документов в соответствии с одним (или более) вариантом реализации настоящего изобретения.

[009] На Фиг. 2 приведена блок-схема одного из способов создания составного документа на основе обработки естественного языка в соответствии с одним (или более) вариантом реализации настоящего изобретения.

[0010] На Фиг. 3 приведена блок-схема одного из способов обработки естественного языка с целью выявления семантических связей в соответствии с одним (или более) вариантом реализации настоящего изобретения.

[0011] На Фиг. 4 приведена блок-схема одного из способов создания составного документа в соответствии с одним (или более) вариантом реализации настоящего изобретения.

[0012] На Фиг. 5 приведена блок-схема одного из описанных в качестве иллюстративного примера способов (500) выполнения семантико-синтаксического анализа предложения на естественном языке в соответствии с одним (или более) вариантом реализации настоящего изобретения.

[0013] На Фиг. 6 схематически иллюстрируется пример лексико-морфологической структуры предложения в соответствии с одним (или более) аспектом настоящего изобретения.

[0014] На Фиг. 7 схематически иллюстрируются языковые описания, представляющие модель естественного языка в соответствии с одним (или более) аспектом настоящего изобретения.

[0015] На Фиг. 8 схематически иллюстрируются примеры морфологических описаний в соответствии с одним (или более) аспектом настоящего изобретения.

[0016] На Фиг. 9 схематически иллюстрируются примеры синтаксических описаний в соответствии с одним (или более) аспектом настоящего изобретения.

[0017] На Фиг. 10 схематически иллюстрируются примеры семантических описаний в соответствии с одним (или более) аспектом настоящего изобретения.

[0018] На Фиг. 11 схематически иллюстрируются примеры лексических описаний в соответствии с одним (или более) аспектом настоящего изобретения.

[0019] На Фиг. 12 схематически иллюстрируются примеры структур данных, которые могут быть использованы в рамках одного (или более) способа, реализованного в соответствии с одним (или более) аспектом настоящего изобретения.

[0020] На Фиг. 13 схематически иллюстрируется пример графа обобщенных составляющих в соответствии с одним (или более) аспектом настоящего изобретения.

[0021] На Фиг. 14 иллюстрируется пример синтаксической структуры, производной от графа обобщенных составляющих, соответствующего предложению, приведенному на Фиг. 13.

[0022] На Фиг. 15 приведена семантическая структура, соответствующая синтаксической структуре, представленной на Фиг. 14.

[0023] На Фиг. 15А иллюстрируется наглядный пример установления связей в пределах множества предложений.

[0024] На Фиг. 15В показан фрагмент семантической иерархии, в состав которой входят семантические классы для информационных объектов предложений Фиг. 15А.

[0025] На Фиг. 15С представлен пример фрагмента текста, содержащего иллюстрации для предложений Фиг. 15А в соответствии с одним (или более) вариантом реализации настоящего изобретения.

[0026] На Фиг. 15D представлен пример фрагмента текста, содержащего иллюстрации, в соответствии с одним (или более) вариантом реализации настоящего изобретения.

[0027] На Фиг. 16 представлена блок-схема типовой вычислительной системы, взятой как пример и работающей в соответствии с примерами реализации настоящего изобретения.

ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ РЕАЛИЗАЦИИ

[0028] В настоящем документе описаны способы и технические средства «интеллектуального построения документа на основе анализа текстов на естественном языке. Создание иллюстрированных текстов или добавление контента в презентации подчас может предусматривать большой объем ручной работы со стороны пользователя в виде форматирования текста, а также поиска дополнительного контента, выполняемого вручную. При использовании машинных методов поиска - к примеру, поиска на локальных устройствах для хранения данных или поиска ресурсов, доступных через сеть интернет при помощи поисковых систем сети интернет, пользователю зачастую приходится выполнять поиск несколько раз, прежде чем будет найден результат, релевантный предмету интересующего документа. Мало того, пользователь может оказаться не в состоянии сформулировать поисковый запрос, который бы с большой вероятностью охватывал самый значимый дополнительный контент. Такое может произойти, если пользователь делает запрос лишь по одному конкретному ключевому слову или по одной фразе вместо того, чтобы искать семантически, синтаксически или лексически сходные слова или фразы.

[0029] Задачи настоящего изобретения преследуют цель устранения отмеченных и иных трудностей через использование механизмов обработки текстов на естественном языке, направлены на определение смысловых единиц текста в пределах документа и целевой поиск дополнительного контента, способного дополнить содержание текстового документа. В одном из иллюстративных примеров интеллектуальный генератор создания документов может получать текстовый документ, составленный на естественном языке, как исходный материал для создания составного документа - к примеру, презентации или иллюстрированного текста. Интеллектуальный генератор создания документов может определять семантические, синтаксические и лексические связи между предложениями текстового документа на естественном языке и использовать эту информацию для разбиения текста на естественном языке на значимые единицы (сегменты), т.е. разделение текста на темы, подтемы и т.д. Далее интеллектуальный генератор создания документов может использовать определенные связи для создания развернутых поисковых запросов для каждого из сегментов для того, чтобы можно было определить дополнительные единицы контента, максимально соответствующие содержанию сегмента и полезные при создании составного документа.

[0030] Таким образом, задачи и варианты реализации настоящего изобретения способствуют более эффективному поиску, определению и получению дополнительного значимого контента для текстового документа при минимальном участии пользователя или без такого участия. Более того, становится возможным более эффективное разбиение текстового документа на логические составные части на основе выявленных связей между предложениями, что, в свою очередь, способствует сокращению или полностью устраняет потребность в дополнительных ресурсах, необходимых для создания и (или) изменения документа.

[0031] На Фиг. 1 приведена схема компонентов верхнего уровня для типовой интеллектуальной системы создания документов в соответствии с одним (или более) вариантом реализации настоящего изобретения. В состав интеллектуальной системы создания документов могут входить интеллектуальный генератор создания документов 100 и информационные ресурсы 160. Интеллектуальный генератор создания документов 100 может представлять собой клиентское приложение или сочетание компонентов, базирующихся на рабочей станции клиента и на сервере. В некоторых вариантах реализации изобретения интеллектуальный генератор создания документов 100 может быть запущен на исполнение на вычислительном устройстве клиента - к примеру, это может быть планшетный компьютер, смартфон, ноутбук, фотокамера, видеокамера и т.д. Возможен альтернативный вариант реализации изобретения, когда компонент интеллектуального генератора создания документов 100, базирующийся на рабочей станции клиента и запущенный на исполнение на вычислительном устройстве клиента, получает текст на естественном языке и переправляет его на серверный компонент интеллектуального генератора создания документов 100, запущенный на исполнение на серверном устройстве, который, в свою очередь, производит обработку естественного языка и создает итоговый документ. После этого серверный компонент интеллектуального генератора создания документов 100 может вернуть составной документ компоненту интеллектуального генератора создания документов 100, базирующемуся на рабочей станции клиента и запущенному на исполнение на вычислительном устройстве клиента. В других вариантах реализации изобретения интеллектуальный генератор создания документов 100 может быть запущен на исполнение на серверном устройстве в качестве интернет-приложения, доступ к которому обеспечивается через интерфейс интернет-браузера. Примером серверного устройства может быть одна (или более) вычислительная система - одно (или более) такое устройство, как серверы, рабочие станции, большие ЭВМ (мейнфреймы), персональные компьютеры (ПК) и т.д.

[0032] В одном из иллюстративных примеров реализации изобретения интеллектуальный генератор создания документов 100 может получать текст 120 на естественном языке. В одном из вариантов реализации изобретения интеллектуальный генератор создания документов 100 может получать текст на естественном языке через приложение для ввода текста в систему обработки; этот текст представляет собой заранее созданный документ, включающий текстовое содержимое - к примеру, это может быть текстовый документ, файл, подготовленный в текстовом редакторе, графический документ, подвергнутый оптическому распознаванию символов (OCR) или полученный любым аналогичным способом. В качестве альтернативного варианта реализации изобретения интеллектуальный генератор создания документов 100 может получать изображение текста (снятое, к примеру, на камеру мобильного устройства), а затем выполнять оптическое распознавание символов (OCR) в пределах изображения. Помимо этого, интеллектуальный генератор создания документов 100 может получать от пользователя речевую аудиозапись (к примеру, надиктованную на микрофон вычислительного устройства) и преобразовывать ее в текстовую форму при помощи программного средства расшифровки диктофонных записей.

[0033] Текст изначально может содержать разбиение на некоторые области - разделы, параграфы, но в некоторых случаях, например, при создании презентации, стоит задача его разбиения на более мелкие области. Область текста может представлять собой фрагмент текста на естественном языке, при этом предложения в указанном фрагменте связаны между собой структурно или по содержанию. В некоторых вариантах реализации изобретения границы области текста в пределах текста на естественном языке могут быть определены по наличию какого-либо указателя - к примеру, нового абзацного отступа (это может быть, например, служебный символ, указывающий начало нового абзаца), новой строки для списка предложений, указателя в файле с разделителями (к примеру, указателя расширяемого языка разметки (языка XML) в файле с разделителями XML) или любого аналогичного указателя.

[0034] Кроме того, интеллектуальный генератор создания документов 100 может выполнять анализ текста на естественном языке 120 в процессе обработки этого текста с целью выявления одной (или более) семантической, синтаксической или лексической связи для множества областей текста 121. Обработка естественного языка может предусматривать семантический поиск (в том числе многоязычный семантический поиск), классификацию (категоризацию) документа и т.д. На этапе обработки естественного языка может выполняться анализ смыслового содержания текста на естественном языке 120 и определение наиболее значимых слов (одного или более), а также наличия или отсутствия связей соседних предложений друг с другом с точки зрения смыслового содержания. Обработка естественного языка может основываться на использовании широкого спектра лингвистических описаний. Примеры лингвистических описаний представлены ниже на Фиг. 7. Примеры семантических описаний представлены ниже на Фиг. 10. Примеры синтаксических описаний представлены ниже на Фиг. 9. Примеры лексических описаний даны ниже на Фиг. 11.

[0035] В некоторых вариантах реализации изобретения интеллектуальный генератор создания документов 100 может выполнять обработку естественного языка путем выполнения семантико-синтаксического анализа текста на естественном языке 120 с целью создания множества семантических структур, при этом каждая из семантических структур является семантическим представлением соответствующего предложения из текста 120. Ниже, применительно к Фиг. 5, представлен пример способа выполнения семантико-синтаксического анализа текста. Любая из семантических структур может быть представлена ациклическим графом, который включает множество вершин, соответствующих семантическим классам, и множество дуг, соответствующих семантическим связям (подробнее см. ниже при упоминании Фиг. 15).

[0036] В ходе семантико-синтаксического анализа могут устраняться неоднозначности в тексте, а результатом является получение лексических, семантических и синтаксических характеристик предложения, равно как и каждого слова в предложении, при этом особую важность для решения поставленной задачи имеют семантические классы. В ходе семантико-синтаксического анализа также могут определяться связи как внутри предложения, так и между предложениями - к примеру, анафорические связи, отношения кореференции и т.д. (подробнее см. ниже применительно к Фиг. 15А-С

[0037] В некоторых вариантах реализации изобретения интеллектуальный генератор создания документов 100 может производить обработку естественного языка путем дополнительного извлечения информации, в том числе определения имен собственных (именованных сущностей - к примеру, имен людей, адресов, названий организаций и т.д.), а также фактических сведений, относящихся к именованным сущностям.

[0038] Далее, интеллектуальный генератор создания документов 100 может определять первую семантическую структуру для первого предложения в тексте на естественном языке 120 и вторую семантическую структуру для второго предложения в тексте на естественном языке 120. В дальнейшем интеллектуальный генератор создания документов 100, опираясь на семантические структуры, может определить, существует ли семантическая связь первого предложения со вторым предложением. Для того чтобы сделать такой вывод, интеллектуальный генератор создания документов 100, опираясь на семантические структуры предложений, может определить, имеются ли у второго предложения признаки референции или логической связи с первым предложением. В некоторых вариантах реализации изобретения интеллектуальный генератор создания документов 100 может проводить указанное определение путем нахождения анафорических отношений, отношений кореференции, используя для этой цели какой-либо эвристический алгоритм, или каким-либо иным способом. К примеру, если второе предложение содержит личное местоимение (он, она, оно, они и т.д.), указательное местоимение (этот, эта, это, эти, такой, такие, тот, та, те и т.д.) или аналогичные слова, то велика вероятность того, что имеется связь (к примеру, семантическая связь) второго предложения с первым предложением.

[0039] В некоторых вариантах реализации изобретения интеллектуальный генератор создания документов 100 может определять, связаны ли предложения друг с другом семантически, опираясь при этом на значение метрики семантической близости. Метрика семантической близости может учитывать различные факторы - в том числе, к примеру: существование референциальных или анафорических связей между узлами семантических структур двух или более предложений; наличие одних и тех же именованных сущностей; наличие идентичных лексических или семантических классов, в узлах семантических структур; наличие отношений "предок-потомок" в определенных узлах семантических структур - при этом родительский и дочерний элементы разделены определенным числом уровней семантической иерархии; наличие общего предка по определенным семантическим классам и определенного расстояния между узлами, представляющими данные классы, и т.д. Если определенные семантические классы оказываются эквивалентными или в общих чертах сходными, то при подсчете значения метрики может быть дополнительно учтено наличие или отсутствие определенных дифференцирующих семантем и (или) другие факторы.

[0040] Также, могут быть приняты во внимание и другие факторы. К примеру, если второе предложение начинается с таких слов, как «итак»; «таким образом»; «следовательно»; «затем»; «теперь» и т.д., то это второе предложение, по-видимому, следует относить к следующей области текста. В некоторых вариантах реализации изобретения два предложения могут считаться семантически связанными при условии, что в них содержатся одни и те же именованные сущности (имена людей, адреса, названия организаций) и при этом не превышен допустимый размер области текста.

[0041] Каждый из факторов, задействованных при установлении семантической связи, может вносить свой вклад в интегральную характеристику, каковой является метрика близости. Таким образом, возможна количественная оценка семантической близости; при этом, если эта оценка превышает пороговое значение, то два или более предложения могут считаться семантически связанными. В некоторых вариантах реализации изобретения интеллектуальный генератор создания документов 100 может предварительно проходить обучение с использованием методов машинного обучения. Для машинного обучения могут использоваться не только лексические, но и семантические и синтаксические признаки, полученные в ходе семантико-синтаксического анализа.

[0042] В том случае, если окажется, что первое предложение семантически связано со вторым предложением (к примеру, имеется связь между первым и вторым предложением), интеллектуальный генератор создания документов 100 может относить первое и второе предложение к одной и той же области текста. К примеру, если интеллектуальный генератор создания документов 100 установил, что два предложения, по-видимому, относятся к одной предметной области, он может принять решение, что оба предложения должны быть отнесены к одной и той же области текста в итоговом документе (к примеру, располагаться на одном слайде презентации). В некоторых вариантах реализации изобретения в том случае, если в первой области текста уже содержится более одного предложения, но размер этой области еще меньше максимально допустимого размера области текста, интеллектуальный генератор создания документов 100 может сопоставить предложения с другими предложениями из данной области текста для определения логических или семантических связей.

[0043] В случае, если не выявлено семантической связи между первым и вторым предложениями, интеллектуальный генератор создания документов 100 может относить первое предложение к первой области текста, а второе предложение - ко второй области текста. К примеру, если интеллектуальный генератор создания документов 100 установил, что два предложения, по-видимому, относятся к разным предметным областям, он может принять решение, что два предложения должны быть отнесены к разным областям текста в итоговом документе (к примеру, располагаться на разных слайдах презентации).

[0044] Далее, интеллектуальный генератор создания документов 100 может в автоматическом режиме (без какого бы то ни было участия пользователя или взаимодействия с пользователем) создавать запрос на поиск дополнительного контента, так или иначе связанного с контентом по меньшей мере одной из областей текста. Создание запроса на поиск может опираться, по меньшей мере частично, на полученную на предыдущих этапах информацию - например, наиболее важные слова, семантические классы и (или) именованные сущности, обнаруженные в интересующих областях текста, метаданные, хэштеги, и т.д. Если исходный текст содержит изображения, аудио, видео или изображения, аудио, видео, добавленные пользователем, их метаданные и хэштеги могут также использоваться при формировании запроса на поиск дополнительного контента.

[0045] Модель поиска может предусматривать как полнотекстовый поиск, так и (или) семантический поиск. В случае семантического поиска поисковый запрос может включать по меньшей мере одно из следующих свойств: признаки одной из семантических структур для области текста; семантические и (или) синтаксические признаки одного (или более) предложения в пределах области текста; признаки одного (или более) семантического класса для области текста; наличие по меньшей мере одной именованной сущности; любая аналогичная информация, полученная в ходе обработки естественного языка и иными средствами извлечения информации. Отбор наиболее важных слов или семантических классов для интересующей области текста может осуществляться, к примеру, на основе статистических, эвристических критериев или любым иным способом.

[0046] Кроме того, для получения исходных данных, необходимых при составлении поискового запроса, могут быть задействованы всевозможные методы извлечения информации, например, распознавание именованных сущностей. В одном из вариантов реализации изобретения может использоваться дополнительное системное средство (к примеру, приложение InfoExtractor компании Abbyy); это программное средство осуществляет применение продукционных правил к семантическим структурам, при этом продукционные правила основаны на лингвистических характеристиках семантических структур и онтологиях предметных областей. Перечень продукционных правил может включать по меньшей мере правила интерпретации и правила идентификации, при этом правилами интерпретации задаются фрагменты, которые необходимо найти в семантических структурах, а также содержат соответствующие утверждения, образующие множество логических выводов при нахождении нужных фрагментов. Правила идентификации используются для выявления нескольких ссылок на один и тот же информационный объект как в пределах одного (или более) предложения, так и в рамках всего документа.

[0047] В некоторых вариантах реализации изобретения интеллектуальный генератор создания документов 100 может выполнять отдельный поисковый запрос для каждой из областей текста, заданных в пределах текстового документа на естественном языке. Поисковый запрос может создаваться в виде предложений на естественном языке, последовательности из одного или более отдельных слов, так или иначе связанных с интересующей областью текста, поискового запроса на языке структурированных запросов (SQL) или любым иным способом.

[0048] Интеллектуальный генератор создания документов 100 может послать поисковый запрос на один (или более) доступный информационный ресурс 160. Перечень доступных информационных ресурсов 160 может включать: локальное устройство хранения данных на том вычислительном устройстве, где запущен на выполнение интеллектуальный генератор создания документов 100; ресурс хранения данных, доступ к которому осуществляется через локальную сеть; ресурс, доступ к которому осуществляется через сеть интернет (к примеру, устройство хранения данных, подключенное к сети интернет, интернет-сайт, публикация с доступом онлайн и т.д.); ресурсы, доступ к которым предоставляется через социальную сеть и т.д.

[0049] В ответ на отосланный поисковый запрос интеллектуальный генератор создания документов 100 может получить от информационного ресурса 160 ряд дополнительных единиц контента, каждая из которых относится к соответствующей области текста в документе на естественном языке. Перечень дополнительных единиц контента может включать: изображение; график; цитату; шутку; логотип; текстовый контент из источника исходных данных (к примеру, словарной статьи, статьи в Википедии и т.д.) и т.п. В некоторых вариантах реализации изобретения интеллектуальный генератор создания документов 100 может хранить дополнительные единицы контента на локальном устройстве хранения данных, что позволяет обращаться к ним в дальнейшем при поиске нужных сведений. В процессе хранения дополнительных единиц контента интеллектуальный генератор создания документов 100 может ассоциировать с каждой дополнительной единицей контента метаданные, что облегчает и делает более эффективным извлечение этих данных в дальнейшем при поиске нужных сведений. Перечень метаданных может включать сведения, использованные при составлении поискового запроса; благодаря этим сведениям поиск нужных сведений в дальнейшем может выдать дополнительные единицы контента, сохраненные на локальном устройстве хранения данных, еще до отправки запроса на поиск на сетевой информационный ресурс.

[0050] В некоторых вариантах реализации изобретения, в том случае, если по поисковому запросу получено множество дополнительных единиц контента, интеллектуальный генератор создания документов 100 может производить выбор одной или более дополнительной единицы контента, которая будет использована при создании составного документа. В одном из вариантов реализации изобретения интеллектуальный генератор создания документов 100 может производить данный выбор, руководствуясь указаниями пользователя. Интеллектуальный генератор создания документов 100 может в автоматическом режиме выполнять ранжирование дополнительных единиц контента, основываясь на критериях (признаках), так или иначе связанных с настройками учетной записи пользователя, и создавать сортированный список. К примеру, в том случае, если пользователем задан более высокий приоритет изображений по сравнению с текстовым контентом, интеллектуальный генератор создания документов 100 может выполнять соответствующую сортировку дополнительных единиц контента, в результате чего изображения занимают верхние позиции в списке. Аналогичным образом, в случае если пользователем задан более высокий приоритет для сведений, полученных из определенного информационного ресурса (к примеру, сведений, полученных из библиотечного архива публикаций с доступом онлайн), дополнительные единицы контента, полученные из этого информационного ресурса, могут занимать верхние позиции в списке. Далее интеллектуальный генератор создания документов 120 может предоставлять список для пользователя (к примеру, через окно графического интерфейса, выводимое на монитор вычислительного устройства) и выводить подсказку, облегчающую пользователю выбор дополнительных единиц контента, так или иначе связанных с интересующей областью текста. Далее интеллектуальный генератор создания документов 120 может создавать составной документ с учетом предпочтений пользователя.

[0051] Возможен альтернативный вариант реализации изобретения, когда интеллектуальный генератор создания документов 100 может осуществлять выбор в автоматическом режиме, руководствуясь заданными и сохраненными настройками приоритетности. К примеру, пользователь может указать более высокий приоритет изображений по сравнению с текстовым контентом, в результате чего интеллектуальный генератор создания документов 100 может осуществлять выбор в пользу изображения еще до того, как будут рассмотрены другие виды контента. Аналогичным образом, в случае если пользователем указан более высокий приоритет для определенного информационного ресурса, дополнительные единицы контента, полученные от этого информационного ресурса, могут быть отобраны еще до рассмотрения дополнительных единиц контента, полученных из любого другого источника. Помимо этого, интеллектуальный генератор создания документов 120 может создавать составной документ на основе отбора сведений в автоматическом режиме.

[0052] Далее интеллектуальный генератор создания документов 100 может создавать составной документ 140, принимая во внимание определенные области текста 121 текста на естественном языке 120 в сочетании с дополнительными единицами контента, полученными от информационных ресурсов 160. В составном документе 140 может присутствовать множество разделов документа, при этом в каждом разделе документа содержится одна из областей текста 121. Помимо этого, по меньшей мере в одном разделе документа могут содержаться дополнительные единицы контента (одна или более), так или иначе связанные с областью текста, включенной в данный раздел документа.

[0053] Как показано на Фиг. 1, интеллектуальный генератор создания документов 100 может определить, что в тексте на естественном языке 120 содержатся две области текста, руководствуясь при этом структурой предложений, содержащихся в тексте (к примеру, контент допускает логическое разбиение на две части). Интеллектуальный генератор создания документов 100 может создавать поисковый запрос для каждой из двух областей текста и отправлять запрос к информационным ресурсам 160, как описано выше. В дальнейшем интеллектуальный генератор создания документов 100 может создавать составной документ 140, куда входят два раздела, в каждом из которых содержатся две области текста и дополнительная единица контента, так или иначе связанная с соответствующей областью текста. В разделе документа 145-А содержится область текста 141-А и дополнительная единица контента 150-А (дополнительная единица контента так или иначе связана с областью текста 141-А). В разделе документа 145-В содержится область текста 141-В и дополнительная единица контента 150-В (дополнительная единица контента так или иначе связана с областью текста 141-В).

[0054] В некоторых вариантах реализации изобретения составной документ 140 может представлять собой презентацию, т.е. документ для демонстрационных целей (к примеру, это может быть презентация Microsoft PowerPoint, документ в формате PDF и т.д.). Каждый из разделов документа 145-А, 145-В может представлять собой отдельный лист (слайд) презентации, при этом на каждом слайде имеется область текста и соответствующая дополнительная единица контента. Интелле