Устройство для формирования лексических массивов

Иллюстрации

Показать все

Реферат

 

ОП ИСАНИЕ

ИЗОБРЕТЕН ИЯ

К АВТОРСКОМУ СВИДЕТЕЛЬСТВУ

Союз Советских

Социалистических

Республик

Iiu93448? (6! ) Дополнительное к авт. саид-ву (22)Заявлено 15.10.80 (2!) 2987251/18-24 с присоединением заявки № (23 } Приоритет (51)М. Кл.

G 06 F 15/40

Гоаудерсикнный квинтет

СССР (53) УДК 681.325 (088. 8) II0 делам нзооретеннй н открытий

Опубликовано 07. 06. 82 Бюллетень ¹ 21

Дата опубликования описания 17.06..82 (f43 УСТРОЙСТВО ДЛЯ ФОРМИРОВАНИЯ ЛЕКСИЧЕСКИХ

МАССИВОВ

Изобретение относится к вычислительной технике и может быть использовано в информационно-поисковых системах для формирования лексических массивов,- в частности, для создания

S информационно-поискового тезауруса.

Известно устройство выбора ключевых слов,. содержащее блок записи, блок кодирования, блок формирования набора ключевых слов, блок запроса, 10 блок выбора ключевых слов, блок сравнения, блок управления и блок вывода ключевых слов на печать. Информация, поступающая на вход устройства, кодируется, распределяется по соответствующим признакам на группы, которые переписываются в соответствии с заглавными буквами в определенном порядке, формируя таким образом ключевые слова, которые затем используют в процессе поиска. При этом слова запроса и записи сравнивают и при их совпадении результат выдают на печать (1 ).

Недостаток известного устройстваего низкое быстродействие из-за последовательного сравнения заданных на входе и выбираемых из памяти лексических единиц, а также недостаточное качество поиска информации из-за отсутствия учета семантических связей. между лексическими единицами тезауруса.

Известно также устройство для обработки текстовой информации, содер" жащее блок управления, сумматор, регистр адреса, блок заголовков текстов, счетчик формирования информационных частей, счетчик формирования адреса, два счетчика последовательного доступа, блок приема слов из главной памяти, блок формирования адресов связи и информационных частей, блок адресов текстов, блок текстов и блок определения первого вхождения.

Устройство для текстовой обработки информации предназначено для работы с текстами в двух формах: несписочмента лексического массива подключена к группе выходов второго блока памяти, группа входов блока кодирования информации подключена к группе управляющих выходов блока формирования фрагмента лексического массива, вторая группа управляющих выходов которого соединена с группой входов блока управления, пятый и шестой выходы которого подключены к первому и второму управляющим входам блока формирования фрагмента лексического массива соответственно, первый и второй управляющие выходы которого соединены с третьим управляющим входом второго блока памяти и четвертым управляющим входом второго блока памяти вторым управляющим входом блока вывода соответственно.

Блок формирования фрагмента лексического массива содержит десять регистров, сумматор, два коммутатора, три узла сравнения, выходы которых подключены ко второй группе управляющих входов блока, входы первого, второго, третьего, четвертого, пято-. го и шестого регистров подключены к первой группе информационных входов блока, выход первого регистра соединен с первым выходом первой группы управляющих выходы блока и первым входом первого узла сравнения, второй вход которого соединен с выходом седьмого регистра, входы седьмого, восьмого, девятого и десятого регистров подключены к второй информационной группе входов блока, выход восьмого регистра соединен с первым входом второго узла сравнения, второй вход которого подключен к выходу третьего регистра, ко второму выходу первой группы управляющих выходов блока и к первому информационному входу первого коммутатора, второй информационный вход которого соединен с выходом пятого регистра, управляющий вход подключен к первому информационному входу сумматора,второй информационный вход которого сое. динен с выходом пятого регистра, управляющий вход подключен к первому управляющему входу блока, а выход— к информационному входу второго коммутатора, выход которого соединен с первым управляющим выходом блока, второй. управляющий выход которого соединен с выходом первого коммутатора,. управляющие входы первого и второго коммутаторов объединены и под934487

4 ной, при которой информация размещается s последовательно расположенных ячейках памяти, и списочной, при которой у каждого списка свой заголовок, в котором указываются параметры 5 элемента списка, т.е. начало информационной части, длина информационной части, начало адресной ссылки, начальный адрес текста, Основными текстовыми командами устройства являются следующие: "Найти первое вхождение какого-либо текста, из набора в заданный текст", "Найти первое вхождение какого-либо символа из набора символов в заданный текст" нПерекодировка, "Распаковка", "Упаков" ка", "Замена" (2j.

Недостаток этого устройства также заключается в относительно низком быстродействии формирования лексичес- 20 ких массивов из-за последовательного выполнения длинной цепочки операций и в недостаточном качестве поиска информации из-за отсутствия учета семантических отношений. 25

Цель изобретения — повышение быстродействия и качества поиска информации за счет параллельного сравнения групп лексических единиц и учета семантических отношений между ними. З0

Поставленная цель достига тся тем, что в устройство для формирования лексических массивов, содержащее первый и второй блоки памяти, блок кодирования информации, блок вывода, блок управления, йервый выход которого соединен с управляющим входом первого блока памяти, второй выход блока управления соединен с первым управляющим входом второго блока памяти, 40 второй управляющий вход которого соединен с выходом блока кодирования информации,.вход которого соединен с третьим выходом блока управления,четвертый выход которого соединен с пер- 45 вым управляющим входом блока вывода, информационный вход первого блока памяти является информационным Вхо дом устройства, выход второго блока памяти соединен с информационным ьходом блока вывода, выход которого является выходом устройства, введен блок формирования фрагмента лексического массива, причем первая группа информационных входов блока формирования

55 фрагмента лексического массива подключена к группе выходов первого блока памяти, вторая группа информационных входов блока формирования фрагключены ко второму управляющему входу блока, выход второго регистра соединен с второй группой управляющих выходов блока, выход шестого регистра соединен с третьим информационным входом первого коммутатора.

Блок управления содержит генератор импульсов, два дешифратора, регистр, .три счетчика, три элемента И, распределитель импульсов, первая !О группа входов которого подключена к группе выходов первого дешифратора, вторая группа входов распределителя импульсов соединена с группой выходов второго дешифратора, первый,вто- 1S рой и третий выходы которого соединены с первыми входами первого, второго и третьего элементов И соответственно, вторые входы которых объеди. нены и подключены к первому выходу 2о генератора импульсов, второй выход которого соединен с выходом распределителя импульсов, первый второй и третий выходы которого подключены к четвертому, пятому и шестому выходам бло25

/ ка соответственно, третий и четвертый выходы генератора импульсов подключены к первому и третьему выходу ,блока соответственно, выходы первого, второго и третьего элементов И под- зо ключены к счетным входам первого,второго и третьего счетчиков соответственно, информационные выходы которых подключены к второму выходу блока, а выходы переполнения - к первой группе входов регистра, вторая группа входов которого соединена с группой управляющих входов блока, выход регистра соединен со входом второго дешифратора, вход первого дешифратора соединен с входом группы управляющих входов блока.

Блок кодирования информации содердит шифратор, группу элементов И-, дешифратор и счетчик, вход которого подключен к входу блока, выход счетчика подключен к входу дешифратора, группа выходов которого соединена с первыми входами элементов И группы, вторые входы которых подключены к группе входов блока, выходы элементов И группы объединены и подключены к первому входу шифратора, второй вход которого соединен с группой входов блока, выход шифратора соединен с вы55 ходом блока.

На фиг. 1 показана функциональная блок-схема устройства для формирования лексических массивов; на фиг.2

934487 6 функциональная схема блока кодирования информации; на фиг. 3 — функцио. нальная схема блока управления, на фиг. 4 - функциональная схема первого блока памяти.

Устройство для формирования лекси" ческих массивов содержит первый блок

1, блок 2 формирования лексического массива, первый-шестой регистры 3-8, блок 9 кодирования информации, блок

10 управления, первый — третий узлы сравнения 11-13, сумматор )4, первый и второй коммутаторы 15 и 16, седьмой — десятый регистры 17-20, второй блок 21 памяти, блок 22 вывода. Блок кодирования информации содержит шифратор 23, дешифратор 24, счетчик 25, группу элементов И 26.

Блок управления содержит генератор импульсов 27, распределитель 28 импульсов, дешифраторы 29 и 30, регистр 3), счетчики 32-34, элементы

И 35-37.

Первый блок памяти содержит регистр 38 адреса, буферный регистр 39, накопитель 40, выходной регистр 41.

Устройство формирования лексических массивов работает следующим образом.

На первый вход блока 1 поступают списки ключевых слов по различным предметным рубрикам. Ключевые слова могут быть соединены различными видами семантических связей, относиться к различным документам, запросам и тезаурусам, а также характеризоваться числовым параметром и частотой употребления.

Блок 1 поочередно передает в блок формирования фрагмента лексического массива фрагмент списка ключевых слов содержащий не более и ключевых слов и и-1 семантических связей между ключевыми словами, относящимися к одному документу, запросу или тезаурусу, одной предметной области, рубрике и одной операции формирования лексического массива.

Операция формирования лексического массива определяет режим обработки поступившего фрагмента списка ключевых слов, например, ввод в тезаурус, контроль по тезаурусу, операцию коррекции тезауруса, изменения связей лексических единиц частоты, номера документа, рубрики.

В блоке 9 кодирования информации на основе сигналов, поступающих от регистров 3 и 5 определяются адреса

934487 сегментов блока 21, в которых могут быть записаны введенные ключевые слова. В блоке 9 счетчик 25, дешифратор 24 и элементы И 26 образуют коммутатор, который по сигналам от гене- з ратора подключает к входам шифратора

23 поочередно выходы регистра 5 и шифратор 23, представляющий собой диодноматричную или другую аналоговую схему, обеспечивает преобразова- 10 ние (1+1) разрядного кода, где 1 длина ключевого слова в регистре 5, в s-разрядный код, который обеспечивает однозначную адресацию сегмента в блоке 21. 15

Блок управления 10 обеспечивает все необходимые сигналы для функционирования устройства.

На выходах генератора импульсов формируются сдвинутые по фазе серии; 2О импульсов, образующие последовательность. циклов. На других выходах генератора формируются сдвинутые по фазе импульсы, определяющие начало цикла.

Импульс с первого выхода осуществляет25 передачу очередной порции информации из блока 2 на регистры 3, 4, 8 регистры 5, 6, 7. Импульс со второго выхода генератора поступает на вход блока 9 кодирования информации, кото- зо рый преобразует код ключевогщ слова в адрес сегмента блока 21.

Импульсы с выхода генератора импульсов обеспечивает работу счетчика

32-34

Счетчик 32 служит для подсчета обьема фрагмента и определяет перебор ячеек сегмента блока памяти,col держащих записи лексических единиц.

Содержимое этих ячеек поступает в ре- 40 гистр 18 и посимвольно сравнивается. с ключевыми словами, записанными в регистре 5, с помощью узла 12 сравнения, который либо выдает сигнал о совпадении ключевого слова и лексической единицы, прекращающий через регистр 31 и через дешифратор 30 работу счетчика 32, либо совпадения не наступает после полного перебора сегмента, и тогда сигнал переполнения счетчика 32 говорит об отсутствии данного ключевого слова в лексическом массиве (тезаурусе). В случае остановки. счетчика 32 по совпадению ключевого слова и лексической единицы включается счетчик 33, который обеспечивает перебор адресов рубрик, относящихся к данной лексической единице. Совпадение записанной рубрики и поступившей отмечает узел 11 сравнения, который останавливает работу счетчика 33, об отсутствии совпадения свидетельствует сигнал переполнения счетчика 33. Если произошло совпадение рубрик, то начинает работать счетчик 34, который обеспечивает перебор всех видов связи, относящихся к заданному ключевому слову в данной рубрике. Сравнение новой и записанной связей осуществляется с помощью узла 13 сравнения. Отсутствие совпадения в каждом случае свидетельствует о новой информации, которую необходимо записать в соответствую,щий сегмент. B этом случае вводится новое ключевое слово, рубрика, связь, значение частоты с регистра 7 и номер документа, либо при совпадении ключевого слова с лексической единицей вносятся рубрики, связь, значение частоты и номер документа.

При совпадении всех перечисленных параметров с помощью сумматора 14 подсчитывается новое значение частоты и в зависимости от кода операции с noi мощью коммутаторов 1 р и 16 содержимое регистров 3,5,7 и 8 либо вводится в соответствующие сегменты блока

21, где ключевые слова, рубрика, связь или номер документа отсутствуют, либо, изменяется значение частоты, одновременно выдается сигнал о поступлении новых ключевых слов, связей или рубрик. В каждом отдельном случае эта информация может с помощью блока

22 вывода представляться на экране, видеотерминала в виде распечатки для контроля за процессом формирования и исправления обнаруженных ошибок.

Устройство формирования лексических массивов обеспечивает режим постепенного формирования тезауруса с лексикой, адекватной лексике документов и запросов, начиная, либо с пустого, либо с некоторого начального состояния, а также обеспечивает режим контроля лексики по,.тезаурусу с выявлением новой лексики и связей или противоречий в связях лексических еди1ниц, рубрик, связей, частотй, номера документа, включая операции удаления, в том числе и удаления устаревших документов, замены и введения новых элементов.

Устройство формирования лексических массивов может быть использовано для обьединения тезаурусов и для вы93448 явления их совпадающих или несовпадающих частей.

Формула изобретения

1. Устройство для формирования лексических массивов, содержащее пер вый и второй блоки памяти, блок ко" дирования информации, блок вывода, 1о блок Управления, первый выход которого соединен с управляющим входом первого блока памяти, второй выход блока управления соединен с первым уп" равляющим входом второго блока памя- 15 ти, второй управляющий вход которого соединен с входом блока кодирования информации, .вход которого соединен с третьим выходом блока управления, четвертый выход которого соединен с рц первым управляющим входом блока вывода, информационный вход первого блока памяти является информационным

;входом устройства, выход второго блока памяти соединен с информационным 25 входом блока вывода, выход которого является выходом устройства, о т л ич а ю щ е е с я тем, что, с целью повышения быстродействия за счет параллельного сравнения групп ключевых слов и лексических единиц, в него введен блок формирования фрагмента лексического массива, причем первая группа информационных входов блока формирования фрагмента лексического массива подключена к группе выходов первого блока памяти, вторая группа информационных входов блока формирования фрагмента лексического массива подключена к группе выходов второго блока памяти, группа входов блока формирования фрагмента лексического массива, вторая группа управляющих выходов которого соединена с группой входов блока управления, пятый и шес- 45 .той выходы которого подключены к первому и второму управляющим входам блока формирования фрагмента лексического массива соответственно,первый и второй управляющие выходы которого соединены с третьим управляющим входом второго блока памяти и четвертым управляющим входом второго блока памяти и вторым управляющим входом блока вывода соответственно.

Ф 55

2. Устройство по и, 1, о т л ич а ю щ е е с я тем, что блок формирования фрагмента лексического масси=

7 10

ba содержит десять регистров, сумматор, два коммутатора, три узла сравнения выходы которых подключены ко второй группе управляющих выходов блока, входы первого, второго, „ третьего, четвертого и пятого и шестого регистров подключены к первой группе информационных входов блока. выход первого регистра соединен с первым выходом первой группы управляющих выходов блока и первым входом первого узла сравнения, второй вход которого соединен с выходом седьмого регистра, входы седьмого, восьмого, девятого и десятого регистров подключены ко второй информационной группе входов блока, выход восьмого регистра соединен с первым входом второго узла сравнения, второй вход которого подключен к выходу третьего регистра, ко второму выходу первой группы управляющих выходов блока и к первому информационному входу первого коммутатора, второй информационный вход которого соединен с выходом четвертого регистра и .первым входом третьего узла сравнения, второй вход которого подключен к выходу девятого регистра, выход десятого регистра подключен к первому информационному входу сумматора, второй информационный вход которого соединен с выходом пятого регистра, управляющий вход подключен к первому. управляющему входу блока, а выход к информационному входу второго коммутатора, выход которого соединен с первым управляющим выходом блока,второй управляющий выход которого соединен с выходом первого коммутатора, управляющие входы первого и второго коммутаторов объединены и подключены ко второму управляющему входу блока, выход второго регистра соединен со второй группой управляющих выходов блока, выход шестого регистра соединен с третьим информационным входом первого коммутатора.

Устройство по и. 1, о т л и ч а ю щ е е с я тем, что блок управления содержит генератор импульсов, два дешифратора, регистр, три счетчика, три элемента И, распределитель импульсов, первая группа входов которого подключена к группе выходов первого дешифратора, вторая. группа вхо-дов распределителя импульсов соединена с группой выходов второго дешифратора, первый, второй и третий выходы

11 9344 которого соединены с первыми входами первого, второго и третьего элементов

И соответственно, вторые входы которых объединены и подключены к первому выходу генератора импульсов, второй выход которого соединен с входом распределителя импульсов, первый, вто» рой и третий выходы которого подключе«ы к четвертому, пятому и шестому выходам блока соответственно, третий to и четвертый выходы генератора импуль: сов подключены к первому и третьему выходу блока соответственно, выходы первого, второго и третьего элементов И подключены к счетным входам первого, второго и третьего счетчиков соответственно, информационные выходы которых подключены ко второму выходу блока, а выходы переполнения к первой группе входов регистра, вто- о рая группа входов которого соединена с группой управляющих входов блока, аыход регистра соединен с входом второго дешифратора, вход первого дешифратора соединен с входом группы управляющих входов блока.

12

4. Устройство по и. 1, о т л и— ч а ю щ е е с я тем, что блок кодирования информации содержит шифратор, группу элементов И, дешифратор и счетчик, вход которого подключен к входу блока, выход счетчика подключен к входу дешифратора, группа вы-. ходов которого соединена с первыми входами элементов И группы, вторые входы которых подключены к группе входов блока, выходы элементов И группы объединены и подключены к первому входу шифратора, второй вход которого соединен с группой входов блока, выход шифратора соединен с выходом блока.

Источники информации, принятые во,внимание при экспертизе

1. Патент Великобритании

If 1384 151, кл. G 06 F 15/40, опублик.

1975 °

2. Авторское свидетельство СССР

Ф 926901, кл. G 06 F 15/40, 1976 (прототип).

934487

Заказ 3938/46 Тираж 731

ВНИИПИ Государственного комитета СССР по делам изобретений и открытий

1)3035, Москва, Ж-35, Раушская наб., д. 4/5

Подписное

Филиал ППП Патент", r. Ужгород, ул. Проектная, 4

Составитель Л. Чистобородова

Редактор И. Ковальчук TexpeA M, Tenep Корректор И.Муска