Устройство для обнаружения искажений в тексте
Иллюстрации
Показать всеРеферат
УСТРОЙСТВО ДЛЯ ОВНАРУ ККННЯ ИСКА Ш;НИЙ в ТЕКСТЕ по авт. св. № 920730, отличающееся тем что, с целью расширения функциональных возможностей путем обеспечения локализации места искажения и указания позиции ошибки в тексте, в него введены формирователь позиции. опибки в слове, состоя1ций из трех элементов И, элемента ИЛИи блока приоритетов, и индикатор, соединенный УПРАВЛЯЮЩИМ входом с выходом регистра Ликсации ошибок, а первым и вторым информационными входами - соответственно с выходом блока приоритетов ис третьим выходом регистра , кодов символов, первый и второй входы первого элемента И соединены с первым и вторым выходами блока дешифрации допустимых корреляций символов , третий и четвертый выходы которого соединены с первым и вторым входами второго элемента И, выход которого соединен с первыми входами элемента ИЛИ и третьего элемента И, выход которого соединен с первым входом блока приоритетов, а второй, I вход - с выходом первого элемента И и с вторым входом блока приоритетов, сл второй вход элемента HJBI соединен с первым выходом блока дешифрации допустимых биграмм, а выход - с третьим входом блока приоритетов, группа входов которого соединена с группой . выходов блока дешифрации допустимых биграмм. о сл а со 00
СОЮЗ СОВЕТСНИХ
СОЦИАЛИСТИЧЕСНИХ
РЕСПУБЛИК ()9) (И) 3(51) G n6 F 11/00
ОПИСАНИЕ ИЗОБРЕТЕНИЯ
Р ABTOPCH0MV СВИДЕТЕЛЬСТВУ
ГОСУДАРСТВЕННЫЙ КОМИТЕТ СССР
IlO ДЕЛАМ ИЗОБРЕТЕНИЙ И ОТКРЫТИЙ (6 1.) 92 0730 (21) 3363124/18-24 (22) 11. 12. 81 (46) 23. 11.83. Бюл. В 43 (72) В.Е. Евстигнеев, А.В. Седаков и С.И. Тимонин (53) 681.3(088.8) (56) 1 . Авторское свидетельство СССР
У 920730, кл. G 06, F 11/00, 1982 (прототип).
2. Авторское свидетельство СССР
Ф 723573, кл. G 06 Р 9/46, 1980. (54)(57) УСТРОЙСТВО ДЛЯ ОБНАРУЖЕНИЯ ИСКА)((ЕН1Й В ТЕКСТЕ по авт, св.
9 920730, о т л и ч а ю щ е е с я тем, что, с целью расширения функциональных возможностей путем обеспечения локализации места искажения и указания позиции ошибки в тексте, в него введены формирователь позиции. ошибки в слове, состоящ и из трех элементов И, элемента ИЛИ и блока приоритетов, и индикатор, соединенный управляющим входом с выходом регистра фиксации ошибок, а первым и вторым информационными входами — соответственно с выходом блока приоритетов и с третьим выходом регистра кодов символов, первый и второй входы первого элемента И соединены с первым и вторым выходами блока дешифрации допустимых корреляций символов, третий и четвертый выходы которого соединены с первым и вторым входами второго элемента И, выход которого соединен с первыми входами элемента ИЛИ и третьего элемента И, выход которого соединен с первым входом блока приоритетов, а второй . вход — с выходом первого элемента И и с вторым входом блока приоритетов, второй вход элемента ИЖ1 соединен с первым выходом блока дешифрации допустимых биграмм, а выход — с третьим входом блока приоритетов, группа входов которого соединена с группой выходов блока дешифрации допустимых биграмм.
1056198 2
Изобретение относится к вычислительной технике и может быть исполь зовано в системах обработки текстовой информации.
По основному ант . св. 1 920730 известно устройство для обнаружения искажений в тексте, содержащее регистр кодов символов, распределитель информации, блоки дешиАрации допустимых биграмм и корреляций симво- 10 лов, регистр фиксации ошибок и блок выделения слова, первым и вторым входами соединенный соответственно с информационным и тактовым входами устройства, причем первый выход и вход регистра кодов символов соединены соответственно с третьим входом и выходом блока выделения слова, а второй выход — с управляющими входами блоков дешифрации допустимых биграмм и корреляций символов, выходы которых соединены с соответствующими входами регистра фиксации ошибок, выход которого является выходом устройства, информационные входы блоков дешифрации допустимых биграмм корреляций символов через распределитель информации соединены с группой информационных выходов регистра кодов сим волов (lj
Недостаток известного устройства состоит н том, что оно не позволяет
1 локализовать место искажения — искаженные символы н словах текста.
Цель изобретения — расширение функциональных возможностей устройства путем обеспечения локализации места искажения и указания позиции ошибки в тексте.
Поставленная цель достигается тем, что в устройство введены Аормирова40 тель позиции ошибки в слове, состоящий из трех элементов И, элемента ИЛИ и блока приоритетов, и индикатор, соединенный!управляющим входом с выходом
45 регистра фиксации ошибок, а первым и вторым.HHAopMBIIHQHHblMH входами — со. ответственно с выходом блока приоритетов и с третьим выходом регистра кодов символов, первый и второй входы первого элемента И соединены с первым и вторым выходами блока дешифрации допустимых корреляций символов, третий и четвертый выходы которого соединены с первым и вторым входами второго элемента И, выход которого 55 соединен с первыми входами элемента
ИЛИ и третьего элемента И, выход кото. рого соединен с первым входом блока i приоритетов, а второй вход — с выходом первого элемента И и вторым входом блока приоритетов, второй вход элемента ИЛИ соединен с первым выходом блока деши*рации допустимых биграмм, а выход — с третьим входом блока приоритетон, группа входов котоб рого соединена с группой выходов блока дешифрации допустимых биграмм.
На чертеже представлена блок-схема предлагаемого устройства для обнаружения искажений н тексте.
Устройство содержит регистр 1 кодов символов, распределитель 2 информации, блок 3 дешифрации допустимых биграмм, блок 4 дешифрации допустимых корреляций символов, регистр 5 фиксации ошибок, блок 6 выделения слона, Аормирователь 7 позиции ошибки в слове, состоящий из первого, второго и третьего элементов И 0, 9, 10 элемента ИЛ1 11 и блока 12 приоритетов, индикатор 13, информационные выходы 14 и 15 распределителя информации, тактовый .вход 16 устройства, выход 17 блока приоритетов, информационный вход 18 устройства, ныходь1 19,1, 19,2,...,19(й-2) блока дешифрации 3 и выходы 20.1, 20 .2, 20.3, 20.4 блока 4 дешифрации.
Блок 12 приоритетов представляет собок известную схему последовательного опроса заявок и предназначен для поиска крайней правой единицы j2$, Устройство работает следующим образом.
В исходном состоянии регистр 1 находится в обнуленном состоянии.
Распределитель 2 информации вырабатывает на своих выходах 14 и 15 нулевые коды, На выходах блока 3 (на выходах 19,1...,,19.п-2), блока 4 (на выходах 20.1.. .,20.4), регистра
5 и формирователя 7 присутствуют нулевые сигналы, На индикаторе 13 от,сутствует информация об ошибках, Поступление кодов символов текста через блок 6 разрешается по тактовым
1 сигналам в цепи 16. При поступлении на вход 18 неискаженного текста на регистре 1 производится накопление кодов. символов слова до появления пробела после последнего символа слова. В этом случае по сигналу, поступающему на управляиший вход блока 6
t с регистра 1, запрещается дальнейшее поступление кодов символов. Таким образом, на регистре 1 оказывается выделенной совокупность кодов сим
105619Я волов, соответствующая одному слову текста.
Каждое слово текста представляется в устройстве как совокупность .первого . символа и наборов комбина- 5 ций последующих символов слова двух видов." отношений "2-3" "3-4"
1 j ° ° ° символов, отражающих зависимость предыдущего символа в слове от последующего, корреляций "2-4", "2-5" "3-5" !О сс сс
У У Э
3-6 символов в слове.
Каждый начальный символ алфавита используемого языка имеет свой комплект эталонных (разрешенных) комбинаций символов, соответствующих различным позициям в слове, Тем самым !
5 учитиваютг я устойчивые комбинации символов в словах используемого языка. Ошибки в тексте обнаруживаются при сравнении эталонных комбинаций с поступившими в слове.
Запрещенные сочетания символов представляют собой такие сочетания, которые никогда не встречаются в русском языке.
При определении является ли некоторое сочетание разрешенным или запрещенным
25 анализируется большой массив слов русского (или другого) языка.
Итак, после приема очередного слова текста распределитель ? информации формирует в цепях 14 пары кодов отношений (биграмм) "?-3", "3-4",...
"(n"1)-и" символов, а в цепях 15 пары кодов корреляции символов "2-4", сс с л сс сс сс сс
"2 - 5, 3 -5, 3 -6 выд ел ен н о го сл ова . По коду первого символа, поступ ающе го с второго выхода регистра в бл ок ах 3 и 4 осуществляется подключени е р або чи х д ешиАр аторов кодов пар волов выделенного слова со отв ет с т в енно . Для неискаженных слов текста коды отношений символов и корреляций символов, соо т вет ст вующие зафиксированному первому символу слова, являют- . 45 ся р азр ешенными, При этом на выходах
1 9 . 1 . . .,, 1 9, и -2, подключенных к выходам бл ок а 3 дешифрации допустимых би гр амм " 2- 3 " . . .,, " (и - 1 ) - n " символо в и на выходах 20 . 1 . . ., 2 0 . 4, подключ е нных к выходам блока 4 д еши фр ации допустимых корреляций " 2 - 4 ", " 2 - 5 ", " 3 -5 ", " 3 -6 " символов сссормируют ся нулевые сигналы . На выходе р егистра 5 отсутствует сигнал об ониб- 55 ке в слове,на выходе блока 12 — сигнал о позиции ошибки в слове.На индикаторе 13 информация об ошибке не индицируется.
Работа устройства в случае ошибок в поступающем кодированном тексте производится следующим образом, Лопустим, что на вход устройства входу 18 поступает последовательность кодов символов текста, соответствующая искаженному слову "ОИГНАЛ", образованному вследствие искажения первого символа (правильно "СИГНАЛ" ).
По тактовым сигналам с входа 16 осуществляется разблокировка поступления кодированного текста на регистр 1 на котором производится накопление кодов символов слова до появления пробела после символа "Л". В этом случае по сигналу, поступающему на управляю с!ий вход блока 6 с первого выхода регистра 1, запрещается дальнейшее поступление кодов символов.
Таким образом, на регистре 1 оказываются выделенными коды символов слова сс0ИГНАЛсс.
Р; .пределитель 2 информации юрмирует на выходе 14 пары кодов отношеволов, т,е. пары кодов символов ИГ
"I"H", "HA" и "АЛ", а на выходах 15— пары кодов корреляций "2-4" ("ИН"), "2-5" t"ИА"). "3-5" ("ГА") и "3-6" л сс
ГЛ символов слова, просмотр которых осуществляется с помощью блоков
3 и 4. Так как пары кодов отношений
"2-3" ("ИГ")> "3-4" ("ГН"), "4-5" реляции "2-4" ("ИН") "2-5" (™ИА")
"3-5" ("ГА") и "3-6" ("ГЛ") символов являются запрещенными комбинациями для слова, начинающегося с симвосс сс ла 0, то блоки 3 и 4 выр абатывают на соответствующих выходах- 1 9 . 1, 1 9 2 1 9 . 3, 1 9 . 4 и 2 0 . 1 2 0 . 2, 20 . 3, 20, 4 единичные сигналы .
Единичные сигналы, поступающие на блок 2,, указывают на выходе 1 9 . 2 на огси бку в четвертой позиции, на выходе 1 9 . 3 — на ошибку в пятой позиции, на выходе I 9 . 4 — на оши бку в . шестой позиции . По единичным си гналам на выходах 20 . 1 и 20 . 2 элемент
И Я формирует единичный сигнал, указывающий на ошибку во второй позиции э по единичным сигналам на выходах 20,3 и 20.4 элемент И 9 формирует единйчный сигнал, указывающий на ошибку в третьей позиции. Кроме того, единичный сигнал на выходе 19.1 поступающий на блок !2 через элемент ИЛИ !
1, также указывает на ошибку в третьей позиции. Элемент ИЛИ 11 Рсорми1051 19В рует единичный сигнал, указывающий на ошибку в третьей позиции. Элемент
И 10 формирует сигнал об ошибке в первой позиции слова. таким образом, на первый — шес- 5 той входы блока 12 поступают сигналы об ошибках в первой-шестой позициях поступившего слова. Блок 12 осуществляет поиск крайней правой единицы из поступивших входных сигналов и дюрмирует на шинах 17 информацию об ошибке в первой позиции слова, поступающую на индикатор 13. Для искажений в первом символе слова характерным является появление сигналов 15 об ошибках в последующих позициях поступившего слова, Одновременно на индикатор 13 передается по управляющему сигналу регистра 5 содержимое регистра 1. Таким образом, на инди- 20 каторе 13 после соответствующей дешифрации отображается поступившее слова "ОИГНАЛ" и индюрмация об обнаруженной ошибке в первой позиции этого слова, 25
Допустим, что на вход устройства 18 поступает последовательность кодов символов текста, соответствующая искаженному слову "ДИИЕТА", образованному вследствие ошибочного 30 добавления второго символа (правильно
"ДИЕТА" ), На регистре 1 осуществляется накопление кодов символов до появления пробела после последнего симво- ла "А". В этом случае по сигналу, поступающему на управляющий вход блока 6 с регистра 1, запрещается дальнейшее поступление кодов символов, Таким образом, на регистре 1 оказываются выделенными коды символов слова "ДЙ11ГТА", Распределитель 2 информации на выходе 14 пары кодов отношений "2-3", пары кодов символов "ЙИ", "HE, "ЕТ"
"3-5" ("ИТ") и "3-6" ("ИА") символов слова, просмотр которых осуществляется с помощью рабочих дешифраторов
50 блоков 3 и 4. Так как пары кодов оти корреляции "2-4" ("ЙЕ"), "2-5" ("ЙТ ) символов являются запрещенными комбинациями дпя слова, начинающегося с символа Д, то блоки 3 и 4 ею л 55 выр а 6атывают на выходах 19 . 1, 19 . 2, 20. 1, 20.2 соответственно единичные си гналы. Единичный си гнал на выходе 19. 1, поступающий на блок 12 через элемент ИЛИ 11, указывает на ошибку и третьей позиции слова, Единичный сигнал на выходе 19.2, поступающий на вход блока 12, указывает на ошибку в четвертой позиции, По единичным сигналам на выходах 20.1 и 20.2 элемент И 8 формирует единичный сигнал, указывающий на ошибку во второй позиции слова, Таким образом, на второй, третий и четвертый входы блока 1? поступают сигналы об ошибках во второй, третьей и четвертой позициях поступившего слова, Для ошибок во втором символе слова наиболее характерно то, что запрещенными комбинациями является совокупность символов корреляции
"2-4" и "2-5", Поэтому единичный сигнал элемента И 8, поступающий на вто т рой вход блока 12, будет определяющим при указании позиции ошибки. Замеченные ошибки в последующих позициях поступившего слова — следствие ошибки в предыдущем символе. Таким. образом, ошибка в младшем разряде считается основной. Блок 12 осуществляет поиск крайней правой едини цы из посгупивших входных сигналов и формирует на выходе 17 информацию об ошибке во второй позиции слова, поступающую на индикатор 13. Одновременно на индикатор 13 передается по управляющему сигналу регистра 5 содержимое регистра 1. Таким образом, на индикаторе 13 после соответствующей дешифрации отображается поступившее искаженное слово "ДЙИЕТА" и индюрмация об обнаруженной ошибке во второй позиции этого слова, Допустим, что на вход устройства 18 поступает последовательность кодов символов текста, соответствующая искаженному слову "ДИМКТОР", образованному вследствие добавления третьего символа (правильно "ДИКТОР" ), На регистре 1 осуществляется накопление кодов символов до .появления пробела после последнего символа "P". В этом случае по сигналу, поступающему на управляющий вход блока 6 с регистра 1, запрещается дальнейшее поступление кодов символов, Таким образом, на регистре 1 оказываются выделенными коды символов слова
"ДИМКТОР".
Распределитель 2 информации формирует иа выходе 14 пары кодов отноше1056198!
О !
35
45
55
"6-7" символов, т. е. пары кодов символов "1П!", "МК", "КТ", "ТО" и а на выходе 15 — коды корреляции
"2-4" ("ИК") "2-511 ("МК") "3-5" ("МТ") и "3-6" ("МО") символов слова, просмотр которых осуществляется с помощью рабочих дешиАраторов блоков 3 и 4. Так как пары кодов отноше("МТ" ), "3-6" ("МО") символов являются запрещенными для слова, начинающегося с символа "Д", блоки 3 и 4 вырабатывают на выходах 19,3 и 20.3, 20.4
Соответственно единичные сигналы. Еди. ничный сигнал на выходе 19.3, поступающий на блок 12, указывает на ошибку в пятой позиции. По единичным сигналам на выходах 20.3 и 20.4 элемент
И 9 формирует единичный сигнал, указывающий на ошибку в третьей позиции.
Таким образом на третий и пятый входы блока 12 поступают сигналы об ошибках в третьей и пятой позициях поступившего слова, Для ошибок в третьем символе слова наиболее характерно то, что запрещенными комбинациями является совокупность символов корреляции "3-5" и "3-6" или. символы отношений "2-3". Поэтому единичный сигнал элемента ИЛИ 11, . поступающий на третий вход. блока 12, будет определяющим при указании позиции ошибки; Замеченные ошибки в последующих позициях поступившего слова — следствие ошибки в предыдущем ,символе, Таким образом, ошибка в младшем разряде считается основной, Блок 12 осуществляет поиск крайней правой единицы из поступивших входных сигналов и дюрмирует на шинах 17 информацию об ошибке в третьей позиции слова, поступающую на индикатор 13.
Одновременно на инидкатор 13 передается по управляющему сигналу регистра 5 содержимое регистра 1. Таким образом, на индикаторе 13 после соответствующей дешифрации отображается поступившее искаженное слово
"Д1 (KTOP" и информация об обнаруженной ошибке в третьей позиции этого слова.
Допустим, что .на вход устройства
18 поступает последовательность кодов символов текста, соответствующая искаженному слову "РЕГИ " ", образованному вследствие пропуска шестого символа "Т" (правильно РЕГИСТР" ).
Па регистре 1 осуществляется накопление кодов символов до появления. пробела после последнего символа
"Р", В этом случае по сигналу, поступающему на управляющий вход блока 6 с регистра 1, запрещается! даль.нейшее поступление кодов символов.
Таким образом, на регистре 1 оказываются выделенными .коды символов .слова "РЕГИС Р".
Распределитель 2 информации формирует иа выходе 14 пары кодов отношений "2-3", "3-4", "4-5" и "5-6" сим-. волов, т.е. пары кодов символов "ЕГ", ды корреляций "2-4" ("ЕИ"), "2 5" ("ЕС"), "3-5" ("ГС") и "3-6" ("ГР"). символов слова, просмотр которых осу. ществляется с помощью блоков 3-и 4, Так как пара кодов отношений "5- 6" ("СР") и корреляций "3-6" ("ГР") являются запрещенными комбинациями для
11 И слова, начинающегося с символа P блоки 3 и 4 вырабатывают на выходах
19.4 и 20.4 соответственно единичные сигналы. Единичный сигнал иа выходе
19.4, поступающий на вход блока 12, указывает на ошибку в шестой позиции, Таким образом, на шестой вход блока 12 поступает единичный сигнал об ошибке в шестой позиции поступившего слова, Для ошибок в четвертом.и-м символе наиболее характерно то, что запрещенной комбинацией является соответственно биграмма "3-4", "(n"1)"n", т.е, для ошибки в шестом символе биграмма "5-.6" является запрещенной, Поэтому единичные сигналы на выходах 19,2-19.п-2 (19.4 — для биграмьы "5-6") являются определяющими при указании ошибки. Таким образом, ошибка в младшем разряде считается основной, Блок 12 дюрмнрует на выходе 17 информацию об ошибке в шестой позиции слова, поступающую на индикатор 13, одновременно на индикатор 13 передается по управляющему сигналу регистра 1. Таким образом, на индикаторе 13 после соответствующей дешифрации отображается,поступившее искаженное слова "РЕГИС P" и информация об обнаруженной ошибке в шестой позиции этого слова.
Использование формирователя 7 позиции ошибки в слове, включающего элементы И 8-10, ИЛИ 11, блок 12 поиска крайней правой единицы и инд 1056198
ВНИИПИ Заказ 9308/43 Тираж 706 Подписное
Филиал ППП Патент", г. Ужгород, ул. Проектная, 4 хатор 13, соединенные указанным выше образом, позволяет расширить функциональные возможности устройства путем отображения искаженного слова и указания позиции ошибки 5 в нем.
Вероятность обнаружения ошибок в тексте составляет 0,8-,97 в зависимости от типа ошибок, (пропуск, добавление или замена символа), позиции ее в слове и начального символа слова.
Преимушество предлагаемого метода биграмм по сравнению с другими известными методами заключается в возможности обнаружения искажений в тексте, связанных с изменением длины слова, при использовании имеющейся избыточности русского языка. Дополнительная информационная избыточность не вводится.