Компьютерное устройство для чтения плоскопечатного текста

Реферат

 

Изобретение относится к вычислительной технике. Его использование в качестве источника информации для слепых и средства обучения русскому языку позволяет обеспечить высокое качество синтеза русской речи при воспроизведении плоскопечатных текстов. Устройство содержит блок 1 оптического ввода плоскопечатного текста, блок 2 оптического распознавания текста, блок 5 синтеза речи по орфографическому тексту, блок формирования аудиосигнала (не показан) и оконечный аудиоблок 6. Технический результат достигается благодаря выполнению блока 1 в виде сканера, блока формирования аудиосигнала в виде звуковой платы, блока 5 в виде блока синтеза русской речи по орфографическому тексту, а кроме того, благодаря введению блока 3 унификации текстового файла, блока 4 текстовой базы данных, тактильного дисплея 8, блока 7 сопряжения тактильного дисплея с персональным компьютером и блока 9 интерфейса. 28 з.п. ф-лы, 14 ил.

Изобретение относится к вычислительной технике и может использоваться в качестве источника информации для слепых и слабовидящих людей, а также в качестве средства для обучения русскому языку.

Для людей, потерявших зрение или с отсутствием зрения, одной из важных проблем является задача самостоятельного получения информации, так как такие обычные источники информации, как книги, журналы и др. для них недоступны, специальная информация вообще отсутствует, а периодические источники информации из-за нерегулярного перевода становятся для них непериодическими.

Известное средство для получения незрячими информации в виде печатной продукции с использованием рельефно-точечной системы Брайля [1] обладает определенными недостатками. Такие книги занимают большой объем из-за рельефной печати, легко повреждаются при хранении и при чтении из-за механического контакта, кроме того, номенклатура их минимальна по сравнению с обычной печатной продукцией, не говоря уже об оперативности получения информации. Наконец, число незрячих, владеющих системой Брайля, имеет тенденцию к сокращению.

Другим известным средством для получения информации незрячими является так называемая "говорящая книга", представляющая собой магнитную ленту, на которую записаны тексты книг, журналов, газет и др. [2].

Достоинствами такого средства является то, что при восприятии речевой информации человек меньше устает, быстрее реагирует, при этом скорость обмена информацией существенно выше, чем при тактильном способе. При несомненных достоинствах этого устройства обмена информацией его отличает низкая оперативность, из-за чего слабо удовлетворяются индивидуальные запросы незрячего пользователя, особенно в области, связанной с профессиональной деятельностью, поскольку имеется только массовая, широко используемая продукция и отсутствует специальная информация, при этом не отслеживается новейшая и последняя информация.

Наиболее близким к изобретению является устройство, использующее персональный компьютер с оптико-механическим блоком чтения плоско-печатного текста и программируемым синтезатором речи [3].

Можно отметить довольно высокую натуральность и разборчивость синтезированной речи на уровне отдельных слов и значительное ухудшение этих показателей при синтезе слитной речи, когда возникают заметные паразитные звуковые эффекты. Кроме того, синтез осуществляется по строкам текста, а при таком подходе невозможно адекватно сформировать мелодический контур, поскольку он определяет интонацию фраз и синтагм, а строка прозаического текста содержит фрагменты одной или нескольких синтагм, т.е. синтезированная речь звучит "механически".

Независимо от качества иноязычные синтезаторы речи для чтения русскоязычных текстов непригодны. При синтезе речи на русском языке возникает много проблем, которые связаны со сложностью грамматики и фонетики русского языка, происходящего от кириллицы, и являются самыми сложными в мировой практике, так как требуют учета очень большого количества факторов, как ни в одном другом языке. Имевшие место до настоящего времени попытки создания таких устройств не решили данную задачу, так как эти устройства не удовлетворяли требованиям по качеству воспринимаемого сигнала, и все созданные варианты были отвергнуты потенциальными пользователями-слепыми.

Технической задачей изобретения является разработка компьютерного устройства для чтения плоскопечатного текста: осуществляющего считывание и звуковое воспроизведение печатного текста в реальном масштабе времени с высоким качеством синтезированной русской "славянской" речи за счет обеспечения ее натуральности и разборчивости фонемной, слоговой и словесной.

Поставленная задача решается в устройстве для чтения плоскопечатного текста, содержащем последовательно соединенные блок оптического ввода плоскопечатного текста и блок оптического распознавания текста, блок синтеза речи по орфографическому тексту, блок формирования аудиосигнала и оконечный блок, в котором согласно изобретению блок оптического ввода плоскопечатного текста выполнен в виде сканера, блок формирования аудиосигнала выполнен в виде звуковой платы, блок синтеза речи по орфографическому тексту выполнен в виде блока синтеза русской речи по орфографическому тексту, а также дополнительно введены блок унификации текстового файла, блок текстовой базы данных, тактильный дисплей, блок сопряжения тактильного дисплея с персональным компьютером и блок интерфейса, при этом выход блока оптического распознавания текста через последовательно соединенные блок унификации текстового файла и блок текстовой базы данных соединен с информационным входом блока синтеза речи по орфографическому тексту, а через блок сопряжения - с входом тактильного дисплея, выход блока синтеза русской речи по орфографическому тексту через звуковую плату соединен с оконечным аудиоблоком, управляющие входы блоков сопряжения тактильного дисплея и сканера, блок оптического распознавания текста, блок унификации текстового файла, блока синтеза русской речи по орфографическому тексту и блока текстовой базы данных соединены с соответствующими выходами блока интерфейса.

При этом блок унификации текстового файла может быть выполнен в виде последовательно соединенных блока распознавания многоколоночного текста, блока переформатирования текстового файла в одноколоночный, блока распознавания левых и правых границ текста, блока распознавания красных строк, блока выделения абзацев, блока исключения символов метаязыка, не входящих в допустимый алфавит, блока ликвидации переносов слов и блока переформатирования текстового файла.

Блок синтеза русской речи по орфографическому тексту может быть выполнен в виде блока компиляционного синтеза речи и содержащего последовательно соединенные блок выбора текущего абзаца, блок чтения текущего абзаца, блок предварительного синтаксического анализа абзаца, блок выделения слов в абзаце, селектор подслов на подмножествах алфавита метаязыка, блок распознавания слов на русском алфавите, первый блок ИЛИ, блок контекстной расшифровки сокращений слов, блок согласования, блок выделения фраз и синтагм, блок определения коммуникативного типа фраз и синтагм, блок определения логического ударения, блок фонетического транскрибирования текста, временной процессор, мелодический процессор, блок компиляции, блок формирования звукового файла и блок вывода звукового файла.

Блок предварительного синтаксического анализа абзаца может содержать последовательно соединенные селектор знаков пунктуации, коммутатор, блок вербализации знаков пунктуации и второй блок ИЛИ, при этом второй выход коммутатора через последовательно соединенные блок контекстного анализа пунктуационных знаков, блок устранения ненаходящих отражения в устной речи пунктуационных знаков, блок устранения графических пунктуационных фикций и блок вербализации знаков точки, запятой и тире в записи чисел подключен к второму входу второго блока ИЛИ, а управляющие вход коммутатора является управляющим входом блока предварительного синтаксического анализа.

Блок распознавания слов на русском алфавите содержит последовательно соединенные блок преобразования символьных кодов к одному регистру, селектор слов, включающих пунктуационные знаки, первый селектор слов-сокращений и третий блок ИЛИ, второй выход первого селектора слов-сокращений через последовательно соединенные четвертый блок ИЛИ, блок морфологического анализа, блок восстановления графемы "йо", селектор аббревиатур и блок расшифровки аббревиатур подключен к второму входу третьего блока ИЛИ, второй выход селектора аббревиатур через последовательно соединенные блок определения части речи и блок расстановки ударений подключен к третьему входу третьего блока ИЛИ, второй выход селектора слов, включающих пунктуационные знаки, через второй селектор слов-сокращений подключен к четвертому входу третьего блока ИЛИ, второй выход второго селектора слов-сокращений через блок исключения дефиса подключен к второму входу четвертого блока ИЛИ, третий выход селектора слов, включающих пунктуационные знаки, через блок исключения апострофа подключен к третьему входу четвертого блока ИЛИ, четвертый вход которого соединен с четвертым выходом селектора слов, содержащих пунктуационные знаки, выход третьего блока ИЛИ является выходом блока распознавания слов на русском алфавите.

Блок морфологического анализа содержит блоки памяти для префиксов, основ и флексий, реализованные в виде соответствующей базы данных, при этом блок морфологического анализа выполнен реализующим алгоритм решения соответствующего уравнения.

Блок расстановки ударений содержит последовательно соединенные селектор распознанных слов, блок определения ударного слога и пятый блок ИЛИ.

Блок трансляции слов метаязыка в слова на русском алфавите содержит последовательно соединенные селектор подмножеств алфавита метаязыка, шестой блок ИЛИ, блок вербализации арабской цифровой записи чисел и седьмой блок ИЛИ, второй выход селектора подмножеств алфавита метаязыка через последовательно соединенные селектор латинских цифр и блок преобразования латинской записи чисел в арабскую соединен с вторым входом шестого блока ИЛИ, второй выход блока преобразования латинской записи чисел в арабскую через последовательно соединенные восьмой блок ИЛИ и блок русификации слов латинского алфавита соединен с вторым входом седьмого блока ИЛИ, второй выход селектора латинских цифр соединен с вторым входом восьмого блока ИЛИ, третий вход которого соединен с третьим выходом селектора подмножеств алфавита метаязыка, четвертый выход которого через блок вербализации знаков алфавита метаязыка соединен с третьим входом седьмого блока ИЛИ, выход которого является выходом блока трансляции слов метаязыка в слова русского алфавита.

Блок выделения фаз и синтагм выполнен реализующим алгоритм выделения фраз путем разбиения абзаца на лексемы, отделенные символами {.?} и алгоритм выделения синтагм во фразах путем разбиения фразы на лексемы, отделенные символами {,:;-}.

Блок определения коммуникативного типа фраз и синтагм содержит последовательно соединенные селектор вопросительных фраз, блок определения синтагмы, содержащей вопрос, девятый блок ИЛИ и блок определения коммуникативного типа синтагм, второй выход селектора вопросительных фраз соединен со вторым входом девятого блока ИЛИ.

Блок определения коммуникативного типа синтагмы выполнен реализующим алгоритм определения следующих коммуникативных типов: завершенность, соответствующая синтагмам, завершающимся знакам { .:;}, первый и второй типы незавершенности, соответствующие синтагмам, завершающимся соответственно знаками {,-}, общий и частный вопросы для синтагм, завершающихся знаком {?} и соответственно не содержащих или содержащих вопросительное слово, а также синтагмы с акцентом, содержащие знак логического выделения на выделяемом слове.

Блок определения логического ударения содержит последовательно соединенные селектор логически выделенных слов и десятый блок ИЛИ, второй выход селектора логически выделенных слов через последовательно соединенные селектор слов, содержащих частный вопрос, и одиннадцатый блок ИЛИ подключен к второму входу десятого блока ИЛИ, второй выход селектора слов, содержащих частный вопрос, через селектор семантически значимых слов подключен к второму входу одиннадцатого блока ИЛИ, а второй выход селектора семантически значимых слов через блок определения последнего знаменательного слова синтагмы подключен к третьему входу одиннадцатого блока ИЛИ, выход десятого блока ИЛИ является выходом блока определения логического ударения.

Блок фонетического транскрибирования текста содержит последовательно соединенные блок устранения орфографических фикций, блок преобразования буквенной записи в фонетическую и блок формирования слитной речи.

Блок устранения орфографических фикций содержит последовательно соединенные блок устранения орфографических фикций в окончаниях слов, блок исключения непроизносимых согласных, блок замены сочетаний согласных эквивалентной буквенной записью и блок преобразования записи слов с твердым произношением "е".

Блок преобразования буквенной записи в фонетическую содержит последовательно соединенные селектор служебных слов, блок ликвидации ударений в служебных словах, блок ассимиляции служебных слов, двенадцатый блок ИЛИ, блок транскрибирования контекстов с мягким знаком, блок транскрибирования контекстов с твердым знаком, блок определения мягкости согласных перед маркированными гласными, блок транскрибирования йотированных гласных в начале синтагмы, блок транскрибирования йотированных гласных в позиции после гласной, блок транскрибирования непарных мягких согласных, блок определения звонкости-глухости согласных в сочетаниях согласных, блок оглушения шумных звонких согласных в конце синтагмы, блок ассимиляции твердых согласных перед мягкими, блок транскрибирования двойных согласных, селектор слабоударных слов, блок определения степени редукции гласных в словах с ударением, блок замены гласных первой степени редукции, тринадцатый блок ИЛИ и блок замены гласных второй степени редукции, второй выход селектора служебных слов через блок замены ударений в слабоударных словах соединен со вторым входом двенадцатого блока ИЛИ, а третий выход - с третьим входом двенадцатого блока ИЛИ, второй выход селектора слабоударных слов через блок определения степени редукции в слабоударных словах соединен со вторым входом тринадцатого блока ИЛИ.

Блок формирования слитной речи выполнен реализующим соответствующий алгоритм.

Блок определения степени редукции гласных выполнен реализующим алгоритм, в котором первая степень редукции, или вторая степень выделенности соответствует гласным в позициях первого предударного слога, в безударных позициях в конце синтагмы, в открытом конце слова, если следующее слово начинается с ударного слога и позиции после гласной, а вторая степень редукции, или первая степень выделенности - гласным во всех остальных безударных позициях, третья степень выделенности соответствует гласным в ударных позициях кроме последнего ударного слога синтагмы, гласному которого соответствует четвертая степень выделенности.

Блок замены гласных первой степени редукции выполнен реализующим алгоритм контекстной замены редуцированных безударных гласных первой степени редукции путем соответствующих подстановок.

Блок определения степени редукции гласных в слабоударных словах выполнен реализующим алгоритм редуцирования псевдоударного гласного в слабоударных словах до первой степени редукции.

Блок замены гласных второй степени редукции выполнен реализующим алгоритм контекстной замены редуцированных безударных гласных второй степени редукции путем соответствующих подстановок.

Временной процессор выполнен реализующим алгоритм, ставящий каждому символьному элементу фонетической записи в соответствие временной интервал, определяющий длительность соответствующего звука элемента компиляции, при этом гласные разбиты на три класса, отражающие различия в их фонетическом качестве.

Мелодический процессор содержит последовательно соединенные блок сегментирования синтагмы на слоговые фрагменты, блок определения класса слогового фрагмента и блок определения параметров закона изменения частоты основного тона для сегментов слогов.

Блок сегментирования синтагмы на слоговые фрагменты выполнен реализующим итерационный алгоритм решения соответствующих уравнений.

Блок определения класса слогового фрагмента выполнен реализующим соответствующий алгоритм, в котором слоговые фрагменты разделены на классы в зависимости от коммуникативного типа синтагмы, степени выделенности гласного слога и от совпадения слога с мелодическим центром синтагмы, совпадающим с логическим ударением синтагмы, при этом для завершенности и двух типов незавершенности выделены девять классов слогов: безударные слоги, ударные слоги со степенью выделенности гласного, равной трем, не совпадающие с мелодическим центром, последний ударный слог, не совпадающий с мелодическим центром, мелодический центр для синтагм с типом завершенности соответственно со степенью выделенности гласного n=4 и n=3, мелодический центр соответственно для синтагм с первым и вторым типами незавершенности и степенью выделенности гласного соответственно n= 3 и n= 4, для синтагм с коммуникативным типом "общий вопрос" выделены четыре класса слогов, соответственно безударные и ударные слоги - не мелодические центры с n=3, последний ударный слог - не мелодический центр, мелодический центр со степенями выделенности гласного соответственно n= 3 и n=4, а для синтагм с коммуникативным типом "частный вопрос" выделены два класса слогов - совпадающие и не совпадающие с мелодическим центром.

Блок определения параметров закона изменения частоты основного тона для сегментов слогов выполнен реализующим соответствующий алгоритм.

Блок компиляции содержит последовательно соединенные блок выделения контекста, шифратор кода элемента компиляции, блок акустико-сегментной базы синтеза, блок изменения временных и частотных характеристик элементов компиляции и блок композиции.

Блок акустико-сегментной базы синтеза выполнен в виде блока базы данных, акустико-сегментная база синтеза содержит базовые элементы компиляции в виде оцифрованных сегментов естественной речевой волны фонемной размерности - аллофонов, являющихся акустически и перцептивно различимыми контекстными реализациями фонем.

Шифратор кода элемента компиляции выполнен реализующим алгоритм формирования кода элемента компиляции.

Блок изменения временных и частотных характеристик элемента компиляции выполнен реализующим алгоритм соответствующего функционального преобразования.

Выполнение компьютерного устройства чтения плоскопечатного текста в виде последовательно соединенных блока оптического ввода плоскопечатного текста, выполненного в виде сканера, и блока оптического распознавания текста, блока компиляционного синтеза речи по орфографическому тексту, блока формирования аудиосигнала в виде звуковой платы, и оконечного сигнала, а также содержащим блок текстовой базы данных, тактильного дисплея, блока сопряжения тактильного дисплея с персональным компьютером и блока интерфейса и соответствующих связей между ними позволяет осуществлять считывание и звуковое воспроизведение с высоким качеством синтезированной речи текста, выполненного любым печатным шрифтом на русском языке.

Предложенное выполнение блока унификации текстового файла, блока синтеза русской речи по орфографическому тексту, блока предварительного синтаксического анализа абзаца, блока распознавания слов на русском алфавите, блока морфологического анализа, блока расстановки ударений, блока трансляции слов метаязыка в слова на русском алфавите, блока выделения фраз и синтагм, блока определения коммуникативного типа фраз и синтагм, блока определения коммуникативного типа синтагм, блока определения логического ударения, блока фонетического транскрибирования текста, блока устранения орфографических фикций, блока преобразования буквенной записи в фонетическую, блока формирования слитной речи, блока определения степени редукции гласных, блока замены гласных первой степени редукции, блока определения степени редукции гласных в слабоударных словах, блока замены гласных второй степени редукции, временного процессора, мелодического процессора, блока сегментирования синтагмы на слоговые фрагменты, блока определения класса слогового фрагмента, блока компиляции блока акустико-сегментной базы синтеза, шифратора кода элемента компиляции, а также блока изменения временных и частотных характеристик элемента компиляции позволяет повысить качество звукового воспроизведения синтезированной русской речи за счет обеспечения соответственно ее фонемной, слоговой и словесной разборчивости, а также ее натуральности.

На фиг. 1-14 приведены структурные электрические схемы следующих устройств и блоков: на фиг. 1 - компьютерного устройства для считывания плоскопечатного текста; на фиг. 2 - блока унификации текстового файла; на фиг. 3 - блока синтеза русской речи по орфографическому тексту; на фиг. 4 - блока предварительного синтаксического анализа абзаца; на фиг. 5 - блока распознавания слов на русском алфавите; на фиг. 6 - блока расстановки ударений; на фиг. 7 - блока трансляции слов метаязыка в слова на русском алфавите; на фиг. 8 - блока определения коммуникативного типа фраз и синтагм; на фиг. 9 - блока определения логического ударения; на фиг. 10 - блока фонетического транскрибирования текста; на фиг. 11 - блока устранения орфографических фикций; на фиг. 12 - блока преобразования буквенной записи в фонетическую; на фиг. 13 - блока мелодического процессора; на фиг. 14 - блока компиляции.

Устройство (фиг. 1) содержит блок 1 оптического ввода плоскопечатного текста, блок 2 оптического распознавания текста, блок 3 унификации текстового файла, блок 4 текстовой базы данных и блок 5 синтеза русской речи по орфографическому тексту, оконечный аудиоблок 6, блок 7 сопряжения, тактильный дисплей 8 и блок 9 интерфейса.

Блок 3 унификации текстового файла (фиг.2) содержит блок 10 распознавания многоколоночного текста, блок 11 переформатирования текстового файла в одноколоночный, блок 12 распознавания левых и правых границ текста, блок 13 распознавания красных строк, блок 14 выделения абзацев, блок 15 исключения символов метаязыка, не входящих в допустимый алфавит, блок 16 ликвидации переносов слов и блок 17 переформатирования текстового файла.

Блок 5 синтеза русской речи по орфографическому тексту (фиг.3) включает блок 18 выбора текущего абзаца, блок 19 чтения текущего абзаца, блок 20 предварительного синтаксического анализа абзаца, блок 21 выделения слов в абзаце, селектор 22 ъподслов на подмножествах алфавита метаязыка, блок 23 распознавания слов на русском алфавите, блок 24 трансляции слов метаязыка в слова на русском алфавите, первый блок ИЛИ 25, блок 26 контекстной расшифровки сокращений слов, блок 27 согласования, блок 28 выделения фраз и синтагм, блок 29 определения коммуникативного типа фраз и синтагм, блок 30 определения логического ударения в синтагмах, блок 31 фонетического транскрибирования текста, временной процессор 32, мелодический процессор 33, блок 34 компиляции, блок 35 формирования звукового файла и блок 36 вывода звукового файла.

Блок 20 предварительного синтаксического анализа абзаца (фиг.4) содержит селектор 37 знаков пунктуации, коммутатор 38, блок 39 вербализации знаков пунктуации, второй блок ИЛИ 40, блок 41 контекстного анализа пунктуационных знаков, блок 42 устранения пунктуационных фикций, селектор 43 пунктуационных знаков в записи чисел и блок 44 вербализации пунктуационных знаков в записи чисел.

Блок 23 распознавания слов на русском алфавите (фиг.5) включает блок 45 преобразования кодов прописных графем, селектор 46 слов, включающих пунктуационные знаки, первый селектор 47 словосокращений, третий блок ИЛИ 48, четвертый блок ИЛИ 49, блок 50 морфологического анализа, блок 51 восстановления графемы "йо", селектор 52 аббревиатур, блок 53 трансляции аббревиатур, блок 54 определения части речи, блок 55 расстановки ударений, второй селектор 56 слов-сокращений, блок 57 исключения дефиса и блок 58 исключения апострофа.

Блок 55 расстановки ударений (фиг.6) содержит селектор 59 распознанных слов, блок 60 определения ударного слога, пятый блок ИЛИ 61 и блок 62 определения ударного слога по эмпирическим правилам.

Блок 24 трансляции слов метаязыка в слова на русском алфавите (фиг.7) включает селектор 63 подмножеств алфавита метаязыка, шестой блок ИЛИ 64, блок 65 вербализации арабской цифровой записи чисел, седьмой блок ИЛИ 66, селектор 67 латинских цифр, блок 68 преобразования латинской записи чисел в арабскую, восьмой блок ИЛИ 69, блок 70 русификации слов латинского алфавита и блок 71 вербализации знаков алфавита метаязыка.

Блок 29 определения коммуникативного типа фраз и синтагм (фиг.8) содержит селектор 72 вопросительных фраз, блок 73 определения синтагмы, содержащей вопрос, девятый блок ИЛИ 74 и блок 75 определения коммуникативного типа синтагм.

Блок 30 определения логического ударения (фиг.9) включает селектор 76 логически выделенных слов, десятый блок ИЛИ 77, селектор 78 слов, содержащих частный вопрос, селектор 79 семантически значимых слов, блок 80 определения последнего знаменательного слова синтагмы, одиннадцатый блок ИЛИ 81 и блок 82 логического выделения.

Блок 31 фонетического транскрибирования текста (фиг.10) включает блок 83 устранения орфографических функций, блок 84 преобразования буквенной записи в фонетическую и блок 85 формирования слитной речи.

Блок 83 устранения орфографических фикций (фиг.11) включает блок 86 устранения орфографических фикций в окончаниях слов, блок 87 исключения непроизносимых согласных, блок 88 замены сочетаний согласных эквивалентной буквенной записью и блок 89 преобразования записи слов с твердым произношением "е".

Блок 84 преобразования буквенной записи в фонетическую (фиг.12) включает селектор 90 служебных слов, блок 91 ликвидации ударений в служебных словах, блок 92 ассимиляции служебных слов, двенадцатый блок ИЛИ 93, блок 94 замены ударений в слабоударных словах, блок 95 транскрибирования контекстов с мягким знаком, блок 96 транскрибирования контекстов с твердым знаком, блок 97 определения мягкости согласных перед маркированными гласными, блок 98 транскрибирования йотированных гласных в начале синтагмы, блок 99 транскрибирования йотированных гласных в позиции после гласной, блок 100 транскрибирования непарных мягких согласных, блок 101 определения звонкости-глухости согласных в сочетаниях согласных, блок 102 оглушения звонских согласных в конце синтагмы, блок 103 ассимиляции твердых согласных перед мягкими, блок 104 транскрибирования двойных согласных, селектор 105 слабоударных слов, блок 106 определения степени редукции гласных в словах с ударением, блок 107 замены гласных первой степени редукции, блок 108 определения степени редукции гласных в слабоударных словах, двенадцатый блок ИЛИ 109 и блок 110 замены гласных второй степени редукции.

Блок 33 мелодического процессора (фиг.13) содержит блок 111 сегментирования синтагмы на слоговые фрагменты, блок 112 определения класса слогового фрагмента и блок 113 определения параметров закона изменения частоты основного тона для сегментов слогов.

Блок компиляции 34 (фиг. 14) включает блок 114 выделения контекста, шифратор 115 кода элемента компиляции, блок 116 акустико-сегментной базы синтеза, блок 117 изменения временных и частотных характеристик элементов компиляции и блок композиции 118.

Устройство работает следующим образом.

По стартовому сигналу, поступающему с блока 9 интерфейса на блок 1 оптического ввода плоскопечатного текста,блок 1 начинает ввод графической информации, выполненной любым печатным шрифтом. В качестве блока оптического ввода плоскопечатного текста могут быть использованы серийно выпускаемые ручной или планшетный сканеры, например, сканеры фирмы Hewlett Packard, которые более автоматизированы и потому являются более удобны для незрячего пользователя. Для ввода книжного текста с помощью планшетного сканера необходима предварительная расшивка книги, все остальные операции по вводу осуществляются автоматически. Ручной сканер требует предварительной настройки зрячим оператором (в основном подбор яркости), имеет более узкую полосу захвата и более чувствителен к перекосу.

На выходе блока 1 появляется изображение вводимого текста в одном из графических форматов (обычно в TIFF-формате). По управляющему сигналу с блока 9 блок 2 оптического распознавания текста начинает распознавание графических символов алфавита для преобразования изображения текста в текстовый файл. Графический файл, как известно, представляет собой хранимую в оперативной или долговременной памяти матрицу изображения по элементам разрешения - пикселам. Для переносимости изображений, а также для их сжатия с целью экономии памяти используются различные стандартные форматы графических файлов - PCX, gif,TIFF и др. Текстовый файл, как известно, представляет собой матрицу знакомест, где каждому знакоместу соответствует код некоего символа алфавита (пробел, буква, знак пунктуации, различные специальные символы).

Из разработанных систем оптического распознавания наиболее эффективны система CuneiForm фирмы Cognitive Technologies Ltd. и FineReader, разработка "Диалог-МИФИ".

Обе системы характеризуются высокой эффективностью распознавания (не более 1-3 ошибок на 1 страницы для типографского текста, текста, отпечатанного на лазерном или матричном 24-игольчатом принтерах, первого экз. машинописного текста (CuneiForm). Помимо того обеспечивает распознавание смешанных текстов (кириллица и латинский алфавит), а FineReader эффективно распознает и тексты низкого качества (например, ксерокопии, тексты, отпечатанные на 9-игольчатом матричном принтере). Блок 9 интерфейса обеспечивает интегрирование указанных систем оптического распознавания в заявленное устройство с учетом специфики незрячего пользователя.

С выхода блока 2 текстовый файл передается в блок 3 унификации текстового файла. Этот блок приводит полученный текстовый файл в соответствие с возможностями синтезатора речи, которые более ограниченны, чем возможности живого субъекта, читающего плоскопечатный текст.

Помимо знаков алфавита синтезируемого языка текст может включать различные символы метаязыка и нетекстовые вставки. Каждый текст имеет определенную графическую структуру (заголовки, разбивку на абзацы и т.д.), фрагментирующую текст на законченные в смысловом отношении фрагменты, причем приемы такой фрагментации достаточно разнообразны. Текст может иметь более или менее стандартное типографское оформление: выравнивание строк слева и справа, выделение абзацев красной строкой, отсутствие нетекстовых вставок. Однако при наличии нетекстовых вставок эта структура нарушается: может появиться несколько левых или правых границ. Машинописный текст, как правило, имеет нечеткое выравнивание по правой границе. Иногда абзацы не выделяются красной строкой и т. д. Графическая структура текста может оказаться нарушенной на выходе блока 2 оптического распознавания, если типографский текст набран немоноширинным шрифтом, может нарушиться выравнивание по правой границе текста (строки окажутся неравной длины), может оказаться сдвинутым начало строк, текст вообще может оказаться состоящим из нескольких колонок, из-за ошибок распознавания в текстовом файле могут проявиться символы, не входящие в допустимый алфавит.

Блок оптического распознавания позволяет выделять колонки текста, однако делается это вручную в интерактивном режиме, что неприемлемо для потенциального пользователя. В блоке 10 осуществляется автоматическая проверка наличия более одной колонки в тексте. Признаком многоколоночного текста является наличие пробелов в одних и тех же позициях строк. Будем рассматривать каждую строку как вектор, и преобразуем строки-вектора по следующему правилу: i-тая составляющая, соответствующая i-той позиции в строке, равна 0, если в этой позиции пробел, и 1, если в этой позиции символ, отличный от пробела. Векторное суммирование полученных векторов строк и сравнение составляющих результирующего вектора с порогом позволяет выделить в строке связные области, соответствующие колонкам текста, многоколоночный текстовый файл в блоке 11 переформатируется в одноколоночный.

Для того, чтобы выделить заголовки и абзацы текста, необходимо сначала проверить выровненность текста по левым и правым границам. Распознавание левых и правых границ текста осуществляется в блоке 12. Обозначим li - позицию в i-той строке, соответствующую первому отличному от пробела символу, и ri - позицию, соответствующую последнему, отличному от пробела и символа переноса строки символу. Пусть далее L - множество значений li, а R - множество значений ri для данного текста.

На множествах L и R определяются соответствующие распределения частотностей значений левых и правых границ строк в тексте, а также распределение правых границ строк, завершающихся знаком переноса, и правых границ строк, не завершающихся знаками конца фразы.

Правые границы текста распознаются по их коррелированности с границами строк, завершающихся переносами, или, если переносы слов в тексте отсутствуют, с границами "незавершенных" строк (строк, не завершающихся пунктуационными знаками, ставящимися в конце фраз). Для нечетких правых границ определяются их статистические характеристики (математическое ожидание и дисперсия). Левые границы определяются на подмножестве строк, следующих за вышеперечисленными.

Отступы красных строк определяются на подмножестве строк, начало которых не совпадает с выделенными левыми границами, по их коррелированности с началом фраз и с "неполнотой" предыдущей строки (т.е. в конце строки стоит пунктуационный знак конца фразы, а конец строки не доходит до правой границы текста или отклонение от нечеткой границы превышает толерантный интервал). По найденным значениям отступов красных строк и левых границ определяются начальные позиции для красных строк.

Красные строки (если они есть в тексте) распознаются в блоке 13 по соответствующей позиции начала строки и при условии, что начало строки соответствует началу фразы (для исключения случайных совпадений).

В блоке 14 выделяются абзацы. Обычно в тексте начало абзаца выделяется красной строкой, однако не всегда. Если в данном тексте красные строки не обнаружены, то конец абзаца определяется по признаку "неполноты" строки.

В блоке 15 проверяется наличие в тексте недопустимых символов, обнаруженные недопустимые символы заменяются пробелами.

В блоке 16 ликвидируются знаки переноса в словах (для уменьшения многозначности символа "-"), а блок 17 переформатирует текстовый файл в соответствии с принятым стандартом. Этому стандарту соответствует текст в одну колонку с выделением абзацев красными строками и с нечеткой правой границей. Если очередное слов не умещается на текущей строке, оно переносится на следующую, при этом правая граница не выравнивается за счет пробелов.

Основываясь на обычном житейском опыте, можно сказать, что человеку несвойственно однократное линейное чтение текстовой информации с начала и до конца. Люди обычно неоднократно возвращаются к ранее прочитанному для более адекватного понимания некоторых положений с учетом далее изложенного или просто для того, чтобы освежить в памяти кое-что из ранее прочитанного. Естественно, что каждый раз вводить и распознавать уже однажды прочитанный текст - пустая трата времени. Текстовый файл занимает объем памяти, на 2-3 порядка меньший, чем графический или звуковой файлы, поэтому есть смысл сохранять в долговременной памяти однажды полученный текстовый файл. 250 Мгб памяти на жестком диске позволяют хранить до 100 тыс. страниц текста (или примерно 100 страни