Способ и устройство для идентификации области
Иллюстрации
Показать всеИзобретение относится к области обработки изображений. Техническим результатом является повышение точности определения положения символьной области каждого слова. В способе идентификации символьной области в области слова выполняют бинаризацию области слова для получения бинаризованной области слова, при этом область слова включает несколько слов, принадлежащих к одному ряду. Рассчитывают гистограмму в вертикальном направлении для бинаризованной области слова, при этом гистограмма включает абсциссы пикселей в каждом столбце и накопленное значение пикселей цвета переднего плана для пикселей в каждом столбце. Идентифицируют символьную область каждого слова в области слова согласно информации распределения накопленных значений в гистограмме. Причем идентификация включает определение нескольких наборов абсцисс согласно информации распределения накопленных значений на гистограмме и для каждого набора абсцисс определение столбца пикселей, где первая абсцисса является левой границей символьной области, и определение столбца пикселей, где вторая абсцисса является правой границей символьной области. 3 н. и 12 з.п. ф-лы, 16 ил.
Реферат
[001] По настоящей заявке испрашивается приоритет на основании патентной заявки Китая № 201510726153.9, поданной 30 октября 2015 г., все содержание которой включено в настоящий документ посредством ссылки.
Область техники, к которой относится изобретение
[002] Настоящее изобретение в целом относится к области обработки изображений, в частности к способу и устройству для идентификации области.
Уровень техники
[003] В области обработки изображений перед идентификацией слов на изображении терминалу может сначала потребоваться идентификация символьной области каждого слова.
[004] На предшествующем уровне техники был предложен способ для идентификации области, включая удаление при помощи терминала фона изображения, извлечение основного изображения, идентификацию при помощи технологии повышения четкости границы каждого слова на извлеченном основном изображении и определение символьной области каждого слова в соответствии с идентифицированной границей каждого слова.
[005] Для вышеуказанного решения точность определения символьной области может быть относительно низкой, так как технология повышения четкости может обеспечить только приблизительное положение.
Раскрытие изобретения
[006] Учитывая тот факт, что на предшествующем уровне техники точность положения символьной области относительна низкая, в данном раскрытии представлены способ и устройство для идентификации области.
[007] Согласно первому аспекту осуществления изобретения данного раскрытия предложен способ определения области, включая: бинаризацию области слова для получения бинаризованной области слова, при этом область слова включает несколько слов, принадлежащих к одному ряду; расчет гистограммы в вертикальном направлении для бинаризованной области слова, при этом гистограмма включает абсциссы пикселей в каждом столбце и накопленное значение пикселей цвета переднего плана для пикселей в каждом столбце; идентификацию символьной области каждого слова в области слова согласно информации распределения накопленных значений в гистограмме.
[008] Дополнительно вышеуказанный шаг идентификации может включать: определение нескольких наборов абсцисс согласно информации распределения накопленных значений на гистограмме, при этом каждый из нескольких наборов абсцисс включает первую и вторую абсциссу, расположенные справа от первой абсциссы; при этом накопленные значения, относящиеся соответственно к первой абсциссе и абсциссе справа и прилегающей к первой абсциссе, больше первого порогового значения, а накопленное значение, относящееся к абсциссе слева и прилегающей к первой абсциссе, меньше второго порогового значения; накопленные значения, относящиеся соответственно ко второй абсциссе и абсциссе слева и прилегающей ко второй абсциссе, больше первого порогового значения, а накопленное значение, относящееся к абсциссе справа и прилегающей ко второй абсциссе, меньше второго порогового значения; для каждого из нескольких наборов абсцисс определение столбца пикселей, где первая абсцисса является левой границей символьной области, и определение столбца пикселей, где вторая абсцисса является правой границей символьной области.
[009] Дополнительно шаг определения нескольких наборов абсцисс согласно информации распределения накопленных значений на гистограмме может включать: определение третьей абсциссы на гистограмме согласно информации распределения накопленных значений, при этом третья абсцисса – это абсцисса на гистограмме, относящаяся к левой границе символьной области первого действительного слова среди нескольких слов, или абсцисса на гистограмме, относящаяся к правой границе символьной области последнего действительного слова среди нескольких слов; поиск нескольких наборов абсцисс, начиная с третьей абсциссы в заранее определенном направлении и основываясь на информации распределения накопленных значений.
[0010] Дополнительно, если третья абсцисса – это абсцисса на гистограмме, относящаяся к левой границе символьной области первого действительного слова среди нескольких слов, этап поиска нескольких наборов абсцисс, начиная с третьей абсциссы в заранее определенном направлении и основываясь на информации распределения накопленных значений, включает: для i-го набора абсцисс на гистограмме поиск четвертой абсциссы, начиная с первой абсциссы в i-м наборе абсцисс на гистограмме и в направлении вправо, где накопленные значения, относящиеся соответственно к четвертой абсциссе и абсциссе слева и прилегающей к четвертой абсциссе, больше первого порогового значения, и накопленное значение, относящееся к абсциссе справа и прилегающей к четвертой абсциссе меньше второго порогового значения; при этом , где i – это положительное целое число, начальное значение которого 1, n – это количество действительных слов среди нескольких слов; первая абсцисса в первом наборе абсцисс – этот третья абсцисса; определение четвертой абсциссы как второй абсциссы в i-м наборе абсцисс; поиск, начиная с четвертой абсциссы на гистограмме и в направлении вправо, пятой абсциссы, если i<n, где накопленные значения, относящиеся соответственно к пятой абсциссе и абсциссе справа и прилегающей к пятой абсциссе, больше первого порогового значения, и накопленное значение, относящееся к абсциссе слева и прилегающей к пятой абсциссе, меньше второго порогового значения; установку значения i как i+1 и определение пятой абсциссы как первой абсциссы в i-м наборе абсцисс.
[0011] Наоборот, если третья абсцисса – это абсцисса на гистограмме, относящаяся к правой границе символьной области последнего действительного слова среди нескольких слов, шаг поиска нескольких наборов абсцисс, начиная с третьей абсциссы в заранее определенном направлении и основываясь на информации распределения накопленных значений, включает: для j-го набора абсцисс поиск шестой абсциссы, начиная со второй абсциссы в j-м наборе абсцисс на гистограмме и в направлении влево, где накопленные значения, относящиеся соответственно к шестой абсциссе и абсциссе справа и прилегающей к шестой абсциссе, больше первого порогового значения, и накопленное значение, относящееся к абсциссе слева и прилегающей к шестой абсциссе меньше второго порогового значения; , j – это положительное целое число, начальное значение которого n, n – это количество действительных слов среди нескольких слов; вторая абсцисса в n-м наборе абсцисс – этот третья абсцисса; определение шестой абсциссы как первой абсциссы в j-м наборе абсцисс; поиск, начиная с шестой абсциссы на гистограмме и в направлении влево, седьмой абсциссы, если j>0, где накопленные значения, относящиеся соответственно к седьмой абсциссе и абсциссе слева и прилегающей к седьмой абсциссе, больше первого порогового значения, и накопленное значение, относящееся к абсциссе справа и прилегающей к седьмой абсциссе, меньше второго порогового значения; установку значения j как j-1 и определение седьмой абсциссы как второй абсциссы в j-м наборе абсцисс.
[0012] Наоборот, если третья абсцисса – это абсцисса на гистограмме, относящаяся к левой границе символьной области первого действительного слова среди нескольких слов, этап идентификации третьей абсциссы на гистограмме согласно информации распределения накопленных значений может включать: если несколько слов включают и действительные, и недействительные слова, и первое расстояние между действительным и недействительным словом больше второго расстояния между двумя соседними действительными словами, поиск, начиная с предварительно определенной абсциссы на гистограмме и в направлении влево, интервала, являющегося первым интервалом, ширина которого больше второго расстояния; определение абсциссы справа от интервала, для которой накопленное значение пикселей цвета переднего плана больше первого порогового значения, как третьей абсциссы; при этом предварительно определенная абсцисса принадлежит предварительно определенному диапазону, заданному согласно эмпирическому значению; накопленное значение пикселей цвета переднего плана в интервале меньше второго порогового значения; если все несколько слов являются действительными словами, определение первой абсциссы из расположенных в левой части гистограммы, для которой накопленное значение пикселей цвета переднего плана больше первого порогового значения, как третьей абсциссы.
[0013] Наоборот, если третья абсцисса – это абсцисса на гистограмме, относящаяся к правой границе символьной области последнего действительного слова среди нескольких слов, шаг идентификации третьей абсциссы на гистограмме согласно информации распределения накопленных значений может включать: если несколько слов включают и действительные, и недействительные слова, и первое расстояние между действительным и недействительным словом больше второго расстояния между двумя соседними действительными словами, поиск, начиная с предварительно определенной абсциссы на гистограмме и в направлении вправо, интервала, ширина которого больше второго расстояния; определение абсциссы слева от интервала, для которой накопленное значение пикселей цвета переднего плана больше первого порогового значения, как третьей абсциссы; при этом предварительно определенная абсцисса принадлежит предварительно определенному диапазону, заданному согласно эмпирическому значению; накопленное значение пикселей цвета переднего плана в интервале меньше второго порогового значения; если все несколько слов являются действительными словами, определение первой абсциссы из расположенных в правой части гистограммы, для которой накопленное значение пикселей цвета переднего плана больше первого порогового значения, как третьей абсциссы.
[0014] Дополнительно способ может также включать: бинаризацию целевой области изображения для получения бинаризованной целевой области изображения; расчет в горизонтальном направлении горизонтальной гистограммы для бинаризованной целевой области изображения, при этом горизонтальная гистограмма включает: ординаты пикселей в каждом ряду и накопленное значение пикселей цвета на переднем плане пикселей в каждом ряду; определение нескольких наборов ординат согласно информации распределения накопленных значений на горизонтальной гистограмме, при этом каждый из нескольких наборов ординат включает первую и вторую ординату, расположенные под первой ординатой; для каждого из нескольких наборов ординат определение ряда пикселей, где первая ордината является верхней границей ряда слов, и определение ряда пикселей, где вторая ордината является нижней границей ряда слов; накопленные значения, относящиеся соответственно к первой ординате и ординате снизу и прилегающей к первой абсциссе, больше первого порогового значения, а накопленное значение, относящееся к ординате сверху и прилегающей к первой ординате, меньше второго порогового значения; накопленные значения, относящиеся соответственно ко второй ординате и ординате сверху и прилегающей ко второй абсциссе, больше первого порогового значения, а накопленное значение, относящееся к ординате снизу и прилегающей ко второй абсциссе, меньше второго порогового значения; для k-го ряда в области слова выполнение этапа бинаризации области слова, при этом , k – это положительное целое число, m – это общее количество идентифицированных рядов.
[0015] Согласно второму аспекту осуществления изобретения данного раскрытия предложено устройство идентификации области, включая: первый модуль бинаризации для бинаризации области слова для получения бинаризованной области слова, при этом область слова включает несколько слов, принадлежащих к одному ряду; первый модуль расчета для расчета гистограммы в вертикальном направлении для бинаризованной области слова, при этом гистограмма включает абсциссы пикселей в каждом столбце и накопленное значение пикселей цвета переднего плана для пикселей в каждом столбце; модуль идентификации области для идентификации символьной области каждого слова в области слова согласно информации распределения накопленных значений в гистограмме.
[0016] Дополнительно модуль идентификации области может включать: подмодуль определения координат для определения нескольких наборов абсцисс согласно информации распределения накопленных значений на гистограмме, при этом каждый из нескольких наборов абсцисс включает первую и вторую абсциссу, расположенные справа от первой абсциссы; при этом накопленные значения, относящиеся соответственно к первой абсциссе и абсциссе справа от прилегающей к первой абсциссе, больше первого порогового значения, а накопленное значение, относящееся к абсциссе слева и прилегающей к первой абсциссе, меньше второго порогового значения; накопленные значения, относящиеся соответственно ко второй абсциссе и абсциссе слева и прилегающей ко второй абсциссе, больше первого порогового значения, а накопленное значение, относящееся к абсциссе справа и прилегающей ко второй абсциссе, меньше второго порогового значения; подмодуль идентификации области для определения столбца пикселей, где первая абсцисса является левой границей символьной области, и определения столбца пикселей, где вторая абсцисса является правой границей символьной области, для каждого из нескольких наборов абсцисс.
[0017] Дополнительно подмодуль определения координаты может включать: подмодуль идентификации координаты для определения третьей абсциссы на гистограмме согласно информации распределения накопленных значений, при этом третья абсцисса – это абсцисса на гистограмме, относящаяся к левой границе символьной области первого действительного слова среди нескольких слов, или абсцисса на гистограмме, относящаяся к правой границе символьной области последнего действительного слова среди нескольких слов; подмодуль поиска координаты для поиска нескольких наборов абсцисс, начиная с третьей абсциссы в заранее определенном направлении и основываясь на информации распределения накопленных значений.
[0018] Наоборот, если третья абсцисса – это абсцисса на гистограмме, относящаяся к левой границе символьной области первого действительного слова среди нескольких слов, подмодуль поиска координат далее конфигурируется: для i-го набора абсцисс на гистограмме для поиска четвертой абсциссы, начиная с первой абсциссы в i-м наборе абсцисс на гистограмме и в направлении вправо, при этом накопленные значения, относящиеся соответственно к четвертой абсциссе и абсциссе слева и прилегающей к четвертой абсциссе, больше первого порогового значения, и накопленное значение, относящееся к абсциссе справа и прилегающей к четвертой абсциссе меньше второго порогового значения; при этом , где i – это положительное целое число, начальное значение которого 1, n – это количество действительных слов среди нескольких слов; первая абсцисса в первом наборе абсцисс – этот третья абсцисса; для определения четвертой абсциссы как второй абсциссы в i-м наборе абсцисс; для поиска, начиная с четвертой абсциссы на гистограмме и в направлении вправо, пятой абсциссы, если i<n, где накопленные значения, относящиеся соответственно к пятой абсциссе и абсциссе справа и прилегающей к пятой абсциссе, больше первого порогового значения, и накопленное значение, относящееся к абсциссе слева и прилегающей к пятой абсциссе, меньше второго порогового значения; для установки значения i как i+1 и определения пятой абсциссы как первой абсциссы в i-м наборе абсцисс.
[0019] Наоборот, если третья абсцисса – это абсцисса на гистограмме, относящаяся к правой границе символьной области последнего действительного слова среди нескольких слов, подмодуль поиска координат далее конфигурируется: для j-го набора абсцисс для поиска шестой абсциссы, начиная со второй абсциссы в j-м наборе абсцисс на гистограмме и в направлении влево, где накопленные значения, относящиеся соответственно к шестой абсциссе и абсциссе справа и прилегающей к шестой абсциссе, больше первого порогового значения, и накопленное значение, относящееся к абсциссе слева и прилегающей к шестой абсциссе меньше второго порогового значения; там, где , j – это положительное целое число, начальное значение которого n, n – это количество действительных слов среди нескольких слов; вторая абсцисса в n-м наборе абсцисс – этот третья абсцисса; для определения шестой абсциссы как первой абсциссы в j-м наборе абсцисс; для поиска, начиная с шестой абсциссы на гистограмме и в направлении влево, седьмой абсциссы, если j>0, где накопленные значения, относящиеся соответственно к седьмой абсциссе и абсциссе слева и прилегающей к седьмой абсциссе, больше первого порогового значения, и накопленное значение, относящееся к абсциссе справа и прилегающей к седьмой абсциссе, меньше второго порогового значения; для установки значения j как j-1 и определения седьмой абсциссы как второй абсциссы в j-м наборе абсцисс.
[0020] Наоборот, если третья абсцисса – это абсцисса на гистограмме, относящаяся к левой границе символьной области первого действительного слова среди нескольких слов, подмодуль идентификации координаты далее конфигурируется: если несколько слов включают и действительные, и недействительные слова, и первое расстояние между действительным и недействительным словом больше второго расстояния между двумя соседними действительными словами, для поиска, начиная с предварительно определенной абсциссы на гистограмме и в направлении влево, интервала, являющегося первым интервалом, ширина которого больше второго расстояния; для определения абсциссы справа от интервала, для которой накопленное значение пикселей цвета переднего плана больше первого порогового значения, как третьей абсциссы; при этом предварительно определенная абсцисса принадлежит предварительно определенному диапазону, заданному согласно эмпирическому значению; накопленное значение пикселей цвета переднего плана в интервале меньше второго порогового значения; если все несколько слов являются действительными словами, для определения первой абсциссы из расположенных в левой части гистограммы, для которой накопленное значение пикселей цвета переднего плана больше первого порогового значения, как третьей абсциссы.
[0021] Наоборот, если третья абсцисса – это абсцисса на гистограмме, относящаяся к правой границе символьной области последнего действительного слова среди нескольких слов, подмодуль идентификации координаты далее конфигурируется: если несколько слов включают и действительные, и недействительные слова, и первое расстояние между действительным и недействительным словом больше второго расстояния между двумя соседними действительными словами, для поиска, начиная с предварительно определенной абсциссы на гистограмме и в направлении влево, интервала, ширина которого больше второго расстояния; для определения абсциссы слева от интервала, для которой накопленное значение пикселей цвета переднего плана больше первого порогового значения, как третьей абсциссы; при этом предварительно определенная абсцисса принадлежит предварительно определенному диапазону, заданному согласно эмпирическому значению; накопленное значение пикселей цвета переднего плана в интервале меньше второго порогового значения; если все несколько слов являются действительными словами, для определения первой абсциссы из расположенных в правой части гистограммы, для которой накопленное значение пикселей цвета переднего плана больше первого порогового значения, как третьей абсциссы.
[0022] Дополнительно устройство может также включать: второй модуль бинаризации для бинаризации целевой области изображения для получения бинаризованной целевой области изображения; второй модуль расчета для расчета в горизонтальном направлении горизонтальной гистограммы для бинаризованной целевой области изображения, при этом горизонтальная гистограмма включает: ординаты пикселей в каждом ряду и накопленное значение пикселей цвета на переднем плане пикселей в каждом ряду; модуль определения границы для определения нескольких наборов ординат согласно информации распределения накопленных значений на горизонтальной гистограмме, при этом каждый из нескольких наборов ординат включает первую и вторую ординату, расположенные под первой ординатой; для каждого из нескольких наборов ординат для определения ряда пикселей, где первая ордината является верхней границей ряда слов, и определения ряда пикселей, где вторая ордината является нижней границей ряда слов; накопленные значения, относящиеся соответственно к первой ординате и ординате снизу и прилегающей к первой абсциссе, больше первого порогового значения, а накопленное значение, относящееся к ординате сверху и прилегающей к первой ординате, меньше второго порогового значения; накопленные значения, относящиеся соответственно ко второй ординате и ординате сверху и прилегающей ко второй абсциссе, больше первого порогового значения, а накопленное значение, относящееся к ординате снизу и прилегающей ко второй абсциссе, меньше второго порогового значения; первый модуль бинаризации далее конфигурируется для k-го ряда в области слова для выполнения этапа бинаризации области слова, при этом , где k – это положительное целое число, m – это общее количество идентифицированных рядов.
[0023] Согласно третьему аспекту осуществления изобретения данного раскрытия предложено устройство идентификации области, включая: процессор; память для хранения инструкций, исполняемых процессором; при этом процессор выполнен с возможностью для: бинаризации области слова для получения бинаризованной области слова, где область слова включает несколько слов, принадлежащих к одному ряду; расчета гистограммы в вертикальном направлении для бинаризованной области слова, при этом гистограмма включает абсциссы пикселей в каждом столбце и накопленное значение пикселей цвета переднего плана для пикселей в каждом столбце; идентификации символьной области каждого слова в области слова согласно информации распределения накопленных значений в гистограмме.
[0024] В соответствии с техническими решениями вариантов осуществления настоящего изобретения могут быть достигнуты, по крайней мере, следующие технические результаты.
[0025] В соответствии с вариантами осуществления изобретения может быть решена проблема относительно низкой точности положения символьной области на предыдущих уровнях техники посредством расчета гистограммы в вертикальном направлении для бинаризованной области слова и определения символьной области каждого слова в области слова согласно информации распределения в гистограмме; в результате может быть получен эффект точного положения символьной области каждого слова согласно информации распределения накопленных значений пикселей цвета переднего плана в гистограмме.
[0026] Следует понимать, что, как предшествующее общее раскрытие, так и нижеследующее подробное раскрытие являются лишь примерами и не ограничивают настоящее изобретение.
Краткое описание чертежей
[0027] Сопровождающие чертежи, включенные в настоящий документ и составляющие его часть, иллюстрируют варианты осуществления изобретения, соответствующие настоящему раскрытию, и вместе с настоящим раскрытием служат для пояснения принципов настоящего изобретения.
[0028] Фиг. 1 представляет собой схему, иллюстрирующую область слова в соответствии с некоторыми примерными вариантами осуществления изобретения;
[0029] Фиг. 2 представляет собой функциональную схему, иллюстрирующую способ для идентификации области в соответствии с примерным вариантом осуществления изобретения;
[0030] Фиг. 3А представляет собой функциональную схему, иллюстрирующую способ для идентификации области в соответствии с другим примерным вариантом осуществления изобретения;
[0031] Фиг. 3В представляет собой схему, иллюстрирующую бинаризованную область слова в соответствии с другим примерным вариантом осуществления изобретения;
[0032] Фиг. 3С представляет собой схему, иллюстрирующую гистограмму, рассчитанную в вертикальном направлении в соответствии с другим примерным вариантом осуществления изобретения;
[0033] Фиг. 3D представляет собой функциональную схему, иллюстрирующую способ определения нескольких наборов абсцисс для терминала в соответствии с другим примерным вариантом осуществления изобретения;
[0034] Фиг. 3Е представляет собой схему, иллюстрирующую третью абсциссу, определенную терминалом в гистограмме в соответствии с другим примерным вариантом осуществления изобретения;
[0035] Фиг. 3F представляет собой схему, иллюстрирующую каждый набор абсцисс, определенный на основе гистограммы в соответствии с другим примерным вариантом осуществления изобретения;
[0036] Фиг. 3G представляет собой схему, иллюстрирующую заранее определенные абсциссы в гистограмме в соответствии с другим примерным вариантом осуществления изобретения;
[0037] Фиг. 3H представляет собой схему, иллюстрирующую третью абсциссу, определенную на основе гистограммы в соответствии с другим примерным вариантом осуществления изобретения;
[0038] Фиг. 4 представляет собой функциональную схему, иллюстрирующую способ определения каждого набора абсцисс на основе информации распределения накопленного значения и третьей абсциссы в соответствии с другим примерным вариантом осуществления изобретения;
[0039] Фиг. 5 представляет собой функциональную схему, иллюстрирующую способ определения каждого набора абсцисс на основе информации распределения накопленного значения и третьей абсциссы в соответствии с другим примерным вариантом осуществления изобретения;
[0040] Фиг. 6 представляет собой функциональную схему, иллюстрирующую способ идентификации области слова для терминала в соответствии с примерным вариантом осуществления изобретения;
[0041] Фиг. 7 представляет собой блок-схему, иллюстрирующую устройство для идентификации области в соответствии с примерным вариантом осуществления изобретения;
[0042] Фиг. 8 представляет собой блок-схему, иллюстрирующую устройство для идентификации области в соответствии с другим примерным вариантом осуществления изобретения;
[0043] Фиг. 9 представляет собой блок-схему, иллюстрирующую устройство для идентификации области в соответствии с примерным вариантом осуществления изобретения.
Осуществление изобретения
[0044] Далее в подробностях будут рассмотрены примерные варианты осуществления изобретения, иллюстрируемые сопровождающими чертежами. Дальнейшее описание относится к сопровождающим чертежам, в которых одинаковые номера на разных чертежах обозначают одинаковые или подобные элементы, если не указано иное. Варианты осуществления, рассмотренные в нижеследующем описании примерных вариантов осуществления изобретения, не представляют собой все возможные варианты осуществления, соответствующие настоящему изобретению. Напротив, они представляют собой лишь примеры устройств и способов, соответствующих аспектам, относящимся к настоящему изобретению согласно прилагаемой формуле изобретения.
[0045] Для облегчения понимания сначала будет представлено краткое введение в условия, связанные с каждым примерным вариантом осуществления изобретения.
[0046] Область слова может включать несколько слов, принадлежащих к одному ряду. Область слова может быть областью в изображении идентификационных данных, областью на отсканированном изображении статьи или областью в электронном документе, и вариант осуществления изобретения этим не ограничивается. Дополнительно в варианте осуществления изобретения верхняя граница области слова находится между верхней границей слов в одном ряду и нижней границей слов в предыдущем ряду; нижняя граница области слова находится между нижней границей слов в том же ряду и верхней границей слов в следующем ряду.
[0047] Например, примем, что область слова – это область, содержащая номер удостоверения личности гражданина, входящий в тот же ряд на удостоверении личности второго поколения. Например, см. фиг. 1, верхняя граница области слова находится между l1 и l2, нижняя граница области слова находится между l3 и l4. Например, область слова – это область 11, как показано на фиг. 1.
[0048] Все слова в области слова могут быть действительными словами или комбинацией действительных и недействительных слов. Символьная область для каждого действительного слова требует идентификации; однако, символьная область для каждого недействительного слова не требует идентификации. Например, примем, что область для каждого числа в номере удостоверения личности гражданина требует идентификации (т.е. все числа в номере удостоверения личности гражданина являются действительными словами). Например, слова в области слова могут включать только входящие туда числа, т.е. «3 3 0 4 2 1 1 9 9 0 1 2 1 6 2 8 3 4» или могут включать в дополнение к числам как минимум один символ слева от чисел («3 3 0 4 2 1 1 9 9 0 1 2 1 6 2 8 3 4»). Например, слова в области слова – это «number 3 3 0 4 2 1 1 9 9 0 1 2 1 6 2 8 3 4». Символьная область относится к области, относящейся к одному слову.
[0049] Далее под словами в различных вариантах осуществления изобретения могут подразумеваться числа, буквы, символы, изображения или другое содержание, для которого количество пикселей цвета переднего плана больше порогового значения в рассчитанной гистограмме.
[0050] Фиг. 2 представляет собой функциональную схему, иллюстрирующую способ для идентификации области в соответствии с примерным вариантом осуществления изобретения. Как показано на фиг. 2, способ для идентификации области может включать в себя следующие шаги.
[0051] На шаге 201 область слова может быть бинаризована для получения бинаризованной области слова. Область слова может включать несколько слов, принадлежащих к одному ряду.
[0052] На шаге 202 гистограмма может быть рассчитана в вертикальном направлении для бинаризованной области слова. Гистограмма может включать абсциссы пикселей в каждом столбце и накопленное значение пикселей цвета переднего плана для пикселей в каждом столбце.
[0053] На шаге 203 символьная область каждого слова в области слова может быть идентифицирована согласно информации распределения накопленных значений в гистограмме.
[0054] Способ идентификации области в вариантах осуществления изобретения, как указано, устраняет проблему низкой точности положения символьной области на предыдущих уровнях техники посредством расчета гистограммы в вертикальном направлении для бинаризованной области слова и определения символьной области каждого слова в области слова согласно информации распределения в гистограмме; в результате может быть получен эффект точного положения символьной области каждого слова согласно информации распределения накопленных значений пикселей цвета переднего плана в гистограмме.
[0055] Фиг. 3А представляет собой функциональную схему, иллюстрирующую способ для идентификации области в соответствии с другим примерным вариантом осуществления изобретения. Как показано на фиг. 3, способ для идентификации области может включать в себя следующие шаги.
[0056] На шаге 301 область слова может быть бинаризована для получения бинаризованной области слова. Область слова может включать несколько слов, принадлежащих к одному ряду.
[0057] Наоборот, терминал может предварительно обрабатывать область слова, при этом предварительная обработка включает такие операции, как очистка от шумов, фильтрация, разделение границ и аналогичные; предварительно обработанная область слова может быть бинаризована.
[0058] Бинаризация означает сравнение значений серого уровня пикселей в области слова с предварительно определенным значением серого уровня; разделение пикселей в области слова на две части: группа пикселей, для каждого из которых значение серого уровня больше предварительно определенного значения уровня серого, и группа пикселей, для каждого из которых значение уровня серого меньше предварительно определенного значения серого уровня; выделение двух групп пикселей в области слова при помощи двух различных цветов, таких как белый и черный, для получения бинаризованной области слова, как показано на фиг. 3В. На фиг. 3D пиксели, расположенные в цвете переднего плана, можно назвать пикселями цвета переднего плана, т.е. белыми пикселями на фиг. 3B; пиксели, расположенные в цвете фона, можно назвать пикселями цвета фона, т.е. черными пикселями на фиг. 3В.
[0059] На шаге 302 гистограмма может быть рассчитана в вертикальном направлении для бинаризованной области слова. Гистограмма может включать абсциссы пикселей в каждом столбце и накопленное значение пикселей цвета переднего плана для пикселей в каждом столбце.
[0060] Гистограмма может быть рассчитана в вертикальном направлении после бинаризации области слова. Горизонтальное направление гистограммы может представлять абсциссы пикселей в каждом столбце, а вертикальное направление гистограммы может представлять накопленное значение нескольких пикселей цвета переднего плана для пикселей в каждом столбце; при этом пиксели цвета переднего плана относятся к пикселям в белой области бинаризованной области слова с учетом пикселей цвета фона. Например, терминал может рассчитать гистограмму.
[0061] На шаге 303 несколько наборов абсцисс может быть определено согласно информации распределения накопленных значений в гистограмме.
[0062] И наоборот, см. фиг. 3D, шаг 303 может включать следующие шаги.
[0063] На шаге 303a третья абсцисса может быть определена на гистограмме согласно информации распределения накопленных значений.
[0064] Третья абсцисса может быть абсциссой на гистограмме, относящейся к левой границе символьной области первого действительного слова среди нескольких слов, или абсцисса на гистограмме, относящаяся к правой границе символьной области последнего действительного слова среди нескольких слов.
[0065] Например, примем, что действительные слова в области слова могут быть номером удостоверения личности гражданина на фиг. 1, например, см. фиг. 3Е, третья абсцисса может быть абсциссой X1 на гистограмме, относящейся к левой границе первого действительного слова «3» или абсциссой X2, относящейся к правой границе последнего действительного слова «4».
[0066] На шаге 303b поиск нескольких наборов абсцисс осуществляется, начиная с третьей абсциссы, в заранее определенном направлении и основываясь на информации распределения накопленных значений.
[0067] После идентификации третьей абсциссы терминал может осуществлять поиск нескольких наборов абсцисс, начиная с третьей абсциссы, в заранее определенном направлении и основываясь на информации распределения накопленных значений. Если третья абсцисса – это абсцисса на гистограмме, относящаяся к левой границе символьной области первого действительного слова, то заранее определенное направление – это направление вправо; и если третья абсцисса – это абсцисса на гистограмме, относящаяся к правой границе символьной области последнего действительного слова, то заранее определенное направление – это направление влево.
[0068] Несколько наборов абсцисс может относиться к нескольким действительным словам в области слова, т.е. каждый набор абсцисс может включать первую абсциссу на гистограмме, относящуюся к левой границе символьной области одного действительного слова, и вторую абсциссу на гистограмме, относящуюся к левой границе символьной области действительного слова. Другими словами, каждый набор абсцисс может включать первую абсциссу и вторую абсциссу, расположенные справа от первой абсциссы. Накопленные значения, относящиеся соответственно к первой абсциссе и абсциссе справа от прилегающей к первой абсциссе, больше