Способ и устройство для определения типа цифрового документа
Иллюстрации
Показать всеИзобретение относится к осуществляемым на компьютере способам и системам обработки документов в целом и, в частности, к способу и устройству для определения типа цифрового документа. Техническим результатом является уменьшение требуемых вычислительных ресурсов для определения типа цифровых документов. В способе определения типа цифрового документа получают обрабатываемый цифровой документ. С помощью процессора электронного устройства запускают множество классификаторов на базе алгоритма машинного обучения (MLA). При этом каждый классификатор из множества классификаторов MLA обучен для определения конкретного типа документа. Множество классификаторов MLA упорядочены в иерархическом порядке выполнения множества классификаторов MLA. Определяют в иерархическом порядке выполнения, относится ли тип документа к одному из типов документов, уверенно определяемых каждым из классификаторов MLA. 4 н. и 53 з.п. ф-лы, 8 ил.
Реферат
ОБЛАСТЬ ТЕХНИКИ
[0001] Настоящая технология относится к осуществляемым на компьютере способам и системам обработки документов в целом и, в частности, к способу и устройству для определения типа цифрового документа.
УРОВЕНЬ ТЕХНИКИ
[0002] Определение типа цифрового документа, иногда называемое «классификацией» цифрового документа, представляет собой процесс отнесения неизвестного документа к одному из предопределенных типов или «классов» документов. Предшествующие типовые решения в данной области техники, направленные на определение типов цифрового документа, основаны на методиках распознавания образов или реализуются с помощью алгоритмов машинного обучения (например, алгоритм машинного контролируемого обучения, алгоритм машинного полуконтролируемого обучения и т.п.).
[0003] Как известно специалистам в данной области техники, алгоритм машинного обучения (machine learning algorithm - «MLA») проходит «обучение» с применением обучающей выборки маркированных данных. Для того чтобы обучить MLA определять тип цифрового документа, алгоритму MLA (на стадии обучения) предоставляется достаточное большое количество маркированных объектов обучения, каждый из которых содержит цифровой документ с назначенной меткой, указывающей на соответствующий тип документа. В контролируемых или полуконтролируемых вариантах алгоритма MLA назначенная метка обычно создается «экспертами» - лицами, которые вручную рассматривают процесс обучения цифровых документов и назначают им метки на основе собственного профессионального суждения.
[0004] На этапе обучения с помощью алгоритма MLA идентифицируются определенные признаки для каждого документа в обучающей выборке (точные признаки зависят от выполнения MLA и (или) типа документов в обучающей выборке) и коррелируются идентифицированные признаки документов с назначенной меткой. При рассмотрении большого количества таких обучающих объектов алгоритм MLA «учится» определять шаблоны или скрытые связи между выявленными признаками документа и типом документа.
[0005] Существует большое количество различных видов признаков документов, выявленных при обучении алгоритма MLA (и, соответственно, видов признаков документов, используемые MLA после обучения для определения типа неизвестного документа). К примерам выявляемых признаков документов (на примере содержащего текст цифрового документа) относятся: частотность слов, разметка текста, гистограммы длин серий и т.п.
[0006] После обучения MLA (и его валидации с использованием подмножества обучающих объектов для валидации), MLA используется для классификации неизвестного документа. При анализе признаков неизвестного документа MLA использует собственную обученную формулу для определения типа неизвестного документа.
[0007] Как правило, в данной области техники известно, что существует компромисс между «стоимостью» извлечения заданного признака документа и его точностью в отношении определения типа цифрового документа. В технической области обработки документов под «стоимостью» извлечения признаков может пониматься ресурсоемкость (т.е. ресурсы обработки, необходимые для извлечения и (или) обработки таких признаков документов), время, необходимое для извлечения и (или) обработки таких признаков документов или денежные затраты (например, лицензионные и подобные сборы за программное обеспечение для оптического распознавания символов (OCR) или иное программное обеспечение для обработки).
[0008] OCR, например, которое используется для выявления слов в образце (например, в контексте обрабатываемого неизвестного документа) с целью вычисления частоты слов или иных текстовых признаков, может быть затратным по части вычислительных и финансовых ресурсов. Ресурсоемкость выполнения OCR на отдельной странице документа может составлять от нескольких миллисекунд до нескольких секунд в зависимости от количества слов/символов на странице, а также в зависимости от качества документа. Таким образом, в системе, выполняющей обработку многочисленных документов, стоимость ресурсов обработки значительно возрастает по мере роста количества документов.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
[0009] Задача настоящей технологии заключается в устранении, по меньшей мере, некоторых имеющихся недостатков, присутствовавших на известном уровне техники.
[0010] Варианты реализации настоящей технологии были разработаны на основе мнения изобретателей о том, что на известном уровне техники существует, по меньшей мере, одна техническая проблема. Не стремясь к ограничению в рамках какой-либо конкретной теории изобретатели считают, что существующие алгоритмы MLA, используемые для классификации цифровых документов (т.е. для определения типа неизвестного цифрового документа), на стадии определения типа неизвестного цифрового документа используют все признаки документа, которые были выявлены на этапе обучения MLA.
[0011] Более конкретно, изобретатели теоретизируют, что на этапе обучения алгоритм MLA получает обучающие объекты и определяет большое количество признаков документа, связанных с обучающими цифровыми документами обучающих объектов. На этапе обучения алгоритм MLA определяет значимые признаки документа (т.е. те признаки документа, которые являются определяющими для типа документа), и эти значимые признаки документа используются при обучении MLA и при определении различных скрытых связей между признаками документа и типом документа.
[0012] В алгоритме MLA эти значимые признаки документа обычно хранятся в базе данных вместе со связанными значениями или с диапазоном значений. Для определения типа неизвестного цифрового документа MLA использует все эти признаки документов и рассчитывает все значимые признаки обрабатываемого неизвестного цифрового документа. Авторы настоящей технологии полагают, что такой подход к использованию MLA для определения типа документа отнимает вычислительные ресурсы компьютера, может быть относительно длительным и требовать значительных ресурсов памяти на компьютере.
[0013] В широком смысле варианты реализации настоящей технологии решают, по меньшей мере, некоторые из определенных выше вопросов путем предоставления системы для выполнения способа, способа для определения типа неизвестного цифрового документа с использованием множества классификаторов MLA, связанных с иерархическим порядком выполнения. Каждый конкретный классификатор MLA основан на минимальном наборе признаков документа, назначенных этому конкретному классификатору MLA. Если с помощью конкретного классификатора MLA определен тип документа с предустановленной степенью уверенности, для неизвестного цифрового документа назначается тип документа, предсказанный этим конкретным классификатором MLA, при этом оставшиеся классификаторы MLA не запускаются (что позволяет избежать необходимости дальнейшей обработки неизвестного цифрового документа).
[0014] В широком смысле каждый последующий классификатор ML А (т.е. классификатор MLA, связанный непосредственно со следующим представлением в иерархическом порядке выполнения) использует относительно более «дорогие» признаки документа (по сравнению с классификатором (классификаторами) MLA, представленным (представленными) непосредственно перед ними в иерархическом порядке выполнения). В вариантах реализации настоящей технологии под более «дорогими» понимаются признаки документов, требующие более значительных ресурсов обработки для их получения (извлечения из цифрового документа) и (или) обработки. Таким образом, авторы настоящего изобретения считают, что, по меньшей мере, один из вариантов реализации настоящей технологии позволяет определить тип неизвестного цифрового документа за счет использования относительно меньших вычислительных мощностей/ресурсов для обработки; путем относительного сокращения времени обработки, по меньшей мере, некоторых из неизвестных цифровых документов (например, цифровых документов, для которых тип документа может быть уверенно определен с помощью классификатора MLA, связанного с более ранним местом в порядке выполнения).
[0015] Некоторые аспекты настоящей технологии на этапе обучения каждого классификатора MLA включают определение типов документов, которые наилучшим образом определяются с помощью того или иного классификатора MLA из множества классификаторов MLA (т.е. какие типы документов лучше всего определяются заданным классификатором MLA со степенью уверенности выше заданного порога). После установления связи определенного типа документа с конкретным классификатором MLA (используемым на более раннем этапе в иерархическом порядке выполнения) обучающие объекты, содержащие цифровые документы для обучения заданного типа документов, более не используются для обучения других классификаторов MLA (т.е. классификаторов MLA, используемых на более позднем этапе в иерархическом порядке выполнения). Иным словами, классификаторы MLA из множества классификаторов MLA проходят независимое обучение. Также в некоторых вариантах реализации признаки документов, используемые для обучения конкретного классификатора MLA из множества классификаторов, не используются для обучения других классификаторов из множества классификаторов MLA.
[0016] Также в некоторых вариантах реализации на этапе использования классификаторов MLA, когда классификаторы используются для определения типа документа для неизвестного цифрового документа, классификаторы MLA запускаются последовательно в соответствии с их местом в иерархическом порядке выполнения, начиная с одного наиболее раннего представления в иерархическом порядке выполнения (т.е. классификатор MLA, использующий самые «дешевые» признаки) последовательно по всем оставшимся классификаторам MLA (каждый следующий классификатор MLA при этом использует последовательно более «дорогие» признаки документов). Если с помощью конкретного классификатора MLA был определен тип документа со степенью уверенности больше заданного порога, устанавливается тип неизвестного цифрового документа и оставшиеся классификаторы MLA не запускаются. Иными словами, переход к следующему классификатору MLA (т.е. к следующему классификатору MLA, занимающему непосредственно следующую позицию в иерархическом порядке выполнения) выполняется только в том случае, если с помощью предыдущего классификатора не удалось установить тип документа (т.е. степень уверенности для типа выдаваемого документа ниже заданного порога).
[0017] В некоторых вариантах реализации различные типы документов связаны с различными уровнями структуризации документов. В широком смысле типы документов могут быть дифференцированы следующим образом: (i) документ с жесткой структурой, (ii) документ с почти жесткой структурой, (iii) слабоструктурированный документ и (iv) неструктурированный документ.
[0018] Для определения типа документа варианты реализации настоящей технологии включают запуск одного или более классификаторов MLA из множества классификаторов MLA, множество классификаторов MLA предназначено для выборочного запуска в последовательности согласно иерархическому порядку выполнения. Запуск каждого классификатора MLA может рассматриваться как «этап» многоэтапного (или каскадного) процесса определения типа документа. Каждый из классификаторов MLA обучается для определения конкретного типа документа с использованием определенного набора признаков документа. Таким образом, для цифровых документов определенного типа может оказаться достаточным выполнить обработку с помощью одного классификатора MLA (т.е. классификатора MLA, связанного с более ранним местом в иерархическом порядке выполнения). Для цифровых документов иных типов может потребоваться запуск подмножества или даже всех классификаторов MLA для определения типа документа с достаточной степенью уверенности.
[0019] В некоторых вариантах реализации изобретения могут быть применены различные классификаторы ML А следующим образом. Различные представленные ниже классификаторы MLA организованы следующим образом: (i) в соответствии с их местом в иерархическом порядке выполнения и (ii) в порядке возрастания сложности признаков документа, используемых конкретным классификатором MLA.
[0020] Первый классификатор MLA (может запускаться как растровый классификатор): классификатор для определения типа документа с использованием признаков на основе изображения.
[0021] Второй классификатор MLA (может запускаться как классификатор по логотипам): классификатор для определения типа документа с использованием признаков изображения на основе логотипа (т.е. основанные на изображении признаки логотипа, используемые в шапке цифрового документа или основанные на изображении признаки, связанные с ведущей частью цифрового документа, которые используются вместо логотипа).
[0022] Третий классификатор MLA (может запускаться как rule-based классификатор (на основе правила)): классификатор для определения типа документа с использованием признаков на основе текста, требующих обработки, по меньшей мере, части содержимого цифрового документа.
[0023] Четвертый классификатор MLA (может запускаться как текстовый классификатор): классификатор для определения типа документа с использованием признака на основе текста из совокупности или, по существу, всей совокупности содержимого цифрового документа.
[0024] Первый классификатор MLA и второй классификатор MLA используют относительно «дешевые» признаки документов (т.е. признаки документов, не требующие значительных вычислительных ресурсов) - помимо прочего они могут быть представленными признаками на основе изображений (например: размер изображения, общее количество черных пикселей, распределение черных пикселей и т.п.). Третий классификатор MLA и четвертый классификатор MLA используют прогрессивно более «дорогие» признаки (т.е., требующие относительно больших вычислительных ресурсов) - они могут быть представлены текстовыми признаками (например: наличие определенных слов-идентификаторов, их частотность и т.д.).
[0025] Поскольку первый классификатор MLA, второй классификатор MLA, третий классификатор MLA и четвертый классификатор MLA (т.е. классификаторы MLA, связанные с последовательным размещением в иерархическом порядке выполнения) используют постепенно более дорогие признаки документов, можно сказать, что первый классификатор MLA, второй классификатор MLA, третий классификатор MLA и четвертый классификатор MLA (т.е. классификаторы MLA, связанные с последовательным размещением в иерархическом порядке выполнения) связаны с прогрессивно сокращающейся скоростью вывода типа документа.
[0026] Варианты реализации настоящей технологии позволяют определять тип каждого документа, минимальный набор признаков документов, необходимых для определения конкретным классификатором MLA типа документа со степенью уверенности выше заданного порога уверенности. Изобретатели считают, что технический эффект от реализации настоящей технологии достигается, по меньшей мере, частично за счет выборочного последовательного использования многочисленных классификаторов MLA с увеличивающейся степенью вычислительной сложности. Таким образом, авторы настоящего изобретения считают, что для множества обрабатываемых неизвестных цифровых документов общие вычислительные ресурсы, необходимые для определения типов этих цифровых документов, будут относительно ниже (при этом преимущество, по большей части, возникает за счет этих неизвестных цифровых документов, обработанных классификаторами MLA, занимающими более раннее место в иерархическом порядке выполнения, и, соответственно, имеющими меньшую вычислительную сложность).
[0027] В соответствии с первым широким аспектом настоящей технологии обеспечивается способ для определения типа цифрового документа. Способ выполняется электронным устройством, включающим: интерфейс цифрового документа для получения цифрового документа для последующей обработки; устройство хранения данных; процессор, связанный с интерфейсом цифрового документа и с устройством хранения данных, выполненный с возможностью запуска множества классификаторов на базе алгоритма машинного обучения (MLA), при этом каждый из множества классификаторов MLA обучается для определения соответствующего типа документа; при этом устройство хранения данных выполнено с возможностью хранения данных обработки для множества классификаторов MLA и указания на иерархический порядок выполнения множества классификаторов MLA. Способ включает: получение обрабатываемого цифрового документа через интерфейс цифрового документа; запуск процессором первого классификатора MLA из множества классификаторов MLA с целью возможного определения типа цифрового документа, при этом первый классификатор MLA связан с наиболее ранним местом в иерархическом порядке выполнения; определение процессором того, является ли установленный первым классификатором MLA тип документа одним из типов документов, уверенно определяемых первым классификатором MLA; если установленный первым классификатором MLA тип документа является одним из типов документов, уверенно определяемых первым классификатором MLA: назначение процессором типа документа, установленного первым классификатором MLA, для заданного цифрового документа; если установленный первым классификатором MLA тип документа не является одним из типов документов, уверенно определяемых первым классификатором MLA: запуск процессором второго классификатора MLA из множества классификаторов MLA с целью возможного определения типа цифрового документа, при этом второй классификатор MLA связан с местом в иерархическом порядке исполнения непосредственного после первого классификатора MLA.
[0028] В некоторых вариантах реализации данный способ дополнительно включает: если установленный первым классификатором MLA тип документа является одним из уверенно определяемых типов документов, то любые другие классификаторы из множества классификаторов MLA не запускаются.
[0029] В некоторых вариантах реализации способ дополнительно включает: если установленный первым классификатором MLA тип документа не является уверенно определяемым первым классификатором ML А: определение процессором, относится ли установленный тип документа вторым классификатором MLA к типам документов, уверенно определяемых вторым классификатором MLA; если установленный вторым классификатором MLA тип документа относится к типам документов, уверенно определяемых вторым классификатором MLA: назначение цифровому документу типа, установленного вторым классификатором MLA; если установленный вторым классификатором MLA тип документа не является уверенно определяемым вторым классификатором MLA: запуск процессором третьего классификатора MLA из множества классификаторов MLA с целью возможного определения типа цифрового документа, при этом третий классификатор MLA связан с местом в иерархическом порядке выполнения непосредственно после второго классификатора MLA.
[0030] В некоторых вариантах реализации данный способ дополнительно включает: если установленный вторым классификатором MLA тип документа является одним из уверенно определяемых вторым классификатором MLA типов документов, любые другие классификаторы из множества классификаторов MLA не запускаются.
[0031] В некоторых вариантах реализации способа множество классификаторов MLA включает: первый классификатор MLA, второй классификатор MLA, третий классификатор MLA и четвертый классификатор MLA.
[0032] В некоторых вариантах реализации способа каждый классификатор: первый классификатор MLA, второй классификатор MLA, третий классификатор MLA и четвертый классификатор MLA проходят независимое обучение.
[0033] В некоторых вариантах реализации способа первый классификатор MLA обучается на первой выборке обучающих объектов, второй классификатор MLA обучается на второй выборке обучающих объектов, третий классификатор MLA обучается на третьей выборке обучающих объектов, а четвертый классификатор MLA обучается на четвертой выборке обучающих объектов.
[0034] В некоторых вариантах реализации способа вторая выборка обучающих объектов не включает, по меньшей мере, некоторые признаки документа из первой выборки обучающих объектов; третья выборка обучающих объектов не включает, по меньшей мере, некоторые признаки документа из первой выборки обучающих объектов и второй выборки обучающих объектов; а четвертая выборка обучающих объектов не включает, по меньшей мере, некоторые признаки документа из первой выборки обучающих объектов, второй выборки обучающих объектов и третьей выборки обучающих объектов.
[0035] В некоторых вариантах реализации способа первый классификатор MLA является растровым классификатором.
[0036] В некоторых вариантах реализации способа второй классификатор MLA является классификатором по логотипам.
[0037] В некоторых вариантах реализации способа третий классификатор MLA является rule-based классификатором (на основе правила).
[0038] В некоторых вариантах реализации способа третий классификатор ML А дополнительно выполнен с возможностью вызова функции OCR, по меньшей мере, для заданной части цифрового документа.
[0039] В некоторых вариантах реализации способа четвертый классификатор MLA является текстовым классификатором.
[0040] В некоторых вариантах реализации способа четвертый классификатор MLA дополнительно выполнен с возможностью вызова функции OCR для всего цифрового документа.
[0041] В некоторых вариантах реализации способа выбирается один из следующих типов документа: документ с жесткой структурой, документ с почти жесткой структурой, слабоструктурированный документ и неструктурированный документ.
[0042] В некоторых вариантах реализации способа способ, в зависимости от типа документа, дополнительно включает выполнение в отношении цифрового документа выполняемого компьютером действия.
[0043] В некоторых вариантах реализации способа устанавливаемый по одному из множества классификаторов MLA тип документа является гипотезой о типе документа, с параметром уверенности, который (i) выше заданного порога и (ii) имеет различие между параметром уверенности и параметром уверенности следующей гипотезы о типе документа выше второго заданного порога.
[0044] В некоторых вариантах реализации способа способ дополнительно включает перед получением обучение множества классификаторов MLA.
[0045] В некоторых вариантах реализации способа, в рамках обучения способ дополнительно содержит сохранение указания соответствующего типа цифрового документа, который заданный один из множества классификаторов MLA обучен уверенно определять, как указатель типа документа уверенно определяемого заданным классификатором MLA.
[0046] В некоторых вариантах реализации способа, в рамках обучения способ дополнительно содержит определение параметра уверенности, связанного с установлением заданного одного из множества классификаторов MLA.
[0047] В некоторых вариантах реализации способа, в рамках обучения способ дополнительно содержит анализ параметра уверенности для заданного типа документа и заданного классификатора MLA и в следующих случаях: (i) параметр уверенности ниже первого заданного порога и (ii) разность между параметром уверенности и параметром уверенности следующей гипотезы о типе документа ниже второго заданного порога - определение того, что заданный тип документа не может определяться заданным классификатором MLA.
[0048] В некоторых вариантах реализации, в рамках обучения способ дополнительно содержит анализ параметра уверенности для гипотезы о заданном типе документа и заданного классификатора MLA и при выполнении обоих следующих условий: (i) параметр уверенности выше первого заданного порога и (ii) разность между параметром уверенности и параметром уверенности следующей гипотезы о типе документа выше второго заданного порога - определение того, что заданный тип документа может определяться заданным классификатором MLA.
[0049] В некоторых вариантах реализации, в рамках обучения способ на основе сравнения установленных типов документов из набора документов для валидации для заданного классификатора MLA с назначенной меткой для набора документов для валидации дополнительно содержит: определение параметров точности и полноты для каждого указания типов документов; сравнение точности и полноты для каждого указания типов документов с соответствующими пороговыми значениями параметров точности и полноты; если параметры точности и полноты для каждого указания типов документов превышают соответствующие пороговые значения параметров точности и полноты: сохранение указания типов документов, которые заданный классификатор из множества классификаторов MLA обучен уверенно определять, как указание на то, что данный тип документов уверенно определяется заданным классификатором MLA.
[0050] В некоторых вариантах реализации способа интерфейс цифрового документа содержит сетевой интерфейс, при этом получение документа подразумевает: получение цифрового документа по сети связи.
[0051] В некоторых вариантах реализации способа интерфейс цифрового документа содержит сканер и при этом включает в себя: получение отсканированной версии бумажного документа.
[0052] В соответствии с другим более широким аспектом настоящей технологии имеется электронное устройство. Электронное устройство включает в себя: интерфейс цифрового документа для получения цифрового документа для последующей обработки; устройство хранения данных; процессор, связанный с интерфейсом цифрового документа и с устройством хранения данных, выполненный с возможностью запуска множества классификаторов на базе алгоритма машинного обучения (MLA), при этом каждый из множества классификаторов MLA обучается для определения соответствующего типа документа; при этом устройство хранения данных выполнено с возможностью хранения данных обработки для множества классификаторов MLA и указания на иерархический порядок запуска множества классификаторов MLA; процессор выполнен с возможностью: получения обрабатываемого цифрового документа через интерфейс цифрового документа; запуска процессором первого классификатора MLA из множества классификаторов MLA с целью возможного определения типа цифрового документа, при этом первый классификатор MLA связан с наиболее ранним местом в иерархическом порядке выполнения; определения процессором того, является ли установленный первым классификатором MLA тип документа одним из типов документов, уверенно определяемых первым классификатором MLA; если установленный первым классификатором MLA тип документа является одним из типов документов, уверенно определяемых первым классификатором MLA: назначение процессором типа документа, установленного первым классификатором MLA, для заданного цифрового документа; если установленный первым классификатором MLA тип документа не является одним из типов документов, уверенно определяемых первым классификатором MLA: запуск процессором второго классификатора MLA из множества классификаторов MLA с целью возможного определения типа цифрового документа, при этом второй классификатор MLA связан с местом в иерархическом порядке выполнения непосредственного после первого классификатора MLA.
[0053] В некоторых вариантах реализации электронного устройства процессор дополнительно выполнен с возможностью: не запускать любые другие классификаторы из множества классификаторов MLA, если установленный первым классификатором MLA тип документа является одним из уверенно определяемых типов документов.
[0054] В некоторых вариантах реализации электронного устройства процессор дополнительно выполнен с возможностью: если установленный первым классификатор MLA тип документа не является уверенно определяемым первым классификатором MLA: определения, относится ли установленный тип документа вторым классификатором MLA к типам документов, уверенно определяемых вторым классификатором MLA; если установленный вторым классификатором MLA тип документа относится к типам документов, уверенно определяемых вторым классификатором MLA: назначения цифровому документу типа, определенного вторым классификатором MLA; если установленный вторым классификатором MLA тип документа не является уверенно определяемым вторым классификатором MLA: запуска третьего классификатора MLA из множества классификаторов MLA с целью возможного определения типа цифрового документа, при этом третий классификатор MLA связан с местом в иерархическом порядке выполнения непосредственно после второго классификатора MLA.
[0055] В некоторых вариантах реализации электронного устройства процессор дополнительно выполнен с возможностью: не запускать любые другие классификаторы из множества классификаторов MLA, если установленный вторым классификатором MLA тип документа является одним из уверенно определяемых вторым классификатором MLA типов документов.
[0056] В некоторых вариантах реализации электронного устройства множество классификаторов MLA включает: первый классификатор MLA, второй классификатор MLA, третий классификатор MLA и четвертый классификатор MLA.
[0057] В некоторых вариантах реализации электронного устройства каждый классификатор: первый классификатор MLA, второй классификатор MLA, третий классификатор MLA и четвертый классификатор MLA проходят независимое обучение.
[0058] В некоторых вариантах реализации электронного устройства первый классификатор MLA обучается на первой выборке обучающих объектов, второй классификатор MLA обучается на второй выборке обучающих объектов, третий классификатор MLA обучается на третьей выборке обучающих объектов, а четвертый классификатор MLA обучается на четвертой выборке обучающих объектов.
[0059] В некоторых вариантах реализации электронного устройства вторая выборка обучающих объектов не включает, по меньшей мере, некоторые признаки документа из первой выборки обучающих объектов; третья выборка обучающих объектов не включает, по меньшей мере, некоторые признаки документа из первой выборки обучающих объектов и второй выборки обучающих объектов; а четвертая выборка обучающих объектов не включает, по меньшей мере, некоторые признаки документа из первой выборки обучающих объектов, второй выборки обучающих объектов и третьей выборки обучающих объектов.
[0060] В некоторых вариантах реализации электронного устройства первый классификатор MLA является растровым классификатором.
[0061] В некоторых вариантах реализации электронного устройства второй классификатор MLA является классификатором по логотипам.
[0062] В некоторых вариантах реализации электронного устройства третий классификатор MLA является rule-based классификатором (на основе правила).
[0063] В некоторых вариантах реализации электронного устройства третий классификатор MLA дополнительно выполнен с возможностью вызова функции OCR, по меньшей мере, для заданной части цифрового документа.
[0064] В некоторых вариантах реализации электронного устройства четвертый классификатор MLA является текстовым классификатором.
[0065] В некоторых вариантах реализации электронного устройства четвертый классификатор MLA дополнительно выполнен с возможностью вызова функции OCR для всего цифрового документа.
[0066] В некоторых вариантах реализации электронного устройства выбирается один из следующих типов документа: документ с жесткой структурой, документ с почти жесткой структурой, слабоструктурированный документ и неструктурированный документ.
[0067] В некоторых вариантах реализации электронного устройства процессор в зависимости от типа документа дополнительно выполнен с возможностью запуска в отношении цифрового документа выполняемого компьютером действия.
[0068] В некоторых вариантах реализации электронного устройства устанавливаемый по одному из множества классификаторов MLA тип документа является гипотезой о типе документа с параметром уверенности, который (i) выше заданного порога и (ii) имеет различие между параметром уверенности и параметром уверенности следующей гипотезы о типе документа выше второго заданного порога.
[0069] В некоторых вариантах реализации электронного устройства процессор в рамках обучения дополнительно выполнен с возможностью определения параметра уверенности, связанного с выдачей заданного одного из множества классификаторов MLA.
[0070] В некоторых вариантах реализации электронного устройства процессор в рамках обучения дополнительно выполнен с возможностью анализа параметра уверенности для заданного типа документа и заданного классификатора MLA и в следующих случаях: (i) параметр уверенности ниже первого заданного порога и (ii) разность между параметром уверенности и параметром уверенности следующей гипотезы о типе документа ниже второго заданного порога - определение того, что заданный тип документа не может уверенно определяться заданным классификатором MLA.
[0071] В некоторых вариантах реализации электронного устройства процессор в рамках обучения дополнительно выполнен с возможностью анализа параметра уверенности для заданного типа документа и заданного классификатора MLA и при выполнении следующих двух условий: (i) параметр уверенности ниже первого заданного порога и (ii) разность между параметром уверенности и параметром уверенности следующей гипотезы о типе документа ниже второго заданного порога - определение того, что заданный тип документа может уверенно определяться заданным классификатором MLA.
[0072] В некоторых вариантах реализации электронного устройства в рамках обучения на основе сравнения установленных типов документов из набора документов для валидации для заданного классификатора MLA с назначенной меткой для набора документов для валидации процессор дополнительно выполнен с возможностью: определения параметров точности и полноты для каждого указания типов документов; сравнения точности и полноты для каждого указания типов документов с соответствующими пороговыми значениями параметров точности и полноты; если параметры точности и полноты для каждого указания типов документов превышают соответствующие пороговые значения параметров точности и полноты: сохранения указания типов документов, которые заданный классификатор из множества классификаторов MLA обучен уверенно определять, как указание на то, что данный тип документов уверенно определяется заданным классификатором ML А.
[0073] В некоторых вариантах реализации электронного устройства интерфейс цифрового документа включает сетевой интерфейс, при этом для получения обрабатываемого цифрового документа процессор выполнен с возможностью получения цифрового документа по сети связи.
[0074] В некоторых вариантах реализации электронного устройства интерфейс цифрового документа включает сканер, при этом для получения обрабатываемого цифрового документа процессор выполнен с возможностью получения отсканированной версии бумажного документа.
[0075] В соответствии с другим более широким аспектом настоящей технологии предусматривается способ обучения множества классификаторов MLA для определения типа неизвестного цифрового документа, при этом способ выполняется электронным устройством, связанным с множеством классификаторов MLA. Способ включает: последовательное обучение первого классификатора из множества классификаторов MLA и второго классификатора из множества классификаторов MLA, при этом в ходе обучения первого и второго классификаторов из множества классификаторов MLA выполняется определение: первого типа документа уверенно определяемого первым классификатором из множества классификаторов MLA, второго типа документа уверенно определяемого вторым классификатором из множества классификаторов MLA; при этом первый и второй классификаторы из множества классификаторов MLA запускаются в иерархическом порядке, а такой иерархический порядок установлен таким образом, что соответствующее множество признаков документа, используемых вторым классификатором из множества классификаторов MLA, является относительно более дорогим по сравнению с соответствующим набором признаков, используемых первым классификатором из множества классификаторов MLA.
[0076] В некоторых вариантах реализации способа первый тип документов представлен множеством первых типов документов.
[0077] В некоторых вариантах