2544752 - Конвейер классификации данных, включающий в себя правила автоматической классификации

Конвейер классификации данных, включающий в себя правила автоматической классификации

Иллюстрации

Показать все

Изобретение относится к средствам управления данными. Технический результат заключается в уменьшении времени обработки элементов данных. Обнаруживают элемент данных. Классифицируют элемент данных с использованием одного или более свойств, связанных с элементом данных, для формирования связанного с ним набора свойств классификации, причем эти одно или более свойств включают в себя имеющиеся свойства классификации, связанные с элементом данных, при этом элемент данных классифицируется одним или более компонентами классификации. Агрегируют наборы свойств классификации, когда элемент данных классифицируется двумя или более компонентами классификации. Применяют политику к элементу данных на основе по меньшей мере одного из набора свойств классификации и агрегированных наборов свойств классификации. 3 н. и 17 з.п. ф-лы, 6 ил., 1 табл.

Реферат

Уровень техники

Количество данных, управляемых и обрабатываемых в типичной среде предприятия, огромное и быстро увеличивается. Например, является обычным для отделов информационной технологии (IT) иметь дело с многими миллионами или даже миллиардами файлов в десятках форматов. Кроме того, существующее количество имеет тенденцию роста со значительной скоростью (например, с двузначным ежегодным приростом). Большая часть этих данных неактивно управляется и содержится в неструктурированном виде в общих каталогах.

Существующие инструментальные средства и практики управления данными не очень способны поддерживать различные и сложные сценарии, которые могут присутствовать. Такие сценарии включают в себя совместимость, безопасность и хранение и применяются к неструктурированным данным (например, файлам), полуструктурированным данным (например, файлам плюс дополнительные свойства / метаданные) и структурированным данным (например, в базах данных). Таким образом, желательна любая технология, которая снижает затраты на управление и риски неэффективного управления.

Сущность изобретения

Данный раздел «Сущность изобретения» предусматривается для введения выбора характерных принципов в упрощенном виде, которые дополнительно описываются ниже в разделе «Подробное описание». Данный раздел «Сущность изобретения» не предназначен для определения ключевых признаков или существенных признаков заявленного объекта изобретения и не предназначен для использования любым образом, который ограничил бы объем заявленного объекта изобретения.

Вкратце, различные аспекты объекта изобретения, описанные в данном документе, относятся к технологии, посредством которой элементы данных (например, файлы) обрабатываются посредством конвейера обработки данных, включающего в себя конвейер классификации, чтобы способствовать управлению элементами данных, основываясь на их классификации. В одном аспекте конвейер классификации получает метаданные (например, влияние на бизнес, уровень конфиденциальности и т.п.), ассоциированные с каждым обнаруженным элементом данных. Набор из одного или более классификаторов классифицирует элемент данных, если он вызван, в метаданные классификации (например, одно или более свойств), которые затем ассоциируются (сохраняются в ассоциативной связи) с элементом данных. Затем может быть применена политика для каждого элемента данных, основываясь на ассоциированных с ним метаданных классификации, например истечение срока хранения файла, изменение уровня защиты/доступа к файлу и т.п., основываясь на метаданных каждого файла.

В одном аспекте конвейер обработки элементов данных включает в себя модульные компоненты для независимых фаз обнаружения элементов, классификации и применения политики. Каждая фаза является расширяемой и может включать в себя один или более модулей (или ни одного), которые действуют в этой фазе. Метаданные/свойства классификации каждого элемента могут устанавливаться или получаться внешне посредством интерфейса установления или получения соответственно.

В одном аспекте в фазе классификации могут вызываться многочисленные модули классификатора. Может быть принято решение, вызывать ли каждый классификатор, основываясь на различных критериях, таких как были ли и/или когда был ранее классифицирован элемент данных. Классификатор может использовать любое из свойств, ассоциированное с элементом данных, и/или содержимое самого элемента данных при классификации элемента данных. Заданное упорядочение классификаторов, авторитетные классификаторы и/или механизм агрегирования являются из числа методов, которые могут быть использованы для обработки любых конфликтов в отношении того, как разные классификаторы классифицируют один и тот же элемент.

Могут обеспечиваться разные типы классификаторов, включая классификатор, который классифицирует элемент данных, основываясь на расположении элемента данных, основанный на глобальном репозитории классификатор (основанный на владельце и/или авторе) и/или основанный на содержимом классификатор, который классифицирует элемент, основываясь на содержимом, содержащимся в элементе. Каждый классификатор может соответствовать правилам автоматической классификации; классификатор может непосредственно изменить значение свойства или возвратить результат механизму соответствующего правила, так что механизм соответствующего правила может изменить свойство.

Другие преимущества могут стать очевидными из последующего подробного описания, рассматриваемого вместе с чертежами.

Краткое описание чертежей

Настоящее изобретение изображается посредством примеров и не ограничивается прилагаемыми фигурами, на которых подобные позиции указывают аналогичные элементы и на которых:

Фиг.1 представляет собой блок-схему, изображающую примерные модули в конвейерной службе для автоматической обработки элементов данных для управления данными, включая обнаружение элементов данных, классификацию этих элементов данных и применение политики, основываясь на классификации.

Фиг.2 представляет собой представление, изображающее примерные этапы, выполняемые конвейерной службой при обработки файлов файлового сервера в свойства, ассоциированные с файлами.

Фиг.3 представляет собой представление примерной архитектуры службы классификации, иллюстрирующей на примере, как свойства элемента данных могут передаваться между модулями для обработки посредством времени исполнения классификации.

Фиг.4А и 4В содержат блок-схему последовательности операций, изображающую примерные этапы, выполняемые для обработки элементов данных, включающие в себя этапы для классификации элементов для применения политики.

Фиг.5 изображает иллюстративный пример вычислительной среды, в которую могут быть встроены различные аспекты настоящего изобретения.

Подробное описание

Различные аспекты технологии, описанной в данном документе, относятся, в основном, к управлению данными (например, файлами на файловых серверах или т.п.) посредством классификации элементов данных (объектов) в классификацию и применения политик управления данными, основываясь на классификации. В одном аспекте это выполняется посредством модульного подхода для решений с возможностью классификации данных, основанных на конвейере классификации. В основном, конвейер содержит последовательность модульных программных компонентов, которые связываются через общий интерфейс. В различные моменты времени данные обнаруживаются и классифицируются, при этом политика применяется к данным, основываясь на классификации данных.

Хотя различные примеры используются в данном документе, такие как разные типы классификации файлов для классификации файлов/данных, хранимых на файловом сервере, необходимо понять, что любой из примеров, описанных в данном документе, является неограничивающим примером. Например, могут классифицироваться не только файлы, но другие структуры данных также могут классифицироваться в связанные «типы» классификации, например любые данные, которые являются структурированными (например, любая порция данных, которая придерживается абстрактной моделью, описывающей, как представлены данные и как к ним можно обращаться), могут классифицироваться, например, элементы электронной почты, таблицы базы данных, сетевые данные и т.п. Кроме того, могут использоваться другие пути хранения данных, например, вместо, или в дополнение к, файлового сервера, данные могут храниться в локальном запоминающем устройстве, распределенном запоминающем устройстве, сетях устройств хранения данных, запоминающем устройстве Интернета и т.п. По существу, настоящее изобретение не ограничивается какими-либо конкретными вариантами осуществления, аспектами, принципами, структурами, функциональными возможностями или примерами, описанными в данном документе. Скорее, любой вариант осуществления, аспект, принцип, структура, функциональная возможность или пример, описанный в данном документе, является неограничивающим, и настоящее изобретение может использоваться различными путями, которые, как правило, обеспечивают выгоду и преимущества при вычислении и управлении данными.

Фиг.1 изображает различные аспекты, относящиеся к технологии, описанной в данном документе, включая конвейер для обработки элементов данных, который, как приведено в качестве примера в данном документе, может использоваться для обработки файлов, но, как понятно, может использоваться для обработки одной или более других структур данных, таких как элементы электронной почты. В примере на фиг.1 конвейер реализован в виде службы 102, которая работает с любым набором данных, как представлено хранилищем 104 данных.

Обычно конвейерная служба 102 включает в себя модуль 106 обнаружения, службу 108 классификации и модуль 113 политики. Отметьте, что термин «служба» необязательно ассоциируется с единственной машиной, но вместо этого представляет собой механизм, который координирует некоторое исполнение конвейера. В данном примере, служба 108 классификации включает в себя другие модули, а именно модуль (или модули) 109 извлечения метаданных, модуль (или модули) 110 классификации и модуль (или модули) 111 хранения метаданных. Каждый из модулей, описанных ниже, может рассматриваться как фаза, и, действительно, нет необходимости, чтобы временная шкала для каждой операции была непрерывной, т.е. каждая фаза может выполняться относительно независимо и нет необходимости, чтобы она следовала непосредственно за предыдущей фазой. Например, фаза обнаружения может обнаруживать и сохранять элементы, которые фаза классификации классифицирует позже. В качестве другого примера, данные могут классифицироваться ежесуточно, при этом приложение управления данными (например, резервное копирование) выполняется один раз в неделю. Любая из фаз может выполняться независимо, при неавтономной обработке в реальном времени или автономной обработке, при работе в приоритетном режиме или в фоновом режиме (например, в отложенном режиме) или распределенным образом на отдельных машинах.

Обычно модуль (или модули) 106 обнаружения находят элементы для классификации (например, файлы) и могут использовать более одного механизма для выполнения этого. В качестве примера, есть два пути для обнаружения файлов на файловом сервере, один, который работает посредством сканирования файловой системы, и другой, который обнаруживает новые изменения в файлах из протокола удаленного доступа к файлу. Обычно обнаруженные данные обеспечиваются в виде элементов для фазы/службы 108 классификации или непосредственно, или через промежуточное хранение. Таким образом, обнаружение может логически быть отделено от классификации.

Обнаружение может инициироваться различными путями. Одним путем является по требованию, при котором элементы обнаруживаются после запроса. Другим путем является в реальном времени, когда изменение в одном или более элементах запускает операцию обнаружения. Еще другим путем является запланированное обнаружение, например, один раз в день, например, после обычного рабочего времени. Еще другим путем является отложенное обнаружение, при котором фоновый процесс или т.п. выполняется с низким приоритетом для обнаружения элементов, например, когда коэффициент использования сети или сервера является относительно низким. Кроме того, отметьте, что обнаружение может выполняться в неавтономной операции, т.е. над реальными данными или над автономной копией данных, такой как моментальный снимок исходных данных; (отметьте, что, как правило, моментальная копия ссылается на копию конкретных элементов данных, какими они были в некоторый заданный момент времени, посредством чего работа над моментальной копией помогает поддерживать элементы данных в постоянном состоянии, когда они обрабатываются, в противоположность реальной системе, в которой элементы данных могут изменяться в реальном времени).

После фазы/службы 108 классификации (описанной ниже) модуль (или модули) 113 политики применяют политику, основываясь на классификации каждого элемента. В качестве примера, продукт защиты от утечки информации может классифицировать некоторые файлы как имеющие «персональную идентифицируемую информацию» или т.п. Продукт резервного копирования файлов может быть выполнен с политикой, так что любой файл, классифицированный как имеющий «персональную идентифицируемую информацию» должен резервироваться на защищенное запоминающее устройство.

Обращаясь к различным аспектам, относящимся к классификации, как представлено на фиг.1, модуль (или модули) 109 извлечения метаданных находит метаданные, ассоциированные с элементами данных. Например, файловая система имеет многочисленные атрибуты, которые она ассоциирует с файлом, и они могут извлекаться известным образом. Модуль (или модули) 109 извлечения метаданных также извлекает текущие значения метаданных классификации, так что они могут использоваться в качестве входа в фазу классификации. Отметьте, что классификация может выполняться над реальными данными или данными резервного копирования.

Некоторые примеры метаданных включают в себя определения свойств классификации, имеющие различные элементы, такие как имя свойства (или идентификатор), тип значения свойства (который идентифицирует тип данных фактического значения, например простые типы данных, такие как строка, дата, булево выражение, упорядоченное множество или мультимножество значений) и сложные типы данных, такие как типы данных, описываемые иерархической таксономией (тип документа, организационная единица или географическое расположение). Значение свойства классификации (называемое «значением свойства» или просто «свойством») представляет собой некоторое значение, которое может быть присвоено элементу данных с целью классификации этого элемента данных. Это значение ассоциируется со свойством классификации и обычно соблюдает ограничения, налагаемые определением ассоциированного свойства.

Другие примеры включают в себя схему свойств (описывающую большее количество ограничений на возможные значения) и политику агрегирования, описывающую, как многочисленные значения могут агрегироваться в единственное в том случае, когда необходимо такое агрегирование во время исполнения конвейера. Кроме того, метаданные могут содержать дополнительные атрибуты, ассоциированные со свойствами, такие как зависимая от языка информация, дополнительные идентификаторы и т.п.

В качестве примера рассмотрим свойство, названное «влияние на бизнес» типа «упорядоченное множество значений», которое ограничено значениями HBI (сильное влияние на бизнес), MBI (среднее влияние на бизнес) и LBI (слабое влияние на бизнес), с политикой агрегирования, что HBI выигрывает у MBI, которое выигрывает у LBI. Отметьте, что в процессе классификации ассоциирование значения свойства с элементом данных автоматически «связывает» этот документ с классом (т.е. категорией) документов. Например, посредством присоединения свойства BusinessImpact=HBI” к элементу данных этот элемент данных неявно присваивается «категории» документов BusinesImpact=HBI”.

Метаданные также могут храниться во внешнем источнике данных или другом кэше. Один пример включает в себя разрешение пользователям, или клиентам, и/или одному или более другим механизмам устанавливать метаданные классификации, или саму классификацию, и сохранять их в хранилище данных, таком как база данных. Таким образом, например, пользователь может вручную установить файл как содержащий «персональную идентифицируемую информацию» или т.п. Автоматизированный процесс может выполнять подобную операцию, такую как посредством определения метаданных, основываясь на том, какая папка содержит файл, например процесс может автоматически устанавливать ассоциированные метаданные для файла, когда этот файл добавляется к восприимчивой папке.

Кроме того, метаданные для элемента могут сохраняться (кэшироваться) из предыдущей операции извлечения и/или классификации. Таким образом, извлечение метаданных может состоять из многочисленных частей, например извлечь существующие метаданные (извлечение) и извлечь новые метаданные. Как можно легко понять, извлечение существующих метаданных может повысить эффективность классификации, например, для файлов, которые редко изменяются. Кроме того, механизм эффективности может определить, вызывать ли классификатор, основываясь на последнем разе, когда метаданные классификатора были обновлены, например, основываясь на временной метке, принятой от классификатора. Изменение в конфигурации службы 108 классификации, такое как изменение правила или изменение классификатора, также может запустить новую классификацию.

Если метаданные получены для элемента, модуль или модули 110 классификации классифицируют элемент на основе его метаданных. Содержимое элемента также может оцениваться, например, для поиска некоторых ключевых слов (например, «конфиденциальный»), тегов или других индикаторов в отношении свойства файла, которое может использоваться для его классификации. Существуют различные пути для классификации данных. Например, при классификации файлов файл может быть вручную установлен пользователем для классификации и/или классифицировался посредством важного коммерческого (LOB) приложения (например, приложения по трудовым ресурсам), которое управляет файлом. Файл может быть установлен для классификации посредством выполнения сценариев администратора и/или автоматически классифицироваться с использованием набора правил классификации.

Обычно правила автоматической классификации обеспечивают обобщенный расширяемый механизм, который составляет часть фазы 108 конвейера классификации. Это позволяет администратору или т.п. определять правила автоматической классификации, которые применяются к элементам данных для классификации этих элементов. Каждое правило автоматической классификации активизирует модуль классификации (классификатор), который может определить классификацию некоторого набора объектов данных и установить свойства классификации. Отметьте, что один модуль классификатора может включать в себя несколько правил для определения разных свойств классификации для одного и того же элемента данных (или для разных элементов данных). Кроме того, многочисленные классификаторы могут применяться к одному и тому же элементу данных; например, каждый из двух разных классификаторов может определить, имеет ли файл «персональную идентифицируемую информацию». Оба классификатора могут быть использованы для оценки одного и того же файла, посредством чего, даже если только один классификатор определяет, что файл содержит «персональную идентифицируемую информацию», файл классифицируется как таковой.

В качестве примера, некоторые элементы, которые правило может содержать, включают в себя информацию управления правилами (имя правила, идентификаторы и т.п.), область действия правила (описание набора элементов данных, подлежащих управлению правилом, такое как «все файлы в c:\folder1») и варианты оценки правила, описывающие, как правило исполняется во время конвейера. Другие элементы включают в себя модуль классификатора (ссылка на классификатор, используемый данным правилом, для фактического присвоения значения свойства), свойство (необязательное описание, определяющее набор свойств, присвоенных данным правилом) и дополнительные параметры правила, такие как дополнительные политики исполнения (такие как дополнительные фильтры, подобные регулярным выражениям, используемым для классификации содержимого файла, и т.п.).

Примерные модули классификатора включают в себя (1) классификатор, который классифицирует элементы, основываясь на расположении элемента данных (например, каталог файла), (2) классификатор, который классифицирует посредством использования глобального репозитория, основываясь на некоторых характеристиках элемента данных (например, поиск организационной единицы в Active Directory® или AD, основываясь на владельце файла), и (3) классификатор, который классифицирует на основе содержимого данных и характеристик данных (например, поиск шаблона в данных элемента). Отметьте, что это только примеры, и специалист в данной области техники может оценить, что другие характеристики элементов также могут использоваться для классификации разных элементов, т.е. фактически любая относительная разность среди элементов может использоваться для целей классификации.

В одной реализации классификатор может работать в различных режимах. Например, один рабочий режим «явного классификатора» имеет установку классификатора на фактическое свойство или свойства, например, когда персональная информация обнаруживается в файле, классификатор устанавливает соответствующее свойство «PII» (персональная идентифицируемая информация) на «существует» или т.п. Другим подходящим режимом является «неявный классификатор», который может иметь возврат классификатора ИСТИНА или ЛОЖЬ, например, в отношении того, находится ли файл в некотором каталоге, таком как c:\debugger. В режиме ИСТИНА или ЛОЖЬ правило автоматической классификации ассоциируется со свойством и значением, которое должно быть установлено всякий раз, когда классификатор возвращает ИСТИНА. Таким образом, классификатор может устанавливать значение или значения свойства, или правило, которое вызывает классификатор, может выполнить так. Отметьте, что могут применяться классификаторы кроме типов ИСТИНА или ЛОЖЬ, например, тот, который возвращает числовое значение (например, значение вероятности) для обеспечения более детальной классификации и правила классификации.

После классификации результат классификации и, возможно, другие извлеченные метаданные необязательно сохраняются в ассоциативной связи с элементом. Как представлено на фиг.1, модуль 111 хранения метаданных выполняет данную операцию. Хранение позволят применять политику позже, основываясь на классификации.

Отметьте, что каждый из модулей конвейера классификации является расширяемым, так что различные предприятия могут настроить данную реализацию. Расширяемость позволяет подключать более одного модуля в одну и ту же фазу конвейера. Кроме того, любая из фаз может выполняться параллельно или последовательно, например, распределенным образом (по многочисленным машинам). Например, если классификация является дорогой в отношение вычислений, тогда элементы могут распределяться (например, используя методы выравнивания нагрузки) для распараллеливания наборов классификаторов, выполняющихся на разных машинах, при этом результаты каждого параллельного пути подаются на модуль политики.

Что касается политики, приложения (включая те, которые не являются непосредственно подключаемыми в конвейер) могут оценивать метаданные классификации, чтобы выполнить решение о политике в отношении того, как обрабатывать элемент. Такие приложения включает в себя те, которые выполняют операции для проверки истечения срока элемента, аудита, резервного копирования, удержания, поиска, согласованности, оптимизации и т.п. Отметьте, что любая такая находящаяся в процессе решения операция может запускать классификацию данных в случае, когда данные еще не классифицированы, или не классифицированы в отношении находящейся в процессе решения операции.

Как можно легко понять, разные классификаторы могут приводить к разным и возможно конфликтующим классификациям. В одном аспекте выполняется агрегирование значений классификации для свойств. С этой целью для каждого элемента данных оцениваются определенные правила классификации (например, посредством администратора или процесса) для определения свойств классификации. Если два правила классификации могут установить одно и то же значение для одного конкретного свойства классификации, процесс агрегирования определяет окончательное значение свойства классификации. Таким образом, например, если одно правило вызывает результат, в котором свойство устанавливается в «1», и другое правило вызывает результат, где это же свойство устанавливается в «2», тогда определенная политика агрегирования может в некоторых вариантах осуществления определять, каким должно быть фактическим значением для этого свойства, т.е. «1» или «2» или что-то еще. Отметьте, что в данном конкретном сценарии одно правило не перезаписывает установку свойства другого правила, но вместо этого вызывается политика агрегирования для управления конфликтом.

В другом сценарии могут использоваться авторитетные классификаторы. Авторитетные классификаторы представляют собой другой тип классификатора, который обычно представляет собой классификаторы, которые могут переопределять другие классификаторы без активизирования правил агрегирования. Такой классификатор может сигнализировать свой результат, например, так, что он выигрывает любые конфликты.

В другом аспекте обеспечивается механизм для автоматического определения порядка оценки для правил классификации. С этой целью порядок оценки правила может определяться администратором и/или определяться автоматически посредством определения любых зависимостей между разными правилами и классификаторами. Например, если Rule-R1 устанавливает свойство классификации Property-P1, и Rule-R2 использует Classifier-C1, который использует Property-P1 для определения значения Property-P2, тогда Rule-R1 необходимо оценивать перед Rule-R2.

Кроме того, выполнять ли классификатор, может зависеть от результата предыдущего классификатора. Таким образом, например, может использоваться один классификатор, который редко имеет ошибочные положительные выводы, и всякий раз используется его результат «ИСТИНА». Вторичный классификатор (например, предназначенный для устранения ошибочных отрицательных выводов) рассматривается только тогда, когда авторитетный классификатор не возвращает «ИСТИНА» (например, возвращает «ЛОЖЬ» или возможно результат, указывающий неопределенность). Другой пример должен упорядочивать некоторые классификаторы в конвейере, основываясь на заданной «высоте». Например, классификатор с меньшей высотой исполняется в конвейере перед классификатором с большей высотой. Поэтому в конвейере классификаторы сортируются в порядке возрастания высоты.

Фиг.2 изображает более конкретный пример, направленный на реализацию правил расширяемой автоматической классификации на файловом сервере 220. Как правило, вместо модулей фиг.2 представляет различные этапы 221-225 конвейерной службы; как можно видеть, эти этапы/модули 221-225 соответствуют модулям 106, 109-111 и 113 на фиг.1 соответственно. Таким образом, правила классификации применяются в конвейере классификации и включает в себя один или более модулей 221 обнаружения данных (или сканеры), один или более модулей 222 считывания метаданных (например, экстракторы и извлекатели), набор из одного или более модулей 223, которые определяют классификацию (классификаторы), один или более модулей 224, которые хранят метаданные (установщики), и один или более модулей 225, которые применяют политику, основываясь на классификации (модули политики).

Как также представлено на фиг.2, может увеличиваться количество модулей на любом данном этапе. Например, этапы классификации обеспечивают модель расширяемости для классификаторов; администраторы могут регистрировать новые классификаторы, перечислять существующие классификаторы и лишать регистрации классификаторы, которые больше не являются желательными.

Как, в основном, описано в данном документе, этапы для управления файлами на файловых серверах включают в себя классификацию файлов и применение политик управления данными, основываясь на классификации каждого файла. Отметьте, что файл может классифицироваться, так что к нему не применяется никакая политика.

В одной реализации процесс автоматической классификации для файлов на файловом сервере 220 управляется правилами классификации, определенными на этом сервере 220. Когда файл сохраняется на файловом сервере, на котором активна классификация, он классифицируется автоматически, т.е нет явного запроса от пользователя на классификацию файла. Различные критерии классификации, которые могут использоваться для классификации файла на этом конкретном файловом сервере, включают в себя (1) правила классификации и классификаторы, выполняющиеся на файловом сервере, (2) любые предыдущие результаты классификации, которые остаются ассоциированными с файлом, и/или (3) свойства, которые хранятся в самом файле (или его атрибуты). Эти критерии оцениваются при определении классификации данного файла для обеспечения результирующего набора свойств 232, которые хранятся в хранилище 234 свойств (но могут храниться в самом файле).

В одной реализации каждое правило классификации может иметь варианты оценки, например те, которые изложены ниже:

оценивать только тогда, когда файл еще не был классифицирован;

оценивать, даже если файл уже был классифицирован, и принять во внимание предыдущее значение или значения свойства классификации (например, из предыдущих выполнений процесса классификации над этим же файлом, если он существует);

оценивать, даже если файл уже был классифицирован, но не принимать во внимание никакое предыдущее значение свойства классификации.

В качестве примера рассмотрим документ (без присвоенных свойств), сохраненный пользователем в виде файла, в папке на сервере. Правило автоматической классификации классифицирует файл как имеющий среднее влияние на бизнес, т.е. BusinessImpact=MBI. Данная классификация также может сохраняться внутри документа (так как файловый сервер имеет синтаксический анализатор, установленный для данного типа документа).

Рассмотрим, что документ затем копируется на другой сервер (и в другую папку). Новая папка подпадает под правило классификации, которое, если оно выполняется, классифицирует файлы в папке как имеющие сильное влияние на бизнес BusinessImpact=HBI, если файл ранее не классифицирован. Однако так как свойства в данном файле указывают, что классификация BusinessImpact уже установлена на MBI, свойством BusinessImpact файла остается MBI.

Вышеупомянутое правило может быть модифицировано, чтобы оценивать файл, даже если файл уже классифицирован, и может принимать во внимание или может не принимать во внимание значение свойства в файле. При последующем выполнении классификации оценивается правило, и, так как HBI выше MBI, политика агрегирования определяет, что свойство файла должно быть установлено на HBI.

Как можно видеть, каждое правило классификации основывается на классификаторе, который используется для этого правила. В качестве другого примера, рассмотрим правило классификации, которое содержит <scope> (область действия), <classifier> (классификатор), <classification property> (свойство классификации), <value> (значение), в котором классификатор содержит конкретную реализацию, которая используется для классификации файла. Например, классификатор <classify by folder> (классифицировать по папке) позволяет выполнять классификацию файлов по их расположению. Данный классификатор рассматривает текущий путь файла и сопоставляет его с путем, заданным в <scope> правила классификации. Если путь находится в пределах <scope>, тогда правило указывает, что <classification property> может иметь <value>, заданное в правиле; (свойство необязательно установлено, так как может потребоваться агрегирование многочисленных правил для определения, каким является фактическое значение для данного свойства классификации). Отметьте, что это явный классификатор, так как он требует, чтобы было задано <value>.

В качестве примера другого типа классификатора файла классификатор «извлечь классификацию из AD по владельцу» считывает владельца файла и запрашивает активный каталог для вычисления, каким является правильное значение по владельцу для <classification property>, которое упомянуто в правиле. Отметьте, что им является неявный классификатор, так как он определяет <value>; таким образом, <value> не должно быть задано в правиле.

Каждый классификатор может необязательно указывать, какие свойства он использует для логики классификации. Эта информация является полезной при определении порядка, в котором процесс классификации вызывает классификаторы, а также для указания, какие свойства должны быть извлечены из хранилища 234 перед вызовом классификаторов.

Кроме того, каждый классификатор может необязательно указывать, какие свойства используются для установки. Эта информация может использоваться в пользовательском интерфейсе, чтобы показать, какие свойства являются подходящими для данного классификатора (если ни одно не упомянуто, тогда все свойства являются подходящими), а также в процессе классификации, где данная информация указывает, какие свойства должны быть извлечены из хранилища перед вызовом классификаторов. Информация является подходящей для явных и неявных классификаторов. Например, явный классификатор «классифицировать по папке» не имеет конкретные указанные свойства, ни неявный классификатор «извлечь классификацию из AD по владельцу». Однако неявный классификатор «определить организационную единицу» знает только, как установить свойство «организационная единица».

Для дополнительной идентификации необязательная информация может использоваться для описания классификатора, такая как название компании и обозначения версии.

Классификатору также может потребоваться использование дополнительных параметров. Например, если классификатор составлен для нахождения персональной информации в файле, основываясь на некоторых гранулярных выражений, тогда нет необходимости жестко закодировать эти гранулярные выражения в классификатор, но скорее могут предоставляться от внешнего источника, такого как файл расширяемого языка разметки (XML), который регулярно обновляется. В данном случае классификатор включает в себя указатель на этот XML-файл. Классификация, основанная на менеджере ресурсов файлового сервера (FSRM), позволяет задавать дополнительные параметры для классификатора, причем эти параметры передаются классификатору в качестве ввода, когда он вызывается.

Кроме того, поведение во время исполнения классификатора может быть разным между разными классификаторами из-за уровня разрешения, с которым исполняется классификатор. Одним уровнем разрешения является «локальная служба», однако могут потребоваться более высокий или более низкий уровень разрешения, например «локальная система» или «сетевая служба».

Другим аспектом является то, требуется ли классификатору обращение к содержимому файла. Например, вышеописанному классификатору папок нет необходимости обращаться к содержимому файла, так как он классифицирует на основе содержащей папки. В противоположность этому классификатору, который идентифицирует конкретный текст или шаблоны (например, номера кредитной карты) в файле, необходимо обрабатывать содержимое файла. Отметьте, что классификатор, которому необходимо обращаться к содержимому файла, нет необходимости для выполнения с увеличенным преимущественным правом, так как классификация FSRM выводит в виде потока содержимое файла для классификатора.

Нижеследующая таблица суммирует различные характеристики одной реализации классификатора:

Название (уникальное)Разрешен/запрещен (по умолчанию - разрешен)Явный/неявныйНеобходимо ли для классификатора, чтобы классификация FSRM выводила потоком содержимое файла для него? (по умолчанию: нет)Преимущественное право времени исполнения классификатора (по умолчанию: локальная служба)Свойства, которые он использует (необязательно)Свойства, которые он устанавливает (необязательно)Описание (необязательно)Название компании (необязательно)Версия (необязательно)Уровень высотыДополнительные параметры (необязательно)

Фиг.2 также представляет интерфейсы 240, 242 прикладного программирования (API), которые позволяют другим внешним приложениям получать или устанавливать свойства для элемента данных соотве

Конвейер классификации данных, включающий в себя правила автоматической классификации

Патент 2544752