Способ деперсонализации персональных данных

Изобретение относится к области защиты информации, хранимой в информационных системах персональных данных (ИСПДн), от несанкционированного доступа (НСД) и может быть использовано на стадиях разработки и оптимизации ИСПДн в защищенном исполнении. Техническим результатом является повышение уровня безопасности ИСПДн. Способ обезличивания персональных данных обеспечивает защиту ИСПДн от НСД на стадиях разработки и оптимизации, оперирует персональными данными субъектов, хранящимися и обрабатываемыми в ИСПДн, и осуществляет хеширование ключевых атрибутов по алгоритму Keccak. При этом на первом этапе экспертным путем определяются ключевые атрибуты. На втором этапе исходное множество данных D(d1, d2, ..., dM), где М - число атрибутов, разбивается на два непересекающихся подмножества данных А1 и А2, относящихся к ключевым и неключевым атрибутам соответственно. На третьем этапе производится хеширование данных из А1 для каждого субъекта и вычисляется значение хеш-функции, которое является одним из атрибутов обоих множеств. 1 з.п. ф-лы.

Реферат

Изобретение относится к области защиты информации, хранимой в информационных системах персональных данных, от несанкционированного доступа и может быть использовано на стадиях разработки и оптимизации ИСПДн в защищенном исполнении.

Известен способ защиты от несанкционированного доступа к информации пользователя в системе обработки информации (патент RU №2309450, МПК G06F 12/14, дата приоритета 26.04.2006, дата публикации 27.10.2007), основанный на том, что формирование сервисных служб системы обработки информации производится из доступного пользователю набора функциональных блоков, расположенных на различных серверах системы. Рабочая информация пользователя подвергается преобразованию, уникальному для каждого обращения пользователя к системе обработки информации, сведения о хранении учетной записи пользователя также подвергаются уникальному для данного случая преобразованию и сохраняются в других местах системы обработки информации. Недостатком известного технического решения является то, что данная система неудобна в использовании, и выполнение указанных в способе требований влечет за собой значительные материальные затраты на внедрение дополнительных функциональных блоков.

Наиболее близким к предлагаемому изобретению по совокупности существенных признаков и принятым в качестве прототипа является способ обезличивания ПД для защиты от несанкционированного доступа к информации пользователя в системе обработки информации (патент RU №2538913, МПК G06F 21/00, дата приоритета 16.10.2012, дата публикации 27.04.2014). Способ основан на преобразовании информации, составляющей по совокупности персональные данные, путем выполнения двухэтапного перемешивания данных, относящихся к разным субъектам, используя перестановки первого и второго уровней, при этом на первом этапе исходное множество данных D(d1, d2, …, dN), где N - число атрибутов, разбивается на непересекающиеся подмножества данных Ai, относящихся к одному атрибуту di, и на втором этапе происходит перестановка данных сначала внутри подмножеств Ai, а затем элементами перестановки являются сами подмножества. В результате пользователь получает деперсонализированные данные и файл, хранящий параметры перестановок и разбиений, которые будут необходимы для решения обратного способа деперсонализации. Данный файл представляет большую ценность для злоумышленника, поэтому должен быть надежно защищен.Так как он хранится на каждом рабочем месте ИСПДн, то необходимо организовать полную защиту каждого элемента такой системы, что в свою очередь влечет за собой значительные материальные затраты.

К недостаткам данного способа можно отнести то, что все персональные сведения хранятся в одной таблице в незашифрованном виде. Имея таблицу обезличенных данных, можно определить (например, по ФИО) наличие конкретного субъекта в данной ИСПДн (например, противотуберкулезного диспансера). А также недостатком является то, что при компрометации некоторых записей в таблице ПДн злоумышленник может получить параметры перестановок и разбиений. И тем самым получить доступ ко всем данным.

Техническая задача заключается в разработке надежного способа обезличивания персональных данных, позволяющего значительно увеличить уровень защищенности данных от НСД и исключить возможность получения доступа ко всем данным при компрометации части и тем самым повысить уровень безопасности ИСПДн на стадиях разработки и оптимизации.

Решение задачи достигается путем выделения в отдельные подмножества и преобразования уникальным неизвестным пользователю образом относящихся к одному субъекту ключевых данных, которые однозначно его идентифицируют.

В качестве исходных данных рассматривается таблица персональных данных D(d1, d2, ,dM), где М - общее число атрибутов, а N - число строк таблицы, множество данных А1 и А2, относящееся к ключевым и неключевым атрибутам соответственно.

При этом на первом шаге экспертным путем определяются редкоизменяющиеся данные и те, которые однозначно идентифицируют субъекта ПДн. Соответствующие атрибуты определяем как ключевые.

На втором шаге исходное множество данных D согласно выбранным ключевым атрибутам разбивается на два непересекающихся подмножества данных A1 и A2. Следует отметить, что в каждое из подмножеств добавляется дополнительный атрибут d0, по значению которого впоследствии производится персонализация данных. В результате число ключевых атрибутов равно К(0<K<М). При этом в А2 содержатся обезличенные данные, не представляющие никакой ценности для злоумышленника, поэтому не требуют защиты и хранятся в открытом виде.

На третьем шаге для совокупности ключевых данных каждой строки ai1, ai2, …, aiK ∈ А1, где i=1, 2, N, вычисляется значение атрибута d0-ai0=F(ai1, ai2, ai3, …, aiK), где F - уникальная неизвестная пользователю функция. В качестве F в данном способе выбрана хеш-функция по алгоритму Keccak.

Практическое применение данного способа подразумевает, что персональные данные хранятся в двух ИСПДн. ИСПДн, хранящая совокупность значений ключевых атрибутов (персональные данные) и значения хеш-функций (d0), должна быть защищенной ИСПДн (ЗИСПДн). В другой обезличенной ИСПДн (ОИСПДн) содержатся обезличенные данные, а именно совокупность значений неключевых атрибутов и соответствующие значения хеш-функций (d0), в этом случае обязательные требования по защите ПДн не устанавливаются. При необходимости работы с персональными данными оператор, используя предоставленные субъектом данные, получает доступ к единственной записи. Следует отметить, что получение достоверных сведений о субъекте обеспечивается лишь при легитимном обращении к ним, то есть при наличии всех ПДн у обратившегося субъекта и удостоверения его личности.

Данный способ обладает следующими преимуществами:

- данные становятся обезличенными, что позволяет снизить затраты на защиту ИСПДн;

- неосуществимость определения наличия конкретного субъекта в ИСПДн по известным уникальным атрибутам;

- оператор при обращении субъекта по его ПДн получает доступ лишь к одной записи ИСПДн;

- невозможен контекстный анализ.

Применение данного способа позволяет обеспечить защиту персональных данных от несанкционированного доступа, в том числе от компрометации информации при ее утечке по техническим каналам, а также обеспечить гарантированный доступ к персональным данным при легитимном обращении.

Эти отличительные признаки по сравнению с прототипом позволяют сделать вывод о соответствии заявляемого технического решения критерию «новизна».

Новое свойство совокупности существенных признаков, приводящих к предотвращению НСД к персональной информации, хранящейся и обрабатываемой в ИСПДн, путем выделения в отдельные подмножества и хешировании относящихся к одному субъекту ключевых данных, которые однозначно его идентифицируют, позволяет сделать вывод о соответствии предлагаемого технического решения критерию «изобретательский уровень».

Предлагаемый способ защиты ПДн от НСД опробован в лабораторных условиях. Способ деперсонализации может быть реализован в виде программного обеспечения на языке программирования С#.

Изначально администратор загружает исходные ПДнв ЗИСПДн. Затем используя уникальный ключ и совокупность значений ключевых атрибутов формируется уникальный необратимый идентификатор, используемый для обезличивания персональных данных. В результате получаем ОИСПДн и ЗИСПДн, описанные выше. При обращении субъект обязан предоставить персональные данные и удостоверение личности. Убедившись, что обратившийся предоставил достоверные данные, оператор вводит свой уникальный ключ и полученные данные с клавиатуры. По введенным данным вычисляется значение хеш-функции, и по этому значению находится соответствующая запись в ОИСПДн. В результате оператор получает доступ к персонализированной информации лишь о конкретном субъекте.

Таким образом, заявляемый способ обезличивания персональных данных позволяет значительно увеличить уровень защищенности данных от НСД и исключить возможности получения доступа ко всем данным при компрометации части путем выделения в отдельные подмножества и хешировании относящихся к одному субъекту ключевых данных, которые однозначно его идентифицируют, и тем самым повысить уровень безопасности ИСПДн на стадиях разработки и оптимизации.

1. Способ деперсонализации персональных данных, заключающийся в преобразовании информации, составляющей по совокупности персональные данные, отличающийся тем, что при передаче из ОЗУ в ПЗУ исходные данные преобразуются следующим образом: выделяются в отдельные подмножества и хешируются относящиеся к одному субъекту ключевые данные, которые однозначно его идентифицируют; при этом на первом этапе экспертным путем определяются ключевые атрибуты; на втором этапе исходное множество данных D(d1, d2, ..., dM), где М - число атрибутов, разбивается на два непересекающихся подмножества данных А1 и А2, относящихся к ключевым и неключевым атрибутам соответственно, в каждое из подмножеств добавляется дополнительный атрибут d0, по значению которого впоследствии производится персонализация данных; а на третьем этапе для совокупности ключевых данных каждой строки ai1, ai2, …, aiK ∈ A1, где i=1, 2,…, N, вычисляется значение атрибута d0-ai0=F(ai1,ai2,ai3,…,aiK), где F - хеш-функция по алгоритму Keccak; в результате совокупность значений ключевых атрибутов (персональные данные) и значения хеш-функций (d0) хранятся в ЗИСПДн, а обезличенные данные, а именно совокупность значений неключевых атрибутов и соответствующие значения хеш-функций (d0), хранятся в ОИСПДн; при обращении субъект обязан предоставить персональные данные и удостоверение личности; убедившись, что обратившийся предоставил достоверные данные, оператор вводит свой уникальный ключ и полученные данные с клавиатуры; по введенным данным вычисляется значение хеш-функции, и по этому значению находится соответствующая запись в ОИСПДн, вследствие чего оператор получает доступ к персонализированной информации лишь об обратившемся субъекте.

2. Способ по п. 1, отличающийся тем, что оператор не имеет доступа ко всей базе ПД.