Способ деперсонализации персональных данных

Иллюстрации

Показать все

Изобретение относится к области защиты информации, хранимой в информационных системах персональных данных (ИСПДн), от несанкционированного доступа (НСД) и может быть использовано на стадиях разработки и оптимизации ИСПДн в защищенном исполнении. Техническим результатом является повышение уровня безопасности ИСПДн. Способ деперсонализации персональных данных обеспечивает защиту ИСПДн от НСД на стадиях разработки и оптимизации, оперирует персональными данными субъектов, хранящимися и обрабатываемыми в ИСПДН, и осуществляет двухэтапное перемешивание данных, относящихся к разным субъектам, используя перестановки первого и второго уровней, при этом на первом этапе исходное множество данных D(d1, d2, …, dN), где N - число атрибутов, разбивается на непересекающиеся подмножества данных Ai, относящихся к одному атрибуту di, а на втором этапе происходит непосредственно перестановка данных сначала внутри подмножеств Ai и затем элементами перестановки являются сами подмножества. При росте количества субъектов ПДн уменьшается вероятность подбора параметров деперсонализации, соответственно повышается защищенность ИСПДн. Разбиение исходного множества данных на подмножества позволяет сократить размерность задачи и упростить ее практическую реализацию. 1 з.п. ф-лы, 2 табл.

Реферат

Изобретение относится к области защиты информации, хранимой в информационных системах персональных данных (ИСПДн), от несанкционированного доступа (НСД) и может быть использовано на стадиях разработки и оптимизации ИСПДн в защищенном исполнении.

Известен способ защиты от несанкционированного доступа к информации пользователя в системе обработки информации (патент RU №2309450, МПК G06F 12/14, дата приоритета 26.04.2006, дата публикации 27.10.2007) [1], основанный на том, что формирование сервисных служб системы обработки информации производится из доступного пользователю набора функциональных блоков, расположенных на различных серверах системы. Рабочая информация пользователя подвергается преобразованию, уникальному для каждого обращения пользователя к системе обработки информации, сведения о хранении учетной записи пользователя также подвергаются уникальному для данного случая преобразованию и сохраняются в других местах системы обработки информации. Недостатком известного технического решения является то, что выполнение указанных в способе требований влечет за собой значительные материальные затраты на внедрение дополнительных функциональных блоков.

Наиболее близким к предлагаемому изобретению по совокупности существенных признаков и принятым в качестве прототипа является способ защиты текстовой информации от несанкционированного доступа (патент RU №2439693, МПК G06F 21/24, дата приоритета 04.06.2010, дата публикации 10.01.2012) [2], использующий искажение в системах передачи данных без использования секретных ключей и пин-кодов. Способ включает: шифрование текстового сообщения А, его передачу, дешифрование принятого текстового сообщения А, предоставление восстановленного сообщения пользователю, при этом перед шифрованием на передающей стороне искажают исходное текстовое сообщение А с помощью известного пин-кода Р путем отображения -ого слова, где i = 1 , I ¯ , а - количество слов в исходном сообщении, в соответствующий код Di по таблице возможных значений, замены кода Di на код D K i путем сдвига кода Di по кольцу на заданное в пин-коде Р количество строк k в прямом направлении, а на приемной стороне после дешифрации восстанавливают код Di принятого -ого слова путем сдвига кода D K i по кольцу на заданное в пин-коде Р количество строк k в обратном направлении, осуществляют отображение кода Di в соответствующее i-e слово по таблице возможных значений. Под таблицей возможных значений понимается таблица соответствия слов русского языка, находящихся в простой форме, расположенных в алфавитном порядке, которым поставлен в соответствие код W, равный логарифму по основанию 2 порядкового номера слова. При использовании данного способа из-за ошибочного приема злоумышленником хотя бы одного бита информации в силу свойств применяемого алгоритма шифрования, несмотря на то что при шифровании используется открытый ключ, при дешифровании перехваченных сообщений происходит лавинообразное размножение ошибок. После восстановления дешифрованных сообщений с ошибками в силу свойств применяемого алгоритма искажения текстовой информации будет получено множество текстов, слова в которых связаны грамматически, но автоматизированный анализ полученных текстов невозможен, то есть анализ может выполняться только экспертным путем.

К недостаткам данного способа можно отнести то, что при большой размерности задачи приходится хранить большую таблицу возможных значений для кодирования, что понижает защищенность информации. При небольшом количестве слов в текстовой информации высока вероятность успешного применения метода полного перебора и получения исходного сообщения.

Задача, на решение которой направлено предлагаемое изобретение, заключается в разработке надежного способа деперсонализации персональных данных, позволяющего повысить уровень безопасности ИСПДн на стадиях разработки и оптимизации путем перемешивания персональных данных, относящихся к различным субъектам и снизить требования к уровню защищенности данных, сократив, тем самым, соответствующие расходы.

Сущность изобретения заключается в перемешивании персональных данных, хранящихся в ИСПДн, относящихся к различным субъектам. Данный способ обладает следующими преимуществами: персональные данные хранятся в одной информационной системе и значительно снижается вероятность успеха контекстного анализа.

В качестве исходных данных рассматривается таблица персональных данных D(d1, d2, …, dN), где N - число атрибутов, а M - число строк таблицы, множество данных Ai, относящееся к одному атрибуту - di(i=1, 2, …, N). Все элементы каждого множества пронумерованы.

Способ обеспечивает перемешивание данных каждого множества атрибутов исходной таблицы пошагово. На каждом шаге используется принцип циклических перестановок.

На первом шаге множество данных Ai, относящееся к одному атрибуту, разбивается на Ki (М>Ki>1) непересекающихся подмножеств, где число элементов подмножества Aij равно Mij(M>Mij>1), j=1, 2, …, Ki. Разбиение каждого множества должно обладать следующими свойствами:

1) подмножества разбиения включают все элементы множества данных одного атрибута;

2) каждое подмножество не пусто, а пересечение любых двух подмножеств пусто;

3) все элементы в подмножествах упорядочены как по внутренним номерам (номера элементов внутри подмножества), там и по внешней нумерации самих подмножеств в разбиении;

4) суммарное число элементов всех подмножеств множества данных одного атрибута равно общему числу элементов этого множества.

Для каждого подмножества из разбиения определяется циклическая перестановка (подстановка) pij(rij), в которой производится циклический сдвиг всех элементов подмножества на некоторое число, называемое параметром перестановки. Таким образом, перестановки для всех подмножеств множества данных одного атрибута можно задать набором (вектором) параметров этих перестановок. Данный вектор задает первый уровень способа перемешивания, т.е. перестановки первого уровня.

На втором шаге способа рассматривается циклическая перестановка второго уровня p0i(r0i), элементами которой выступают подмножества, состоящие из Ki элементов, из описанного ранее разбиения. В результате применения данной перестановки производится циклический сдвиг элементов на некоторую величину - параметр перестановки второго уровня.

В результате последовательного проведения перестановок первого и второго уровней (или одной результирующей перестановки pi(r0i, ri,)) получается перемешивание элементов множества данных одного атрибута так, что меняется нумерация этих элементов по отношению к исходной нумерации.

Доступность персональных данных (получение достоверных персональных сведений при легитимном обращении к ним) обеспечивается посредством решения обратного способа деперсонализации. Решением обратного способа деперсонализации является формирование исходной таблицы.

Для оценки защищенности предложенного способа деперсонализации используют такую характеристику, как число вариантов деперсонализации, получаемых при применении данного способа. При большом количестве записей число вариантов получается очень большим, что обеспечивает очень малую вероятность подбора параметров и соответственно хорошую защиту обезличенных данных.

В совокупности признаков заявленного способа используются следующие терминология и обозначения:

- запись в таблице - совокупность элементов множеств разных атрибутов с одинаковыми номерами, при этом в исходной таблице каждая запись имеет определенный смысл, связанный с конкретным субъектом (физическим лицом), т.е. содержит персональные данные конкретного лица, определенного в этой же записи;

- внешний номер mijk - номер элемента в подмножестве Aij, имеющего внутренний номер k, 1≤mijk≤M, т.е. mijk - это порядковый номер элемента во множестве Ai, соответствующий элементу с внутренним номером k;

- циклическая перестановка первого уровня - перестановка, в которой элементы первой строки матрицы, стоящей в правой части равенства, соответствуют внутренним номерам элементов подмножества Aij до перестановки (в исходной таблице), а элементы, стоящие во второй строке, соответствуют внутренним номерами элементов подмножества Aij, стоящим на местах, с номерами, определенными в верхней строке, после перестановки:

p i j ( r ) i j = ( ( M i j − r i j + 1 1 ) ( M i j − r i j 2 + 2 ) ( M i j − r i j 3 + 3 ) ... ... ( M i j − r i j − 1 ) ( M i j − r i j ) ( M i j − 1 )                    M ij ) ;

- параметр перестановки первого уровня rij - некоторое случайное число, задаваемое генератором случайных чисел (ГСЧ) в интервале [1; Mij-1];

- циклическая перестановка второго уровня - перестановка, в которой элементы верхней строки матрицы перестановки соответствуют исходным номерам подмножеств Aij, а элементы нижней строки матрицы соответствуют номерам подмножеств Aij, стоящим на местах с номерами, определенными в верхней строке, после перестановки:

p 0 i ( r ) 0 i = ( ( K i − r 0 i + 1 1 ) ( K i − r 0 i 2 + 2 ) ( K i − r 0 i 3 + 3 ) ... ... ( K i − r 0 i − 1 ) ( K i − r 0 i ) ( K i − 1 )                    K i ) ;

- параметр перестановки второго уровня r0i - некоторое случайное число, задаваемое генератором случайных чисел (ГСЧ) в интервале [1; Ki-1],

- результирующая перестановка - полученная с учетом правил перемножения перестановок первого и второго уровней перестановка, в которой верхняя строка матрицы содержит порядковые номера элементов множества атрибута i, в соответствии с их размещением в столбце после перестановок, а нижняя строка содержит внешние номера элементов множества этого атрибута, соответствующие их размещению в исходной таблице:

Применение данного способа позволяет обеспечить защиту персональных сведений от несанкционированного доступа, в том числе от компрометации информации при ее утечке по техническим каналам, а также обеспечить гарантированный доступ к персональным данным при легитимном обращении. При этом все персональные сведения хранятся в одной таблице, а их получение посредством контекстного анализа или путем перебора весьма трудоемко, а зачастую практически невозможно. Практическое применение данного способа является аналогом абонентского шифрования. Его реализация подразумевает, что персональные данные хранятся на постоянном запоминающем устройстве (ПЗУ) в деперсонализированном виде. При необходимости работы с персональными данными оператор применяет обратный алгоритм деперсонализации (запускает программу работы с персональными данными, реализующую прямой и обратный алгоритм). Следует отметить, что открытая (персонализированная) информация, с которой работает оператор, как правило, хранится в ОЗУ и только по завершении работы (или команде сохранения/синхронизации) записывается в файл в ПЗУ, где она хранится только в закрытом виде.

Эти отличительные признаки по сравнению с прототипом позволяют сделать вывод о соответствии заявляемого технического решения критерию «новизна».

Новое свойство совокупности существенных признаков, приводящих к существенному затруднению НСД к персональной информации, хранящейся и обрабатываемой в ИСПДн, путем перемешивания данных, относящихся к различным субъектам, позволяет сделать вывод о соответствии предлагаемого технического решения критерию «изобретательский уровень».

Предлагаемый способ защиты ПДн от НСД опробован в лабораторных условиях. Способ деперсонализации может быть реализован в виде программного обеспечения на языке программирования С#. Исходные данные могут подаваться на вход в виде текстового файла. Также возможна реализация, в которой данные на вход программы поступают непосредственно из информационной системы. Параметры разбиений исходных множеств данных могут задаваться как пользователем, так и программой, используя генератор случайных чисел (ГСЧ).

В результате работы программы пользователь получает деперсонализированные данные в той же форме, в которой они подавались на вход. Кроме того, создается файл, хранящий параметры перестановок и разбиений, который будут необходимы для решения обратного способа деперсонализации.

Для простоты описания работы устройства представим, что алгоритм перестановки, определенный для множества, соответствующего одному атрибуту, применяется ко всем множествам атрибутов исходной таблицы. В этом случае полный алгоритм перестановки задается следующим набором параметров:

1. (K1, K2, …, KN) - множество, определяющее количество подмножеств для множества каждого атрибута, которое определяет подмножества элементов ( A 11 ,  A 12 ,  ... , A 1K 1 ) ,  (A , 21  A 22 ,  ... , A 2K 2 ),  ... , (A N1 , A N2 ,  ... , A NK N ) ;

2. ( ( M 11 ,  M 12 ,  ... , M 1K 1 ) ,  (M , 21  M 22 ,  ... , M 2K 2 ),  ... , (M N1 , M N2 ,  ... , M NK N ) - множество, определяющее число элементов в подмножествах для множества каждого атрибута;

3. ((r01, r1),(r02, r2), …, (r0N, rN)) - множество параметров перестановок для множества каждого атрибута. Этот набор задает параметры алгоритма деперсонализации для исходной таблицы D(d2, d2, …, dN).

В результате применения процедуры вместо исходной таблицы D(d2, d2, …, dN) получается таблица обезличенных данных D ˜ ( d 1 ,   d 2 ,   ... , d N ) .

Набор параметров:

C(D(d1, d2, …, dN))={(K1, K2,, KN),

( ( M 11 ,  M 12 ,  ... , M 1K 1 ) ,  (M , 21  M 22 ,  ... , M 2K 2 ),  ... , (M N1 , M N2 ,  ... , M NK N ) ,

((r01, r1), (r02, r2), …, (r0N, rN))}

полностью и однозначно задает алгоритм деперсонализации для исходной таблицы D(d1, d2, …, dN).

Пусть исходная таблица D(d1, d2, …, dN) имеет вид (таблица 1):

Таблица 1
Исходная таблица данных
Атрибут d1 Атрибут d2 Атрибут d3 Атрибут d4 Атрибут d5 Атрибут d6
q1 r1 s1 t1 u1 ν1
q2 r2 s2 t2 u2 ν2
Атрибут d1 Атрибут d2 Атрибут d3 Атрибут d4 Атрибут d5 Атрибут d6
q3 r3 s3 t3 u3 ν3
q4 r4 s4 t4 u4 ν4
q5 r5 s5 t5 u5 ν5
q6 r6 s6 t6 u6 ν6
q7 r7 s7 t7 u7 ν7
q8 r8 s8 t8 u8 ν8
q9 r9 s9 t9 u9 ν9
q10 r10 s10 t10 u10 ν10

Для этой таблицы заданы следующие параметры алгоритма деперсонализации:

C(D(d1, d2, d3, d4, d5, d6))

={(3,2,4,3,3,2), ((3,3,4), (6,4), (2,3,2,3), (3,4,3), (5,2,3), (3,7)),

((2, (1,2,3)), (1, (3,1)), (3, (1,2,1/1)), (2, (2,1,2)), (2, (4,1,1)), (1, (1/4)))}.

После выполнения алгоритма деперсонализации получаем таблицу 2 - D ˜ ( d 1 ,   d 2 ,   ... , d N ) .

Таблица 2
Таблица обезличенных данных
Атрибут d1 Атрибут d2 Атрибут d3 Атрибут d4 Атрибут d5 Атрибут d6
q10 r8 s9 t10 u9 ν8
q7 r9 s10 t8 u10 ν9
q8 r10 s8 t9 u8 ν10
q9 r7 s2 t3 u5 ν4
q2 r4 s1 t1 u1 ν5
q3 r5 s5 t2 u2 ν6
Атрибут d1 Атрибут d2 Атрибут d3 Атрибут d4 Атрибут d5 Атрибут d6
q1 r6 s3 t5 u3 ν7
q6 r1 s4 t6 u4 ν2
q4 r2 s7 t7 u7 ν3
q5 r3 s6 t4 u6 ν1

Как видно из примера, в результате применения алгоритма деперсонализации получена преобразованная таблица, в которой записи не соответствуют записям в исходной таблице, что обеспечивает достаточно высокую сложность восстановления исходной таблицы при отсутствии сведений о параметрах алгоритма деперсонализации.

Реализация предлагаемого способа не вызывает затруднений, так как блоки и узлы общеизвестны и широко описаны в технической литературе.

Таким образом, заявляемый способ деперсонализации персональных данных позволяет повысить уровень безопасности ИСПДн на стадиях разработки и оптимизации путем перемешивания персональных данных, относящихся к различным субъектам и снизить требования к обеспечению надлежащего уровня защищенности данных, сократив, тем самым, соответствующие расходы.

Источники информации

1. Патент RU №2309450 «Способ защиты от несанкционированного доступа к информации пользователя в системе обработки информации». G06F 12/14, дата приоритета 26.04.2006, дата публикации 27.10.2007.

2. Патент RU №2439693 «Способ защиты текстовой информации от несанкционированного доступа» МПК G06F 21/24, дата приоритета 04.06.2010, дата публикации 10.01.2012.

3. Куракин А.С. Алгоритм деперсонализации персональных данных // Научно-технический вестник информационных технологий, механики и оптики. СПб НИУ ИТМО, 2012. Выпуск №6.

4. Стенли Р. Перечислительная комбинаторика. М.: Мир, 1990. 440 с.

1. Способ деперсонализации персональных данных, заключающийся в производимом при передаче в оперативное запоминающее устройство преобразовании информации, составляющей по совокупности персональные данные, из постоянного запоминающего устройства путем выполнения двухэтапного перемешивания данных, относящихся к разным субъектам, используя перестановки первого и второго уровней, при этом на первом этапе исходное множество данных D(d1,d2,…,dN), где N - число атрибутов, разбивается на непересекающиеся подмножества данных Ai, относящихся к одному атрибуту di, и на втором этапе происходит непосредственно перестановка данных сначала внутри подмножеств Ai, а затем элементами перестановки являются сами подмножества; для представления ее пользователю и обратном преобразовании информации при ее записи - передаче из оперативного запоминающего устройства в постоянное запоминающее устройство.

2. Способ по п.1, отличающийся тем, что параметры разбиений исходных множеств данных задаются при помощи генератора случайных чисел.