Способ и устройство для извлечения шаблона данных
Иллюстрации
Показать всеИзобретение относится к извлечению шаблона данных. Техническим результатом является повышение точности обработки данных. Способ извлечения шаблона данных, включающий в себя: получение набора данных для моделирования, при этом набор данных для моделирования состоит из массива данных для моделирования; соответствующее шифрование числовых данных, входящих в массив данных для моделирования, с целью получения массива зашифрованных данных, кластеризацию массива зашифрованных данных с целью получения не менее одного шаблона данных; подтверждение коэффициента охвата для каждого шаблона данных; и определение фактического шаблона данных на основании не менее одного шаблона данных в соответствии с результатами подтверждения. 3 н. и 20 з.п. ф-лы, 4 ил.
Реферат
ПЕРЕКРЕСТНАЯ ССЫЛКА НА СВЯЗАННЫЕ ЗАЯВКИ
[0001] Настоящая заявка основана на Заявке №201510791533.0 на выдачу Китайского патента, все содержание которой включено в настоящий документ и по которой испрошен приоритет. Данная заявка была подана 17 ноября 2015 г.
ОБЛАСТЬ ТЕХНИКИ
[0002] Настоящее изобретение, в целом, относится к области информационных технологий, и, более конкретно, к способу и устройству для извлечения шаблона данных.
УРОВЕНЬ ТЕХНИКИ
[0003] В условиях современной жизни пользователи ежедневно получают большой объем уведомляющей информации, отправляемой в виде коротких сообщений, писем по электронной почте и мгновенных сообщений. В ходе исследования таких данных было определено, что, как правило, такие сообщения обладают схожими структурами текста, а шаблоны данных, извлеченные на основании данных структур текста, являются крайне важными для таких аспектов, как улучшение взаимодействия с пользователем, а также поддержка технологий обработки естественного языка.
[0004] В настоящее время извлечение часто встречающихся последовательностей представляет собой широко распространенный способ извлечения шаблона данных, в ходе которого осуществляют анализ массива данных на наличие шаблонов данных посредством предварительно заданных пороговых значений. Если при практическом применении частота обнаружения определенных данных превышает заданное пороговое значение, то в таком случае данные применяют в качестве шаблона данных.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
[0005] Настоящим изобретением раскрыты способ и устройство для извлечения шаблона данных.
[0006] В соответствии с первым аспектом осуществления данного изобретения заявлен способ извлечения шаблона данных, включающий в себя:
[0007] получение набора данных для моделирования, при этом набор данных для моделирования включает в себя массив данных для моделирования;
[0008] соответствующее шифрование числовых данных, входящих в массив данных для моделирования, с целью получения массива зашифрованных данных, и
[0009] кластеризация массива зашифрованных данных с целью получения не менее одного шаблона данных.
[0010] В соответствии со вторым аспектом осуществления данного изобретения заявлено устройство извлечения шаблона данных, включающее в себя:
[0011] модуль сбора данных, сконфигурированный для получения набора данных для моделирования, при этом набор данных для моделирования включает в себя массив данных для моделирования;
[0012] модуль шифрования, сконфигурированный для соответствующего шифрования числовых данных, входящих в массив данных для моделирования, с целью получения массива зашифрованных данных, и
[0013] модуль кластеризации, сконфигурированный для кластеризации массива зашифрованных данных с целью получения не менее одного шаблона данных.
[0014] В соответствии с третьим аспектом осуществления данного изобретения заявлено устройство извлечения шаблона данных, включающее в себя:
[0015] процессор; и
[0016] запоминающее устройство для хранения команд, выполняемых процессором;
[0017] при этом процессор сконфигурирован для:
[0018] получения набора данных для моделирования, при этом набор данных для моделирования включает в себя массив данных для моделирования;
[0019] соответствующего шифрования числовых данных, входящих в массив данных для моделирования, с целью получения массива зашифрованных данных, и
[0020] кластеризации массива зашифрованных данных с целью получения не менее одного шаблона данных.
[0021] Преимущества, обеспечиваемые техническими решениями в соответствии с вариантами осуществления данного изобретения, могут включать в себя:
[0022] шаблон данных извлекают путем анализа массива данных для моделирования, а шифрование числовых данных, входящих в данные для моделирования, происходит в ходе процесса извлечения шаблона, благодаря чему предотвращают утечку персональных данных пользователя вместе с извлеченным шаблоном. Таким образом обеспечивают более научный способ извлечения шаблона данных.
[0023] Следует понимать, что как вышеизложенное общее описание, так и последующее детальное описание являются всего лишь иллюстративными и поясняющими, и не ограничивают объем изобретения, как оно заявлено.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0024] Чертежи, которые включены в настоящую спецификацию и составляют ее часть, иллюстрируют варианты осуществления в соответствии с изобретением и, вместе с описанием, служат для разъяснения принципов изобретения.
[0025] Фиг. 1 представляет собой блок-схему извлечения шаблона данных в соответствии с примером осуществления.
[0026] Фиг. 2 представляет собой блок-схему извлечения шаблона данных в соответствии с примером осуществления.
[0027] Фиг. 3 представляет собой схематическое изображение устройства для извлечения шаблона данных в соответствии с примером осуществления.
[0028] Фиг. 4 представляет собой структурную блок-схему устройства для извлечения шаблона данных в соответствии с примером осуществления.
ПОДРОБНОЕ ОПИСАНИЕ
[0029] Далее приведено подробное описание примеров осуществления изобретения, проиллюстрированных на чертежах. Приведенное ниже описание относится к чертежам, на которых одни и те же номера на различных чертежах представляют одни и те же или аналогичные элементы, если на чертежах не указано иное. Варианты осуществления, представленные в последующем описании примеров осуществления, не представляют всех вариантов осуществления, соответствующих данному изобретению. Напротив, они являются только примерами устройств и способов, соответствующих аспектам изобретения, как изложено в прилагаемых пунктах формулы изобретения.
[0030] Фиг. 1 представляет собой блок-схему извлечения шаблона данных в соответствии с примером осуществления. Как показано на Фиг. 1, способ извлечения шаблона данных применяют на сервере. Данный способ включает в себя следующие шаги.
[0031] При выполнении шага 101 получают набор данных для моделирования, при этом набор данных для моделирования включает в себя массив данных для моделирования.
[0032] При выполнении шага 102 числовые данные, входящие в массив данных для моделирования, шифруют соответствующим образом с целью получения массива зашифрованных данных.
[0033] При выполнении шага 103 проводят кластеризацию массива зашифрованных данных с целью получения не менее одного шаблона данных.
[0034] В соответствии со способом, заявленным в данном варианте осуществления изобретения, извлечение (выделение) шаблона данных осуществляют путем анализа массива данных для моделирования, а шифрование числовых данных, входящих в данные для моделирования, происходит в ходе процесса извлечения шаблона, благодаря чему предотвращают раскрытие персональных данных пользователя вместе с извлеченным шаблоном. Таким образом обеспечивают более научный способ для извлечения шаблона данных.
[0035] В другом варианте осуществления данного изобретения получение набора данных для моделирования включает в себя:
[0036] получение массива данных для обработки, при этом каждый блок данных, подлежащий обработке, по меньшей мере, содержит идентификатор передающей стороны;
[0037] разделение массива данных, подлежащего обработке, между различными наборами данных, при этом каждый блок данных, подлежащий обработке и включенный в каждый из наборов данных, обладает одинаковым идентификатором передающей стороны;
[0038] получение первого предварительно заданного числа блоков данных, подлежащих обработке, в соответствии с идентификатором стороны, передающей любой блок данных, подлежащий обработке, из соответствующего набора данных; и
[0039] составление набора данных для моделирования из первого предварительно заданного числа блоков данных, подлежащих обработке.
[0040] В другом варианте осуществления данного изобретения соответствующее шифрование числовых данных, включенных в массив данных для моделирования, с целью получения массива зашифрованных данных включает в себя:
[0041] для любых данных для моделирования, - получение территориального идентификатора данных для моделирования, в соответствии с идентификатором стороны, принимающей данные для моделирования;
[0042] шифрование идентификатора принимающей стороны, принимающей данных для моделирования с целью получения кода первого признака данных для моделирования;
[0043] шифрование числовых данных из данных для моделирования с целью получения кода второго признака данных для моделирования, в зависимости от типа числовых данных, включенных в данные для моделирования; и
[0044] объединение в единый блок зашифрованных данных территориального идентификатора, кода первого признака, кода второго признака и времени получения данных для моделирования.
[0045] В другом варианте осуществления данного изобретения кластеризация массива зашифрованных данных с целью получения не менее одного шаблона данных выключает:
[0046] соответствующую консолидацию зашифрованных данных, которые удовлетворяют первому условию консолидации для массива зашифрованных данных, с целью получения первого массива консолидированных данных;
[0047] соответствующую консолидацию зашифрованных данных, которые удовлетворяют второму условию консолидации для первого массива консолидированных данных, с целью получения второго массива консолидированных данных; и
[0048] кластеризацию второго массива консолидированных данных с целью получения не менее одного шаблона данных.
[0049] В другом варианте осуществления данного изобретения соответствующая консолидация зашифрованных данных, которые удовлетворяют первому условию консолидации для массива зашифрованных данных, с целью получения первого массива консолидированных данных включает в себя:
[0050] получение массива первых целевых блоков зашифрованных данных из массива зашифрованных данных, при этом зашифрованные данные в каждом первом целевом блоке зашифрованных данных имеют одинаковые территориальный идентификатор, код первого признака и код второго признака;
[0051] установку последовательности для зашифрованных данных в любом первом целевом блоке зашифрованных данных в зависимости от времени получения, в порядке от последнего до самого раннего; и
[0052] сохранение в первом целевом блоке зашифрованных данных, зашифрованных данных которые были получены последними, а также удаление остальных зашифрованных данных из первого целевого блока зашифрованных данных с целью получения единого первого консолидированного блока данных.
[0053] В другом варианте осуществления данного изобретения соответствующая консолидация зашифрованных данных, которые удовлетворяют второму условию консолидации для первого массива консолидированных данных с целью получения второго массива консолидированных данных включает в себя:
[0054] получение массива вторых целевых блоков зашифрованных данных из первого массива консолидированных данных, при этом первый блок консолидированных данных в каждом втором целевом блоке зашифрованных данных имеет одинаковые территориальный идентификатор и код второго признака;
[0055] для любого второго целевого блока зашифрованных данных, - получение числа первых блоков консолидированных данных во втором целевом блоке зашифрованных данных, а также последнего времени приема первых консолидированных данных во втором целевом блоке зашифрованных данных; и
[0056] объединение в единый второй блок консолидированных данных территориального идентификатора второго целевого блока зашифрованных данных, числа первых консолидированных данных во втором целевом блоке данных, кода второго признака второго целевого блока зашифрованных данных и последнего времени приема первых консолидированных данных во втором целевом блоке зашифрованных данных.
[0057] В другом варианте осуществления данного изобретения кластеризация второго массива консолидированных данных с целью получения не менее одного шаблона данных включает в себя:
[0058] разделение на массивы третьих целевых блоков зашифрованных данных второго массива консолидированных данных, при этом второй блок консолидированных данных в каждом третьем целевом блоке зашифрованных данных обладает одинаковым территориальным идентификатором;
[0059] для любого третьего целевого блока зашифрованных данных, - получение числа первых консолидированных данных, которые консолидированы по любым вторым консолидированным данным в третьем целевом блоке зашифрованных данных, и если число первых консолидированных данных, которые консолидированы по вторым консолидированным данным, превышает первое пороговое значение, объединение в единую запись информационного наполнения, соответствующего вторым консолидированным данным, числу первых консолидированных данных, которые консолидированы по вторым консолидированным данным, а также последнему времени приема третьего целевого блока зашифрованных данных; и
[0060] консолидация массива записей, имеющих одинаковое информационное наполнение, из третьего целевого блока зашифрованных данных с целью получения одного шаблона данных. Число применимых зашифрованных данных в шаблоне данных представляет собой сумму числа зашифрованных данных, консолидированных для массива записей, а время приема шаблона данных представляет собой последнее время приема массива записей.
[0061] В другом варианте осуществления данного изобретения способ получения не менее одного шаблона данных после кластеризации массива зашифрованных данных далее включает в себя:
[0062] подтверждение коэффициента охвата каждого шаблона данных; и
[0063] определение фактического шаблона данных на основании не менее одного шаблона данных в соответствии с результатами подтверждения.
[0064] В другом варианте осуществления данного изобретения подтверждение коэффициента охвата каждого шаблона данных включает в себя:
[0065] получение набора тестовых данных, при этом набор тестовых данных включает в себя массив тестовых данных;
[0066] соответствующую обработку массива тестовых данных с целью получения первых блоков тестовых данных; и
[0067] подтверждение коэффициента охвата каждого шаблона данных в соответствии с массивом первых блоков тестовых данных.
[0068] В другом варианте осуществления данного изобретения получение набора тестовых данных включает в себя:
[0069] получение второго предварительно заданного числа подлежащих обработке данных с целью получения набора тестовых данных среди остальных подлежащих обработке данных из набора данных, соответствующих идентификатору стороны, отправляющей подлежащие обработке данные.
[0070] В другом варианте осуществления данного изобретения соответствующая обработка массива тестовых данных с целью получения первого массива блоков тестовых данных включает в себя:
[0071] соответствующее шифрование массива тестовых данных с целью получения массива зашифрованных тестовых данных;
[0072] соответствующую консолидацию зашифрованных тестовых данных, которые удовлетворяют третьему условию консолидации для массива зашифрованных тестовых данных, с целью получения третьего массива консолидированных данных; и
[0073] разделение третьего массива консолидированных данных на массивы первых целевых блоков тестовых данных, при этом третий блок консолидированных данных в каждом первом блоке тестовых данных обладает одинаковым территориальным идентификатором.
[0074] В другом варианте осуществления данного изобретения шифрование массива тестовых данных с целью получения массива зашифрованных тестовых данных включает в себя:
[0075] для любых тестовых данных в соответствии с идентификатором стороны, принимающей тестовые данные, - получение территориального идентификатора тестовых данных;
[0076] шифрование идентификатора стороны, принимающей тестовые данные с целью получения код первого признака тестовых данных; и
[0077] объединение в единый блок зашифрованных тестовых данных территориального идентификатора тестовых данных, кода первого признака, и информационного наполнения тестовых данных.
[0078] В другом варианте осуществления данного изобретения консолидация массива зашифрованных тестовых данных с целью получения третьего массива консолидированных данных включает в себя:
[0079] получение второго массива блоков тестовых данных из массива зашифрованных тестовых данных, при этом зашифрованные тестовые данные в каждом втором блоке тестовых данных имеют одинаковые территориальный идентификатор и информационное наполнение;
[0080] получение числа зашифрованных тестовых данных в любом втором блоке тестовых данных; и
[0081] объединение в единый консолидированный блок тестовых данных территориального идентификатора второго блока тестовых данных, числа зашифрованных тестовых данных во втором блоке тестовых данных и информационного наполнения второго блока тестовых данных.
[0082] В другом варианте осуществления данного изобретения подтверждение коэффициента охвата каждого шаблона данных в соответствии с первым массивом блоков тестовых данных включает в себя:
[0083] с учетом любого шаблона данных - получение числа блоков данных, которые совпадают с шаблоном данных в каждом первом блоке тестовых данных; и
[0084] если число блоков данных в шаблоне данных, которые совпадают с любым первым блоком тестовых данных, превышает второе пороговое значение, - получение соотношения между числом совпавших блоков данных и числом блоков тестовых данных, включенных в первый блок тестовых данных.
[0085] В другом варианте осуществления данного изобретения определение фактического шаблона данных на основании не менее одного шаблона данных в соответствии с результатом подтверждения включает в себя:
[0086] если соотношение между числом совпавших данных и числом тестовых данных, включенных в первый блок тестовых данных, находится в пределах предварительно заданного диапазона, - определение того, что шаблон данных является фактическим шаблоном данных.
[0087] Все вышеуказанные дополнительные технические решения могут являться дополнительными вариантами осуществления данного изобретения при использовании в любом сочетании и не будут отдельно подробно раскрыты в настоящем документе.
[0088] Фиг. 2 представляет собой блок-схему способа извлечения шаблона данных в соответствии с примером осуществления. Как показано на Фиг. 2, способ извлечения шаблона данных применяют на сервере. Данный способ включает в себя следующие шаги.
[0089] При выполнении шага 201 сервер получает набор данных для моделирования, при этом набор данных для моделирования включает в себя массив данных для моделирования.
[0090] В условиях современной жизни пользователи ежедневно получают уведомляющую информацию, которую поставщики услуг отправляют в виде коротких сообщений, писем по электронной почте и мгновенных сообщений. При отправлении такой информации, как правило, используют единый шаблон данных, а сервера поставщиков услуг заполняют его соответствующими данными пользователей, после чего информация автоматически отправляется каждому из пользователей. Шаблоны данных, применяемые для таких данных, можно извлечь путем анализа таких данных. Такие шаблоны данных могут не только помочь пользователям понять последние новости от поставщиков услуг и улучшить взаимодействие, но и могут способствовать развитию технологий обработки естественного языка.
[0091] Следует отметить, что поскольку различные типы данных относятся к разным поставщикам услуг, а информационное наполнение, отправляемое серверами различных поставщиков услуг, как правило, отличается, то чтобы провести целевое извлечение шаблона и повысить точность извлеченных шаблонов данных, представленный в варианте осуществления способ должен собирать данные одного типа в процессе извлечения шаблонов данных таким образом, чтобы извлечь шаблон данных из такого типа данных.
[0092] Например, чтобы извлечь шаблон данных из собранных коротких сообщений, сервер может собирать различные короткие сообщения, отправляемые пользователям серверами таких поставщиков услуг, как «China Mobile», «China Telecom» и «China Unicom». Чтобы извлечь шаблон данных из собранных мгновенных сообщений, сервер также может собирать мгновенные сообщения, отправляемые пользователям различными серверами приложений для обмена мгновенными сообщениями. Чтобы извлечь шаблон данных из собранных извещающих писем, отправленных по электронной почте, сервер также может собирать извещающие письма, отправляемые пользователям различными серверами электронной почты.
[0093] Объем собранных подлежащих обработке данных большой, и процесс извлечения шаблона данных будет крайне медленным, если извлечение шаблона данных будет осуществляться на основании всех собранных подлежащих обработке данных. Поэтому сервер может получить набор данных для моделирования на основании собранных подлежащих обработке данных. В набор данных для моделирования входит совокупность данных для моделирования, при этом данные для моделирования представляют собой данные, подлежащие обработке с целью извлечения шаблона данных. Например, следующие шаги 2011-2014 могут быть применены, когда сервер получает набор данных для моделирования.
[0094] При выполнении шага 2011 сервер получает массив данных для обработки, при этом каждый блок данных, подлежащий обработке, по меньшей мере, содержит идентификатор передающей стороны.
[0095] При сборе массива данных, подлежащих обработке, сервер может собирать данные, отправляемые пользователям сервером каждого из поставщиков услуг, чтобы принять собранные данные в качестве полученного массива данных, которые подлежат обработке. В соответствии с вариантом осуществления каждый подлежащий обработке блок данных может включать, по меньшей мере, идентификатор передающей стороны, идентификатор принимающей стороны, данные о времени получения или схожую информацию. Если подлежащие обработке данные представляют собой короткие сообщения, то номер отправителя должен быть идентификатором передающей стороны, который включен в каждый подлежащий обработке блок данных, а номер получателя должен быть идентификатором принимающей стороны. Если подлежащие обработке данные представляют собой сообщение электронной почты, то адрес почтового ящика, соответствующий серверу электронной почты, должен быть идентификатором передающей стороны, который включен в каждый подлежащий обработке блок данных, а адрес почтового ящика пользователя должен быть идентификатором принимающей стороны. Если подлежащие обработке данные представляют собой мгновенное сообщение, то номер для обмена короткими сообщениями, соответствующий серверу приложений для обмена мгновенными сообщениями, должен быть идентификатором передающей стороны, который включен в каждый подлежащий обработке блок данных, а номер для обмена короткими сообщениями пользователя или схожая информация должна быть идентификатором принимающей стороны.
[0096] Как правило, подлежащие обработке данные, собранные сервером, могли быть отправлены пользователю сервером каждого поставщика услуг в разное время, при этом некоторые из этих данных не имеют значения для пользователя, поскольку такие данные устарели, и по этой причине шаблоны данных, извлеченные на основании таких данных, несомненно будут менее ценными. Таким образом, чтобы гарантировать актуальность извлеченных шаблонов данных, сервер может предварительно задать время после сбора массива подлежащих обработке данных, после чего в первую очередь отфильтровывать подлежащие обработке данные в зависимости от заданного времени, чтобы сохранить подлежащие обработке данные со временем получения после заданного времени и удалять подлежащие обработке данные со временем получения до заданного времени.
[0097] При выполнении шага 2012 сервер распределяет подлежащий обработке массив данных между различными наборами данных, при этом каждый блок данных, подлежащий обработке и включенный в каждый из наборов данных, обладает одинаковым идентификатором передающей стороны.
[0098] В зависимости от идентификатора передающей стороны сервер разделяет подлежащие обработке данные с одинаковым идентификатором передающей стороны в один набор данных, при этом подлежащие обработке данные в каждом наборе данных обладают одинаковым идентификатором передающей стороны. Благодаря разделению массива подлежащих обработке данных между каждым набором данных и идентификатором передающей стороны будет установлено взаимно-однозначное соответствие. Например, подлежащие обработке данные с идентификатором передающей стороны 10086 могут быть распределены в набор данных А, а подлежащие обработке данные с идентификатором передающей стороны 10011 могут быть распределены в набор данных В или аналогичный набор данных.
[0099] При выполнении шага 2013 сервер получает первое предварительно заданное число блоков подлежащих обработке данных из соответствующего набора данных в соответствии с идентификатором стороны, передающей любой блок подлежащих обработке данных.
[00100] В данном варианте осуществления между набором данных и идентификатором передающей стороны установлено взаимно-однозначное соответствие, и сервер может получать соответствующий набор данных в зависимости от любого идентификатора передающей стороны. Поскольку каждый набор данных содержит большой объем подлежащих обработке данных, сложность операция высока, если извлечение шаблона данных будет осуществляться на основании всех подлежащих обработке данных. Таким образом, чтобы повысить скорость извлечения шаблона данных, в соответствии со способом, заявленным в данном варианте осуществления, из полученного набора данных можно получать частичные подлежащие обработке данные и тем самым сформировать единый набор данных для моделирования. Если в качестве примера принять первое предварительно заданное число подлежащих обработке данных, то первым предварительно заданным числом может быть 1000, 2000, 3000 или иное число, при этом в варианте осуществления не будет указано конкретное первое предварительно заданное число.
[00101] При выполнении шага 2014 сервер составляет набор данных для моделирования из первого предварительно заданного числа данных, подлежащих обработке.
[00102] На основании полученного первого предварительно заданного числа подлежащих обработке данных сервер может составить набор данных для моделирования из первого предварительно заданного числа подлежащих обработке данных.
[00103] Следует отметить, что поскольку в варианте осуществления указаны различные подлежащие обработке данные, то для упрощения разграничения разных подлежащих обработке данных они будут распределены, в настоящем варианте осуществления, на данные для моделирования и тестовые данные в зависимости от различных способов применения подлежащих обработке данных. Данные для моделирования в основном применяют для извлечения шаблона данных, а тестовые данные в основном применяют для подтверждения извлеченных шаблонов данных.
[00104] При выполнении шага 202 сервер соответствующим образом шифрует числовые данные, входящие в массив данных для моделирования, с целью получения массива зашифрованных данных.
[00105] Обычно данные, получаемые пользователем, могут содержать некоторые персональные данные, например, имя, номер телефона, дату рождения, номер банковской карточки, номер членской карточки, суммы затрат, код подтверждения, номер чека об оплате или иные персональные данные. В настоящем варианте осуществления имя представляет собой текстовые персональные данные, а номер телефона, дата рождения, номер банковской карточки, номер членской карточки, суммы затрат, код подтверждения, номер чека об оплате или иные персональные данные принадлежат к числовым персональным данным, которые называют числовыми данными.
[00106] Текстовые персональные данные являются уникальными для пользователей, и различные текстовые персональные данные обычно отличаются или не полностью идентичны для различных пользователей. На основании текстовых данных не индивидуального характера, например, текста «уважаемые клиенты» или схожих текстов, которые часто содержатся в коротких сообщениях, невозможно определить идентификационную информацию пользователя, следовательно, такие данные не принадлежат к персональным данным. На основании текстовых данных индивидуального характера, например, Сань ЧЖАН и Сы ЛИ или аналогичного текста, можно получить соответствующие данные, например личность пользователя. Таким образом, чтобы предотвратить раскрытие персональных данных пользователя, сервер может выбрать подходящий символ подстановки для замены таких данных.
[00107] Чтобы улучшить защиту персональных данных пользователя, а именно числовых данных, включенных в данные для моделирования, сервер может зашифровать такие данные при помощи алгоритма шифрования для получения множества зашифрованных данных. Следующие шаги 2021-2024 могут быть применены для выполнения конкретного процесса.
[00108] При выполнении шага 2021 сервер получает территориальный идентификатор для данных для моделирования в соответствии с идентификатором стороны, принимающей данные для моделирования, для любых данных для моделирования.
[00109] Как правило, разные поставщики услуг используют разные шаблоны данных в разных местах или регионах с учетом различных особенностей регионов. Поскольку идентификатор принимающей стороны может определить местоположение или регионы различных пользователей, сервер может собирать территориальный идентификатор данных для моделирования в зависимости от идентификатора стороны, принимающей данные для моделирования. В данном варианте осуществления территориальный идентификатор может быть представлен в качестве местоположения, и территориальные идентификаторы (местоположение), которые соответствуют различным местоположениям на территории, являются разными. Например, территориальным идентификатором Пекина является «пекин», а территориальным идентификатором Шанхая является «шанхай» или аналогичный идентификатор.
[00110] При выполнении шага 2022 сервер шифрует идентификатор стороны, принимающей данные для моделирования, чтобы получить код первого признака данных для моделирования.
[00111] При шифровании идентификатора стороны, принимающей данные для моделирования, сервер может применять предварительно заданный алгоритм шифрования, который определен сервером. Зашифрованный текст, соответствующий идентификатору стороны, принимающей данные для моделирования, может быть получен путем шифрования идентификатора стороны, принимающей данные для моделирования, при помощи предварительно заданного алгоритма шифрования. Зашифрованный текст называют кодом первого признака. В данном варианте осуществления код первого признака может быть представлен как шифротекст. Шифротекст отличается для разных идентификаторов принимающей стороны, например, шифротекстом идентификатора принимающей стороны 123456 является а, а шифротекстом идентификатора принимающей стороны 258369 является b или аналогичный шифротекст.
[00112] Следует отметить, что коды первого признака, полученные путем шифрования различных идентификаторов принимающей стороны при помощи предварительно заданного алгоритма шифрования, отличаются, а код первого признака, соответствующий каждому отдельному идентификатору принимающей стороны, является уникальным. Т.е. между идентификатором принимающей стороны и кодом первого признака установлено взаимно-однозначное соответствие.
[00113] При выполнении шага 2023 для получения кода второго признака сервер шифрует числовые данные из данных для моделирования в зависимости от типа числовых данных, включенных в данные для моделирования.
[00114] В данном варианте осуществления зашифрованные тексты, соответствующие разным типам числовых данных, также отличаются. Например, если типом числовых данных является номер телефона, то зашифрованным текстом, который соответствует числовым данным, может быть <Номер телефона>; если типом числовых данных является дата, то зашифрованным текстом, который соответствует числовым данным, может быть <Время>; а если вторые данные являются числовым типом, то зашифрованным текстом, который соответствует числовым данным, может быть <Номер>.
[00115] При шифровании числовых данных, включенных в данные для моделирования, сервер может применять зашифрованный текст, который соответствует типу числовых данных, чтобы заменить соответствующие числовые данные в данных для моделирования, и тем самым получить код второго признака данных для моделирования. В данном варианте осуществления код второго признака может быть представлен как наполнение Новое.
[00116] Например, если типом числовых данных из данных для моделирования является номер телефона 10086, то код второго признака <Номер телефона>, который соответствует номеру телефона, будет использован для замены 10086, чтобы получить код второго признака <Номер телефона> данных для моделирования.
[00117] При выполнении шага 2024 территориальный идентификатор, код первого признака, код второго признака и время получения данных для моделирования сервер составляет в единый блок зашифрованных данных.
[00118] Территориальный идентификатор, код первого признака, код второго признака и время получения данных для моделирования сервер формирует в единый блок зашифрованных данных. В данном варианте осуществления время приема может быть представлено как датавремя. В настоящее время зашифрованные данные могут быть четырехэлементными данными, которые можно представить как <местоположение, шифротекст, наполнениеНовое, датавремя>.
[00119] Следует отметить, что применение упомянутого выше шифрования любых данных для моделирования из набора данных для моделирования, например, в ходе процесса шифрования других данных для моделирования, является идентичным процессу шифрования данных для моделирования в ходе практического применения. Подробную информацию см. в вышеизложенном процессе шифрования данных для моделирования, поскольку процесс не будет раскрываться далее в тексте.
[00120] Чтобы наглядно продемонстрировать процесс, который сервер выполняет с числовыми данными, включенными с массив данных для моделирования, далее приведено подробное пояснение и иллюстрации с коротким сообщением 1, коротким сообщением 2 и коротким сообщением 3 в качестве примеров.
[00121] Например, текст короткого сообщения 1 следующий: [Банк] Уважаемый(-ая) г-н/г-жа Фей ЛЮ, 21 августа 2014 г. Вы изменили свой предыдущий номер мобильного телефона (регистрационный номер 0102) на номер мобильного телефона (регистрационный номер 0988), просьба использовать новый номер мобильного телефона для осуществления транзакций посредством электронных банковских услуг, а также звонить по номеру 95580 при возникновении любых вопросов.
[00122] Текст короткого сообщения 2 следующий: [Банк] Уважаемый(-ая) г-н/г-жа Цзи ЧЖАН, 13 июля 2014 г. Вы изменили свой предыдущий номер мобильного телефона (регистрационный номер 0209) на номер мобильного телефона (регистрационный номер 0898), просьба использовать новый номер мобильного телефона для осуществления транзакций посредством электронных банковских услуг, а также звонить по номеру 95580 при возникновении любых вопросов.
[00123] Текст короткого сообщения 3 следующий: [Банк] Уважаемый(-ая) г-н/г-жа Чанцзян ВАН, 07 августа 2014 г. Вы изменили свой предыдущий номер мобильного телефона (регистрационный номер 0109) на номер мобильного телефона (регистрационный номер 1234), просьба использовать новый номер мобильного телефона для осуществления транзакций посредством электронных банковских услуг, а также звонить по номеру 95580 при возникновении любых вопросов.
[00124] Поскольку в коротком сообщении 1, коротком сообщении 2 и коротком сообщении 3 содержатся такие персональные данные пользователя, как время, номер мобильного телефона, номер телефона или аналогичные персональные данные, то чтобы защитить персональные данные пользователя, можно использовать способ, изложенный в варианте осуществления, чтобы зашифровать числовые данные в таких коротких сообщениях. В результате шифрован