Способы и устройство обеспечения системы прогнозирования групповой торговли

Иллюстрации

Показать все

Изобретение относится к способу и системе обнаружения шаблонов в данных транзакции платёжной карты для определения группового членства продавца в данных транзакции. Технический результат заключается в повышении точности прогнозирования принадлежности продавца к различным группам продавцов. Способ включает в себя запоминание данных транзакции в базе данных, выборку данных транзакции первым компьютером, связанным с базой данных; использование по меньшей мере одного алгоритма прогнозирования и выбранных данных транзакции для прогнозирования множества групповых членств продавца в группе продавцов, при этом алгоритм реализуется первым компьютером; генерацию метаданных, описывающих каждый прогноз, выданный по меньшей мере одним алгоритмом прогнозирования; ввод множества спрогнозированных групповых членств для продавца и метаданных, описывающих каждое прогнозирование, в программу анализа данных, исполняемую на втором компьютере; присвоение, с использованием второго компьютера, коэффициента доверительности каждому спрогнозированному групповому членству при помощи программы анализа данных, основанное по меньшей мере частично на спрогнозированных групповых членствах и метаданных, при этом коэффициент доверительности представляет собой вероятность действительной ассоциации продавца с соответствующим спрогнозированным групповым членством; и выдачу с использованием второго компьютера прогноза о групповом членстве с наивысшим коэффициентом доверительности в качестве окончательного прогноза о членстве продавца. 2 н. и 18 з.п. ф-лы, 10 ил.

Реферат

Уровень техники

Настоящее изобретение в основном относится к системам прогнозирования торговли, и конкретнее к способам и системам прогнозирования групповой торговли по платежным транзакциям, проводимым по сети обслуживания банковских карт от имени владельцев банковского счета.

Исторически, использование "платежных" карт для транзакций потребительских платежей было самым распространенным и основанным на связи между выдающими кредиты локальными банками и различными локальными продавцами. Индустрия платежных карт с тех пор развивалась вместе с банками-эмитентами, образующими корпорации (например MasterCard), и включает сторонние компании по обработке транзакций (например «Merchant Acquirers»), чтобы позволить владельцам кредитных карт широко использовать платежные карты в любых торговых учреждениях, независимо от банковских отношений продавца с эмитентом карты.

Например, на фиг.1 настоящей заявки показана представленная в качестве примера спаренная система индустрии платежной карты для проведения транзакции оплаты картой. Как показано, у продавца и эмитента карты не обязательно должна быть непосредственная связь. Все же, сегодня существуют различные сценарии в индустрии оплаты картой, где у эмитента карты есть специальная или специализированная связь с определенным продавцом, или группой продавцов.

Более 25 миллионов торговых точек принимают к оплате карты. Иногда продавцы аффилированы с более распознаваемой цепочкой, брендом, или другим юридическим лицом. В одном примере лицо, получившее от фирмы право самостоятельного представительства крупной международной компании фаст-фуда может быть идентифицировано для эмитента карты транзакций как "Chris's Restaurants, LLC", и поэтому нет никакой корреляции с фирмой, предоставляющей франшизу. Рассмотрим способы улучшения вариантов реализации в отрасли оплаты покупок картой. В частности рассмотрим использование исторических данных транзакции для прогнозирования будущих финансовых транзакций карты и определения, есть ли корреляции, которые должны быть сделаны по этим данным.

Конкретнее, данным местоположения продавца, которые собираются компаниями, часто присваивается высокоуровневая группа, основанная на юридическом владении, бренде или некотором другом определении. Часто эти отношения не явно определяются или не являются общедоступными. Установление этого отношения прежде включало ручной контроль данных транзакции, чтобы обнаружить поле или набор полей, которые могут использоваться, чтобы квалифицировать местоположение как членство соответствующей группы.

Краткое описание изобретения

Один объект представляет компьютерный способ обнаружения шаблона в данных транзакции платежной карты для определения группового членства в данных транзакции, где данные касаются продавцов, которые принимают платежную карту для оплаты. Способ включает получение данных транзакции по меньшей мере от одной базы данных, прогнозирование принадлежности продавца к группе, используя по меньшей мере один алгоритм прогноза и выбранные данные транзакции, алгоритм, генерирующий метаданные, описывающие прогнозы, ввод по меньшей мере одного спрогнозированного группового членства и метаданных в приложение анализа данных и присвоение оценки доверительности каждому спрогнозированному групповому членству по условию, получаемому приложением при использовании спрогнозированного группового членства и метаданных.

Другой объект представляет компьютерную систему обнаружения шаблона в данных транзакции платежной карты для определения группового членства отдельных продавцов, используя данные транзакции. Компьютерная система программируется, чтобы выполнить множество алгоритмов прогноза с данными транзакции, каждый алгоритм прогноза, предсказывает групповое членство продавца, основываясь на данных транзакции, присваивает оценку доверия каждому спрогнозированному групповому членству и выводит прогноз группового членства с самой высокой оценкой доверия как финальный прогноз принадлежности продавца.

Краткое описание чертежей

Фиг.1 - упрощенная схема, иллюстрирующая примерную многостороннюю систему индустрии платежной карты для проведения транзакции оплаты картой.

Фиг.2 - упрощенная блок-схема примерного варианта осуществления архитектуры сервера системы в соответствии с одним из вариантов осуществления представленного изобретения.

Фиг.3 - расширенная блок-схема примерного варианта осуществления архитектуры сервера системы в соответствии с одним из вариантов осуществления представленного изобретения.

Фиг.4 - схема последовательности операций, иллюстрирующая высокоуровневые компоненты объединенной совокупности торговой системы прогноза.

Фиг.5 - схема последовательности операций, иллюстрирующая работу механизма ведущего подсчет, связанного с объединенной совокупности торговой системы прогноза.

Фиг.6 - схема 250 последовательности операций, иллюстрирующая данные, которые вводятся в алгоритм, который классифицирует местоположения торговых точек.

Фиг.7 - схема последовательности операций, описывающая алгоритм, который классифицирует местоположения торговых точек.

Фиг.8А-8B - схема, иллюстрирующая как торговые точки собираются и размещаются в качестве документов в системе классификации.

Фиг.9 - схема последовательности операций, иллюстрирующая определение набора ссылочных символьных строк, или основных компонентов, в базе данных.

Фиг.10 - схема последовательности операций, иллюстрирующая использование набора ссылочных строк, чтобы определить метрику подобия для символьной строки кандидата.

Подробное описание изобретения

В настоящем документе описываются и используются системы и способы прогноза групповой торговли для обнаружения значимых торговых шаблонов (например, данных местоположения торговой точки), которые выявляют высокий уровень упорядоченности, такой как бренд, цепочка, юридическое владение или аналогичные им для существующей, в какой-то степени случайно выбранной, коллекции местоположений торговых точек. Система прогноза группы, используемая здесь, обращается к множеству систем прогнозирования, отдельные прогнозы которых объединены вместе, чтобы сформировать единственный прогноз.

Как правило, когда групповое членство явно не определяется, отношение должно быть выведено через ручной контроль данных местоположения. Описанная система прогноза групповой торговли использует алгоритмический подход, чтобы решить описанную проблему для по меньшей мере части пространства, которое включает записи местоположения.

Технический эффект систем и способов, описанных в данном документе, включает по меньшей мере одно из: (а) определения шаблонов, касающихся торговых фирм, таких как данные местоположения, (b) обеспечение объединенного прогноза из нескольких прогнозов, которые связаны с данными местоположения продавца и (с) определение уровней доверительности для каждого объединенного прогноза, использующего несколько прогнозов и любых метаданных, связанных с прогнозами.

В одном варианте осуществления предлагается компьютерная программа, которая воплощается на машиночитаемом носителе и использует Структурированный язык запросов (SQL) с клиентским пользовательским внешним интерфейсом для администрирования и веб-интерфейсом для стандартных пользовательских входных данных и отчетов. В примерном варианте осуществления система реализована в виде веб-приложения и работает в существующей на предприятиях сети интранет. В еще одном варианте осуществления к системе полностью получают доступ пользователи, имеющие санкционированный доступ, вне брандмауэра предприятия, через Интернет. В дополнительном примерном варианте осуществления система выполняется в среде Windows® (Windows - зарегистрированная торговая марка Microsoft Corporation, Redmond, Washington). Приложение является гибким и разработано для работы во всевозможных средах без ущерба основной функциональности.

Системы и процессы не ограничиваются определенными вариантами осуществлениями, описанными здесь. Кроме того, компоненты каждой системы и каждого процесса могут быть осуществлены независимо и отдельно от других компонентов и процессов, описанных здесь. Каждый компонент и процесс также может использоваться в комбинации с другими комплектами элементов и процессами.

В качестве уровня техники фиг.1 представляет упрощенную схему 20, иллюстрирующую примерную многостороннюю систему индустрии платежной карты для проведения обычных транзакции оплаты картой, в которых исторические транзакции используются по меньшей мере частично с системой прогнозирования продавца, зачисленного в группу. Представленный в настоящем документе совокупный продавец относится к высокому уровню группировки местоположений продавца. Более конкретно, различные местоположения индивидуальных продавцов розничной торговли группируются вместе (например соединены друг с другом в базе данных) для формирования совокупного продавца. Одно местоположение продавца представляет собой компонент совокупного продавца. Как правило, совокупный продавец используется, при обращении к цепочке магазинов, и местоположения сгруппированы вместе, как описано далее, основываясь на многих значениях полей, сохраненных в базе данных транзакции.

Данное изобретение относится к системам платежных карт, такой как система платежей по кредитной карте, использующая MasterCard® для обмена информацией. MasterCard® для обмена информацией является собственным коммуникационным стандартом, провозглашенным MasterCard International Incorporated® для обмена данными финансовых операций между финансовыми учреждениями, которые являются членами MasterCard International Incorporated®, (MasterCard зарегистрированная торговая марка MasterCard International Incorporated, расположенной в Purchase, New York).

В обычной карточной платежной системе, финансовое учреждение, именуемое «эмитентом», выпускает платежную карту, такую как кредитную карту, для потребителя, который использует эту карту для предоставления в качестве средства оплаты за покупку продавцу. Для приема оплаты по платежной карте обычно продавец должен создавать учетную запись в финансовом учреждении, которое является частью финансовой платежной системы. Это финансовое учреждение обычно называют "инвестиционным банком" или "банком получения" или "банком получателя". Когда потребитель 22 производит оплату за покупку посредством платежной карты (также известный как карта финансовой операции), продавец 24 запрашивает авторизацию в инвестиционном банке 26 суммы покупки. Запрос может быть выполнен по телефону, но обычно выполняется с помощью терминала продаж, который считывает информацию об учетной записи потребителя с магнитной дорожки на платежной карте и связывается через интернет с компьютерами обработки транзакций инвестиционного банка. Альтернативно, инвестиционный банк может разрешить третьей стороне выполнять обработку транзакций от своего лица. В этом случае, кассовый терминал будет сконфигурирован так, чтобы связываться с третьей стороной. Такую третью сторону обычно называют "торговым процессором" или "процессором получения".

Используя обмен 28 информацией, компьютеры инвестиционного банка или торгового процессора связываются с компьютерами банка 30, выпустившего карту, чтобы определить, является ли учетная запись потребителя в положительном положении и покрывается ли покупка доступным кредитным лимитом потребителя. Основываясь на этих определениях, просьба на авторизацию будет отклонена или принята. Если запрос принимается, код авторизации посылается продавцу.

Когда запрос на авторизацию принимается, доступный кредитный лимит учетной записи 32 потребителя уменьшается. Обычно, запрос средств не сразу отправляется на учетную запись потребителя, потому что ассоциации банковских карт, такие как MasterCard International Incorporated®, провозгласили правила, которые не позволяют продавцу запрашивать средства или "получать" транзакцию, пока товары или услуги не предоставляются. Когда продавец поставляет или предоставляет товары или услуги, продавец получает транзакцию, например, посредством соответствующей процедуры ввода данных на терминале продажи. Если потребитель отменяет транзакцию прежде, чем она будет получена, генерируется "пустая операция". Если потребитель возвращает товары после того, как транзакция была получена, то генерируется "кредит".

После того, как осуществляется транзакция, транзакция урегулируется между продавцом, инвестиционным банком и эмитентом. Урегулирование относится к передаче финансовых данных или фондов, связанных с транзакцией, между учетной записью продавца, инвестиционным банком, и выпускающим карту. Обычно, транзакции проходят и накапливаются в "пакет", которые урегулируются как группа. Данные, которые связанны с такими транзакциями, как описано далее, используются в технике прогнозирования будущих действий покупателя.

Карты финансовых транзакций или платежные карты могут относится к кредитным картам, дебетовым картам, и картам с предоплатой. Все эти карты могут использоваться в качестве способа оплаты за выполнение транзакции. Как описано здесь, термины "финансовая операция карты" или "платежная карта" включают карты, такие как кредитные карты, дебетовые карты и карты с предоплатой, но также включают любые другие устройства, которые могут содержать платежную информацию об учетной записи, такую как мобильные телефоны, персональные цифровые секретари (PDA), и брелки.

Фиг.2 - упрощенная блок-схема примерной системы 100 в соответствии с одним из вариантов осуществления представленного изобретения. В одном варианте осуществления система 100 является системой платежной карты, используемой для реализации, например, настройки связи между эмитентом и продавцом, и в то же время обработки исторических данных, связанных с транзакциями. В другом варианте осуществления система 100 является системой платежной карты, которая может быть использована владельцами банковского счета для того, чтобы ввести коды обработки, которые будут применены к актам платежа.

Более конкретно, в варианте осуществления, в качестве примера, система 100 включает систему сервера 112, и множество клиентских подсистем, также называемых клиентскими системами 114, соединенных с системой сервера 112. В одном варианте осуществления клиентские системы 114 являются компьютерами включающими веб-браузер, так что система сервера 112 доступна для клиентских систем 114 при использовании Интернета. Клиентские системы 114 присоединяются к Интернету через различные интерфейсы включающие сети, такие как локальная сеть (LAN) или глобальная сеть (WAN), соединения удаленного доступа, кабельные модемы и специальные высокоскоростные линии ISDN. Клиентские системы 114 могут быть любым устройством, способным к соединению к Интернету включая сетевой телефон, персональный цифровой секретарь (PDA), или другое сетевое соединяемое оборудование. Сервер базы данных 116 соединяется с базой данных 120, содержащий информацию о множестве тем, как описано ниже более подробно. В одном варианте осуществления централизованная база данных 120 записана в системе сервера 112 и к ней может быть получен доступ потенциальными пользователями в одной из клиентских систем 114, посредством регистрации на системе сервера 112 через одну из клиентских систем 114. В альтернативном варианте осуществления база данных 120 сохранена удаленно от системы сервера 112 и может быть не централизована.

Так же, как описано ниже, база данных 120 хранит данные транзакции, сгенерированные как часть деятельности по продаже, проводимой по банковской сети включающей данные, касающиеся продавцов, владельцев банковского счета или клиентов, и покупок. База данных 120 дополнительно включает данные, касающиеся программ наград и специальных предложений, включая обработку кодов и деловых правил, связанных с различными программами наград и специальными предложениями.

Фиг.3 - расширенная блок-схема примерного варианта осуществления архитектуры сервера системы 122 в соответствии с одним из вариантов осуществления представленного изобретения. Компоненты системы 122, идентичные компонентам системы 100 (показанной на фигуре 2), обозначены на фиг.3 с использованием тех же ссылочных цифр, какие использовались на фиг.2. Система 122 включает систему сервера 112 и клиентские системы 114. Система сервера 112 дополнительно включает сервер базы данных 116, сервер приложений 124, веб-сервер 126, факсовый сервер 128, сервер каталогов 130 и почтовый сервер 132. Дисковый накопитель 134 связывается с сервером базы данных 116 и сервером каталогов 130. Серверы 116, 124, 126, 128, 130 и 132 связываются по локальной сети (LAN) 136. Кроме того, системная рабочая станция администратора 138, пользовательская рабочая станция 140 и рабочая станция супервизора 142 присоединяются к LAN 136. Альтернативно, рабочие станции 138, 140 и 142 связываются с LAN 136, при использовании соединения Интернет или присоединяются через Интранет.

Каждая рабочая станция 138, 140 и 142 является персональным компьютером, имеющим веб-браузер. Хотя функции, выполняемые на рабочих станциях, обычно, иллюстрируются как выполняемые на соответствующих рабочих станциях 138, 140 и 142, такие функции могут быть выполнены в одном из многих персональных компьютеров, связанных с LAN 136. Рабочие станции 138, 140 и 142 иллюстрируются как связываемые с отдельными функциями, только чтобы облегчить понимание различных типов функций, которые могут быть выполнены пользователями, имеющими доступ к LAN 136.

Система сервера 112 конфигурируется так, чтобы быть коммуникативно связанной с различными пользователями, включая сотрудников 144, и с третьими сторонами, например, владельцами банковского счета, клиентами, аудиторами и т.д. 146, использует Интернет-соединения ISP 148. Передача, в примерном варианте осуществления, иллюстрируется как выполняемая с использованием Интернет, однако, в других вариантах осуществления может быть использован любой тип передачи, отличный от глобальной сети (WAN), то есть системы и процессы не ограничиваются той реализацией, в которой используется Интернет. Кроме того, вместо WAN 150 может быть использована локальная вычислительная сеть 136.

В примерном варианте осуществления любой авторизованный пользователь, имеющий рабочую станцию 154, может получить доступ к системе 122. По меньшей мере одна из клиентских систем включает рабочую станцию менеджера 156, расположенную удаленно. Рабочие станции 154 и 156 являются персональными компьютерами, имеющими веб-браузер. Кроме того, рабочие станции 154 и 156 конфигурируются, чтобы связываться с системой сервера 112. Кроме того, факсовый сервер 128 связывается с удаленно расположенными клиентскими системами, включая клиентскую систему 156, используя телефонные линии. Факсовый сервер 128 также конфигурируется, чтобы связываться с другими клиентскими системами 138, 140 и 142.

Фиг.4 - схема 200 последовательности операций, иллюстрирующая высокоуровневые функциональные компоненты для одного из вариантов осуществления системы прогнозирования сгруппированного, или совокупного продавца, где каждый компонент обеспечивает прогноз, касающийся операций транзакции платежной карты по сети. После прогнозы объединяются в единственный прогноз как описано далее. Это объединение прогнозов иногда упоминается как совокупный прогноз. Один пример, относящийся к варианту осуществления, описанному здесь, включает объединенные прогнозы, которые касаются полученных данных местоположения продавца. Как представлено на фиг.4, все алгоритмы прогноза более полно описываются в данном документе.

Первый компонент - это алгоритм 202 прогноза близких местоположений (иногда называемый алгоритмом прогноза k-подобных местоположений), который конфигурируется для выборки "k" местоположений продавца, самых близких к данному местоположению продавца. Алгоритм 202 прогноза дополнительно содержит функцию классификации группы близких местоположений продавца в качестве группировки мод из выбранных "k" наиболее близких местоположений.

Объединенные местоположения как алгоритм Прогноза документов 204 используется, чтобы вычислить релевантность каждого поля и значения поля относительно каждого из объединенных местоположений (высокоуровневая группировка данных) в пространстве известных значений, результаты сохраняются как документ. Самые релевантные значения этих документов используются, чтобы генерировать прогноз.

Сторонний алгоритм Прогноза данных 206, включающий систему сравнения местоположения, используется, если прогноз ассоциируется с определенным сторонним брендом. По меньшей мере один ввод алгоритма 206 включает записи транзакции, полученные от третьей стороны, которые используются в формировании прогноза. В одном варианте осуществления формирование прогноза выполняется после того, как выполнено сравнение местоположения с данными стороннего источника данных. Алгоритм 208 Прогнозирования числовой подписи, вариант осуществления которого базируется в значительной степени на Законе Бенфорда и дополнительно на наблюдаемой тенденции у продавцов, принадлежащих одной группе, отличаться от распределения Бенфорда относительно последовательным способом, включен в схему 200 последовательности операций. Прогноз по алгоритму 208 превращается в группу местоположений, у которых самое близкое числовое распределение по сравнению с каждым местоположением продавца.

Статистическая модель верхнего уровня и механизм 210 подсчета в одном варианте осуществления, реализованые в Oracle, используют прогнозы алгоритмов 202, 204, 206 и 208 для определения группового членства из данных, которые недавно получены и/или сохранены в базе данных. Пример данных - данные о местоположении продавца. По меньшей мере в одном варианте осуществления, и как далее описано, данные о местоположении продавца в базе данных описываются с точки зрения местоположения и расстояния, например несколько местоположений продавца, которые находятся на данном расстояния от данного местоположения. По меньшей мере в одном объекте, местоположение и расстояние являются не обязательно географическими, а скорее основаны на близости, вычисленном с использованием данных продавца, хранящихся в базе данных. В определенных вариантах осуществлениях местоположение и расстояние основаны на близости как меры пересечения атрибутов, весовых коэффициентов, отношений частоты вхождения термина к обратной частоте документа (TF/IDF), вычисление значений полей и значений маркированных полей в базе данных.

Фиг.5 - схема 220 последовательности операций, иллюстрирующая работу механизма 210 подсчета. Определен механизм 210 подсчета, использующий 222 прогнозы местоположений продавца по алгоритмам 202, 204, 206 и 208 наряду с метаданными, относящимися к прогнозированию, из приложения 224 Интелектуальный анализ данных Oracle (ODM) для описания обстоятельств, окружающих каждый отдельный прогноз, затем производит 226 заключительный прогноз - скомпонованный из объединенных индивидуальных прогнозов. Этот заключительный прогноз может относится к местоположению продавца. Приложение также производит подсчет коэффициента доверительности, связанного с объединеными прогнозами по множеству алгоритмов 202, 204, 206 и 208.

Каждый из этих четырех алгоритмов 202, 204, 206 и 208 теперь будет описан более подробно.

К - близкие местоположения (алгоритм 202)

Фиг.6 - схема 250 последовательности операций, иллюстрирующая данные, которые вводятся в алгоритм 202, классифицирующая местоположения продавца, основываясь на близости, например близости местоположения. Набор полей уровня местоположений, или координат 252 местоположений, которые, как известно, значимы в контексте цепочки получения или коллекции (например группы), значений членства, идентифицируется в базе данных учреждений 254, которые принимают карту финансовых операций. Дополнительно, данные ежедневно новой/измененной базы данных 256 местоположений наряду с их ассоциированными новыми/измененными координатами местоположений 258, обеспечивают описанный ниже алгоритм классификации местоположения продавца.

Фиг.7 - схема 280 последовательности операций, описывает один из алгоритмов (на фиг.4 показан алгоритм 202), который используется для классификации местоположений продавца в составе группы. Алгоритм 202 использует по меньшей мере данные, описанные применительно к схеме 250 последовательности операций на фиг.6. Определенно, данные местоположения продавца в базе данных ищутся 282 для нахождения нескольких (k) местоположений, которые находятся в пределах данного расстояния от данного местоположения. Дополнительно, для значения близости ведется поиск местоположений на данном расстоянии, чтобы определить 284 любые новые и/или измененные местоположения. Значение моды определяется 286 классификацией местоположений продавцов, которая осуществляется среди (k) местоположений в пределах определенного пространства признаков (область, из которой данные транзакции вводятся в алгоритм 202). Наиболее часто полученное значение, которое следует из классификации (k) записей местоположения, имеет самый высокий весовой коэффициент и называется значением моды, определенным как описано ниже. Это значение моды возвращается 288 как прогноз по алгоритму 202.

Как описано далее, поля (координаты местоположения 252 и 258) маркируются, и обратная частота документа вычисляется для всех маркируемых значений полей, охватывающих пространство функции. В одном варианте осуществления для каждого местоположения разреженная матрица метрик весовых коэффициентов вычисляется для каждого значения поля и каждого маркируемого значения поля как значение частотность / инверсная частотность документа. Значение прогноза вычисляется, присоединением данного поля местоположения к любому полю местоположения, основываясь на типе поля и/или значении поля.

Разреженная матрица включает местоположения, типы полей и веса для значений термина и маркера термина и генерируется как описано в абзацах ниже.

Матрица создается такой, что содержит обратную частоту документа всех значений полей и маркируемых значений полей и в одном варианте осуществления имеет девять измерений. В определенном варианте осуществления эти девять измерений включают код категории продавца, индивидуальный код участника Ассоциации Europay (ICA), бизнес регион, наименование продавца, номер телефона продавца, эквайринговый идентификационный номер продавца, идентификатор уровня продавца, юридическое наименование продавца, и федеральный идентификационный налоговый номер. Эти измерения включаются во все записи местоположения продавца. Обратная частота документа - логарифм (в одной определенной реализации по основанию 2) частного от числа записей, деленного на число записей, содержащих определенное значение. Один из примеров показан в Таблице 1. В одном варианте осуществления это частное вычисляется отдельно для каждой из этих девяти измерений. Число записей вычисляется как число местоположений продавца. Число записей, содержащих определенный термин, вычисляется подсчетом числа местоположений продавца, которые содержат каждый термин в каждом типе поля.

Таблица 1
Тип поля Значение поля Обратная частота документа
Номер телефона 2014234177 12.788106546
Номер телефона 8002285882 6.0265553135
Маркер наименования продавца DCC 5.0067468324
Маркер наименования продавца DFQ 8.9807516239
Бизнес регион 01 1.4041323134

Для каждого местоположения перекрестный атрибут нормированного отношения частоты вхождения термина к удвоенной обратной частоте документа вычисляется для значений и маркированных значений, охватывающих девять измерений как проиллюстрировано в Таблице 2, где эти девять измерений снова включают код категории продавца, код ICA, регион осуществления деловых операций, наименование продавца, номер телефона продавца, эквайринговый идентификационный номер продавца, идентификатор уровня продавца, юридическое наименование продавца и федеральный идентификационный налоговый номер.

Таблица 2
Местоположение Тип поля Значение поля Взвешенное отношение частоты вхождения термина к обратной частоте документа
100 Номер телефона 2014234177 .2453254
100 Маркер наименования продавца BE .125859
100 Маркер наименования продавца ST .1125445
100 идентификатор 525414152 .2155224
федерального налога
100 Бизнес регион 01 .0252546

Прогноз группового членства и доверительности для данного местоположения вычисляются присоединением прогнозированного местоположения ко всем другим местоположениям по типу поля и значению поля с последующим суммированием результата взвешенного отношения частоты вхождения термина к обратной частоте документа для общих типов полей и значений полей. Результаты местоположения затем сортируются в порядке убывания итогового коэффициента, и группа мод, возникающая среди, например, тринадцати местоположений с самым высоким коэффициентом, выдается в качестве прогноза. Коэффициент доверительности этого прогноза представляется числом местоположений среди лучших тринадцати местоположений, которые содержатся в той же группе (ожидаемое значение), индивидуальными весовыми коэффициентами для k местоположений, которые принадлежат прогнозированной группе и изменениями весовых коэффициентов.

Объединенные местоположения в качестве Прогноза документов (алгоритм 204)

На фиг.8А-8B представлена схема 300, иллюстрирующая местоположения, объединенные в наборы в документах в качестве системы классификации. Алгоритм 204 (показанный на фиг.4), который создает документы объединенных местоположений, аналогичен алгоритмам релевантности документов, обычно используемых механизмами поиска в Интернете. Определенно, релевантность данного местоположения продавца относительно каждого объединения, или набора, местоположений продавца вычисляется как описано ниже.

Для генерирования документа 302 релевантные признаки, например адрес улицы, извлекаются из базы данных, причем данные касаются множества местоположений 304, и группируются в наборы, например набор 306. В целях иллюстрации схема 300 включает четыре набора местоположений; 306, 308, 310, и 312. Набор 312 маркируется как Набор М, указывая, что в определенной реализации число наборов может быть больше или меньше четырех проиллюстрированных. Аналогично число местоположений в пределах набора может измениться от одного до "N".

Сгенерированные документы 302, 320, 322, и 324, каждый из которых включает извлеченные релевантные признаки, собираются в словарь 330. Используя словарь 330, формируется разреженная матрица 340, посредством чего вычисляется релевантность каждого значения поля и маркируемого значения поля, используя извлеченные признаки, для каждой объединенной группы продавцов, основанной на по меньшей мере одной из частот вхождения термина и обратной частоте документа.

В пространстве матрицы 340 матрица уровней весовых коэффициентов местоположения соединяется с матрицей весовых коэффициентов группы продавцов, основанной на типе поля и значении поля. Сумма этих весовых коэффициентов используется, в одном варианте осуществления, как механизм релевантности 350, чтобы определить релевантность каждого местоположения в каждой группе продавцов. Группа продавцов с самой высокой релевантностью возвращается как ожидаемое значение, описанное выше. Более конкретно генерирование пространства матрицы групп, типов полей и весовых коэффициентов для правил термина и маркеров термина описано в следующих абзацах.

Во-первых, создается матрица, содержащая обратную частоту документа всех значений полей и маркируемых значений полей, охватывающих девять измерений, перечисленных в данном документе, конкретно код категории продавца, код ICA, регион осуществления деловых операций, наименование продавца, номер телефона продавца, эквайринговый идентификационный номер продавца, идентификатор уровня продавца, юридическое наименование продавца и федеральный идентификационный налоговый номер, по всем записям местоположения продавца.

С учетом объединения местоположений как алгоритма прогноза документов, как показано в Таблице 3, обратная частота документа представляет собой логарифм (по основанию 2 в одном определенном варианте осуществления) частного от деления числа записей на число записей, содержащих определенное значение. В одном варианте осуществления обратная частота документа вычисляется отдельно для каждого из девяти измерений. Число записей вычисляется как число местоположений продавца. Число записей, содержащих определенный термин, вычисляется подсчетом числа местоположений продавца, которые содержат каждый термин в каждом поле каждого типа.

Таблица 3
Тип поля Значение поля Обратная частота документа
Номер телефона 2014234177 12.788106546
Номер телефона 8002285882 6.0265553135
Маркер наименования продавца DCC 5.0067468324
Маркер наименования продавца DFQ 8.9807516239
Бизнес регион 01 1.4041323134

Для каждой группы перекрестный атрибут нормированной частоты вхождения термина - двойной обратной частоты документа, вычисляется для значений и маркированных значений, охватывая девять измерений кода категории продавца, код ICA, региона осуществления деловых операций, наименования продавца, номера телефона продавца, эквайрингового идентификационного номера продавца, идентификатора уровня продавца, юридического наименования продавца и федерального идентификационного налогового номера, как показано в Таблице 4, и все местоположения, принадлежащие каждой группе.

Таблица 4
Группа Тип поля Значение поля Частота вхождения термина - двойная обратная частота документа
14420 Эквайринговый идентификационный номера продавца 000000077480312 0.0104721165
14420 Эквайринговый идентификационный номера продавца 000000077519532 0.0052360583
14420 Федеральный идентификационный налоговый номер 362023393 0.6529357998
14420 Бизнес регион 05 0.0627648557
14420 Маркер наименования продавца TEN 0.0011391784

Один прогноз группового членства вычисляется для данного местоположения, присоединением к строкам матрицы (k)-близких местоположений, которая описана выше, к матрице групп по типу поля и значении поля, затем суммируя результаты весовых коэффициентов частоты вхождения термина - двойная обратная частота документа для общих типов полей и значений полей. Спрогнозированная группа и коэффициент доверительности - группа с самым высоким коэффициентом близости (данным суммой весовых коэффициентов x весовые коэффициенты значений сравниваемых полей и маркируемых значений). Оценка доверия для прогноза - получающееся значение.

Прогноз сторонних данных и установление соответствия местоположения (алгоритм 206)

Третьим компонентом совокупного прогноза является алгоритм 206 (показанный на фиг.4), который использует данные, предоставленные третьей стороной, которые соответствуют базе данных финансовых операций по местоположению продавца. В одном варианте осуществления этим сторонним записям присваивается цепочечный идентификатор, который связан, например, с поставщиком. Эти цепочечные идентификаторы связаны с группами местоположений продавца, ассоциированного с брендом карты финансовых операций (например эмитентом). Прогноз, поэтому, является просто группировкой данных продавца, соответствующих цепочке, с которой была соединена сторонняя запись. Это соединение сопровождает сравнение местоположения, как описано в следующем абзаце.

Набор данных местоположений продавца извлекается из стороннего источника данных, причем местоположения были присвоены (поставщиком) цепочке. Кажда