Обнаружение аномалий перспективных представлений данных

Иллюстрации

Показать все

Изобретение относится к области исследования данных. Техническим результатом является повышение эффективности обработки данных. Настоящее изобретение задействует способы обработки данных с использованием подбора кривой для обеспечения автоматического обнаружения аномалий данных в «трубке данных» из перспективного представления данных, что позволяет, например, производить обнаружение аномалий данных, таких как аномалии, представленные на экране, аномалии, выявляемые при нисходящем анализе, и аномалии, выявляемые при «поперечном» анализе, в, например, сводных таблицах и/или OLAP-кубах данных (кубах данных, созданных по технологии оперативной аналитической обработки данных). Согласно изобретению определяют, существенно ли отличаются данные от прогнозируемого значения, установленного процессом подбора кривой, таким как, например, кусочно-линейная функция, примененная к трубке данных. Также согласно настоящему изобретению может быть использовано пороговое значение, содействующее в определении степени отклонения, что необходимо, прежде чем значение данных будет признано аномальным. Кроме того, настоящее изобретение обеспечивает для пользователя индикацию типа и места расположения обнаруженной аномалии на перспективном представлении данных, относящемся к верхнему уровню. 4 н. и 32 з.п. ф-лы, 7 ил., 5 табл.

Реферат

Область техники, к которой относится изобретение

Настоящее изобретение относится, в общем, к разработке данных, а более конкретно к системам и способам, обеспечивающим автоматическое обнаружение аномалий данных в перспективных (то есть имеющих n измерений) представлениях данных.

Уровень техники

Преобразование информации в цифровую форму позволяет хранить огромные объемы данных в невероятно малых объемах пространства. Этот способ, например, позволяет осуществлять хранение содержимого библиотеки на одном единственном компьютерном накопителе на жестких магнитных дисках. Это возможно по той причине, что данные преобразованы в двоичные состояния, которые могут быть сохранены посредством цифровых кодирующих устройств на различных типах цифровых носителей информации, таких как накопители на жестких магнитных дисках, диски CD-ROM и гибкие диски. По мере того как развивается технология цифровых запоминающих устройств, плотность размещения информации в запоминающих устройствах позволяет хранить в некотором данном объеме пространства существенно больше данных, при этом плотность размещения данных ограничена главным образом физическими и производственными процессами.

При возрастающей емкости запоминающих устройств также растет и потребность в эффективном поиске данных, что делает легкость доступа к данным вопросам первостепенной важности. Например, тот факт, что библиотека имеет некоторую книгу, но не может определить ее местонахождение, не поможет читателю, которому хотелось бы прочитать книгу. Аналогичным образом, просто преобразование данных в цифровую форму не является шагом вперед, если к ним нельзя осуществить быстрый доступ. Это привело к созданию структур данных, которые способствуют эффективному поиску данных. Эти структуры обычно известны как «базы данных». Для обеспечения эффективного доступа к данным база данных содержит данные в структурированной форме. Структурирование хранения данных обеспечивает более высокие показатели эффективности при поиске данных, чем в случае неструктурированного хранения данных. Также могут применяться индексирование и другие технологии организации данных. Вместе с данными также могут быть сохранены и связи между данными, что увеличивает ценность данных.

На раннем этапе развития баз данных пользователь обычно должен был просматривать «необработанные данные» или данные, которые просматриваются точно в том же виде, в каком они были занесены в базу данных. В конечном счете, были разработаны технологии, которые позволяют форматировать данные, манипулировать ими и просматривать их более эффективным способом. Это позволило пользователю, например, применять к данным математические операторы и даже создавать отчеты. Коммерческие пользователи смогли получить доступ к такой информации, как «суммарный объем продаж», получаемой из данных в базе данных, которая содержала только сведения об индивидуальных продажах. Пользовательские интерфейсы продолжали развиваться в направлении дальнейшего содействия в поиске данных и отображении их в дружественной для пользователя форме. Пользователи, в конечном счете, поняли, что различные представления данных, такие как суммарный объем продаж, полученный из данных об индивидуальных продажах, позволяют им получать дополнительную информацию из необработанных данных, содержащихся в базе данных. Этот процесс тщательного извлечения дополнительных данных известен под названием «разработка данных», и он порождает «метаданные» (то есть данные о данных). Разработка данных предоставляет возможность извлекать из необработанных данных ценную дополнительную информацию. Это особенно полезно в бизнесе, где за рамками результатов, полученных только на основе необработанных входных данных базы данных, может быть найдена информация, объясняющая объем продаж предприятия и объем выпуска продукции.

Таким образом, манипуляция данными позволяет извлечь из необработанных данных критически важную информацию. Это манипулирование данными возможно по причине цифровой природы хранимых данных. Огромные объемы преобразованных в цифровую форму данных могут быть рассмотрены с различных сторон существенно быстрее, чем при попытке сделать это вручную. Каждое новое представление данных может позволить пользователю дополнительно расширить свое понимание этих данных. Это очень мощная концепция, которая способна привести предприятия к успеху в случае, если они ее используют, и к провалу в случае, если они ее не используют. Например, на основе необработанных данных, занесенных в базу данных, а именно их значений и временной характеристики, при условии наличия интуитивного, дружественного по отношению к пользователю доступа к преобразованной в цифровую форму информации, могут быть проведены анализ тенденций изменения, причинно-следственный анализ, исследование влияния факторов и прогнозирование.

В настоящий момент манипуляция данными, производимая для усиления возможностей разработки данных, требует от пользователя ввод данных в значительных объемах и значительных знаний, чтобы гарантировать, что ошибочные данные не будут включены в состав различных перспективных представлений данных. Это требует от пользователя, чтобы он имел глубокое знание данных и понимание того, какие типы ошибок могут встретиться в данных. Без этого предварительного знания пользователю приходится пытаться применять подход «проб и ошибок», рассчитывая уловить аномалии, скрытые в данном перспективном представлении данных. Этот подход обычно находится за пределами возможностей случайного пользователя и/или отнимает слишком много времени у квалифицированного пользователя. Объем хранимых данных обычно слишком велик и слишком сложен в том, что касается связи между данными, для того чтобы пользователь мог эффективно разработать пригодную для использования методологию, гарантирующую раскрытие всех аномалий данных.

Раскрытие изобретения

Нижеследующий раздел представляет упрощенное изложение сущности изобретения, приводимое с целью дать начальное понимание некоторых аспектов изобретения. Данное изложение сущности не является пространным обзором изобретения. Оно не предназначено для определения ключевых/критически важных элементов изобретения, равно как и для очерчивания объема изобретения. Его единственная цель заключается в том, чтобы в упрощенной форме представить некоторые концепции изобретения в качестве вступления к более подробному описанию, которое приводится позже.

Настоящее изобретение относится, в общем, к разработке данных, а более конкретно к системам и способам обеспечения автоматического обнаружения аномалий данных в перспективных представлениях данных. Способы подбора кривой данных задействованы таким образом, чтобы обеспечивать автоматическое обнаружение аномалий данных в «трубке данных», получаемой из перспективного представления данных, при этом трубка данных содержит данные, у которых только одно изменяющееся измерение данных. Это позволяет, например, обнаружить аномалии данных, такие как аномалии данных, присутствующие на экране, аномалии данных, выявляемые при нисходящем анализе, и аномалии данных, выявляемые при «поперечном» анализе (анализ данных в представлении, проводимый в направлении, поперечном к отображаемому измерению, т.е. вдоль неотображаемого измерения), например, в электронных сводных таблицах и/или кубах данных, созданных по технологии Оперативной аналитической обработки данных (OLAP) и т.п. Предлагая автоматический анализ перспективного представления данных, настоящее изобретение позволяет неопытным пользователям легко находить в базе данных информацию об ошибочных данных. Это достигается посредством определения того, существенно ли отклоняются данные от прогнозируемого значения, установленного процессом подбора кривой, такого как, например, применение кусочно-линейной функции к трубке данных. Также согласно данному изобретению может быть использовано пороговое значение, содействующее в определении степени отклонения, что необходимо, прежде чем значение данных будет признано аномальным. Пороговое значение может задаваться динамически и/или статически, например, системой и/или пользователем посредством пользовательского интерфейса и т.п. Кроме того, настоящее изобретение может оперативно указывать пользователю на перспективном представлении данных, относящемуся к верхнему уровню, тип и место расположения обнаруженной аномалии, без необходимости для пользователя рыскать в поисках аномалий данных по более низким уровням.

Для достижения вышеупомянутых и связанных с ними целей в данном документе приводятся некоторые иллюстративные аспекты изобретения в связи с нижеследующим описанием и прилагаемыми к нему чертежами. Эти аспекты, однако, указывают лишь на некоторые из различных способов, при помощи которых могут быть использованы принципы изобретения, при этом подразумевается, что настоящее изобретение охватывает все такие аспекты и их эквиваленты. Другие преимущества и признаки новизны изобретения могут стать очевидными из нижеследующего подробного описания изобретения при рассмотрении его совместно с прилагаемыми чертежами.

Краткое описание чертежей

Фиг. 1 - блок-схема системы автоматического обнаружения аномалий перспективных представлений данных, соответствующей аспекту настоящего изобретения.

Фиг. 2 - другая блок-схема системы автоматического обнаружения аномалий перспективных представлений данных, соответствующей аспекту настоящего изобретения.

Фиг. 3 - еще одна блок-схема компонента автоматического обнаружения аномалий перспективных представлений данных, соответствующего аспекту настоящего изобретения.

Фиг. 4 - блок-схема последовательности операций способа обеспечения автоматического обнаружения аномалий перспективных представлений данных, соответствующего аспекту настоящего изобретения.

Фиг. 5 - другая блок-схема последовательности операций способа обеспечения автоматического обнаружения аномалий перспективных представлений данных, соответствующего аспекту настоящего изобретения.

Фиг. 6 - иллюстрация приводимой в качестве примера операционной среды, в которой может функционировать настоящее изобретение.

Фиг. 7 - иллюстрация другой приводимой в качестве примера операционной среды, в которой может функционировать настоящее изобретение.

Осуществление изобретения

Настоящее изобретение описано ниже со ссылками на чертежи, где одинаковые ссылочные позиции используются для указания на одинаковые элементы на всех чертежах. В нижеследующем описании в целях его объяснения приводятся многочисленные конкретные подробности для того, чтобы обеспечить полное понимание настоящего изобретения. Представляется, однако, очевидным то, что данное изобретение может быть осуществлено без этих конкретных подробностей. В других случаях хорошо известные структуры и устройства показаны в форме блок-схем, что сделано с целью облегчения описания настоящего изобретения.

Термин «компонент» в том значении, в котором он использован в данной заявке, предназначен для обозначения некоторой связанной с компьютером сущности, будь то аппаратное обеспечение, сочетание аппаратного обеспечения и программного обеспечения, программное обеспечение и программное обеспечение в состоянии своего исполнения. Например, компонент может представлять собой, но не в ограничительном смысле: процесс, исполняемый процессором; процессор; объект; исполняемый модуль; поток исполнения; программу; и/или компьютер. В качестве иллюстрации отметим, что компьютерным компонентом может быть как приложение, исполняемое сервером, так и сервер. Внутри процесса и/или потока исполнения может находиться один или более компонентов, и компонент может быть локализован на одном компьютере и/или распределен между двумя или более компьютерами. «Поток» представляет собой сущность внутри процесса, чье исполнение планируется ядром операционной системы. Как хорошо известно в данной области техники, каждый поток имеет связанный с ним «контекст», который представляет собой изменяющиеся данные, связанные с исполнением потока. Контекст потока включает в себя содержимое системных регистров и виртуальный адрес, принадлежащий процессу этого потока. Таким образом, фактические данные, содержащие контекст потока, изменяются по мере его исполнения.

Настоящее изобретение обеспечивает анализ перспективных (то есть имеющих n измерений) представлений данных посредством автоматического обнаружения аномальных данных. Для подачи пользователю уведомления о том, что конкретное перспективное представление данных имеет на некотором уровне ошибочные данные, используются индикаторы. Этот уровень может представлять собой отображаемый на экране или верхний уровень и/или уровень, который на текущий момент не отображается и требует от пользователя для обнаружения ошибочных значений данных провести нисходящий анализ данных и/или «поперечный» анализ данных. Таким образом, пользователь может легко определить, что существуют аномалии данных, и определить то, сколько усилий и/или какое представление данных требуется для обнаружения ошибочных данных. Пользователь и/или система могут также статически и/или динамически установить пороговое значение, способствующее автоматическому обнаружению. Пользователь также может выбирать различные пороговые значения для различных типов аномалий данных. Пороговое значение определяет, насколько существенным должно быть отклонение значения данных, прежде чем оно будет признано аномальными. Отклонение определяется посредством сравнения значения данных с прогнозируемым значением данных, полученным при помощи процесса подбора кривой, примененного к трубке данных, имеющей только одно изменяющееся измерение данных. Функции, используемые в процессе подбора кривой, также могут выбираться пользователем. Таким образом, настоящее изобретение позволяет пользователю легко идентифицировать интересующие его характеристики данных, которые он просматривает.

На Фиг. 1 показана блок-схема системы 100 автоматического обнаружения аномалий перспективных представлений данных, соответствующей аспекту настоящего изобретения. В состав системы 100 автоматического обнаружения аномалий перспективных представлений данных входит компонент 102 автоматического обнаружения аномалий перспективных представлений данных, который принимает перспективное представление 104 данных и автоматически определяет аномалии 106 данных. Перспективное представление может включать в себя, но не в качестве ограничения, электронные сводные таблицы и OLAP-кубы данных и т.п. Для обеспечения определения того, какие данные являются аномальными, компонентом 102 автоматического обнаружения аномалий перспективных представлений данных может использоваться необязательное внешнее вводимое пороговое значение 108. Пороговое значение также может быть определено как часть компонента 102 автоматического обнаружения аномалий перспективных представлений данных, как, например, в виде определенного системой значения и/или определенного системой процента отклонения и т.п. Также в настоящем изобретении может быть использовано множество установленных пользователем пороговых значений, которые предназначены для использования с различными типами аномалий данных. Для определения того, какие данные являются аномальными, компонент 102 автоматического обнаружения аномалий перспективных представлений данных использует процесс подбора кривой, применяемый к трубке данных из перспективного представления данных. Для обеспечения автоматического обнаружения аномалий данных процесс подбора кривой может также включать в себя заданные пользователем функции.

На Фиг. 2 изображена другая блок-схема системы 200 автоматического обнаружения аномалий перспективных представлений данных, соответствующей аспекту настоящего изобретения. В состав системы 200 автоматического обнаружения аномалий перспективных представлений данных входит компонент 202 автоматического обнаружения аномалий перспективных представлений данных, который состоит из компонента 204 трубок данных и компонента 206 обнаружения аномалий. Компонент 204 трубок данных принимает перспективное представление 208 данных и преобразует перспективное представление 208 данных в трубки данных. Трубки данных содержат срезы данных из перспективного представления 208 данных, имеющие только одно изменяющееся измерение данных. Компонент 206 обнаружения аномалий принимает трубки данных и обрабатывает их, используя для определения любых аномалий данных процесс подбора кривой. В состав процесса подбора кривой входит процесс, который пытается сгенерировать функцию, способную оценивать данные в трубке данных. Оцененные данные становятся «прогнозируемыми данными», которые используются для определения показателя отклонения для данных в этой трубке данных. Для определения того, какая величина отклонения является приемлемой, компонентом 206 обнаружения аномалий используется вводимое пороговое значение 212. Вводимое пороговое значение 212 может генерироваться системой и/или генерироваться пользователем. Любые данные, которые превышают вводимое пороговое значение 212, что определяется компонентом 206 обнаружения аномалий, затем выводятся как аномалии 210.

На Фиг. 3 проиллюстрирована еще одна блок-схема компонента 300 автоматического обнаружения аномалий перспективных представлений данных, соответствующего аспекту настоящего изобретения. В состав компонента 300 автоматического обнаружения аномалий перспективных представлений данных входят компонент 310 трубок данных и компонент 302 обнаружения аномалий. В состав компонента 302 обнаружения аномалий входят компонент 304 функции подбора кривой, компонент 306 показателя отклонения данных и компонент 308 определения аномалии. Компонент 304 функции подбора кривой принимает трубку данных от компонента 310 трубок данных и определяет подходящую функцию для представления данных из трубки данных. Это позволяет сгенерировать прогнозируемые данные для значений данных из трубки данных. Компонент 304 функции подбора кривой может также принимать не являющуюся обязательной, задаваемую пользователем функцию 316 для использования ее в качестве подходящей функции. Это позволяет пользователю приспосабливать процесс обнаружения к своим индивидуальным потребностям. Компонент 306 показателя отклонения данных принимает данные из трубки данных вместе с функцией подбора кривой, поступающей из компонента 304 функции подбора кривой. Компонент 306 показателя отклонения данных использует функцию подбора кривой для прогнозирования значений для данных. Эти значения затем сравниваются с фактически имеющимися значениями данных, и определяется показатель, основанный на величине отклонения от прогнозируемого значения. Компонент 308 определения аномалии принимает показатели отклонений и использует вводимое пороговое значение 314 для определения данных, которые превышают пороговое значение. Данные, по которым установлено, что они находятся за пределами порогового значения, признаются аномальными и выводятся как аномальные данные 312.

Для того чтобы лучше понять вышеописанные системы, полезно представить себе контекст и значение данных. Перспективные представления данных, такие как сводные таблицы и/или OLAP-кубы данных, являются для предприятий ключевыми инструментами. Они позволяют пользователю быстро и легко осуществлять навигацию по большим наборам данных, тем самым способствуя принятию связанных с бизнесом (и других) решений. По существу, перспективные представления данных, такие как сводные таблицы и/или OLAP-кубы данных, представляют собой n-мерные представления набора данных. Например, в Таблице 2 приводится иллюстрация сводной таблицы, соответствующей данным, частично показанным в Таблице 1.

Таблица 1Необработанные данные
Дата Кат.Изделий Регион Объемыпродаж
1998 кат.1 р.1 39,45
1998 кат.1 р.2 37,51
1998 кат.1 р.3 35,71
1998 кат.2 р.1 36,77
1998 кат.2 р.2 37,56
1998 кат.2 р.3 35,09
1998 кат.3 р.1 38,77
1998 кат.3 р.2 36,50
1998 кат.3 р.3 38,84
1999 кат.1 р.1 36,85
1999 кат.1 р.2 35,84
1999 кат.1 р.3 38,40
1999 кат.2 р.1 49,13
1999 кат.2 р.2 45,92
1999 кат.2 р.3 45,47
1999 кат.3 р.1 37,31
1999 кат.3 р.2 39,10
1999 кат.3 р.3 36,26
2000 кат.1 р.1 38,58
и т.д.
Таблица 2Формат перспективного представления данных
Регион (Все)
Среднееобъемов продаж Дата
Кат. изделий 1998 1999 2000 2001 2002 2003 Общийитог
кат.1 37,56 37,03 37,23 38,36 37,62 37,08 37,48
кат.2 36,47 46,84 38,15 37,43 36,51 38,20 38,93
кат.3 38,04 37,56 36,17 37,81 37,65 37,15 37,39
Общий итог 37,36 40,48 37,18 37,86 37,26 37,47 37,94

В этом перспективном представлении показаны средние объемы продаж как функция даты и «кат. изделий» (категории изделий); и объемы продаж усреднены по региону (региону продаж). В этом примере «объемы продаж» представляют собой целевые данные, в то время как «дата» и «кат. изделия» представляют собой отображаемые измерения, а «регион» представляет собой агрегированное измерение. В Таблице 2 агрегированное значение представляет собой среднее, но возможны и другие агрегированные значения (например, сумма, минимум и максимум). Возможны и другие перспективные представления того же самого набора данных - например, объемы продаж, как функция даты и региона, усредненные по категориям изделий. Количество отображаемых измерений может быть больше двух (см. Таблицу 4).

Каждое измерение может иметь иерархию. В данном примере иерархию даты составляют год, квартал, неделя; иерархию изделия составляют категория изделий, изделие; а иерархию местоположения составляют регион, штат. Важной частью перспективного представления данных, такого как сводная таблица, является уровень иерархии, который подлежит отображению. В Таблице 2 отображаемыми уровнями являются: год - для измерения «дата», категория изделий - для измерения «изделие» и регион - для измерения «местоположение». Пользователи могут осуществить нисходящий анализ внутрь (отображаемого) измерения. Это соответствует переходу к следующему более низкому уровню в иерархии этого измерения (см. Таблицу 5). Пользователи также могут осуществлять анализ в поперечном направлении по отношению к заданной оси, расширив ее в соответствии с измерением, не присутствующим на текущий момент в сводной таблице. Например, в Таблице 4 показан результат «поперечного» анализа, проводимого по региону, сводной таблицы, приведенной в Таблице 2.

Сводная таблица также имеет поле страницы, содержащее измерения (как некоторый уровень в их иерархии), которое выбирает данные, подлежащие показу. В Таблице 2 поле страницы содержит измерение «местоположение» на уровне «регион». Выбраны объемы продаж по всем регионам. В качестве альтернативы, пользователь мог бы выбрать объемы продаж для конкретного региона или штата. В общем, сводная таблица набора данных соответствует (1) целевым данным, (2) отображаемым измерениям на некотором уровне иерархии, (3) измерениям, указанным в поле страницы, на некотором уровне иерархии и (4) функции агрегирования.

Обычно одна или более ячеек в перспективном представлении данных, таком как, например, сводная таблица, могут быть аномальными. Настоящее изобретение обеспечивает автоматическое обнаружение и отображение, по меньшей мере, трех типов аномалий ячеек, таких как, например, (1) аномалии, присутствующие на экране, (2) аномалии, выявляемые при «поперечном» анализе, и (3) аномалии, выявляемые при нисходящем анализе, и т.п. Ячейка имеет аномалию, присутствующую на экране, если она аномальна в контексте других данных, отображаемых на экране. Ячейка имеет аномалию, выявляемую при «поперечном» анализе, если «поперечный» анализ этой ячейки выявляет аномалию. Ячейка имеет аномалию, выявляемую при нисходящем анализе, если анализ, направленный внутрь этой ячейки, выявляет аномалию. Эти типы аномалий показаны в Таблице 3 (идентичной Таблице 2 за исключением форматирования).

Таблица 3Аномалии перспективного представления данных
Регион (Все)
Среднееобъемов продаж Дата
Кат. изделий 1998 1999 2000 2001 2002 2003 Общийитог
кат.1 37,56 37,03 37,23 38,36 37,62 37,08 37,48
кат.2 36,47 46,84 38,15 37,43 36,51 38,20 38,93
кат.3 38,04 37,56 36,17 37,81 37,65 37,15 37,39
Общий итог 37,36 40,48 37,18 37,86 37,26 37,47 37,94

В Таблице 3 ячейка кат.2/1999 имеет аномалию, присутствующую на экране, поскольку ячейка имеет более высокие средние объемы продаж, чем любая другая ячейка в ее строке или столбцах. Ячейка кат.2/2001 в Таблице 3 имеет аномалию, выявляемую при «поперечном» анализе. Эта аномалия не очевидна до тех пор, пока пользователь не осуществит поперечный анализ перспективного представления данных по измерению «регион», что показано в Таблице 4, приводимой ниже.

Таблица 4Аномалия, выявляемая при «поперечном» анализе
Среднееобъемов продаж Дата
Кат.изделий Регион 1998 1999 2000 2001 2002 2003 Общийитог
кат.1 р.1р.2р.3 39,4537,5135,71 36,8535,8438,40 38,5836,5436,59 39,7036,3639,01 35,4738,3239,05 35,5839,6336,01 37,6137,3737,46
Итог по кат.1 37,56 37,03 37,23 38,36 37,62 37,08 37,48
кат.2 р.1р.2р.3 36,7737,5635,09 49,1345,9245,47 39,1036,8738,46 44,6542,0425,58 36,9537,4935,09 37,5537,4039,64 40,6939,5536,55
Итог по кат.2 36,47 46,84 38,15 37,43 36,51 38,20 38,93
кат.3 р.1р.2р.3 38,7736,5038,84 37,3139,1036,26 37,9635,2235,35 37,0738,6137,74 37,0937,3538,50 39,4636,6935,29 37,9437,2537,00
Итог по кат.3 38,04 37,56 36,17 37,81 37,65 37,15 37,39
Общий итог 37,36 40,48 37,18 37,86 37,26 37,47 37,94

В Таблице 4 объемы продаж в регионе «р.3» показаны значительно более низкими, чем эти показатели в регионах «р.1» и «р.2». Кроме того, ячейка кат.3/2002 в Таблице 3 имеет аномалию, выявляемую при нисходящем анализе. Опять, аномалия не очевидна до тех пор, пока пользователь не проведет нисходящий анализ по иерархии изделия так, как это показано в Таблице 5, приведенной ниже.

Таблица 5Аномалия, выявляемая при нисходящем анализе
Регион (Все)
Среднееобъемов продаж Дата
Кат. изделий 1998 1999 2000 2001 2002 2003 Общийитог
кат.1кат.2кат.3 37,5636,4738,04 37,0346,8437,56 37,2338,1536,17 38,3637,4337,81 37,6236,5137,65 37,0838,2037,15 37,4838,9337,3942,8743,4826,59
издел.1издел.2издел.3 42,8743,4826,59
Общий итог 37,36 40,48 37,18 37,86 37,45 37,47 37,89

В Таблице 5 объемы продаж изделия 3 показаны значительно более низкими, чем эти показатели для изделия 1 и изделия 2. В этих примерах аномалии, видные на экране, были выделены, а аномалии, выявляемые при поперечном анализе, и аномалии, выявляемые при нисходящем анализе, были указаны рамкой. Однако специалист в данной области техники должен понимать, что возможно и много других вариантов.

Ниже приводится пример автоматического обнаружения аномалии согласно данному изобретению. Термин «трубка» используется для обозначения среза данного перспективного представления данных, в котором изменяется только одно измерение. В двухмерном перспективном представлении данных трубка просто соответствует строке и/или столбцу. Некоторые примеры трубок показаны в трехмерной сводной таблице, приведенной в Таблице 4, они соответствует (1) изменяющейся категории изделий при фиксированных дате и регионе, (2) изменяющемуся региону при фиксированных категории изделий и дате и (3) изменяющейся дате при фиксированных категории изделий и регионе.

Ячейка является аномальной по отношению к трубке, если она существенно отклоняется от ожидаемого значения для данной ячейки, рассчитанного при помощи функции подбора кривой. Вместо требования о том, чтобы значения в перспективном представлении данных были непрерывными, принимается, что перспективное представление данных является одномерным и имеет индекс, который упорядочен. Например, перспективное представление данных могло бы быть проиндексировано по времени, расстоянию или денежным суммам. Таким образом, значения перспективного представления данных могут быть непрерывными и/или дискретными. Тогда для обнаружения аномалии к этому перспективному представлению может быть применен некоторый метод подбора кривой, такой как, например, «авторегрессионный» метод подбора кривой. В одном примере по настоящему изобретению обнаружению аномалии может способствовать присвоение некоторого показателя отклонения за величину отклонения от ожидаемого значения. Этот показатель отклонения может затем сравниваться с заданным пороговым значением для определения того, существует ли аномалия. Например, в случае дискретных данных определяется вероятность наблюдаемых значений в перспективном представлении данных. Если вероятности в существенной мере низкие, то данные признаются аномальными.

В другом примере настоящего изобретения для имеющих непрерывное измерение данных, находящихся в трубке, подобрана кусочно-линейная функция (с использованием дерева регрессии и т.п.). Тогда ячейка имеет аномалию в том случае, если:

|значение в ячейке - прогнозируемое значение для ячейки| >
порогового значения, (Уравнение 1)

где левая сторона этого уравнения представляет собой показатель отклонения для ячейки.

В еще одном примере по настоящему изобретению для имеющих дискретное измерение данных, находящихся в трубке, подобрана авторегрессионная модель. Тогда ячейка имеет аномалию в том случае, если вероятность значения, содержащегося в ячейке, меньше, чем некоторое пороговое значение.

Как очевидно из вышесказанного, настоящее изобретение предусматривает для непрерывных данных и дискретных данных различные функции подбора кривой. Имеется, однако, множество способов определения того, является ли измерение дискретным или непрерывным. Например, пользователь может определить свой выбор (например, пометив это измерение как «число» посредством команды задания формата и т.п.). Или, в качестве дополнительного примера, этот выбор может быть сделан автоматически посредством исследования данных (например, используя для этого системы и способы, такие как те, что описаны в заявке на патент США, имеющей порядковый номер 09/298737, поданной Хекермэном и др. 23 апреля 1999 г. и озаглавленной «Определение того, является ли переменная численной или нечисленной»).

Три типа аномалий по данному примеру теперь будут определены для данного перспективного представления, такого как сводная таблица. Ячейка имеет присутствующую на экране аномалию, если она имеет аномалию по отношению к любой из отображаемых трубок. Другие определения могут включать в себя следующие определения (хотя и не ограничиваются ими): (1) ячейка имеет аномалию, присутствующую на экране, если она аномальна в отношении всех отображаемых трубок, и (2) ячейка имеет аномалию, присутствующую на экране, если усредненная степень отклонения по всем отображаемым на экране трубкам превышает пороговое значение. Ячейка имеет аномалию, выявляемую при «поперечном» анализе, если имеется аномальная трубка, которая изменяется по неотображаемому измерению (при фиксированных отображаемых измерениях). Ячейка имеет аномалию, выявляемую при нисходящем анализе, если имеется аномальная ячейка, которая изменяется по отображаемому в текущий момент измерению, подвергаемому нисходящему анализу с переходом на более глубокий уровень (при фиксированных всех других отображаемых измерениях).

Аномалии, выявляемые при «поперечном» анализе и при нисходящем анализе, по определению невидимы для пользователя. Способ продемонстрировать их заключается в том, чтобы предоставить пользователю возможность увидеть, какие измерения и/или иерархии должны быть расширены для наблюдения аномалий. В некоторых приложениях, использующих перспективные представления данных, это может быть сделано посредством «щелчка» правой клавишей указательного устройства (например, «мыши») по аномальной ячейке. Помимо индикации того, какие измерения и/или иерархии содержат аномалии, также может указываться и степень аномалии - например, посредством сортировки измерений и иерархий в соответствии с их соответствующим показателем отклонения.

Что же касается аномалий, присутствующих на экране, то пользователь может захотеть получить объяснения по поводу того, почему ячейка аномальна. Это достигается в настоящем изобретении посредством отображения (например, выделения) тех трубок, показатели отклонения которых превышают пороговое значение. Эта функция в некоторых приложениях также может задействоваться путем использования «щелчка» правой клавишей указательного устройства (например, «мыши»).

Что касается пороговых значений, то здесь следует рассмотреть два случая. Во-первых, рассматриваемая ячейка может быть подвергнута анализу, направленному внутрь ячейки, и/или «поперечному» анализу и/или в первоначальных данных может иметься множество элементов данных для одной и той же ячейки. В этом случае может быть использовано пороговое значение сσ, где с является устанавливаемой пользователем константой, а σ является стандартным отклонением данных, являющимся результатом одного или более расширений ячейки. Во-вторых, если ячейка не может быть расширена, или как альтернатива вышеописанному пороговому значению, в качестве порогового значения может быть использовано с<прогнозируемых значений> или просто с, где вновь с является устанавливаемой пользователем константой. В качестве альтернативы, могут быть показаны k наиболее значительных аномалий, где k выбирается пользователем. В качестве альтернативы, может быть выбрано, чтобы не помечалась никакая ячейка, которая не может быть расширена.

При рассмотрении иллюстративной системы, показанной и описанной выше, способы, которые могут быть осуществлены согласно настоящему изобретению, будут лучше поняты при ссылке на блок-схемы, приведенные на Фиг. 4-5. Хотя в целях простоты изложения способы показаны и описаны как последовательности этапов, следует понимать и иметь в виду, что настоящее изобретение не ограничено порядком следования этих этапов, поскольку некоторые этапы согласно настоящему изобретению имеют место в различных порядках следования и/или одновременно с другими этапами из числа показанных и описанных в данном документе. Кроме того, не все приведенные на иллюстрации этапы могут потребоваться для осуществления способов согласно настоящему изобретению.

Изобретение может быть описано в общем контексте машиноисполняемых команд, таких как программные модули, исполняемые одним или более компонентами. Обычно программные модули включают в себя процедуры, программы, объекты, структуры данных и т.д., выполняющие конкретные задачи или реализующие определенные абстрактные типы данных. Обычно функциональные возможности программны