Принципы и способы персонализации потоков новостей посредством анализа новизны и динамики информации
Иллюстрации
Показать всеПредставлена система и методика фильтрации временных потоков информации, таких как новостные описания, посредством статистических мер новизны информации. Различные методики могут быть применены к собственным разработанным потокам новостей или другим типам информации на основе информации, которую пользователь уже просмотрел. Предусмотрены способы анализа новизны информации наряду с системой, которая персонализирует и фильтрует информацию для пользователей посредством определения новизны описаний в контексте описаний, которые они уже просмотрели. Система использует алгоритмы анализа новизны, которые представляют статьи как набор слов и именованных объектных сущностей. Алгоритмы анализируют динамику между и внутри документов посредством рассмотрения того, как информация развивается со временем от статьи к статье, а также внутри отдельных статей. Технический результат - возможность упорядочивания новостных статей, чтобы каждая статья добавляла максимум информации по отношению к ранее представленным единицам информации. 3 н. и 11 з.п. ф-лы, 13 ил., 1 табл.
Реферат
Родственная заявка
По данной заявке испрашивается приоритет Предварительной заявки на патент США, серийный номер 60/549,371, поданной 2 марта 2004 года и озаглавленной "PRINCIPLES AND METHODS FOR PERSONALIZING NEWSFEEDS VIA AN ANALYSIS OF INFORMATION DYNAMICS", которая полностью включена в данное описание посредством ссылки.
Область техники, к которой относится изобретение
Настоящее изобретение относится, в общем, к компьютерным системам и, более конкретно, к системам и способам, которые персонализируют временные потоки информации, например новости, посредством автоматизированного анализа динамики информации.
Предшествующий уровень техники
Всего десятилетие назад крупномасштабные потоки информации, такие как потоки новостей, принадлежали, отслеживались и фильтровались организациями, специализирующимися в подготовке новостей. Web-технологии стали причиной сложностей и широких возможностей управления и принятия потоков новостей всеми заинтересованными пользователями. Определение "важной" информации было важнейшим аспектом исследований по web-поиску и резюмированию текста. Способы поиска ориентированы на определение набора документов, который максимально удовлетворяет острым информационным потребностям пользователя. Резюмирование направлено на сжатие больших объемов текста в более краткую формулировку. При отсутствии автоматизированных способов определения глубокой семантики, ассоциированной с текстом, прежняя работа по резюмированию в типичном варианте проводилась на уровне законченных предложений, соединяя наиболее представительные предложения для того, чтобы создать резюме по документу. Исследования в области поиска и резюмирования обычно игнорировали динамику информационного содержимого, непрерывно прибывающего со временем.
Сущность изобретения
Далее представлено упрощенное изложение сущности изобретения для того, чтобы предоставить базовое понимание некоторых аспектов изобретения. Эта сущность не является всесторонним обзором изобретения. Она не предназначена для того, чтобы определять ключевые/важнейшие элементы изобретения или обрисовывать объем изобретения. Ее единственная цель - представить некоторые концепции изобретения в упрощенной форме в качестве вступления в более подробное описание, которое представлено далее.
Настоящее изобретение предоставляет системы и способы определения новизны информации и посвящено тому, как эти способы могут быть применены так, чтобы управлять информационным содержимым, которое развивается во времени. Представлена общая инфраструктура для сравнения совокупностей документов, в соответствии с чем документы могут быть предположительно организованы в группы по своему содержимому или источнику и проанализированы на предмет межгрупповых и внутригрупповых различий и общностей. Например, сопоставление двух групп документов, посвященных одной теме, но полученных из двух различных источников, к примеру, информационного обзора происшествия в различных частях мира, может показать интересные различия мнений и общих истолкований ситуаций. За счет перемещения содержимого из статичных совокупностей в наборы статей, генерируемых во времени, может быть рассмотрено его развитие. Например, поток новостных статей по общему описанию может быть рассмотрен во времени с целью выделения действительно информативных свежих новостей и фильтрования множества статей, которые в значительной степени передают "практически то же самое".
Может быть собрана подробная статистика по вхождению слова в наборы документов, чтобы охарактеризовать различия и сходства в этих наборах. Различные модели слова могут быть расширены за счет выделения именованных объектных сущностей, которые обозначают, например, имена людей, названия организаций и географических местоположений. В отличие от фраз и словосочетаний, чьи отличительные семантические свойства обычно компенсируются отсутствием достаточной статистики, именованные объектные сущности определяют относительно стабильные речевые обороты, которые используются одинаково многими авторами в данной теме и, таким образом, их использование приносит значительный объем информации. Например, один тип подготовленного анализа представляет статьи, использующие найденные в них именованные объектные сущности. Анализ может быть ориентирован на прямые потоки новостей или другие темы. Прямые потоки новостей представляют значительные сложности и широкие возможности для исследований. Потоки новостей охватывают огромные объемы данных, представляют изобилие мнений и взглядов и включают в себя широкий спектр форматов и содержимого от коротких свежих новостей до крупных резюме по описанным событиям и простых повторов "тех же устаревших фактов", передаваемых снова и снова.
Могут быть разработаны алгоритмы, которые определяют важные свежие новости по отслеживаемым описаниям, освобождая пользователей от необходимости тщательно анализировать длинные списки похожих статей, приходящих из разных источников. Способы, предоставленные в соответствии с настоящим изобретением, обеспечивают основу для персонализированного портала новостей и служб оповещения о новости, которые позволяют минимизировать время и потери для пользователей, которые хотят следить за развитием новостных описаний.
Настоящее изобретение предоставляет различные архитектурные компоненты для анализа информации и фильтрации содержимого для пользователей. Во-первых, представлена инфраструктура для определения различий в наборах документов посредством анализа распределений слов и распознанных именованных сущностей. Эта инфраструктура может быть применена для того, чтобы сравнивать отдельные документы, наборы документов или документ и набор (например, новую статью с сочетанием ранее просмотренных новостных статей по теме). Во-вторых, совокупность алгоритмов, которые оперируют прямыми потоками новостей (или другими развивающимися во времени потоками), предоставляет пользователям возможность персонализованной работы с новостями. Эти алгоритмы были реализованы в иллюстративной системе, названной News Junkie, которая представляет пользователям максимально информативные свежие новости. Пользователи могут запрашивать свежие новости через заданные пользователем периоды или по каждому всплеску сообщений по описанию. Пользователи также могут настраивать требуемую степень значимости этих свежих новостей по основному описанию, разрешая доставку смежных статей, которые описывают связанные или похожие описания. Кроме того, предусмотрен способ оценки, который представляет пользователям единое исходное описание и набор статей, ранжированных в соответствии с показателями оценки новизны, и позволяет понять, каким образом участники осознают новизну этих наборов в контексте исходного описания.
Для осуществления вышеупомянутых и связанных целей определенные иллюстрационные аспекты изобретения описаны в данном документе в связи со следующим описанием и прилагаемыми чертежами. Эти аспекты указывают на различные способы, которыми изобретение может быть использовано на практике; при этом подразумевается, что все они охвачены настоящим изобретением. Другие преимущества и новые признаки изобретения могут стать явными из следующего подробного описания изобретения, если рассматривать их вместе с чертежами.
Перечень чертежей
Фиг.1 - блок-схема, иллюстрирующая систему динамики информации в соответствии с аспектом настоящего изобретения.
Фиг.2 - блок-схема, иллюстрирующая инфраструктуру для сравнения совокупностей текста в соответствии с аспектом настоящего изобретения.
Фиг.3 - схема потока данных, иллюстрирующая процесс новизны информации в соответствии с аспектом настоящего изобретения.
Фиг.4 - схема, иллюстрирующая ранжирование результатов в соответствии с аспектом настоящего изобретения.
Фиг.5 - иллюстрация персонализированного процесса обновления новостей в соответствии с аспектом настоящего изобретения.
Фиг.6 - иллюстрация сигналов новизны в соответствии с аспектом настоящего изобретения.
Фиг.7 - иллюстрация примерных взаимоотношений статей в соответствии с аспектом настоящего изобретения.
Фиг.8-11 - иллюстрации примерных пользовательских интерфейсов в соответствии с аспектом настоящего изобретения.
Фиг.12 - блок-схема, иллюстрирующая подходящую рабочую среду в соответствии с аспектом настоящего изобретения.
Фиг.13 - блок-схема примера вычислительной среды, с которой может взаимодействовать настоящее изобретение.
Подробное описание изобретения
Настоящее изобретение относится к системе и способу для идентификации новизны информации и управления информационным содержимым по мере того, как оно развивается во времени. Согласно одному аспекту, предоставляется система распространения персонализированной информации. Система включает в себя компонент, который определяет различия между двумя или более единицами информации. Анализатор автоматически определяет подмножество единиц информации частично на основе определенных различий и того, как данные, относящиеся к единицам информации, развиваются во времени. Кроме того, предоставляются различные способы. С одной стороны, способ создания персонализированной информации включает в себя автоматический анализ документов из различных информационных источников и автоматическое определение новизны документов. Персонализированный поток информации затем предоставляется пользователю на основе новизны документов.
Системы и способы настоящего изобретения могут быть применены к множеству различных вариантов применения. Они могут включать в себя варианты применения, которые помогают в разработке идеальных последовательностей чтения или путей через не прочитанные на данный момент новостные описания по теме с различными промежутками новизны от настоящего времени. Для разработки последовательностей отслеживания развития новостей варианты применения рассматривают самые последние новости, а также всплески новостей во времени, для того, чтобы помочь людям понять развитие новостного описания и перемещаться по истории описаний по основным происшествиям/свежим новостям. Другие варианты применения включают в себя разработку различных типов образцов отображения и модельных представлений, например, использование представления во времени или других аспектов, например, представление кластеров во времени. Что касается идеального оповещения на рабочем столе и мобильных настроек самых последних новостных описаний по теме, один из вариантов применения предоставляет пользователям возможность задавать темы или ключевые слова, но оповещать только когда достаточно новизны при известности того, что пользователь прочел. В способах на основе ключевого слова оповещения могут быть предусмотрены, когда новостное описание выходит с ключевыми словами, если новизна информации достаточна, что более практично, чем схемы простого оповещения на основе ключевого слова.
При использовании в данной заявке термины "компонент", "анализатор", "система" и т.п. означают связанную с компьютером объектную сущность: либо аппаратные средства, сочетание аппаратных средств и программного обеспечения, программное обеспечение, либо программное обеспечение в ходе исполнения. Например, компонент может быть, но не только, процессом, запущенным на процессоре, процессором, объектом, исполняемым файлом, потоком исполнения, программой и/или компьютером. В качестве иллюстрации, и приложение, запущенное на сервере, и сервер могут быть компонентом. Один или более компонентов могут постоянно находиться внутри процесса и/или потока исполнения, и компонент может быть локализован на компьютере и/или распределен между двумя и более компьютерами. Кроме того, эти компоненты могут исполняться с различных машиночитаемых носителей, на которых хранятся различные структуры данных. Компоненты могут обмениваться данными посредством локальных и/или удаленных процессов, например, в соответствии с сигналом, имеющим один или более пакетов данных (к примеру, данных из компонента, взаимодействующего с другим компонентом в локальной системе, распределенной системе и/или по сети, например, по Интернету, с другими системами посредством сигнала).
Обратимся сначала к фиг.1, на которой проиллюстрирована система 100 динамики информации в соответствии с аспектом настоящего изобретения. Настоящее изобретение предоставляет системы и способы определения новизны информации и посвящено тому, как эти способы могут быть применены для того, чтобы управлять информационным содержимым, которое развивается во времени. Предусмотрена общая инфраструктура 100 для сравнения совокупностей документов 110 посредством блока 114 сравнения, в соответствии с которой документы могут быть организованы в группы по своему содержимому или источнику 120 и проанализированы анализатором 130 на предмет межгрупповых и внутригрупповых различий и общностей. Например, сопоставление двух групп документов или файлов, посвященных одной теме, но полученных из двух различных источников, к примеру, информационного обзора происшествия в различных частях мира может показать интересные различия мнений и истолкований ситуаций в целом. За счет перемещения содержимого из статичных совокупностей в наборы статей, генерируемых во времени, может быть рассмотрено его развитие. Например, поток новостных статей может быть рассмотрен по общему описанию во времени с целью выделения действительно информативных свежих новостей и отфильтровывания множества статей посредством фильтра 140, который взаимодействует с анализатором 140, чтобы доставлять персонализированную информацию на 150.
Может быть собрана подробная статистика по вхождению слова в наборы документов, чтобы охарактеризовать различия и сходства в этих наборах. Модель на основе слов может быть расширена за счет выделения именованных объектных сущностей, которые обозначают, например, имена людей, названия организаций и географических местоположений. В отличие от фраз и словосочетаний, чьи отличительные семантические свойства обычно компенсируются отсутствием достаточной статистики, именованные объектные сущности определяют относительно стабильные речевые обороты, которые используются одинаково многими авторами в данной теме, и, таким образом, их использование приносит значительный объем информации. Один тип подготовленного анализа представляет статьи, используя найденные в них именованные объектные сущности. Анализ может быть ориентирован на прямые потоки новостей или другие временные потоки данных. В одном примере потоки новостей охватывают огромные объемы данных, представляют изобилие мнений и взглядов и включают в себя широкий спектр форматов и содержимого от коротких свежих новостей до крупных резюме по описанным событиям и простых повторов устаревших фактов, передаваемых снова и снова.
Алгоритмы, которые описаны более подробно ниже, могут быть предусмотрены в блоке сравнения 114, анализаторе 130 и/или фильтре 140; они определяют свежие новости по отслеживаемым описаниям или потокам, освобождая пользователей от необходимости тщательно анализировать длинные списки похожих статей, поступающих из разных источников новостей. Различные способы обеспечивают основу для персонализированного портала новостей и служб оповещения о новостях (см. 150), которые позволяют минимизировать время и потери для пользователей, которые хотят следить за развитием описаний. Необходимо принимать во внимание, что хотя один иллюстративный аспект настоящего изобретения может быть применен к анализу и фильтрации такой информации, как новости, по существу любой развивающийся во времени поток информации может быть обработан в соответствии с настоящим изобретением. Кроме того, данные могут быть собраны из множества различных информационных источников, например, из портативного компьютера, мобильного устройства, настольного компьютера, причем такие данные могут быть кэшированы (к примеру, на централизованном сервере) и проанализированы в соответствии с тем, за какими данными пользователь следил ранее. Так можно принять во внимание, что информация может быть сгенерирована из множества источников, таких как Интернет, например, или в местных средах, таких как внутренняя сеть интранет компании.
Обратимся теперь к фиг.2, на которой проиллюстрирована система 210 для сравнения совокупностей текста в соответствии с аспектом настоящего изобретения. Рассматривая два или более набора текстового содержимого, следует определить, каким образом характеризуются различия между наборами. Определение различий полезно во множестве вариантов применения, в том числе автоматическом профилировании и сравнении совокупностей текста, автоматическом определении различных взглядов, намерений и интересов, отражаемых в текстах, и автоматическом определении новой информации. Вообще, некоторые аспекты "различия" могут быть рассмотрены следующим образом:
На 220 различия в содержимом могут отражать различные способы, которыми конкретный человек или происшествие описано в наборах документов. Например, рассмотрим анализ различий в предопределенных разделах, к примеру, сравнение американских и европейских сообщений по различным политическим вопросам или сравнение освещения нарушения электроснабжения на Восточном побережье в новостях, создаваемых в источниках, базирующихся на Восточном и Западном побережье.
На 230 различия в структурной организации могут выйти далеко за рамки текста и также учитывать структуру ссылок web-узлов, к примеру, сравнение web-узла IBM и web-узла Intel.
На 240 различия во времени (т.е. временные аспекты различий в содержимом) могут показать интересные тематические изменения в последовательности документов. Такой тип анализа может быть использован для того, чтобы сравнивать сегодняшние новости с новостями, опубликованными месяц или год назад для того, чтобы отслеживать изменения во времени в журналах регистрации запросов поисковой машины или определять временные изменения в темах в личной электронной почте пользователя.
Временные различия включают в себя автоматическую оценку новизны во времени новостных статей (или другого типа информации), создаваемых в прямых потоках новостей. Конкретно, рассматриваются следующие стороны:
На 250 характеристика новизны новостных описаний предоставляет возможность упорядочивания новостных статей таким образом, чтобы каждая статья добавляла максимум информации в ранее прочитанные или представленные единицы (или их сочетание).
На 260 анализируется развитие темы во времени, что делает возможным измерение важности и релевантности свежих новостей, предоставление конечным пользователям контроля над этими параметрами и обеспечения им возможности персонализированной работы с новостями.
Фиг.3 - это методика 300, иллюстрирующая процесс характеризации новизны в соответствии с аспектом настоящего изобретения. Хотя в целях упрощения пояснения методика показана и описана как последовательность действий, необходимо понимать и принимать во внимание, что настоящее изобретение не ограничено порядком действий, поскольку некоторые действия могут, в соответствии с настоящим изобретением, осуществляться в различном порядке и/или параллельно с другими действиями, что показано и описано в данном документе. Например, специалисты в данной области техники поймут и примут во внимание, что методика может быть альтернативно представлена как последовательность взаимосвязанных состояний или событий, например, на диаграмме состояний. Более того, не все проиллюстрированные действия могут быть необходимы, чтобы реализовать методику в соответствии с настоящим изобретением.
Переходя к 310, разработаны различные инструментальные средства, чтобы реализовывать и тестировать рабочие характеристики алгоритма. Одни такой набор программных инструментальных средств, который реализует совокупность алгоритмов и ряд вариантов визуализации для сравнения совокупностей текста, назван "NewsJunkie". NewsJunkie представляет документы как набор слов, дополненный именованными объектными сущностями, извлеченными из текста. Для этой цели также были использованы стандартные средства извлечения, которыми определяют имена людей, названия организаций и географических местоположений.
На 320 определяются элементы, которые подлежат сравнению в рамках документов. Вообще, группы документов содержат документы с некоторым общим свойством и являются базовой единицей сравнения. Примерами таких общих свойств могут быть конкретная тема или источник новостей (к примеру, описания нарушения электроснабжения, исходящие из агентств новостей Восточного побережья). Умозаключения о различиях между группами документов выводятся посредством создания модели для каждой группы и последующего сравнения моделей с помощью показателя сходства, как описано ниже. Чтобы облегчить выявление множества моделей, NewsJunkie представляет документы либо как сглаженные распределения вероятностей по всем признакам (слова + именованные объектные сущности), либо как векторы взвешенных признаков (в том же пространстве признаков). Веса могут быть назначены с помощью популярного семейства функций TF.IDF, которые используют компоненты, представляющие частоту вхождения термина в документ и обратную частоту вхождения термина в документы. Также могут быть использованы функции вероятностного взвешивания. Также могут быть реализованы различные варианты сглаживания для того, чтобы уточнять предварительный расчет взвешивания термина. Например, закон следования Лапласа или линейное сглаживание с вероятностями слова во всей совокупности текста; последний вариант был использован в экспериментах, описанных ниже. Заметим, что более одного варианта сглаживания может быть реализовано в рамках системы.
На 330 по фиг.3 определяются показатели сходства для определения различий между единицами информации, такими как документ или текст. Встречается стандартная ситуация, когда что-то интересное происходит в мире, и происшествие подхватывается новостными СМИ. Если происшествие представляет достаточный общественный интерес, его последующее развитие также отслеживается в новостях. Допустим, что первоначальный отчет прочтен и, позднее, пользователи интересуются развитием описания. При наличии Интернет-сайтов, которые собирают в единое целое тысячи источников новостей, острая необходимость пользователя в поиске информации может быть удовлетворена множеством способов и с гораздо большим числом свежих новостей, чем сможет просмотреть даже самый упорный новостной маньяк. Автоматизированные информационные средства для тщательного анализа большого количества документов по теме, которые работают так, чтобы определить элементы или абсолютно новую информацию, могут представлять достаточную ценность.
Следовательно, исключение излишков и совпадений может помочь минимизировать накладные расходы, связанные с отслеживанием новостных описаний. Обычно в новостных историях слишком много лишнего. Например, когда ожидаются новые события или результаты расследования, однако новая информация еще недоступна, агентства новостей часто заполняют пустоту резюме или более ранними выводами, пока не будет доступна новая информация. Ситуация дополнительно осложняется тем фактом, что многие агентства новостей получают часть своего содержимого от крупных транснациональных поставщиков содержимого, например, Reuters или Associated Press. Пользователи новых узлов не хотят читать каждое сообщение снова и снова. Пользователи в основном заинтересованы в сборе информации о том, что нового. Следовательно, упорядочивание новостных статей по новизне обещает быть полезным.
На 330 ряд показателей сходства документов может быть использован для того, чтобы определить документы, которые наиболее отличаются от данного набора документов (к примеру, сочетания ранее прочитанных), при этом задается показатель (метрика) расстояния термина, чтобы подчеркнуть тот факт, что осуществляется поиск документов, которые в целом являются наиболее несхожими с набором документов.
Могут быть реализованы следующие показатели расстояния:
- Отклонение Куллбэка-Лейблера (KL), классический асимметричный теоретико-информационный метод измерения. Допустим, вычисляется расстояние между документом и набором документов . Обозначим вероятностные распределения слов (и именованных объектных сущностей, если имеются) в (документе) и (наборе документов) как и , соответственно. Тогда, расстояние . Заметим, что вычисление требует, чтобы оба распределения были сглажены так, чтобы подавить нулевые значения (соответствующие словам, которые встречаются в , но отсутствуют в , и наоборот).
- Отклонение Йенсена-Шаннона (JS), симметричный вариант KL-отклонения. Используя определения предыдущего пункта, расстояние , где .
- Косинус векторов необработанных вероятностей (вычисление не требует сглаженных вероятностей).
- Косинус векторов весов признака TF.IDF.
- Собственный показатель, сформулированный так, чтобы измерять плотность ранее незамеченных именованных объектных сущностей в статье (называют NE). Интуиция для данного показателя основана на гипотезе, что новая информация часто передается посредством введения новых именованных объектных сущностей, таких как имена людей, названия организаций и мест. Показатель NE может быть задан следующим образом: Пусть - это набор именованных объектных сущностей, имеющихся в наборе документов . Пусть - это набор уникальных именованных объектных сущностей, имеющихся в наборе документов и отсутствующих в наборе . То есть, . Тогда, расстояние .
Нормализация по длине документа в типичном варианте необходима, поскольку без нормализации значение NE стремится к увеличению с увеличением длины из-за вероятностного влияния длины на видимые дополнительные именованные объектные сущности; чем длиннее документ, тем больше вероятность того, что он содержит больше именованных объектных сущностей.
На 340 по фиг.3 показатели расстояния могут быть укреплены, с тем чтобы определять новое информационное содержимое для представления пользователям. В приложении NewsJunkie алгоритм ранжирования по новизне применяется многократно, чтобы сгенерировать небольшой набор статей, которые могут заинтересовать читателя. Используется ресурсоемкий инкрементный анализ. Алгоритм первоначально сравнивает по существу все доступные свежие новости с исходным описанием, которое прочел пользователь, и выбирает статью, наименее схожую с ним. Затем эта статья добавляется в исходное описание (формируя группу из двух документов), и алгоритм ищет следующую свежую новость, наиболее несхожую с сочетанием этих статей, и т.д. Псевдокод алгоритма ранжирования приведен ниже в алгоритме RankNewsByNovelty (ранжирование новостей по новизне).
Алгоритм RankNewsByNovelty
где dist - это показатель расстояния, seed - исходное описание, D - набор релевантных свежих новостей, n - требуемое число свежих новостей для выбора, R - список статей, упорядоченных по новизне.
Чтобы проверить правильность представленного выше алгоритма и показателей расстояния, был проведен эксперимент, в ходе которого просили субъектов оценить наборы новостных статей, упорядоченные по различным показателям расстояния.
Для описанных в данном документе экспериментов был использован прямой поток новостей, который собирает в единое целое новостные статьи из более чем 4000 Интернет-источников. Был использован поток новостей от Moreover Technologies, хотя могли быть использованы любые другие новости или поток RSS. Был использован алгоритм кластеризации для групповых описаний, обсуждающих одни и те же происшествия (в дальнейшем называемых темами). Было использовано двенадцать кластеров, которые соответствуют темам, передаваемым в новостях в середине сентября 2003 года. 12 тем охватили новостные отчеты в промежутке времени от 2 до 9 дней и представили от 36 до 328 статей. Темы включили в себя обзор новой вспышки SARS в Сингапуре, отзыв губернатора Калифорнии, визит Папы Римского в Словению и т.д.
Обычно оценка новизны - это субъективная задача. Один способ получить статистически осмысленные результаты - усреднить оценки набора пользователей. Чтобы сравнить различные показатели ранжирования по новизне, участникам было предложено прочесть несколько наборов статей, упорядоченных по альтернативным показателям, и решить, какие наборы заключали в себе самую новую информацию. Заметим, что этот сценарий обычно требует, чтобы оценивающие помнили все наборы статей, которые они прочли, до тех пор, пока они их не ранжируют. Поскольку трудно хранить несколько наборов статей по незнакомой теме в памяти, эксперимент был ограничен оценкой следующих трех показателей.
1. KL-отклонение было выбрано из-за его привлекательной теоретико-информационной основы (KL).
2. Показатель, подсчитывающий именованные объектные сущности, был выбран в качестве лингвистически оправданной альтернативы (NE).
3. Хронологическое упорядочивание статей было использовано в качестве базиса (ORG).
Для каждой из 12 тем первое описание было выбрано в качестве исходного описания, и использовались 3 описанных выше показателя для того, чтобы упорядочить остальные описания по новизне с помощью алгоритма RankNewsByNovelty. Алгоритм сначала выбирает самую новую статью относительно исходного описания. Эта статья затем добавляется в исходное описание, чтобы сформировать новую модель того, о чем пользователь знает, и выбирается следующая новая статья. Три статьи были выбраны таким способом для каждого из трех показателей и каждой из 12 тем. Для каждой темы субъектов сначала просили прочесть исходное описание, чтобы получить исходные данные о теме. Затем им были показаны три набора статей (каждый набор выбран по одному из показателей), и их попросили ранжировать наборы от самого нового до наименее нового набора. Им были даны указания представить себе задачу как определение набора статей, которые они бы выбрали для друга, который просмотрел исходное описание и теперь захотел узнать, что произошло нового. Порядок представления наборов, сгенерированных по трем показателям, был произвольно распределен между участниками.
Фиг.4 - это график 400, иллюстрирующий ранжирование результатов в соответствии с аспектом настоящего изобретения. В общем, было получено 111 пользовательских оценок по 12 темам, в среднем 9-10 оценок на тему. Фиг.4 показывает количество раз, когда каждый показатель был ранжирован как самый новый, промежуточный и наименее новый. Как можно заметить из схемы 400, сгенерированные по показателям KL и NE наборы были ранжированы как более новые, чем сгенерированные по базисному показателю (ORG).
Таблица 1 Результаты по темам | |||||||
Идентификатор темы | Описание темы | Количество раз, когда самый новый | Средний ранг | ||||
KL | NE | ORG | KL | NE | ORG | ||
тема 1 | Ограбление с пиццей | 5 | 4 | 1 | 1,7 | 1,6 | 2,7 |
тема 2 | RIAA преследует в судебном порядке пользователей MP3 | 2 | 7 | 0 | 1,8 | 1,2 | 3,0 |
тема 3 | Шарон прибывает с визитом в Индию | 2 | 3 | 4 | 2,6 | 1,7 | 1,8 |
тема 4 | Папа Римский прибывает с визитом в Словакию | 9 | 0 | 0 | 1,0 | 2,2 | 2,8 |
тема 5 | Убит шведский министр иностранных дел | 5 | 4 | 0 | 1,4 | 1,6 | 3,0 |
тема 6 | Аль-Каеда | 8 | 1 | 0 | 1,1 | 2,1 | 2,8 |
тема 7 | Отзыв губернатора Калифорнии | 4 | 2 | 3 | 1,7 | 2,2 | 2,1 |
тема 8 | Ошибки в продуктах Microsoft | 3 | 5 | 1 | 1,9 | 1,6 | 2,6 |
тема 9 | SARS в Сингапуре | 7 | 1 | 1 | 1,3 | 2,0 | 2,7 |
тема 10 | Иран создает атомную бомбу | 3 | 5 | 2 | 2,2 | 1,7 | 2,1 |
тема 11 | Расследование NASA | 2 | 5 | 3 | 2,1 | 1,6 | 2,3 |
тема 12 | Ураган Изабелла | 4 | 5 | 0 | 1,9 | 1,6 | 2,6 |
Таблица 1 представляет результаты по темам. Три предпоследних столбца показывают количество раз, когда каждый показатель был ранжирован как самый новый для каждой темы. Три последних столбца показывают средние ранги показателей при условии, что самому новому назначен ранг 1, промежуточному новому - 2, а наименее новому - 3. Был использован непараметрический тест знаков Вилкоксона (Wilcoxon), чтобы оценить статистическую значимость экспериментальных результатов. Сравнивая средние ранги показателей по всем темам (суммированные на фиг.4), и KL, и NE были признаны превосходящими по отношению к ORG при <0,001. Рассматривая отдельные результаты по темам, показатель ORG достиг самого низкого (= наилучшего) ранга из всех трех показателей. В 6 случаях (темы 2, 4, 5, 6, 9, 12) разность в среднем ранге между ORG и показателем с самым низким значением была статистически значима при <0,05 и в одном дополнительном случае значимость была пограничной при =0,068 (тема 8). Сравнивая два лучших показателя (KL с NE), разность в пользу KL была статистически значимой при <0,05 для тем 4 и 6 и погранично значимой (=0,083) для темы 9. Разность в средних рангах в пользу NE была погранично значимой для тем 2 и 3 (=0,096 и =0,057, соответственно).
Фиг.5 иллюстрирует персонализированный процесс 500 обновления новостей в соответствии с аспектом настоящего изобретения. Алгоритм RankNewsByNovelty, представленный и оцененный в предыдущем разделе, работает исходя из предположения о том, что пользователь хочет отслеживать последнее развитие событий некоторое время после первого прочтения о них. В этом случае алгоритм упорядочивает последние статьи по новизне по сравнению с исходным описанием, и затем пользователь может прочесть ряд статей с самыми высокими значениями в зависимости от того, сколько свободного времени он может выделить для чтения.
Тем не менее, что, если пользователь хочет следить за свежими новостями по мере того, как фактически происходят новые события? Материально-техническое обеспечение, например, сервер сбора будет отслеживать статьи, которые читает пользователь, чтобы оценить новизну новых статей, идущих потоком в новостях или потоке информации. На основе личных предпочтений пользователя, например, насколько часто пользователь хочет получать свежие новости по описанию, сервер принимает решение о том, какие статьи отображать. Поэтому может быть предусмотрен механизм оперативного принятия решений, который определяет, содержит ли статья в достаточной мере новую информацию, ч