Основанная на контексте рекомендующая система
Иллюстрации
Показать всеИзобретение относится к области рекомендации продукта или услуги пользователю. Техническим результатом является обеспечение быстрого и надежного изменения элементов содержимого, рекомендуемых для пользователя. Система содержит: первое извлекающее устройство (S200) для применения алгоритма извлечения первых признаков, чтобы извлекать первые признаки, характеризующие содержимое ввода данных, обрабатываемых первым приложением, запускаемым на упомянутой системе, при этом упомянутое первое извлекающее устройство (S200) приспособлено, чтобы обнаруживать, относится ли упомянутое содержимое упомянутого ввода данных к телевизионной программе или существующему фильму, или телевизионной продукции; переключающую функциональную возможность, запускаемую элементами содержимого во вводе данных, обрабатываемых первым приложением, чтобы активировать второе приложение, при этом упомянутые элементы содержимого относятся к упомянутой телевизионной программе или существующему фильму, или телевизионной продукции; второе извлекающее устройство (S100) для применения алгоритма извлечения вторых признаков, чтобы извлекать вторые признаки, характеризующие содержимое базы данных (32) второго приложения, запускаемого на упомянутой системе; и сравнивающее устройство (S300) для сравнения упомянутых первых и вторых признаков, чтобы идентифицировать совпадающие элементы, используемые для упомянутой рекомендации. 2 н. и 13 з.п. ф-лы, 2 ил.
Реферат
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Настоящее изобретение относится к системе, способу и компьютерному программному продукту для рекомендации продукта или услуги пользователю.
УРОВЕНЬ ТЕХНИКИ ИЗОБРЕТЕНИЯ
В современном информационном обществе знание усиливается от индивидуальной стадии до уровня общества с неведомой ранее скоростью. Информацию, драгоценное сырье эпохи цифровых технологий, никогда еще не было так легко получать, обрабатывать и распространять через интернет. Тем не менее, с огромным количеством информации, представленным пользователям, имеет место стремительно увеличивающаяся сложность выяснения того, что хотят пользователи, когда они в этом нуждаются, и способом, который лучше удовлетворяет их требованиям. Рекомендующие системы делают рекомендацию для конкретного объекта или элемента посредством использования оценок для этого объекта или элемента. Они были представлены как основанные на компьютерах интеллектуальные системы, чтобы справляться с проблемой перегрузки информацией и продуктами. Два базовых объекта рекомендующей системы - пользователь и элемент. Пользователь - человек, который использует рекомендующую систему, предоставляя свое мнение о различных элементах и получая рекомендации о новых элементах от рекомендующей системы. Типично задачами рекомендующих систем является формировать предложения о новых элементах или предсказывать полезность конкретного элемента для конкретного пользователя. Вывод рекомендующей системы может быть, например, предсказанием или рекомендацией. Предсказание выражается в виде числового значения, представляющего ожидаемое мнение для конкретного элемента. Рекомендация может быть выражена в виде списка элементов, которые, как ожидается, понравятся активному пользователю больше всего. Документы и профили пользователя могут быть представлены, используя векторы ключевых слов или списки для сравнения и изучения.
В настоящее время люди тратят все меньше и меньше времени на просмотр телевидения (ТВ, TV), а все больше и больше времени на просмотр интернета. Видеосодержимое, традиционно транслируемое и просматриваемое по ТВ, теперь становится широкодоступным в интернете. В то же время новые телевизоры и телевизионные приставки делают содержимое интернета доступным через телевизоры. Более того, были предложены оснащенные интернетом телевизоры, в которых пользователи могут получать доступ к интернет-услугам и просматривать интернет, используя пульт дистанционного управления и свой телевизор.
Жесткие диски и технологии сжатия цифрового видео создали возможность прямой трансляции со сдвигом во времени и записи большого числа телевизионных шоу в высоком качестве без необходимости волноваться о доступности пленок или других переносных носителях данных. В то же время оцифровка аудиовизуальных сигналов увеличила число источников содержимого для среднего пользователя. Сотни каналов доступны, используя, например, простую параболическую антенну и цифровой приемник. Более чем сотня тысяч видеоклипов выкладывается ежедневно в интернет через различные сервисы, а все основные производители содержимого уже делают все свои библиотеки содержимого доступными в режиме онлайн. Тысячи потенциально интересных программ транслируются и становятся доступными каждый день и могут быть записаны и храниться локально для последующего доступа.
Однако в то время как предложение содержимого для среднего пользователя сильно увеличилось, время для потребления доступного содержимого стало ограничивающим параметром. Следовательно, фильтрация конкретной информации и выбор индивидуального содержимого на основании потребностей и предпочтений пользователя стало важной проблемой.
Рекомендующие системы могут обращаться к этим проблемам, например, посредством оценки степени привлекательности определенного элемента для определенного пользователя и автоматически ранжируя элементы содержимого. Это может быть сделано посредством сравнения характеристик или признаков элементов содержимого с профилями пользователя или настройками пользователя. Таким образом, рекомендующие системы могут рассматриваться как инструменты или механизмы для фильтрования содержимого для конкретного пользователя, которое должно быть представлено вниманию пользователя.
Однако во многих случаях содержимое с разных носителей или служб обрабатывается отдельно, так что использование рекомендующих систем приводит к затратным по времени и интенсивным по нагрузке операциям. В качестве примера, просмотр интернета типично выполняется, используя интернет браузер, в то время как ТВ приемники имеют свой собственный традиционный интерфейс. Программируемые видеомагнитофоны (PVR) могут управляться через электронное расписание программ (EPG), отображаемое на телевизоре, или через веб-страницу. EPG специфицированы, например, в стандарте EN 300 707 v1.2.1 Европейского института стандартов связи (ETSI). EPG может являться базой данных, хранимой в продукте, и быть доступной пользователю через экранные меню или подобное. Важность EPG заключается в том, чтобы пользователь был информирован о наиболее интересных программах, которые соответствуют его критериям просмотра. Теперь пользователь может видеть, доступна ли программа его выбора в течение следующих нескольких дней и на каком канале. Или пользователь может выбрать быть информируемым о лучших программах посредством рейтинга, который провайдер информации связывает с данными программ. Могут быть включены сходные атрибуты, такие как язык программы, ее субтитры и аудиоописание или указание о непригодности программы для просмотра детьми. Таким образом, EPG предоставляет функциональную возможность, требуемую пользователем для выбора программ, которые следует посмотреть, и предоставляет простой маршрут для передачи этой информации телевизору или видеомагнитофону, посредством сохранения данных в виде базы данных в телевизоре или видеомагнитофоне, отделяя способ, которым информация представляется или отображается, от способа, которым данные передаются, позволяя зрителю выборочно сохранять информацию согласно его предпочтениям, используя предопределенную последовательность обновления так, что наиболее важная информация всегда доступна, и используя запоминающее устройство в конечном продукте, так что зритель будет иметь мгновенный доступ к информации о доступных программах, и оператор сети может уменьшить ширину полосы пропускания для оптимальной производительности.
Для пользователей содержимого (например, зрителей) была предложена персональная платформа пользователя в качестве варианта для создания своего собственного персонального (ТВ) профиля (например, персональных ТВ каналов наряду с “настоящими” каналами). Это может быть достигнуто несколькими способами. Согласно первому варианту может использоваться “начальная” программа. При просмотре программы (например, новости BBC) пользователь может создавать или изменять персональный (ТВ) профиль посредством создания персонального канала в EPG (называемого, например, 'Мои Новости'), который будет состоять из конкретного содержимого (например, трансляций новостей BBC) и предложений о другом связанном новостном содержимом. Предложения могут основываться на оценке прошлых выборов просмотра, включая положительные или отрицательные голосования пользователя, считающиеся системой как важные. Согласно второму варианту пользователи могут создавать свой собственный желаемый персональный (ТВ) профиль (например, персональный профиль канала) посредством ввода конкретных характеристик, а система может снова 'учиться', как правильно настроить содержимое этого нового персонального (ТВ) профиля согласно выбору и предпочтениям пользователя. Согласно третьему варианту пользователь может просто загрузить персональный (ТВ) профиль (например, персональный профиль канала), который был создан кем-то другим. Идея заключается в том, что в конечном счете будет возможно предоставлять веб-сайты, заполненные такими профилями, которые зрители смогут рекомендовать друг другу.
Однако вышеуказанное разделение просмотра интернета и услуги ТВ приводит к проблеме, заключающейся в том, что при просмотре интернета, чтении блогов, онлайн новостей, посещении страниц друзей на сайтах социальных сетей пользователь может запутаться в информации, которая относится к ТВ шоу или фильмам. Если информация интересна, персональный ТВ профиль должен быть изменен в соответствии с вновь полученной информацией, или персональный телевизор или PVR должны быть запрограммированы, чтобы записывать шоу или фильмы, связанные с тем, что пользователь нашел в интернете. Это приводит к значительным и затратным по времени операциям через интерфейс пользователя телевизора. В некоторых случаях такая задержка может быть неподходящей и может препятствовать своевременной записи ТВ шоу или фильмов или других элементов содержимого, обнаруженных через интернет браузер.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Цель настоящего изобретения - предоставить рекомендующую систему, которая делает возможным быстрое и надежное изменение элементов содержимого, рекомендуемых для пользователя.
Эта цель достигается системой по п.1 формулы изобретения, способом по п.15 формулы изобретения и компьютерным программным продуктом.
Согласно изобретению предоставляется первое извлекающее устройство, которое приспособлено, чтобы применять алгоритм извлечения первого признака к элементу содержимого, чтобы таким образом извлечь первые признаки, характеризующие содержимое ввода данных, обрабатываемого первым приложением, запускаемым на конкретном устройстве. Дополнительно предоставляется второе извлекающее устройство, которое приспособлено, чтобы применять алгоритм извлечения второго признака к содержимому базы данных второго приложения, запускаемого на конкретном устройстве или другом устройстве системы, чтобы таким образом извлекать вторые признаки, характеризующие содержимое базы данных второго приложения. Сравнивающее устройство оперативно соединено с первым и вторым извлекающими устройствами и приспособлено, чтобы сравнивать первый и второй признаки, чтобы таким образом идентифицировать совпадающие элементы, которые используются для рекомендации.
Соответственно легкий способ автоматически или быстро получить доступ к настройкам второго приложения (таким как, например, персональные настройки телевидения или тому подобное), когда совпадающие элементы с обработанными данными первого приложения были обнаружены или идентифицированы сравнивающим устройством. Любой тип вводимых данных, который может характеризоваться конкретным содержимым, может сравниваться с содержимым базы данных второго приложения, которое может содержать любой тип продуктов и/или услуг, для которых могут быть построены рекомендатели. Процесс рекомендации и последовательного изменения может, таким образом, быть предоставлен без значительных задержек и прерываний других приложений или процедур.
Согласно первому аспекту может быть предоставлена переключающая функциональная возможность или переключающий процесс, запускаемый первым приложением таким образом, чтобы активировать второе приложение. Этот переключающий процесс гарантирует, что процесс рекомендации и последовательного изменения начаты плавно и автоматически, чтобы минимизировать задержки обработки.
Согласно второму аспекту, который может быть скомбинирован с первым аспектом, первое приложение может содержать интернет браузер, а ввод данных может содержать информацию содержимого, загружаемую из интернета. В конкретном осуществлении информация содержимого может содержать документ языка разметки гипертекста (HTML). Такое основанное на браузере приложение предоставляет преимущество, заключающееся в том, что рекомендация для второго приложения может быть предоставлена во время деятельности пользователя по просмотру или переходу с одного сайта на другой, при этом конкретные элементы содержимого могут быть выделены, чтобы информировать пользователя о варианте рекомендации.
Согласно третьему аспекту, который может быть скомбинирован с, по меньшей мере, одним из вышеприведенных первого и второго аспектов, база данных второго приложения может содержать информацию электронной программы передач. Здесь телевизионный доступ может быть рекомендован пользователю во время обработки вводимых данных, как только информация, связанная с телевидением, была обнаружена в первом приложении.
Согласно четвертому аспекту, который может быть скомбинирован с любым из вышеприведенных с первого по третий аспектов, база данных второго приложения может быть базой данных фильмов. Схожим образом с вышеприведенным третьим аспектом, фильм из базы данных фильмов, которая связана с вводом данных, обрабатываемым первым приложением, может быть рекомендован, если он доступен.
Согласно пятому аспекту, который может быть скомбинирован с любым из вышеприведенных с первого по четвертый аспектов, первое извлекающее устройство может быть приспособлено, чтобы обнаруживать, относится ли содержимое ввода данных к телевизионной программе или существующему фильму или телевизионному продукту. Таким образом, соответствующие элементы в вводе данных, обрабатываемом первым приложением, могут использоваться, чтобы запускать переключение или переключающий процесс на второе приложение, или могут быть выделены и предложены, чтобы быть выбранными для рекомендации, в то время как пользователь затем отдельно активирует переключающий процесс.
Согласно шестому аспекту, который может быть скомбинирован с любым из вышеприведенных с первого по пятый аспектов, алгоритмы извлечения первого и второго признаков могут быть приспособлены, чтобы удалять, по меньшей мере, один из тегов и стоп-слов из ввода данных. Таким образом, ввод данных может быть отделен от информации, которая не связана с или которая не указывает на какое-либо содержимое ввода данных.
Согласно седьмому аспекту, который может быть скомбинирован с любым из с первого по шестой аспектов, сравнивающее устройство может быть приспособлено, чтобы идентифицировать совпадающий элемент на основании величины перекрытия между первым и вторым признаками. Эта мера предоставляет преимущество, которое заключается в том, что предопределенная величина перекрытия, требуемая для решения о значительной схожести или совпадении, может быть задана заранее.
Согласно восьмому аспекту, который может быть скомбинирован с любым из с первого по седьмой аспектов, первый и второй признаки могут содержать векторы значений частотности терминов и обратной частотности документа. Этот подход гарантирует, что захвачено соответствие между словами, текстовыми документами и конкретными категориями ввода данных.
Согласно девятому аспекту, который может быть скомбинирован с любым из с первого по восьмой аспектов, сравнивающее устройство может быть приспособлено, чтобы применять, по меньшей мере, одну из процедуры алгоритма морфологического поиска слов, процедуры приблизительного совпадения строк и процедуры для расчета n-грамм. Таким образом, могут быть предоставлены альтернативные или дополнительные алгоритмы для оптимизации сравнения между первым и вторым признаками.
Согласно десятому аспекту, который может быть скомбинирован с любым из вышеприведенных с первого по девятый аспектов, первое извлекающее устройство может содержать автоматический идентификатор ключевых слов для текста веб-страницы, при этом ключевые слова отмечаются, чтобы быть использованными для начала персонального телевизионного канала. Следовательно, может быть достигнут простой для потребителя способ получить телевизионное содержимое на основании просмотренных веб-страниц.
Согласно одиннадцатому аспекту, который может быть скомбинирован с любым из вышеприведенных с первого по десятый аспектов, вторые признаки могут содержать метаданные, предоставленные в базе данных. В конкретном примере сравнивающее устройство может быть приспособлено, чтобы применять разные веса к метаданным. Эта мера предоставляет преимущество, заключающееся в том, что список ключевых слов или подобное может быть связано с элементом содержимого таким образом, что дополнительная обработка для формирования ключевых слов может быть уменьшена или предотвращена.
Согласно двенадцатому аспекту, который может быть скомбинирован с любым из вышеприведенных с первого по одиннадцатый аспектов, вторые признаки могут содержать идентификатор ссылки на содержимое (CRID) функциональной возможности телевидения в любое время. Таким образом, может быть предоставлена ссылка на содержимое, чтобы позволить располагать независимые ссылки на содержимое.
Согласно тринадцатому аспекту, который может быть скомбинирован с любым из вышеприведенных с первого по двенадцатый аспектов, может быть предоставлен интерфейс пользователя для отображения совпадающих элементов и для предоставления функции ввода для выбора совпадающих элементов. Следовательно, вариант выбора или записи совпадающих элементов может быть предложен пользователю.
Отметим, что вышеприведенная рекомендующая система может быть осуществлена на основании, по меньшей мере, одной дискретной схемы аппаратного обеспечения с дискретными компонентами аппаратного обеспечения, по меньшей мере, одной интегральной схемы, структуры модулей схем или, по меньшей мере, одного сигнального обрабатывающего устройства, или компьютерного устройства, или схемы, управляемой программой системы программного обеспечения, или программой, хранимой в памяти.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Теперь изобретение будет описываться посредством примеров на основании вариантов осуществления со ссылкой на прилагающиеся чертежи, на которых:
Фиг.1 показывает схематичную блок-схему оснащенного интернетом телевизора согласно первому варианту осуществления; и
Фиг.2 показывает схематичную блок-схему последовательности операций этапов обработки, вовлеченных в различных вариантах осуществления.
ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ
Варианты осуществления настоящего изобретения теперь будут описываться на основании примерного оснащенного интернетом телевизора с рекомендующей технологией, основанной на персональном телевидении.
Фиг.1 показывает схематичную блок-схему оснащенного интернетом телевизора согласно первому варианту осуществления. Телевизор содержит блок отображения или модуль 10, к которому выходной сигнал браузера (B) 20 и ТВ приемник (ТВ) 40 могут быть применены, чтобы отображаться на экране. ТВ приемник 40 принимает входной сигнал через антенну (60), которая может быть параболической спутниковой антенной. Браузер 20 имеет подключение к интернету 50, чтобы иметь доступ к содержимому интернета (веб-страниц) или загружать другую информацию содержимого. Браузер 20 может управляться интерфейсом 22 пользователя (UI), который может содержать клавиатуру, указывающее устройство, сенсорную панель или тому подобное. Дополнительно ТВ приемник 40 соединен с программируемым видеомагнитофоном (PVR) 42, который может управляться через электронное расписание программ (EPG), хранимое в базе данных 32, которая может обновляться, например, на основании информации трансляции или интернета. Дополнительно предоставляется рекомендующий блок 48, который рекомендует информацию программ из EPG 32 на основании таблицы 46 профиля пользователя, которая указывает на предпочтения, по меньшей мере, одного пользователя телевизора.
Дополнительно предоставляется определяющий блок или модуль 30, который анализирует ввод данных, обрабатываемый браузером 20, чтобы извлекать признаки (например, ключевые слова или подобное), характеризующие содержимое обрабатываемого ввода данных. Определяющий блок 30 также имеет доступ к базе данных 32, чтобы анализировать ее содержимое и чтобы извлекать признаки, характеризующие содержимое данных доступных программ. На основании определенного совпадения между извлеченными признаками определяющий блок 30 управляет программируемым видеомагнитофоном 42 и/или таблицей 46 профиля пользователя, чтобы предложить доступ к ТВ программе или продукции, которая относится к вводу данных, обрабатываемому браузером 20. Обновленная таблица 46 профиля пользователя влияет или управляет рекомендующим блоком 48 таким образом, что рекомендуемые ТВ программы могут быть приспособлены к просматриваемому содержимому интернета.
В примере конкретного осуществления определяющий блок 30 может быть сконфигурирован, чтобы идентифицировать элементы данных, которые относятся к ТВ программам или кинопродукции, и выделяет или отмечает эти элементы данных на экране блока 10 отображения. Затем интерфейс 22 пользователя может использоваться пользователем, чтобы активировать или переключиться на процедуру совпадения в определяющем блоке 30.
В вышеприведенном варианте осуществления определяющий блок 30 может быть осуществлен, например, как подключаемая программа для интернет браузера 20, которая анализирует, например, элементы HTML (например, названия, ссылки, абзацы, ячейки таблиц и так далее) и автоматически обнаруживает, относится ли содержимое в документе HTML к предстоящей ТВ программе или существующей кино/ТВ продукции. В этом случае пользователю предлагается простой способ для доступа к своим персональным ТВ настройкам посредством простого выбора варианта в контекстном меню или подобным образом посредством использования интерфейса 22 пользователя (контекстное меню может, например, появляться, когда на выделенный элемент HTML нажимают правой кнопкой мыши). Пользователю может, например, быть предложено добавить предстоящую ТВ программу к одному из своих персональных ТВ каналов или обновить свой профиль посредством ранжирования (например, с помощью "нравится"/"не нравится") связанного содержимого.
Согласно первому варианту осуществления, когда пользователь просматривает интернет, используя браузер 20, он может читать он-лайн статью новостей по определенной теме или о человеке. Определяющий блок 30 автоматически или в ответ на активацию посредством запущенного приложения браузера анализирует текст и содержимое EPG в базе данных 32 и автоматически обнаруживает, что позже вечером на конкретном ТВ канале ТВ программа с информацией по теме или о человеке запланирована для трансляции. Соответственно определяющий блок 30 управляет браузером 20, чтобы отображать иконку, указывающую на то, что связанная ТВ программа была найдена в EPG базы данных 32. Дополнительно система может отображать информацию (например, метаданные) о связанной ТВ программе.
Теперь пользователь может нажимать на или активировать иконку, а браузер 20 может указывать на найденную ТВ программу, связанную с веб-страницей, которую пользователь читает в настоящее время. Теперь пользователь может выбирать вариант добавления найденной ТВ программы к персональному новостному каналу, предоставленному в его таблице 46 профиля пользователя.
Согласно второму варианту осуществления база данных 32, к которой определяющий блок 30 имеет доступ, может содержать информацию о фильме. Когда пользователь просматривает интернет, например, читает статью блога о римэйке конкретного фильма, определяющий блок 30 (например, подключаемая к браузеру программа) автоматически или в ответ на активацию посредством запускаемого приложения браузера анализирует текст и содержимое базы данных фильмов и автоматически обнаруживает, что человек, связанный с фильмом, появляется в метаданных различной ТВ и кинопродукции. Дополнительно фраза названия вышеуказанного фильма, который появляется в статье блога, может также появляться в базе данных фильмов. Соответственно, определяющий блок 30 управляет браузером 20, чтобы отображать иконку, указывающую на то, что связанная кино/ТВ информация была найдена. Теперь пользователь может нажать на или активировать иконку через интерфейс 22 пользователя и имеет вариант обновить свой персональный ТВ профиль в таблице 46 профиля пользователя посредством ранжирования идентифицированного пользователя (например, "нравится"/не нравится") и идентифицированного фильма.
Отметим, что блоки или модули, описываемые в связи с фиг.1, могут быть осуществлены как дискретные схемы аппаратного обеспечения, или функциональные средства, или программы системы программного обеспечения, управляющие процессором или вычислительным устройством (например, центральным обрабатывающим блоком (CPU), персональным компьютером (ПК, PC), сервером или тому подобным).
Фиг.2 показывает схематичную блок-схему последовательности операций, основанной на контексте рекомендующей процедуры согласно вышеприведенному первому и второму вариантам осуществления.
Отметим, что изобретение не ограничивается рекомендателями для ТВ/кино продукции или ТВ программ, а может быть осуществлено для любых продуктов и услуг, которые можно рекомендовать. В качестве примера вышеприведенное приложение браузера и ТВ приложение (например, TV/DVR) могут быть приспособлены, чтобы запускаться на физически разных системах, связанных через сеть (например, интернет). В более конкретном примере интернет браузер может использоваться на мобильном телефоне, который обменивается информацией с приложением телевизионной приставки (например, DVR).
В общем, система и процедура имеет ввод данных, который может быть любым текстовым документом (например, HTML документом), который был обработан соответствующим приложением, запускаемым на обрабатывающей системе (например, загруженным или обработанным в браузере 20), и другой ввод из базы данных (DB) доступных услуг и/или продуктов (например, EPG или данных фильмов). Как уже упоминалось, рекомендующая система может управляться подключаемой программой для браузера 20, или любой другой подпрограммой, или схемой, которая имеет прямой доступ к данным, загружаемым и отображаемым в браузере.
На этапе S200 процедуры фиг.2 обработанный ввод данных (например, HTML документ) анализируется алгоритмом извлечения признаков, чтобы извлечь (текстовые) признаки, которые характеризуют его содержимое. Любые алгоритмы анализа содержимого и извлечения признаков могут использоваться для этой цели. В качестве примера ввод данных может сначала быть отделен от своего языкового тега (например, HTML текста), а затем могут быть удалены стоп-слова. Стоп-слова - часто используемые слова в конкретном языке, которые не отражают содержание конкретного документа, такие как местоимения, артикли, а также часто используемые глаголы, такие как вспомогательные. Дополнительными примерами стоп-слов для английского языка являются "about", "actually", "because", "could", "did", "either", "for", "got", "have", "into", "just", "known", "less", "me", "not", "of, "put", "rather", "she", "that", "until", "very", "was", "you". Оставшиеся слова в документе затем могут использоваться как признаки, представляющие документ. Также могут использоваться другие алгоритмы классификации, такие как, например, описанные в D. Munteanu и другие "Процесс классификации в рекомендующей системе текстовых документов", анналы "Dunarea D. Jos" University of Galatz, ISSN 1221-454X, 2005, или другие алгоритмы, упомянутые в ссылках, цитируемых в данном документе или где-то в другом месте.
Подобным образом на этапе S100 содержимое базы данных (например, EPG или данных фильмов) обрабатывается подобным способом. Как указано ломаной стрелкой на фиг.2, обработка этапа S100 может по выбору быть активирована процессом этапа S200, например, когда начинается анализ этапа S200, или когда был обнаружен предопределенный тип или содержимое вводимых данных. Название, жанр, описание и другие метаданные затем группируются, чтобы создать текстовые описания содержимого (например, ТВ программ или фильмов). Текстовые описания могут быть обработаны таким образом, как если бы они были отдельными документами. Каждый извлеченный или отделенный элемент затем может быть представлен списком ключевых слов.
Признаки элементов, извлекаемых на этапах S100 и S200, затем сравниваются на этапе S300 сравнения, чтобы найти совпадения. Совпадение может быть найдено, например, когда имеет место достаточно большое перекрытие между признаками, извлеченными на этапах S100 и S200. Другие типы признаков и другие способы расчета совпадения могут также быть использованы и считаются находящимися в пределах объема настоящего изобретения. Например, вместо использования простых наборов извлеченных элементов (например, ключевых слов или подобного), чтобы представлять документ и элементы базы данных, может также использоваться вектор значений частотности терминов и обратной частотности документа (TFIDF). Такой TFIDF подход для классификации текста, например, описан в Zhang и другие, "Улучшенный TF-IDF подход для классификации текста" Journal of Zhejiang University SCIENCE, ISSN 1009-3095.
Дополнительно множество извлекаемых элементов (например, ключевых слов) может быть расширено посредством включения синонимов и связанных терминов, используя тезаурус (или онтологию). Дополнительно или в качестве альтернативы, чтобы способствовать процессу совпадения, термины в извлекаемых элементах (например, список ключевых слов или набор признаков) могут быть сокращены до своих основ, используя процедуру морфологического поиска слов, такую, которая описана, например, в S. Abdou и другие, "Оценка морфологического поиска, расширение запроса и подходы неавтоматического индексирования для геномной задачи", TREC-2005.
В качестве альтернативы вместо выполнения строгого совпадения строк на этапе S300 сравнения, может использоваться приблизительное совпадение строк или расчет так называемых "n-грамм" на основании вероятностных моделей для обработки естественного языка, как описано, например, в патенте США 5467425 или в W. Litwin и другие, "Сопоставление структур, используя кумулятивные алгебраические подписи и отбор n-грамм", 2006.
При нахождении совпадения между извлеченными элементами или признаками этапов S100 и S200, в зависимости от структуры данных, извлеченных из базы данных, некоторые метаданные могут также быть использованы. Например, в случае базы данных EPG список ключевых слов, связанных с элементом, может быть предложен базой данных, так что формирование дополнительных ключевых слов на этапе S100 может быть пропущено. Или в качестве альтернативы ключевые слова, признаки или элементы, извлекаемые из содержимого базы данных 32, могут быть добавлены к ключевым словам, полученным из метаданных, уже занесенных в список в базу данных 32. В качестве дополнительного варианта разные метаданные могут иметь разные веса при выполнении совпадения. Например, ключевые слова, извлекаемые из названия программы, могут иметь более высокий вес, чем ключевые слова, извлекаемые из краткого обзора.
Когда совпадение найдено на этапе S300, совпадающие элементы извлекаются на этапе S320, и пользователь может быть уведомлен на этапе S330, чтобы обеспечить доступ управления. Это может быть достигнуто посредством использования графических средств (например, демонстрации иконки, выделения текста или абзаца в документе, для которого было найдено совпадение). В качестве альтернативы система может не беспокоить пользователя и показывать результаты совпадения, только когда пользователь выбирает конкретный вариант на интерфейсе 22 пользователя, так что этап S330 может быть необязательным этапом.
В случае рекомендации ТВ программ или фильмов доступ управления может предоставить пользователю варианты записи элемента EPG, добавляя его к одному из своих персональных каналов или ранжируя его (например, выбирая "нравится" или "не нравится"). Блок 30 определения может затем получать доступ к программируемому видеомагнитофону 42 или таблице 46 профиля пользователя соответственно, чтобы инициировать изменение содержимого (этап S340).
В случае базы данных фильмов вышеприведенного второго варианта осуществления процедура, подобная показанной на фиг.2, может быть использована с той разницей, что когда совпадение найдено на этапе S300, вариант планирования записи на программируемый видеомагнитофон 42 может быть задан, только если было найдено дополнительное совпадение с EPG 32.
Отметим, что настоящее применение не ограничивается HTML документами или содержимым интернета, а может применяться к любому типу ввода данных, например, к цифровым текстовым документам. Более того изобретение может применяться к телевизионным приставкам, телевизорам, мобильным телефонам, персональным цифровым помощникам (PDA), персональным компьютерам (ПК) и всем устройствам, имеющим интернет браузер. Дополнительно изобретение может быть применено к услугам, в которых рекомендатели используются, чтобы собирать, фильтровать и представлять содержимое из различных источников (например, интернет ТВ) своим пользователям. Изобретение, таким образом, также не ограничивается рекомендателями содержимого ТВ/фильмов, но может быть применено к музыке, театральным представлениям, книгам и всем типам продуктов и услуг, для которых могут быть созданы рекомендатели.
В качестве конкретного применения вышеприведенных вариантов осуществления может использоваться функциональная возможность телевидения в любое время (TVA) системы TVA. Здесь идентификатор ссылки на содержимое (CRID) позволяет размещать независимые ссылки на содержимое. Это может быть назначено авторитетным источником, который также способен принимать решение по расположению CRID. CRID может указывать на одну часть содержимого или ряд других CRID. Это может быть осуществлено как унифицированный идентификатор ресурса (URI), который указывает на данные или содержимое, назначаемое авторитетным источником, который может быть идентифицирован по имени зарегистрированного интернет домена. Таким образом, может быть предоставлен простой механизм для распределения содержимого.
В кратком изложении настоящее изобретение относится к рекомендующей системе и способу, содержащим первое извлекающее устройство для применения алгоритма извлечения первого признака, чтобы извлекать первые признаки, характеризующие содержимое ввода данных (например, веб-страницы, электронного документа или тому подобного), обрабатываемое первым приложением (например, интернет браузером), запускаемым системой, и второе извлекающее устройство для применения алгоритма извлечения второго признака, чтобы извлекать вторые признаки, характеризующие содержимое базы данных второго приложения (например, персональный ТВ или кино доступ), запускаемого системой. Дополнительно предоставляется сравнивающее устройство для сравнения первого и второго признаков, чтобы идентифицировать совпадающие элементы, используемые для рекомендации.
В то время как изобретение было проиллюстрировано и описано подробно на чертежах и в упомянутом описании, такую иллюстрацию и описание следует рассматривать в качестве иллюстрации или примера, а не в качестве ограничения. Изобретение не ограничивается раскрытыми вариантами осуществления. Из прочтения настоящего раскрытия специалистам в данной области техники будут очевидны другие модификации. Такие модификации могут вовлекать другие признаки, которые уже известны в данной области техники и которые могут использоваться вместо или в дополнение к признакам, уже описанным в материалах настоящей заявки.
Изменения раскрытых вариантов осуществления могут быть поняты и осуществлены специалистами в данной области техники из изучения чертежей, раскрытия и прилагающихся пунктов формулы изобретения. В пунктах формулы изобретения слово "содержащий" не исключает другие элементы или этапы, а употребление единственного числа не исключает множества элементов или этапов. Единичный процессор или другой блок может выполнять, по меньшей мере, функции фиг.2 на основании соответствующих программ системы программного обеспечения. Компьютерная программа может также храниться/распределяться на подходящем носителе, таком как оптический носитель данных или полупроводниковый носитель данных, поставляемый вместе с или как часть другого аппаратного обеспечения, но может также быть распределен в других формах, таких ка