2647696 - Мобильный видеопоиск

Мобильный видеопоиск

Иллюстрации

Показать все

Изобретение относится к средствам поиска по видеоконтенту. Технический результат заключается в расширении арсенала технических средств поиска по видео. Способ поиска видео содержит этапы, на которых: принимают через компонент ввода вычислительного устройства множество временных интервалов видеоконтента; выполняют извлечение дескриптора аудио-видео для временных интервалов видеоконтента; формируют подпись аудио-видеоассоциированную с временными интервалами видеоконтента на основе извлекаемого дескриптора аудио-видео, при этом подпись аудио-видео включает в себя хэш-бит видео, ассоциированный с временным интервалом видеоконтента; отправляют подпись аудио-видео, ассоциированную с одним или более временными интервалами видеоконтента, в качестве запроса к набору данных; продолжают принимать возможные варианты результатов запроса; и представляют возможные варианты результатов, продолжая принимать временные интервалы видеоконтента. 5 н. и 5 з.п. ф-лы, 11 ил.

Реферат

Уведомление об авторском праве и разрешение

[0001] Часть раскрытия сущности данного патентного документа может содержать материал, который является субъектом защиты авторского права. Обладатель авторского права не имеет возражений против факсимильного репродуцирования кем-либо патентного документа или раскрытия сущности патента в том виде, в котором он содержится в патентном фонде Агентства США по патентам и товарным знакам, но во всех иных случаях абсолютно все любые другие авторские права защищены. Следующее уведомление должно применяться к этому документу: Copyright © 2013, Microsoft Corp.

Уровень техники

[0002] Получают все большее распространение мобильные устройства с доступом к Интернету и Всемирной паутине, служащие в качестве персональных помощников для Интернет-серфинга, которые предоставляют пользователям доступ к постоянно растущим объемам данных в движении.

[0003] Мобильные устройства в данный момент не предоставляют платформу, которая способствует некоторым типам выполнения поиска, в частности, выполнению поиска видеоконтента без расходования ресурсов для того, чтобы записывать и отправлять запись предмета поиска в качестве запроса.

[0004] Некоторые поисковые приложения для мобильных устройств поддерживают фотографии, снятые с помощью камеры, встроенной в мобильное устройство, в качестве визуального запроса, что называется захватом для поиска. В захвате для поиска, типично сначала получается мгновенный снимок изображения. Затем этот мгновенный снимок отправляется в качестве запроса на то, чтобы выполнять поиск совпадения в различных вертикальных областях. Другие поисковые приложения поддерживают аудио, записываемое из микрофона, встроенного в мобильное устройство, в качестве аудиозапроса. Например, INTONOW дает возможность пользователям записывать аудио для использования в качестве запроса. Тем не менее, этот звук записывается в течение периода приблизительно вплоть до 12 секунд. Затем эта звукозапись отправляется в качестве запроса на то, чтобы выполнять поиск совпадения в различных вертикальных областях. Этот процесс не работает оптимально, если условия записи являются зашумленными, или в случае видео без звука, так что запись является беззвучной.

[0005] Некоторые поисковые механизмы для аудиофайлов используют еще более длительное время записи.

Тем не менее, типичные механизмы аудиопоиска не выполняют поиск аудио в комбинации с видео, и они по-прежнему требуют отправки фактической записи в качестве запроса.

[0006] Еще одни другие поисковые приложения поддерживают видеоизображения, снятые с помощью камеры, встроенной в мобильное устройство, в качестве визуального запроса, что может называться видеозахватом для поиска. VIDEOSURF является примером видеозахвата для поиска. В VIDEOSURF, видеоизображение захватывается в течение периода, по меньшей мере, в 10 секунд и сохраняется. Пользователь затем выбирает отличительный видеоконтент для поиска, и далее этот клип с видеоизображениями отправляется в качестве запроса на то, чтобы выполнять поиск совпадающего видео.

[0007] Существующие приложения для мобильного видеопоиска расходуют значительные ресурсы для того, чтобы сохранять относительно длительный аудио- и/или видеоклип и отправлять записанный клип в поисковый механизм. После того, как поисковый механизм принимает запрос на записанный видеоклип, поисковый механизм может выполнять определение совпадений на основе клипа. Существующие способы требуют клипа фиксированной длительности, например, в 10 или 12 секунд.

[0008] Большинство исследований, связанных с видеопоиском на мобильных устройствах, акцентируют внимание на компактной схеме дескрипторов на мобильных устройствах. Самым популярным способом разрешать эту проблему является сжатие дескрипторов через технологию кодирования изображений для поиска практически дублированных видео, который может классифицироваться на три категории согласно типу модальности данных, на которой они основываются: способы на основе аудио, на основе видео и на основе слияния. Тем не менее, большинство существующих подходов к поиску практически дублированных видео преимущественно акцентирует внимание на настольных сценариях, в которых видеозапрос обычно представляет собой поднабор исходного видео без значительного искажения, а не видео, захваченного посредством мобильного устройства. Кроме того, вычислительные затраты и компактность дескрипторов зачастую игнорируются в существующих подходах, поскольку традиционные подходы к поиску дублированных видео не принимают вышеуказанные сложности мобильных технологий во внимание. Традиционные подходы к поиску дублированных видео не являются подходящими для мобильного видеопоиска.

Сущность изобретения

[0009] Этот документ описывает средство для видеопоиска на мобильном устройстве, которое использует преимущество вычислительных ресурсов, доступных на мобильном устройстве, чтобы извлекать характеристики аудио и видео видеоконтента, представленного посредством устройства, отличного от мобильного устройства, и отправлять характеристики в качестве запроса вместо отправки записи видеоконтента в качестве запроса. Посредством извлечения характеристик аудио и видео для использования в качестве поискового запроса и посредством определения совпадения характеристик аудио и видео с характеристиками аудио и видео, сохраненными в индексированном наборе данных видеоконтента, средство предоставляет возможные варианты видео для каждой отправляемой характеристики аудио и видео, в том числе, когда характеристики извлекаются в зашумленных, плохо освещенных или изменчивых условиях. Средство предусматривает представление индикатора относительно возможных вариантов видео в то время, когда получаются дополнительные части видеоввода, и постепенное уточнение возможных вариантов видео, которые должны указываться. Средство предоставляет перечень возможных вариантов видео, включающий в себя пересмотр перечня возможных вариантов видео, предоставляемых в то время, когда получаются дополнительные части видеоввода до тех пор, пока не будет выполнен выбор из предоставляемых возможных вариантов видео, либо до тех пор, пока не будет стабилизирован список результатов возможных вариантов видео, например, список результатов возможных вариантов видео прекращает изменяться в течение определенного периода времени, и поиск прекращается. Средство предусматривает различное представление индикатора относительно возможных вариантов видео в ответ на стабилизацию списка результатов возможных вариантов видео, например, прекращение изменения в течение определенного периода времени. Средство также предусматривает представление дополнительного интерфейса в ответ на выбор, выполненный из предоставляемых возможных вариантов видео; например, средство предусматривает открытие обозревателя, чтобы давать возможность пользователю покупать или арендовать выбранное видео, давать возможность пользователю видеть дополнительную или вспомогательную информацию относительно выбранного видео или давать возможность пользователю сохранять индикатор относительно видео для последующего просмотра.

[0010] Данная сущность изобретения предоставлена для того, чтобы представлять в упрощенной форме выбор концепций, которые дополнительно описаны ниже в подробном описании. Эта сущность не имеет намерение идентифицировать ключевые или важнейшие признаки заявленного предмета изобретения, а также не имеет намерение использоваться в качестве помощи при определении объема заявленного предмета изобретения. Термин "технологии", например, может означать способ(ы) и/или машиноисполняемые инструкции, модуль(и), алгоритмы, аппаратную логику (например, программируемые пользователем вентильные матрицы (FPGA), специализированные интегральные схемы (ASIC), специализированные микросхемы для массового производства (ASSP), внутрикристальные системы (SOC), комплексные программируемые логические устройства (CPLD)) и/или "средство", например, может означать аппаратную логику (например, программируемые пользователем вентильные матрицы (FPGA), специализированные интегральные схемы (ASIC), специализированные микросхемы для массового производства (ASSP), внутрикристальные системы (SOC), комплексные программируемые логические устройства (CPLD)), другое устройство(а) и/или другую систему(ы), разрешенные посредством вышеприведенного контекста и в документе.

Краткое описание чертежей

[0011] Подробное описание приводится со ссылкой на прилагаемые чертежи. На чертежах самая левая цифра(ы) номера ссылки идентифицирует чертеж, на котором номер ссылки впервые появляется. Идентичные номера используются на всех чертежах для того, чтобы указать похожие признаки и компоненты.

[0012] Фиг. 1 является иллюстративной схемой примерной реализации мобильного видеопоиска с использованием захвата посредством мобильного устройства аудио-видео из видеопредставления на телевизионном приемнике.

[0013] Фиг. 2 является иллюстративной схемой части примерного пользовательского интерфейса мобильного видеопоиска из варианта осуществления по фиг. 1.

[0014] Фиг. 3 является иллюстративной схемой примерной архитектуры для реализации мобильного видеопоиска.

[0015] Фиг. 4 является блок-схемой, которая иллюстрирует выбранные компоненты примерных мобильных устройств, выполненных с возможностью мобильного видеопоиска.

[0016] Фиг. 5 является блок-схемой, которая иллюстрирует выбранные компоненты примерных серверных устройств, выполненных с возможностью индексации многоуровневого аудио-видео, которая может использоваться для мобильного видеопоиска.

[0017] Фиг. 6 является иллюстративной схемой примерной инфраструктуры системы, включающей в себя мобильное устройство, реализующее мобильный видеопоиск, и сервер, реализующий индексацию многоуровневого аудио-видео.

[0018] Фиг. 7 является иллюстративной схемой примера извлечения цифрового аудиоотпечатка.

[0019] Фиг. 8 является иллюстративной схемой примера индекса многоуровневого аудио-видео.

[0020] Фиг. 9 является блок-схемой последовательности операций способа примерного процесса для реализации мобильного видеопоиска на клиентском устройстве.

[0021] Фиг. 10 является блок-схемой последовательности операций способа примерного процесса для реализации видеопоиска на сервере с использованием индекса многоуровневого аудио-видео.

[0022] Фиг. 11 является блок-схемой последовательности операций способа, которая иллюстрирует примерную реализацию прогрессивной обработки во время видеопоиска на сервере с использованием индекса многоуровневого аудио-видео.

Подробное описание изобретения

[0023] Инструмент мобильного видеопоиска предоставляет обширный набор функциональностей, чтобы получать релевантные результаты для видеопоиска. По сравнению с настольным компьютером, который преимущественно поддерживает поиск с использованием фрагментов фактических видеофайлов, мобильное устройство предоставляет обширный набор интерфейсов для пользовательского взаимодействия, который может использоваться для того, чтобы упрощать использование и получать результаты во множестве окружений. Например, помимо выгрузки и загрузки файлов и традиционных вводов с помощью клавиатуры и мыши, принятых в настольном окружении, мобильные устройства оснащены возможностями принимать дополнительные многомодальные вводы. Интерфейсы мобильных устройств могут комбинировать визуальную модальность через встроенную камеру и аудиомодальность через встроенный микрофон.

[0024] Хотя мобильные устройства могут комбинировать такие модальности ввода, видеопоиск из мобильных устройств сталкивается с множеством сложностей. Например, одна из сложностей, с которыми сталкивается мобильный видеопоиск, заключается в том, что поиск может требоваться несмотря на то, что пользователь находится в неидеальных условиях. Окружение может быть зашумленным, изменчиво освещенным или с колеблющимся освещением и/или в окружении с колеблющимися скоростями Интернет-подключения. Напротив, видеопоиск из настольных компьютеров типично включает в себя отправку фрагмента видеофайла, а не записи представления видео на другом устройстве, захваченного с помощью камеры и/или микрофона.

[0025] Другие сложности, с которыми сталкивается мобильный видеопоиск, включают в себя аппаратные ограничения мобильных устройств. Процессор, например, центральный процессор (CPU) и графический процессор (GPU) и запоминающее устройство мобильных устройств по-прежнему являются несравнимыми с настольными компьютерами. Строгие ограничения по запоминающему устройству и вычислительные ограничения делают подписи с существенными затратами по запоминающему устройству или ресурсоемким вычислением неподходящими для мобильных клиентов. Дополнительно, отрицательные эффекты ограничений сети и по полосе пропускания. В мобильных устройствах, сетевое соединение зачастую является ненадежным, и полоса пропускания является относительно низкой. В мобильном видеопоиске, как описано в данном документе, эффекты узких мест и прерванных соединений могут быть ограничены посредством использования компактных подписей, чтобы уменьшать объем данных, передаваемых по сети, и в конечном счете уменьшать сетевую задержку. Помимо этого, пользователи мобильных устройств для поиска являются чувствительными ко времени задержки поиска. Представление предварительных результатов, включающих в себя результаты из прогрессивного поиска, в то время, когда более захватывается короткий, чем традиционный, клип-запрос, уменьшает кажущееся время задержки для пользователя.

[0026] Например, пользователь может идти на встречу и заметить видеопредставление в окне витрины. Даже если пользователь не имеет времени остановиться и посмотреть видео, пользователь может захватывать несколько секунд видео с использованием инструмента до тех пор, пока инструмент не возвратит совпадающее видео. Пользователь может сохранять название видео для последующего просмотра. В этом примере, клиентский инструмент, который может записывать аудио из представления и видеоизображение из представления и выполнять облегченное преобразование для захваченного контента. Преобразование включает в себя извлечение цифрового аудиоотпечатка и извлечение визуальных хэш-битов даже в зашумленных уличных условиях. С учетом относительно ограниченных ресурсов запоминающего устройства и вычислительных ресурсов мобильного устройства по сравнению с настольным компьютером, например, это может приводить к неосуществимости извлечения вычислительно затратных подписей для того, чтобы представлять видеоклип. Кроме того, полоса пропускания, доступная для того, чтобы отправлять видеоклип на сервер для обработки, может быть недоступной, либо длительность передачи может быть неприемлемо большой. Посредством использования вычислительных возможностей на мобильном устройстве, инструмент может выполнять преобразование и передавать гораздо более низкий объем данных по сети. Например, извлечение цифрового аудиоотпечатка может приводить приблизительно к 0,5 Кбайт данных для секунды видео. Аналогично, извлечение визуальных хэш-битов из видео может приводить приблизительно к 1,0 Кбайт данных для секунды видео. Таким образом, подпись аудио-видео этих комбинированных характеристик может отправляться менее чем для 2 КБ данных по сравнению с объемом данных, чтобы отправлять всю секунду видеоклипа. Кроме того, вследствие сниженного времени задержки поисковой системы, возможные совпадения могут возвращаться в то время, когда видеоввод по-прежнему получается, к примеру, для прогрессивного представления возможных вариантов результатов. Когда дополнительные возможные варианты совпадений видео не получаются, или список результатов не изменяется в течение определенного периода времени, например, 3 секунд, то поиск может прекращаться, когда идентифицировано видео, совпадающее с запросом, поиск может автоматически прекращаться, и пользовательский интерфейс может изменяться таким образом, чтобы отражать стабилизированный список возможных вариантов результатов.

[0027] Аспекты инструмента мобильного видеопоиска, как описано в данном документе, могут реализовываться как поисковое приложение, работающее на мобильном устройстве, и/или через интерфейс прикладного программирования (API). Инструмент мобильного видеопоиска может захватывать видеоввод для запроса и выполнять извлечение цифрового аудиоотпечатка и визуальных хэш-битов, чтобы формировать подпись аудио-видео. В случае приложения, работающего на мобильном устройстве, приложение может отправлять подпись аудио-видео в качестве поискового видеозапроса. В случае API, приложение может показывать цифровой аудиоотпечаток и визуальные хэш-биты, составляющие подпись аудио-видео, через API для другого приложения, чтобы использовать для видеопоиска.

[0028] В облаке, система имеет возможность индексировать крупномасштабные видеоданные с использованием новой схемы индексации многоуровневого аудио-видео (LAVE); в то время как на клиенте, система извлекает облегченные объединенные подписи аудио-видео в реальном времени и выполняет поиск прогрессивным способом. LAVE-схема комбинирует подписи аудио-видео через объединенную индексацию многоуровневого аудио-видео, которая сохраняет отдельную структуру каждой подписи в вычислении подобия и рассматривает их корреляцию в комбинированной стадии. Объединенная подпись аудио-видео является вычислительно дешевой для мобильных устройств и усиливает различающую способность из отдельных аудио- и визуальных модальностей. Таким образом, подпись аудио-видео является надежной к большой дисперсии, например, шуму и искажению в видеозапросе. В различных вариантах осуществления, распознаваемая хэш-функция значительно уменьшает число битов, которые следует передавать из мобильного устройства по сети, к примеру, на сервер или облако. Алгоритм преобразования и определения совпадений на основе двухчастного графа делает видеопоиск прогрессивным, что означает то, что поиск может прекращаться, когда достигается стабильный результат. Как описано в данном документе, результат является стабильным, когда результаты не изменяются в течение определенного периода времени, например, в течение трех секунд. По меньшей мере, в одной реализации, система, описанная в данном документе, достигает точности более 90%, например, 90,77%, когда видеозапрос составляет меньше 10 секунд, и точности приблизительно 70%, например, 70,07%, когда видеозапрос составляет меньше 5 секунд.

[0029] Как описано в данном документе, серверное или облачное вычислительное окружение, которое также может упоминаться в качестве распределенного сетевого окружения, может хостить индекс многоуровневого аудио-видео видеоконтента, для которого запущен поиск. Аналогично описанию получения цифрового аудиоотпечатка и визуальных хэш-битов, чтобы получать подпись аудио-видео, сервер или облачный компьютер может выполнять извлечение подписей аудио-видео на видеофайлах из библиотеки видеофайлов. Извлеченная подпись аудио-видео может сохраняться в качестве индекса многоуровневого аудио-видео, что может уменьшать время задержки поиска по сравнению с другими поисковыми структурами.

[0030] В различных вариантах осуществления, выполнение поиска LAVE-индекса включает в себя многоэтапный процесс. По меньшей мере, в одном варианте осуществления, сначала механизм видеопоиска использует цифровой аудиоотпечаток из запроса в качестве фильтра. Во-вторых, механизм видеопоиска сравнивает ключевые кадры из фильтрованного набора для подобия. В-третьих, механизм видеопоиска выполняет геометрическую верификацию, чтобы получать ближайшие результаты. Механизм видеопоиска может ранжировать ближайшие результаты, и механизм видеопоиска может обновлять ближайшие результаты и/или ранжирование по мере того, как дополнительные подписи аудио-видео поступают из запроса. Механизм видеопоиска может отправлять представления возможных вариантов результирующих видео в мобильное устройство, из которого инициирован запрос. В некоторых вариантах осуществления, возможные варианты результатов могут быть представлены в пользовательском интерфейсе, совместно используемом с представлением аудио-видеозахвата в то время, когда он выполняется. По меньшей мере, в одном варианте осуществления, возможные варианты результатов могут представляться прогрессивно в пользовательском интерфейсе, совместно используемом с представлением аудио-видеозахвата в то время, когда возникает захват видеоввода для запроса и извлечения цифрового аудиоотпечатка и визуальных хэш-битов, чтобы формировать подпись аудио-видео. В случае если список результатов стабилизирован, аспект захвата может завершаться, и пользовательский интерфейс может переходить в представление списка результатов поиска со стабильным перечнем возможных вариантов результатов с/без дополнительной информации.

[0031] По меньшей мере, в одном варианте осуществления, технологии мобильного видеопоиска, описанные в данном документе, реализуются в распределенном сетевом окружении. Распределенное сетевое окружение может включать в себя один или более типов вычислительных ресурсов, причем эти типы вычислительных ресурсов могут включать в себя вычислительные устройства, сетевые устройства и/или устройства хранения данных. Распределенное сетевое окружение также может упоминаться в качестве облачного вычислительного окружения.

[0032] Ниже подробнее описываются аспекты различных вариантов осуществления со ссылкой на фиг. 1-11.

Примерная реализация

[0033] Фиг. 1 показывает реализацию примерного варианта осуществления мобильного видеопоиска с использованием мобильного устройства, как описано в данном документе. В проиллюстрированном примере, пользователь 102 использует мобильное вычислительное устройство 104, такое как планшетный компьютер или смартфон. На фиг. 1, мобильное вычислительное устройство 104 показано с пользовательским интерфейсом, представляющим захват аудио- и видеоввода из видеопредставления 106 на телевизионном приемнике 108 через инструмент 110 мобильного видеопоиска при представлении списка возможных вариантов 112 результатов. По меньшей мере, в одном варианте осуществления, список возможных вариантов 112 результатов может вычисляться в реальном времени или почти в реальном времени и возвращаться в клиент в качестве прогрессивного списка возможных вариантов 112 результатов. Возможные варианты изображений и/или возможный вариант текста, ассоциированный с возможными вариантами результатов, могут быть представлены в перечне 112 в пользовательском интерфейсе на экране мобильного устройства 104. В проиллюстрированном примере, мобильное устройство 104 представляет устройство Windows Phone®, хотя аналогично могут использоваться другие мобильные телефоны, смартфоны, планшетные компьютеры и другие такие мобильные устройства. На мобильном устройстве 104, активация аппаратной или программной кнопки может указывать желание инициировать инструмент 110 мобильного видеопоиска.

[0034] В примерной реализации по фиг. 1, показан инструмент 110 мобильного видеопоиска, захватывающий аудиоввод через микрофон мобильного устройства, как представлено посредством графического представления 114 микрофона. Хотя в других реализациях, аудиозахват может представляться посредством различной графики или просто пониматься без соответствующей графики. Между тем, инструмент 110 мобильного видеопоиска захватывает видеоввод через камеру мобильного устройства, как очевидно из пользовательского интерфейса, отображающего видеозахват 116. В то время, когда инструмент мобильного видеопоиска продолжает захватывать аудиоввод и видеоввод, инструмент мобильного видеопоиска может извлекать цифровой аудиоотпечаток аудиоввода и визуальные хэш-биты видеоввода, чтобы отправлять в облако для использования при выполнении поиска, например, с тем чтобы выполнять поиск набора данных с LAVE-индексацией. Помимо этого, в то время когда инструмент мобильного видеопоиска продолжает захватывать аудиоввод и видеоввод, инструмент мобильного видеопоиска может принимать прогрессивный список возможных вариантов 112 результатов поиска. Возможные варианты изображений и/или возможный вариант текста, ассоциированный с возможными вариантами результатов, могут быть представлены в перечне 112 в пользовательском интерфейсе на экране мобильного устройства 104. В проиллюстрированном варианте осуществления, прогрессивный список возможных вариантов 112 результатов поиска, включающий в себя возможные варианты изображений и возможный вариант текста, представлен рядом с видеозахватом в пользовательском интерфейсе, хотя предполагаются другие местоположения представления.

[0035] В различных вариантах осуществления, чтобы оптимизировать запоминающее устройство, мобильное устройство 104 не сохраняет аудиоввод или видеоввод, и вместо этого мобильное устройство 104 сохраняет цифровой аудиоотпечаток и визуальные хэш-биты. Сохранение цифрового аудиоотпечатка и визуальных хэш-битов может быть полезным для условий низкой или несогласованной полосы пропускания или периодов, когда устройство не имеет сетевого соединения.

[0036] Ранее, глобальные признаки приспособлены для выполнения поиска практически дублированных видео, в которых видео представлены посредством компактных глобальных подписей. Такие глобальные признаки включают в себя пространственно-временной признак, который использует распределение интенсивности уровня серого относительно временной шкалы, чтобы представлять видео, и комбинацию пространственной и временной информации, чтобы составлять инвариантные глобальные подписи. Хотя эти глобальные представления достигают высоких скоростей извлечения в крупномасштабном наборе видеоданных, они не приспосабливают записанные видеозапросы серьезными искажениями.

[0037] По сравнению с глобальными признаками, локальные дескрипторы являются более отличительными и надежными касательно искажений записанных видеозапросов, поскольку они анализируют локальную инвариантность, такую как масштаб и ориентация. Тем не менее, вследствие вычислительной сложности, эффективность использования локальных дескрипторов для записанных видеозапросов, которые могут содержать искажения, становится недостаточной. Несколько подходов пытаются повышать скорость определения совпадения на основе локальных дескрипторов, включающего в себя набор слов (BoW) и составление иерархической структуры, с тем чтобы ускорять процесс определения совпадений. Тем не менее, подходы на основе локальных дескрипторов требуют широкомасштабной оптимизации для того, чтобы управлять мобильными устройствами вследствие ограниченных вычислительных возможностей и запоминающего устройства мобильных устройств.

[0038] Аудио может выполнять важную роль в поиске практически дублированных видео.

Один пример использует цифровой аудиоотпечаток на основе ориентиров для того, чтобы осуществлять аналогичный аудиопоиск, и другой пример включает в себя представление набора аудиослов (BoA), обусловленное посредством BoW, для того чтобы характеризовать аудиопризнаки для аналогичного видеопоиска. По сравнению с видеопризнаками, аудиопризнаки могут быть более надежными, вычислительно эффективными и компактными, что делает аудиопризнаки подходящими для использования в мобильном видеопоиске.

[0039] В последнее время, объединенный аудиовизуальный поиск практически дублированных видео применяется для крупномасштабного обнаружения видеокопий. Ключевая проблема комбинирования признаков состоит в идентификации корреляции между аудиопризнаками и видеопризнаками. Существующие стратегии слияния включают в себя раннее слияние и позднее слияние. Обе стратегии раннего слияния и позднего слияния имеют недостатки. Например, раннее слияние не сохраняет структурную информацию отдельных признаков, в то время как позднее слияние не распознает корреляцию между признаками.

[0040] Существующие способы раннего слияния и позднего слияния не могут в достаточной степени извлекать преимущество подписей аудио-видео, так что существующие способы поиска практически дублированных видео могут быть непосредственно приспособлены к мобильному видеопоиску, с тем чтобы справляться с уникальными сложностями мобильных технологий.

[0041] Фиг. 2 является иллюстративной схемой примерного перечня 200 стабилизированных результатов в пользовательском интерфейсе мобильного видеопоиска варианта осуществления по фиг. 1.

[0042] По сравнению с вышеописанными способами, технологии и средства мобильного видеопоиска, как описано в данном документе, предоставляют прогрессивный мобильный видеопоиск в то время, когда захватывается видеоввод. Схема мобильного видеопоиска прогрессивно передает компактные подписи аудио-видео, которые могут извлекаться из цифровых аудиоотпечатков и визуальных хэш-битов, в облако. Технология LAVE-индексации использует преимущество подписи аудио-видео для надежного видеопоиска. Кроме того, чтобы расширять возможности поиска пользователей, процесс прогрессивных запросов использует способ преобразования и определения совпадений на основе двухчастного графа.

[0043] Соответственно, в различных реализациях, инструмент мобильного видеопоиска использует аудиоввод, чтобы помогать пользователям ускорять запрос посредством использования снятия цифровых аудиоотпечатков на основе ориентиров (LBAF), чтобы получать цифровые аудиоотпечатки.

[0044] В примерной реализации, возможные варианты изображений, ассоциированные со стабилизированными возможными вариантами результатов, могут быть представлены в перечне 200 в пользовательском интерфейсе на экране мобильного устройства 104, как показано на 204. Между тем, текст, ассоциированный с возможными вариантами результатов, например, заголовки, имена персонажей и т.д., представлен в перечне 200 в пользовательском интерфейсе на экране мобильного устройства 104, как показано на 206. В показанном примере, перечень результатов включает в себя возможные варианты 204 изображений и соответствующие заголовки 206, представленные в формате горизонтальной модульной ленты, из которого конкретный возможный вариант результата может выбираться посредством перетаскивания в область 202 поиска или посредством касания либо иного выбора или изображения или текста на экране мобильного устройства 104. Тем не менее, возможны и предполагаются другие форматы. Например, выбор возможного варианта изображения может инструктировать обозревателю открываться и предоставлять возможность пользователю покупать или арендовать копию выбора для просмотра на мобильном устройстве, и/или выбор текста или заголовка может выводить информацию относительно ассоциированного видео или сохранять заголовок, с/без ассоциированного изображения, для последующего доступа.

Иллюстративная архитектура

[0045] Архитектура, описанная ниже, составляет только один пример и не имеет намерение ограничивать формулу изобретения какой-либо конкретной архитектурой или операционным окружением. Другие архитектуры могут использоваться без отступления от сущности и объема заявленного предмета изобретения. Фиг. 3 является иллюстративной схемой примерной архитектуры для реализации мобильного видеопоиска.

[0046] В некоторых вариантах осуществления, различные устройства и/или компоненты окружения 300 включают в себя одну или более сетей 302, по которым мобильное вычислительное устройство 304, которое может соответствовать мобильному вычислительному устройству 104 и также упоминается в данном документе как клиентское устройство 304 или просто устройство 304, может соединяться, по меньшей мере, с одним сервером 306. Окружение 300 может включать в себя несколько сетей 302, множество устройств 304 и/или множество серверов 306.

[0047] В различных вариантах осуществления, сервер(ы) 306 может хостить облачную услугу или централизованную услугу, конкретную для объекта, такого как школьная система или компания. Варианты осуществления поддерживают сценарии, в которых сервер(ы) 306 может включать в себя одно или более вычислительных устройств, которые работают в кластере или другой сгруппированной конфигурации, чтобы совместно использовать ресурсы, балансировать нагрузку, повышать производительность, предоставлять поддержку обхода сбоя или избыточность либо для других целей по сети 302.

[0048] Например, сеть(и) 302 могут включать в себя сети общего пользования, такие как Интернет, частные сети, такие как институциональная и/или персональная сеть intranet, либо некоторую комбинацию частных сетей и сетей общего пользования. Сеть(и) 302 также могут включать в себя любой тип проводной и/или беспроводной сети, включающей в себя, но не только, локальные вычислительные сети (LAN), глобальные вычислительные сети (WAN), сети спутниковой связи, кабельные сети, Wi-Fi-сети, WiMAX-сети, сети мобильной связи (например, 3G, 4G и т.д.) либо любую комбинацию вышеозначенного. Сеть(и) 302 могут использовать протоколы связи, включающие в себя протоколы с коммутацией пакетов и/или на основе датаграмм, такие как Интернет-протокол (IP), протокол управления передачей (TCP), протокол пользовательских датаграмм (UDP) или другие типы протоколов. Кроме того, сеть(и) 302 также могут включать в себя определенное число устройств, которые упрощают сетевую связь и/или формируют аппаратную основу для сетей, таких как коммутаторы, маршрутизаторы, шлюзы, точки доступа, брандмауэры, базовые станции, повторители, магистральные устройства и т.п.

[0049] В некоторых вариантах осуществления, сеть(и) 302 дополнительно могут включать в себя устройства, которые предоставляют соединение с беспроводной сетью, такие как точка беспроводного доступа (WAP). Варианты осуществления поддерживают подключение через WAP, которые отправляют и принимают данные по различным электромагнитным частотам (например, радиочастотам), включающие в себя WAP, которые поддерживают 802.11-стандарты Института инженеров по электротехнике и радиоэлектронике (IEEE) (например, 802.11 г, 802.11n и т.д.) и другие стандарты.

Машиночитаемые носители

[0050] Машиночитаемые носители, когда этот термин используется в данном документе, включают в себя, по меньшей мере, два типа машиночитаемых носителей, а именно, компьютерные носители хранения данных и среды связи.

[0051] "Компьютерный носитель хранения" включает в себя энергозависимый и энергонезависимый, съемный и несъемный носитель, реализованный по любому способу или технологии хранения информации, такой как машиночитаемые инструкции, структуры данных, программные модули или другие данные. Компьютерные носители хранения данных включают в себя материальные и/или физические формы носителей, включенных в устройство и/или аппаратный компонент, который является частью устройства или является внешним для устройства, включающие в себя, но не только, оперативное запоминающее устройство (RAM), статическое оперативное запоминающее устройство (SRAM), динамическое оперативное запоминающее устройство (DRAM), запоминающее устройство на фазовых переходах (PRAM), постоянное запоминающее устройство (ROM), стираемое программируемое постоянное запоминающее устройство (EPROM), электрически стираемое программируемое постоянное запоминающее устройство (EEPROM), флэш-память, постоянное запоминающее устройство на компакт-дисках (CD-ROM), универсальные цифровые диски (DVD), оптические карты или другие оптические носители хранения данных, магнитные кассеты, магнитную ленту, устройство хранения данных на магнитных дисках, магнитные карты либо другие магнитные устройства или носители хранения данных, полупроводниковые запоминающие устройства, запоминающие матрицы, систему хранения данных с подключением по сети, сети хранения данных, хостящееся компьютерное устройство хранения данных или любое другое запоминающее устройство, устройство хранения данных и/или носитель хранения данных или технология запоминающих устройств либо любой другой носитель,

Мобильный видеопоиск

Патент 2647696