Способ и устройство для отслеживания и распознавания объектов с использованием дескрипторов, инвариантных относительно вращения

Иллюстрации

Показать все

Группа изобретений относится к устройствам обработки изображения. Технический результат заключается в повышении скорости обработки данных. Способ содержит: формирование пирамиды изображений для кадра изображения; обнаружение множества представляющих интерес точек в пирамиде изображений и извлечение дескрипторов признаков для каждой точки из множества представляющих интерес точек в изображении, при этом извлечение дескрипторов признаков включает поворот градиентов представляющей интерес точки на заданный угол для получения преобразования радиального градиента, и извлечение дескрипторов признаков включает выполнение градиентного разбиения и/или пространственного разбиения. 4 н. и 18 з. п. ф-лы, 9 ил.

Реферат

Область техники

Варианты выполнения настоящей группы изобретений, в целом, относятся к обработке изображений и, в частности, к способу и устройству для формирования и использования дескрипторов признаков для отслеживания и распознавания объектов.

Уровень техники

В некоторых приложениях желательно иметь возможность идентификации признаков в последовательности изображений, таких как видеокадры, и слежения за перемещением этих признаков в изображениях. Например, может быть захвачена последовательность видеокадров, включающих различимый объект, и может быть желательно уметь идентифицировать этот объект, следить за его относительным перемещением в видеокадрах и автоматически опознавать этот объект. В связи с этим, идентификация признаков в пределах изображения используется в приложениях компьютерного зрения, таких как «дополненная реальность». Эти приложения все шире используются для распознавания объектов в реальном времени, восстановления трехмерных объектов, сшивания панорамы, формирования карты роботами и отслеживания видеообъектов.

В настоящее время переносные устройства, такие как мобильные телефоны, обычно снабжаются оборудованием с возможностями захвата видеоизображения. Возможности захвата видеоизображения могут быть использованы для мобильных приложений и подходящих приложений компьютерного зрения, таких как мобильная дополненная реальность (MAR, mobile augmented reality). Однако, по меньшей мере в некоторых примерах использования, мощности переносного устройства может оказаться недостаточно для реализации таких возможностей обработки изображений в переносном устройстве.

Сущность изобретения

Ниже описаны различные примеры способов и устройств согласно настоящему изобретению, предназначенные для отслеживания и распознавания объектов с помощью дескрипторов признаков, инвариантных относительно вращения. Согласно некоторым вариантам выполнения настоящего изобретения, можно формировать дескрипторы признаков, инвариантные относительно вращения и требующие относительно небольшой объем вычислений, но достаточно надежные для обеспечения точного отслеживания и распознавания объектов. Кроме того, согласно различным вариантам выполнения настоящего изобретения, те же дескрипторы признаков, которые используются для отслеживания, используются и для распознавания объектов.

Пример одного из способов включает формирование пирамиды изображений для кадра изображения, обнаружение множества представляющих интерес точек в пирамиде изображений и извлечение дескрипторов признаков для каждой соответствующей представляющей интерес точки. Согласно некоторым примерам вариантов выполнения настоящего изобретения, указанные дескрипторы признаков инвариантны относительно вращения. Кроме того, пример способа может включать отслеживание перемещения путем установления соответствия дескрипторов признаков дескрипторам признаков предыдущего кадра и выполнение распознавания объекта в пределах кадра изображения на основе этих дескрипторов признаков.

Соответствующий пример устройства для отслеживания и распознавания объектов с помощью дескрипторов признаков, инвариантных относительно вращения, содержит по меньшей мере один процессор и по меньшей мере одну память, содержащую компьютерный программный код, при этом по меньшей мере одна память и компьютерный программный код сконфигурированы так, чтобы с помощью по меньшей мере одного процессора заставлять устройство выполнять различные функции. В связи с этим, устройство обеспечивает выполнение формирования пирамиды изображений для кадра изображения, обнаружение множества представляющих интерес точек в пирамиде изображений и извлечение дескрипторов признаков для каждой соответствующей представляющей интерес точки. Согласно некоторым примерам вариантов выполнения настоящего изобретения, указанные дескрипторы признаков инвариантны относительно вращения. Кроме того, пример устройства может выполнять отслеживание перемещения путем установления соответствия дескрипторов признаков дескрипторам признаков предыдущего кадра и выполнение распознавания объекта в пределах кадра изображения на основе дескрипторов признаков.

Еще один вариант выполнения настоящего изобретения представляет собой машиночитаемый носитель данных, на котором хранятся исполняемые машиночитаемые инструкции программного кода. Эти машиночитаемые инструкции программного кода на машиночитаемом носителе данных заставляют устройство выполнять различные функции. В связи с этим, пример устройства обеспечивает выполнение формирования пирамиды изображений для кадра изображения, обнаружение множества представляющих интерес точек в пирамиде изображений и извлечение дескрипторов признаков для каждой соответствующей представляющей интерес точки. Согласно некоторым примерам вариантов выполнения настоящего изобретения, указанные дескрипторы признаков инвариантны относительно вращения. Кроме того, пример устройства может обеспечивать отслеживание перемещения путем установления соответствия дескрипторов признаков дескрипторам признаков предыдущего кадра и выполнение распознавания объекта в пределах кадра изображения на основе дескрипторов признаков.

Еще один пример варианта выполнения настоящего изобретения представляет собой устройство для отслеживания и распознавания дескрипторов признаков, инвариантных относительно вращения. Это устройство содержит средство для формирования пирамиды изображений для кадра изображения, средство для обнаружения множества представляющих интерес точек в пирамиде изображений и средство для извлечения дескрипторов признаков для каждой соответствующей представляющей интерес точки. Согласно некоторым примерам вариантов выполнения настоящего изобретения, указанные дескрипторы признаков инвариантны относительно вращения. Кроме того, пример устройства может также включать средство для отслеживания перемещения путем установления соответствия дескрипторов признаков дескрипторам признаков в предыдущем кадре и средство для распознавания объекта в пределах кадра изображения на основе дескрипторов признаков.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

После общего описания настоящего изобретения рассмотрим приложенные чертежи, которые не обязательно выполнены в масштабе.

На фиг.1 иллюстрируется формирование радиальных градиентов согласно примеру варианта выполнения настоящего изобретения.

На фиг.2 иллюстрируется инвариантность относительно вращения с использованием преобразования радиального градиента согласно одному из вариантов выполнения настоящего изобретения.

На фиг.3а-3d показана сегментация изображений на ячейки для осуществления разбиения согласно варианту выполнения настоящего изобретения.

На фиг.4а-4b показаны конфигурации пространственного разбиения согласно варианту выполнения настоящего изобретения.

На фиг.5а-5b показано преобразование радиального градиента и базисные вектора приближенного преобразования радиального градиента согласно варианту выполнения настоящего изобретения.

На фиг.6 показана структурная схема устройства для отслеживания и распознавания объектов с использованием дескрипторов признаков, инвариантных относительно вращения, согласно варианту выполнения настоящего изобретения.

На фиг.7 показана структурная схема мобильного терминала для отслеживания и распознавания объектов с использованием дескрипторов признаков, инвариантных относительно вращения, согласно варианту выполнения настоящего изобретения.

На фиг.8 показана блок-схема способа отслеживания и распознавания объектов с использованием дескрипторов признаков, инвариантных относительно вращения, согласно варианту выполнения настоящего изобретения.

На фиг.9 показана другая блок-схема способа отслеживания и распознавания объектов с использованием дескрипторов признаков, инвариантных относительно вращения, согласно варианту выполнения настоящего изобретения.

ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

Ниже более подробно описаны примеры вариантов выполнения настоящего изобретения со ссылками на приложенные чертежи, на которых показаны некоторые, но не все варианты выполнения настоящего изобретения. Изобретение может быть реализовано во многих разных формах и не ограничивается описываемыми вариантами его выполнения; эти варианты выполнения настоящего изобретения представлены для выполнения требования промышленной применимости изобретения. В данном описании одинаковые позиции соответствуют одинаковым элементам. В некоторых вариантах выполнения настоящего изобретения термины "данные", "контент", "информация" и аналогичные термины могут использоваться взаимозаменяемо для описания данных, которые можно передавать, принимать, хранить и/или которыми можно управлять.

Используемый в описании термин "схема" относится к следующему: (а) только к аппаратными реализациям (таким как реализации только на аналоговых и/или цифровых схемах) и (б) к комбинациям схем и программного обеспечения (и/или встроенного программного обеспечения) (таким как, применительно к конкретному контексту, (i) комбинация процессора(процессоров) или (ii) части процессора/программного обеспечения (включая процессор (процессоры) цифровой обработки сигналов, программное обеспечение и модуль (модули) памяти, которые работают совместно, чтобы заставить устройство, такое как мобильный телефон или сервер, выполнять различные функции) (в) к схемам, таким как микропроцессор (микропроцессоры) или часть микропроцессора (микропроцессоров), для работы которого необходимо программное обеспечение или встроенное программное обеспечение, даже если это программное обеспечение или встроенное программное обеспечение физически не присутствует.

Это определение термина "схема" используется везде в данном описании, включая формулу изобретения. В качестве другого примера использования в данном описании этого термина в применении к конкретному контексту, термин "схема" также охватывает реализацию просто процессора (или множества процессоров) и сопровождающего его (или их) программного или встроенного программного обеспечения. Термин "схема" охватывает также в применении к конкретному признаку формулы изобретения, например интегральную схему основной полосы частот или интегральную схему процессора приложений в мобильном телефоне или аналогичную интегральную схему в сервере, устройстве сотовой сети связи или других сетевых устройствах.

Примеры вариантов выполнения настоящего изобретения включают способы и устройства для унификации отслеживания и распознавания видеоконтента в приложениях обработки изображений, таких как мобильные приложения дополненной реальности (Mobile Augmented Reality (MAR)), с использованием формируемого дескриптора признаков, как будет описано ниже. Этот дескриптор признаков может называться инвариантным относительно вращения быстрым дескриптором признаков (RIFF, Rotation Invariant Fast Feature). Дескриптор RIFF может формироваться с использованием преобразования радиального градиента (RGT, Radial gradient transform) и/или приближенного преобразования радиального градиента (ARGT, approximate radial gradient transform). Согласно различным примерам вариантов выполнения настоящего изобретения, дескрипторы RIFF формируются достаточно быстро для обеспечения отслеживания объектов со скоростью следования кадров или близко к скорости следования кадров и достаточно устойчиво для решения задач крупномасштабного распознавания. Например, согласно некоторым примерам вариантов выполнения настоящего изобретения, схемы отслеживания, в которых используются дескрипторы RIFF, способны формировать модели глобальных аффинных движений, сопоставимые с моделью отслеживания признаков Kanade-Lucas-Tomasi (KLT), и позволяют достичь улучшенной точности распознавания для базы данных изображений.

Приложения обработки изображений, такие как приложения MAR, могут использовать отслеживание и распознавание визуальных объектов. В примерах вариантов выполнения настоящего изобретения используется межкадровая избыточность для унификации отслеживания и распознавания объектов путем формирования дескрипторов признаков, которые могут извлекаться со скоростью следования кадров или с близкой скоростью и могут использоваться как для отслеживания, так и распознавания. Дескрипторы признаков согласно примерам выполнения настоящего изобретения можно формировать, извлекая со скоростью следования кадров такую информацию, которая полезна как для распознавания, так и для отслеживания объектов. При таком формировании дескрипторов признаков эти дескрипторы признаков могут поддерживать как отслеживание, так и распознавание объектов. Кроме того, для преодоления ограничений, связанных с ограниченной вычислительной мощностью многих переносных устройств, дескрипторы признаков согласно различным вариантам выполнения настоящего изобретения являются надежными и быстро вычисляются.

Формирование дескриптора RIFF может начинаться с процедуры формирования дескриптора сжатой гистограммы градиентов (CHoG, compressed histogram of gradient), который, как было выяснено, хорошо работает при очень низких скоростях передачи битов. Однако, согласно некоторым вариантам выполнения настоящего изобретения, процедуру CHoG можно модифицировать для устранения фазы назначения ориентации при обнаружении ключевой точки, что позволяет увеличить скорость и формировать дескриптор признаков, инвариантный относительно вращения.

В связи с этим можно формировать два типа дескрипторов RIFF: дескрипторы на основе градиентного разбиения и дескрипторы на основе пространственного разбиения. Инвариантность относительно вращения может быть важным признаком надежных систем распознавания изображений. Некоторые дескрипторы достигают инвариантности относительно ориентации путем обнаружения ориентации и интерполяции соответствующих пикселей. Однако согласно вариантам выполнения настоящего изобретения формирование дескрипторов RIFF может быть выполнено без определения ориентации и интерполяции пикселей. В связи с этим, можно использовать дескриптор гистограммы градиентов (HoG, histogram of gradient), а инвариантность относительно вращения может быть достигнута путем градиентного разбиения и пространственного разбиения.

Согласно некоторым вариантам выполнения настоящего изобретения, градиентное разбиение может использоваться для формирования рационально инвариантных дескрипторов. Чтобы сделать градиентное разбиение инвариантным, можно использовать инвертируемое пространственно-переменное преобразование. Путем поворота градиентов на заданный угол инвариантность относительно вращения может быть достигнута при небольшой потере или вообще без потери информации, давая в результате преобразование радиального градиента (RGT).

Как показано на фиг.1, могут быть выбраны два ортогональных базисных вектора для обеспечения локального полярного опорного кадра для описания градиента. Базисные векторы r и t могут быть направлены радиально и по касательной в точке p относительно центра с области. Re может быть задана как стандартная матрица поворота на угол θ, что дает

Путем проектирования на r и t градиент g может быть разложен в локальной системе координат как

так что градиент может быть представлен в локальной радиальной системе координат как вектор (gTr, gTt). Если область поворачивается относительно ее центра с на угол θ, формируется новая локальная система координат и градиент:

Rθp=p', Rθr=r', Rθt=t', Rθg=g'.

В результате, координаты градиента в локальном кадре оказываются инвариантными относительно вращения, поскольку g и g' отображаются на одни и те же координаты в соответствующих опорных кадрах.

Поэтому некоторые или все градиенты могут быть повернуты на один и тот же угол, и Rθ может формировать взаимно-однозначное отображение. Таким образом, множество градиентов на любом заданном круге с центром в указанной области может быть инвариантным относительно вращения. На фиг.2 иллюстрируется инвариантность относительно вращения благодаря выполнению преобразования радиального градиента. На фиг.2 область базы данных (слева вверху) создает гистограмму градиента как в области xy (вверху в середине), так и в радиальной области (справа вверху). Аналогичные гистограммы извлечены из вертикальной запрашиваемой области (слева в центре) и ее повернутой версии (снизу слева). Следует отметить, что гистограммы xy-градиента (центральный столбец) вращаются вместе с областью, в то время как гистограммы радиального градиента (правый столбец) сохраняют одну и ту же форму во всех строках.

При наличии градиентов, инвариантных относительно вращения, можно использовать технику разбиения для создания гистограмм градиентов, которые включают дескриптор. Гистограмма градиентов может быть разбита, чтобы понизить размерность гистограммы до разумных размеров при сохранении надежности. На фиг.3а-3d показаны центры ячеек градиентного разбиения и ячейки Вороного, которые используются для формирования дескриптора RIFF.

Для квантования гистограммы могут использоваться центры разбиения (точки в пределах ячеек) и ячейки Вороного. Векторные квантователи (VQ), как показано на фиг.3с и 3d, могут быть более гибкими, в то время как скалярные квантователи (SQ), как показано на фиг.3а и 3b, могут быть более быстрыми.

После описания градиентного разбиения, инвариантного относительно вращения, можно рассмотреть пространственное разбиение для формирования дескрипторов RIFF. Пространственное разбиение может быть сделано инвариантным путем использования колец для разбиения, таких как кольца, изображенные на фиг.4А. Альтернативно, кольца могут быть разделены на угловые ячейки, давая полярную конфигурацию, как показано на фиг.4b.

Согласно некоторым вариантам выполнения настоящего изобретения, техника полярного пространственного разбиения может повысить надежность дескриптора. Однако может быть потеряна инвариантность относительно ориентации. Для возврата инвариантности относительно ориентации можно использовать меру расстояния, Dori, которая оценивает минимальное расстояние, D, по некоторым или всем углам дескриптора. Таким образом, если Dθ - дескриптор, повернутый на угол θ, то

Для осуществления полярного пространственного разбиения можно провести, например, шесть угловых разделений для возможности грубой оценки расстояния в зависимости от угла. Для высокоточной оценки угла и расстояния может использоваться квадратичная интерполяция.

После описания формирования дескрипторов RIFF с использованием градиентного разбиения и пространственного разбиения для достижения инвариантности относительно ориентации ниже описаны дальнейшие модификации процедур, обеспечивающие повышение скорости формирования признаков. Поскольку в формирование признаков не было включено назначение ориентации, дескрипторы могут быть извлечены непосредственно из вертикальной области вокруг представляющей интерес точки. Кроме того, согласно различным вариантам выполнения настоящего изобретения, нет необходимости в выполнении операций интерполяции пикселей, требующих большого объема вычислений.

Кроме того, приближенное преобразование радиального градиента может быть использовано для уменьшения вычислительной сложности при достижении инвариантности относительно ориентации посредством преобразования RGT. В то время как в некоторых вариантах выполнения настоящего изобретения можно использовать преобразование RGT, которое может потребовать большого количества операций матричного умножения с плавающей запятой или арифметических операций с фиксированной запятой, альтернативно можно использовать приближение, позволяющее снизить объем вычислений.

В связи с этим базисные векторы r и t можно приближенно представить более простой парой, и . Сравнивая фиг.5а с фиг.5b, можно заметить, что приближенные базисные векторы могут быть квантованы по отношению к данному углу, такому как угол 45 градусов, как показано на фиг.5b. При этом градиент может быть вычислен непосредственно вдоль соответствующего направления без дополнительных расходов, а приближенное преобразование радиального градиента (ARGT) может быть вычислено путем выявления разности между соседними пикселями при соответствующей нормализации.

Чтобы построить дескриптор RIFF, после вычисления преобразования ARGT можно выполнить скалярное квантование гистограмм градиентов. Согласно некоторым вариантам выполнения настоящего изобретения, для увеличения скорости вместо векторных квантователей можно использовать скалярные квантователи 3×3 и 5×5 для полярной и кольцевой конфигураций, соответственно. В некоторых вариантах выполнения настоящего изобретения могут быть получены 100-мерные кольцевые дескрипторы и/или 117-мерные полярные дескрипторы.

Согласно различным вариантам выполнения настоящего изобретения, локальные дескрипторы HoG могут захватывать статистику контента изображения вокруг представляющей интерес точки. В предположении, что контент изображения двух представляющих интерес точек является одним и тем же, распределение градиентов может быть также одинаковым. Поэтому лежащее в основе распределение может быть оценено гистограммой выборок, при этом большее количество выборок обеспечивает лучшую оценку. Однако каждая выборка может потребовать вычисления и квантования градиента. Следовательно, между скоростью вычисления и качеством оценки в зависимости от количества выборок имеется компромиссное соотношение. Для улучшения скорости при незначительном ухудшении оценки можно выбирать чередующиеся пиксели вокруг представляющей интерес точки. На фиг.4а и 4b показаны чередующиеся пиксели в виде шахматной доски, при этом пиксели, представленные темными областями, составляют выборку для оценки гистограммы градиентов (HoG), а пиксели, представленные светлыми областями, - нет.

Кроме того, формируемый дескриптор RIFF может унифицировать отслеживание и распознавание объектов путем использования этих дескрипторов для обеих задач. Для отслеживания объектов можно использовать детектор представляющей интерес точки, например признаки детектора ускоренного теста сегментов (FAST), на каждом уровне пирамиды изображений. Согласно некоторым вариантам выполнения настоящего изобретения, для увеличения скорости могут быть опущены нецелочисленные уровни пирамиды, что оставляет достаточное покрытие шкалы, не требуя интерполяции пикселей вне 2×субдискретизации. Далее, согласно некоторым вариантам выполнения настоящего изобретения, когда дескрипторы используются для распознавания, любое отсутствие покрытия шкалы может быть исправлено благодаря избыточности в базе данных.

Для задач отслеживания дескрипторы RIFF могут быть сопоставлены с пространственно соседними дескрипторами RIFF в предыдущем кадре. Если два дескриптора находятся в пределах фиксированного радиуса (например, 8 пикселей), тогда эти дескрипторы можно считать кандидатами на соответствие. Наилучший кандидат можно затем выбрать как тот, который имеет минимальное расстояние в области дескрипторов согласно порогу расстояния. Согласно некоторым вариантам выполнения настоящего изобретения, для установления соответствия можно использовать расходимость Кульбака-Лейблера.

Для установления соответствия дескрипторов при очень высоких скоростях следования кадров можно выполнить быстрое хэширование и пространственное разбиение для кандидатов на соответствие согласно положению дескрипторов в кадре. В связи с этим, кадр можно разделить, например пространственной сеткой, и текущие дескрипторы кадров можно разместить в ячейки разбиения, ассоциированные с теми частями сетки, в которых обнаружены эти дескрипторы. Согласно некоторым вариантам выполнения настоящего изобретения, дескрипторы могут быть также размещены в соседних ячейках разбиения, например в восьми соседних ячейках в пространственной сетке. Такое разбиение обеспечивает быстрый поиск пространственных соседей между кадрами. Для определения кандидатов на соответствие ячейки разбиения можно проанализировать, чтобы определить, какая из ячеек текущего кадра содержит дескриптор. Согласно некоторым вариантам выполнения настоящего изобретения, ячейки разбиения могут содержать короткий список некоторых или всех соседних дескрипторов из предыдущего кадра.

Согласно различным вариантам выполнения настоящего изобретения, техника сопоставления обеспечивает сопоставление признаков, которое является достаточно надежным и свободным от «выбросов» и поэтому не требует удаления выбросов. В связи с этим, для отслеживания глобального перемещения в кадре для аффинной модели может быть использован метод наименьших квадратов между текущим и предыдущим кадрами.

Кроме того, для поддержки функциональности распознавания можно сохранить последовательность из дескрипторов предыдущих кадров наряду с любыми соответствиями и аффинными моделями. Согласно некоторым вариантам выполнения настоящего изобретения, имея такой плотный по времени набор информации, можно обеспечить качественное распознавание при небольшом количестве дескрипторов на кадр.

Как сказано выше, дескрипторы RIFF также могут использоваться для распознавания. В связи с этим, можно применить извлечение дескрипторов RIFF и отслеживание объектов в реальном времени или в почти реальном времени, например, в переносном устройстве. Кроме того, может формироваться буфер ранее отслеженных признаков и глобальных аффинных моделей. Для формирования буфера в некоторых вариантах выполнения настоящего изобретения могут извлекаться 100 признаков на кадр, а в течение одной секунды при частоте 15 кадров в секунду могут быть извлечены и отслежены 1500 признаков. На основе дескрипторов и соответствующей информации отслеживания можно осуществить распознавание видеоконтента в отношении буфера.

Кроме того, согласно некоторым вариантам выполнения настоящего изобретения, унификация отслеживания и распознавания объектов посредством одних и тех же дескрипторов дает дополнительные преимущества обеспечения временной когерентности данных распознавания. Надежность дескрипторов признаков можно понять, исследуя траекторию дескрипторов в видеопотоке. На основе информации отслеживания можно осуществить отсечение нерелевантных данных от запрашиваемых признаков. В дополнение к отсечению фиктивных точек описание надежной представляющей интерес точки можно улучшить, получая больше выборок из соседних кадров.

Для многих приложений, таких как приложения MAR, могут быть использованы запросы видеопотока из локальной или удаленной базы данных. Запрос может выполняться периодически через регулярные интервалы, например с частотой 1 Гц, или когда в кадре присутствует по существу новый контент. Присутствие нового контента может быть легко установлено по данным отслеживания.

Для некоторых приложений MAR может использоваться информация о местоположении, такая как информация о местоположении от системы глобального позиционирования, для предварительной установки соответствующей локальной базы данных для распознавания. Такая предварительная установка базы данных может ограничить размер базы данных для распознавания объекта. Кроме того, для некоторых вариантов выполнения настоящего изобретения в больших базах данных, таких как компакт-диск или другие базы данных для распознавания объекта, информация отслеживания может быть сжата и запрошена из сервера.

На основе техники распознавания, описанной выше, может быть достигнуто попарное сопоставление изображений и поиск. Согласно некоторым вариантам выполнения настоящего изобретения, для выполнения распознавания можно идентифицировать представляющие интерес точки, например разность гауссианов (DoG, difference of Gaussian), представляющих интерес точек, и извлечь соответствующие дескрипторы. Используя дескрипторы, можно «обучать» словарное дерево. Например, если извлекаются 600 представляющих интерес точек, то можно построить дерево, имеющее глубину, равную 6, и коэффициент ветвления 10, в результате чего получится дерево со 106 концевыми узлами. В качестве критерия расстояния как для обучения, так и для запросов, можно использовать симметричную KL-дивергенцию. Альтернативно, согласно некоторым вариантам выполнения настоящего изобретения для сравнения дескрипторов HoG можно использовать норму L2. KL-дивергенция может быть включена в кластерную структуру k-средних, поскольку представляет собой дивергенцию Брегмана. Для улучшения надежности можно также использовать мягкое назначение дескрипторов относительно 3 ближайших центроидов.

Для запроса может быть вычислено значение схожести между каждым запросом и использованием вектора базы данных, например, стандартная схема «частотность термина-обратная частотность документа» (TF-IDF), которая представляет запрос и изображения базы данных в виде разреженных векторов появления визуальных слов. Можно также использовать схему весов, которая уменьшает вклад менее различимых дескрипторов. После выбора набора изображений в результате голосования TF-IDF, можно выполнить попарное сопоставление, чтобы завершить распознавание с использованием, например, согласованности проверки соотношения и случайных выборок (RANSAC).

Приведенное выше и последующее описание иллюстрирует примеры способов и устройств для формирования признаков RIFF и для отслеживания и распознавания объектов с использованием признаков RIFF. Примеры способов и устройств могут быть осуществлены с обеспечением унифицированного отслеживания и распознавания видеоконтента для приложений мобильной дополненной реальности (MAR). Можно использовать преобразование радиального градиента (RGT) и приближенное преобразование, получая в результате инвариантный относительно вращения быстрый дескриптор признаков (RIFF). Согласно некоторым вариантам выполнения настоящего изобретения, дескрипторы RIFF достаточно быстры для отслеживания в реальном времени или почти в реальном времени и достаточно надежны для задач крупномасштабного поиска.

Например, при скорости 26× варианты выполнения схемы отслеживания, описанные здесь, получают модель глобальных аффинных движений, сопоставимую с моделью KLT. Кроме того, согласно некоторым вариантам выполнения настоящего изобретения, модели и совпадение признаков, используемые для отслеживания, используются также для повышения надежности распознавания видеоконтента. При унификации отслеживания и распознавания объектов достигаются взаимные преимущества.

На основе вышеизложенного фиг.6 и 7 иллюстрируют варианты выполнения настоящего изобретения, предназначенные для выполнения различных функций, описанных в настоящем документе. На фиг.8 иллюстрируется способ отслеживания и распознавания объектов, описанный ниже.

Как показано на фиг.6, устройство 200, в соответствии с некоторыми примерами осуществления настоящего изобретения, может быть выполнено в виде устройства связи (или может входить в него как компонент) с функциями проводной или беспроводной связи. В некоторых из примеров настоящего изобретения устройство 200 может являться частью устройства связи, такого как стационарный или мобильный терминал. В качестве стационарного терминала устройство 200 может быть частью компьютера, сервера, точки доступа (например, базовой станции, беспроводного маршрутизатора и т.п.), устройства, которое поддерживает сетевое взаимодействие, и т.п. В качестве мобильного терминала устройство 200 может быть мобильным компьютером, мобильным телефоном, карманным персональным компьютером (portable digital assistant, PDA), пейджером, мобильным телевизором, игровым устройством, мобильным компьютером, портативным компьютером, например, с беспроводным модемом, фотокамерой, видеокамерой, аудио/видеоплеером, радиостанцией и/или устройством системы глобального позиционирования (GPS), или любой комбинацией перечисленного и т.п. Независимо от типа устройства связи устройство 200 может также включать вычислительные возможности.

Пример устройства 200 включает процессор 205, запоминающее устройство 210, интерфейс 206 ввода/вывода, интерфейс 215 связи, пользовательский интерфейс 220, менеджер 230 исходного соединения или осуществляет с ними связь. Процессор 205 может быть выполнен в виде различных средств, реализующих различную функциональность примеров осуществления настоящего изобретения, включая, например, микропроцессор, сопроцессор, контроллер, интегральную схему специального назначения, например, ASIC (application specific integrated circuit, заказная интегральная схема), FPGA (field programmable gate array, программируемая вентильная карта) или аппаратный ускоритель, процессорные схемы и т.п. В соответствии с одним из примеров осуществления настоящего изобретения процессор 205 может представлять множество процессоров, или один или более многоядерных процессоров, функционирующих совместно. Процессор 205 может включать множество транзисторов, логических вентилей, тактирующих схем (например, генераторов) или других подобных схем для обеспечения выполнения описанной функциональности. Процессор 205 может, но не обязательно, включать один или более сопровождающих цифровых сигнальных процессоров. В некоторых примерах осуществления настоящего изобретения процессор 205 сконфигурирован для исполнения инструкций, хранимых в запоминающем устройстве 210 или доступных процессору 205 другим способом. Процессор 205 может быть сконфигурирован для функционирования таким образом, чтобы обеспечивать выполнение устройством 200 различной функциональности, описанной здесь.

Процессор 205, сконфигурированный в виде аппаратного обеспечения или посредством инструкций, хранимых на машиночитаемом носителе данных, или в виде их комбинации, может представлять собой объект, способный, при соответствующем конфигурировании, выполнять операции в соответствии с вариантами осуществления настоящего изобретения. Соответственно, в примерах осуществления настоящего изобретения, в которых процессор 205 выполнен в виде схемы ASIC, FPGA и т.п., процессор 205 представляет собой специальным образом сконфигурированное аппаратное обеспечение для выполнения описанных операций. Альтернативно, в примерах осуществления настоящего изобретения, в которых процессор 205 выполнен как средство исполнения инструкций, хранимых на машиночитаемом носителе данных, эти инструкции конфигурируют процессор 205 для выполнения описанных алгоритмов и операций. В некоторых примерах осуществления настоящего изобретения процессор 205 является процессором конкретного устройства (например, мобильного терминала), сконфигурированным для применения примеров осуществления настоящего изобретения путем дальнейшей конфигурации процессора 205 посредством исполняемых инструкций для выполнения описанных алгоритмов, способов и операций.

Запоминающее устройство 210 может представлять собой один или более машиночитаемых носителей данных, которые могут включать энергозависимую и/или энергонезависимую память. В некоторых примерах осуществления настоящего изобретения запоминающее устройство 210 включает память с произвольным доступом (Random Access Memory, RAM), включающую динамическую и/или статическую память RAM, кэш-память, расположенную внутри или вне интегральной схемы и т.п. Также запоминающее устройство 210 может включать энергонезависимую память, которая может быть встроенной и/или съемной и может включать, например, постоянную память, флэш-память, магнитные устройства хранения (например, жесткие диски, приводы гибких дисков, магнитную пленку и т.п.), приводы оптических дисков и/или оптические носители, энергонезависимую память с произвольным доступом (non-volatile r