Устройство для семантической классификации и поиска в архивах оцифрованных киноматериалов

Иллюстрации

Показать все

Изобретение относится к семантической классификации оцифрованных киноматериалов и информационного поиска в архивах оцифрованных киноматериалов. Техническими результатами являются повышение точности сегментации фильмов на сцены, повышение точности классификации сцен по заранее заданному перечню классов, повышение быстродействия процесса извлечения семантических признаков из кадров кинофильма, сокращение дополнительных затрат на программирование при увеличении размерности вектора признаков, сокращение объема данных для хранения индекса для выполнения информационного поиска кинофрагментов по текстовым запросам, запросам в структурированной форме и запросам по образцу, сокращение времени выполнения индексации и повышение точности и чувствительности информационного поиска. Устройство семантической классификации и поиска в архивах оцифрованных киноматериалов содержит последовательно соединенные средство получения оцифрованных материалов, средство извлечения выборочных кадров из оцифрованных киноматериалов, средство извлечения векторов признаков, средство сегментации и классификации, средство хранения индекса, средство для выполнения информационного поиска, серверное устройство и клиентское устройство. 4 з.п. ф-лы, 3 ил.

Реферат

Изобретение относится к устройствам для семантической классификации оцифрованных киноматериалов и информационного поиска в архивах оцифрованных киноматериалов, а именно к устройствам для анализа изображения, распознавания визуальных свойств кинофильмов, автоматического извлечения признаков из видеокадров, семантического распознавания образов и классификации сцены в оцифрованных киноматериалах, а также к устройствам для информационного поиска при условиях поиска, заданных в текстовой или категориальной форме, включающей категории обнаруженных объектов, жанров или сцен, а также при условиях поиска, заданных эталонным кинофрагментом или по крайней мере одним эталонным изображением.

Задача поиска фрагментов фондовых материалов киноархивов и телевизионных передач является актуальной при производстве новых художественных и документальных, образовательных и коммерческих фильмов, выпусков теленовостей, телевизионных передач, рекламных роликов и заставок.

Объемы хранимых в крупнейших архивах киноматериалов и телевизионных материалов огромны. Госфильмофонд РФ насчитывает около 70000 наименований фильмов; Гостелерадиофонд - около 100000. Объемы видеоматериалов на публичных интернет-порталах невообразимы. Только на видеосервис Youtube каждую минуту пользователи загружают свыше 100 часов нового видео.

Производители документальных фильмов и телевизионных передач ежедневно сталкиваются в своей работе с поиском фрагментов в видеоархивах. Качество поиска зависит от квалификации редакторов и авторов, их кругозора, культурного и исторического образования. Текстовые аннотации архивных киноматериалов в настоящее время недостаточно подробны и не позволяют эффективно использовать разработанные для Интернета стандартные поисковые системы.

Разработка системы семантической индексации киноматериалов призвана значительно повысить эффективность работы редакторов и авторов документальных фильмов и телевизионных программ по подбору фрагментов фондовых материалов. При этом потребность в ручной аннотации фондовых материалов значительно снижается.

В соответствии с международным стандартом (ISO/IEC 15938-5:2003. Информационные технологии. Интерфейс описания содержимого мультимедиа. Часть 5. Схемы описания мультимедиа. - 730 с., [1]), системы описания содержимого мультимедиа, к которым относятся и оцифрованные киноматериалы, должны обеспечивать информационный поиск по следующим видам запросов:

- Запрос по образцу на поиск близкого или идентичного представленному образцу мультимедийного материала (в частности образцу изображения и образцу кинофрагмента);

- Запрос по описанию, в котором запрос представляет собой структурированное описание в формате XML;

- Запрос в текстовой форме;

- другие виды запросов.

В технике широко известны системы для классификации изображений, т.е. системы для анализа неподвижных изображений, таких как фотографии, и присвоения им по крайней мере одной метки или текстового описания, по которым, в свою очередь, могут осуществлять поиск в базе данных изображений. Такие системы обычно используют для классификации изображений по заранее известной номенклатуре классов. Известным в технике способом классификации является применение по крайней мере одного классификатора и отнесение изображения к множеству классов, наиболее подходящих к изображению. Например, фотографию стада слонов в саванне могут отнести к классу "слон", к классу "саванна" или к множеству классов "слон, саванна".

Подобные способы классификации изображений используют различные методики технической реализации классификаторов. Например, в работе (Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems, 2012, [2]) описан классификатор на основе сверточных нейронных сетей.

Независимо от конкретной методики построения классификатора, традиционные системы классификации изображений недостаточно точны для классификации киноматериалов. Традиционные системы оптимизируют для анализа фотографий, в которых обычно уделяют значительное внимание вопросам композиции, а именно пропорциям фона и основного объекта в кадре, ракурсу съемки неподвижных объектов, отсутствию препятствий между камерой и объектом съемки, качеству освещения, экспонирования и наводки на резкость. В противоположность фотографии, кинофрагменты предназначают для восприятия зрителем целостно как последовательность кадров, в каждом из которых объект съемки может быть снят частично, в необычном ракурсе, быть смазанным из-за движения и т.п. В киносъемке применяют также ряд операторских приемов, таких как плавный ввод и вывод экспозиции, наезд или отъезд камеры и т.п.

В таких условиях классификаторы для неподвижных изображений работают с низкой точностью, и для семантической классификации киноматериалов и последующего информационного поиска применяют устройства, основанные на анализе векторов движения, гистограмм цветового фона и насыщенности, инвариантных дескрипторов особых точек изображения и др. методики.

Из уровня техники известна система для поиска по видеоархиву на основе эталонного изображения (WO 2014082288 А1, опубликована 05.06.2014). Система включает средства пользовательского интерфейса для ввода текстового запроса для поиска видеофрагмента, средства для поиска эталонных изображений на основе текстового запроса и отображения множества найденных эталонных изображений пользователю, средства для поиска видеофрагмента на основе одного выбранного пользователем эталонного изображения.

В предложенной системе поиск видеофрагмента основан на вычислении меры близости эталонного изображения и ключевого кадра видеофрагмента в архиве. Меру близости вычисляют с помощью признаков распределения цвета, типов текстур и формы контуров.

Недостатком предложенного подхода является ограничение возможностей поиска лишь одним образцом эталонного изображения, а также зависимость точности поиска от корректности выбора ключевого кадра видеофрагмента. Более полезным был бы поиск кинофрагмента по множеству эталонных фотографий требуемого образа или класса изображений. Например, если в семантическом индексе киноархива не содержится класс "Внедорожник", предпочтительно реализовать устройство для поиска фрагментов, содержащих внедорожные автомобили, на основе классификатора, обученного на множестве фотографий различных внедорожников. При сравнении фрагментов в архиве с эталонными изображениями предпочтительно использовать информацию из более чем одного эталонного изображения для обеспечения большей чувствительности информационного поиска.

Из уровня техники известны способ и система для видео поиска и формирования базы данных оцифрованных видеоматериалов для осуществления поиска на основе образцового видеофрагмента (патенте США №8515933, опубликован 15.09.2011). Способ формирования базы данных оцифрованных видеоматериалов включает шаги записи видеофайлов в базу данных, формирования метаданных для каждого видеофайла. Шаг формирования метаданных включает этап сегментации видеофайла на отдельные сцены и этап семантической индексации каждой сцены.

Сегментацию фильма на отдельные сцены осуществляют на основе обнаружения точек резкого изменения векторного расстояния между гистограммами тона и насыщенности соседних кадров.

Семантическую индексацию сцены осуществляют на основе комбинации направления вектора движения, длительности сцены и тонового угла сцены в цветовом пространстве HSV.

В системе для поиска видеофрагментов по образцу получают образцовый видеофрагмент, извлекают метаданные образцового видеофрагмента, получают кандидатуры результатов поиска по совпадению индексной метки образцового видеофрагмента, выбирают результаты поиска из кандидатур результатов поиска по критерию близости семантических векторов образцового видеофрагмента и видеофрагмента-кандидатуры.

Указанные метаданные включают комбинацию направления вектора движения, длительности сцены и тонового угла сцены в цветовом пространстве HSV. Указанные семантические векторы включают бинаризованные последовательности значений разности векторов движения между соседними кадрами.

Применение метаданных для индексации ускоряет поиск по архиву оцифрованных фильмов за счет того, что архив индексирован по значению полей метаданных (например, по тоновому углу сцены в цветовом пространстве HSV), поэтому для поиска семантически близких сцен не требуется сплошной просмотр всего архива. Однако, подбор признаков для формирования метаданных не позволяет сформировать истинно семантический индекс, т.к. предложенные в указанном патенте признаки содержат лишь общие характеристики кадра, такие как преобладающий тон цвета, преобладающее направление движения и длительность сцены. Перечисленные признаки недостаточны для семантической классификации изображений в кадре.

В качестве семантических векторов предложены бинаризованные последовательности значений разности векторов движения между соседними кадрами. Авторы сделали эмпирическое наблюдение, что указанные последовательности совпадают или близки для одинаковых видеофрагментов, записанных в различных разрешениях (размерах кадра в пикселах). Однако, предложенные семантические векторы не содержат информации, позволяющей классифицировать изображения в сценах. Поэтому возможности предложенной системы семантической индексации и поиска ограничены ситуацией, когда требуется найти фрагменты с цветовой тональностью и длительностью, близкими к заданному образцу, в которых последовательность преобладающего движения в кадре близка к заданному образцу.

Кроме того, вычисление вектора движения является вычислительно затратной процедурой, а признаки на основе гистограмм затруднительно вычислять с помощью параллельных графических ускорителей, что в совокупности ограничивает производительность системы семантической индексации и поиска.

Использование резкого изменения тональности кадров для сегментации фильма на сцены имеет недостатки, связанные с тем, что не учитывают содержательное наполнение кадра, и часто допускают ошибку разделения целостной сцены на несколько фрагментов.

Также из уровня техники известна система для семантической классификации сцен из видеофильмов (заявка США №2009208106, опубликована 20.08.2009), в которой получают видеофайл, извлекают из видеофайла подмножество кадров, исключают из указанного подмножества кадры с недостаточным уровнем яркости, определяют, принадлежит ли каждый кадр из указанного подмножества заданной общей категории, для кадров, принадлежащих к указанной общей категории, вычисляют вектор оценок принадлежности заранее заданным классам, объединяют соседние кадры с близкими векторами оценок принадлежности к заданным классам в единую сцену и индексируют указанную сцену как принадлежащую соответствующим классам. Полученный индекс используют для информационного поиска видеофильмов с требуемым содержимым.

Примером упомянутой общей категории является категория "натурная съемка". Примерами упомянутых заранее заданных классов являются "пляж", "берег", "пустыня", "лес", "луг", "автострада", "озеро", "река", "горы" и т.п.

Для определения принадлежности кадра к заданной общей категории выделяют вектор признаков из кадра и классифицируют вектор признаков с помощью классификатора общих категорий. В качестве признаков используют гистограммы распределения цветов в цветовом пространстве CIELAB, гистограммы ориентации углов, полученные с помощью фильтров Собеля, гистограммы распределения штрихов, полученные с помощью преобразования Хаффа, гистограммы распределения типов текстур, признаки формы и морфологические признаки. Классификатор общей категории реализуют с помощью машины опорных векторов.

Для вычисления вектора оценок принадлежности кадра к заранее заданным классам применяют признаки, описанные выше и ансамбли из машин опорных векторов.

В результате работы описанной системы получают индекс видеоматериалов, включающий записи, соответствующие отдельным сценам фильмов. Каждая запись включает, по меньшей мере, поля "Начало фрагмента", "Конец фрагмента", "Классы принадлежности фрагмента". При этом поля "Начало фрагмента" и "Конец фрагмента" содержат отметки времени в общем хронометраже фильма.

При информационном поиске вводят текстовый запрос, например "Автострада", находят в индексе все фрагменты, включающие в поле "Классы принадлежности фрагмента" требуемый класс "автострада", и представляют полученный перечень фрагментов пользователю.

Предложенное решение, включающее двухстадийную классификацию кадров, а именно сначала на принадлежность к общей категории, затем на принадлежность к заранее заданным классам изображения, предназначено для повышения точности семантической индексации. Благодаря первой классификации получают возможность исключить нерелевантные классификаторы, заведомо непригодные для общей категории изображения (например, для общей категории "интерьерные сцены" заведомо непригодной являются такие классы, как "земля", "трава", "лес"). Однако, такая двухстадийная классификация приводит к дополнительным затратам на обучение классификаторов, включая формирование обучающих выборок эталонных изображений для общей категории и упомянутых заранее заданных классов; вычислительные затраты на двукратное применения машины опорных векторов; потенциально двукратные затраты на извлечение векторов признаков, т.к. наборы признаков для первого и второго классификаторов обычно различаются. Кроме того, повышение точности индексации при двустадийной классификации не доказано теоретически, и при ошибочной классификации общей категории результат классификации на принадлежность заранее заданным классам будет заведомо неверным.

В описанном решении формирование сцены из отдельных кадров производят после вычисления векторов оценок принадлежности заранее заданным классам, т.е. после второй классификации. Недостатком такого подхода является тот факт, что во многих фильмах применяют операторские приемы, характерные для съемки объектов в движении. Тогда в заведомо единой сцене на отдельных кадрах могут классифицировать изображения, принадлежащие разным классам, и расстояния между соответствующими векторами оценок будут велики, поэтому сцена будет фрагментирована на несколько ложных фрагментов. Например, типичная сцена погони хищника за добычей может включать первые кадры, содержащие только животное-добычу, затем кадры, содержащие стремительно движущегося хищника, затем кадры, включающие обоих животных. Способ разбиения фильма на сцены, предложенный в прототипе, может ошибочно разделить сцену на три различных фрагмента, что может привести к ошибочным или неоптимальным результатам информационного поиска.

Также в описанном решении используют большое количество разнообразных признаков для формирования вектора признаков для классификации кадра. Значительная доля предложенных признаков носит характер гистограммы. Расчет гистограммы является алгоритмически последовательной процедурой, плохо реализуемой на современных параллельных графических ускорителях. Следовательно, производительность принципиально ограничена производительностью центрального процессора и не может быть масштабирована для ускорения расчетов. Кроме того, алгоритмы вычисления признаков разнообразны и неуниверсальны, что повышает сложность программного обеспечения и риски ошибочных вычислений. Такие признаки, как типы текстур и формы контуров, сложны в программной реализации, а их эффективность для точной классификации кадра зависит от оптимального выбора базиса, например номенклатуры типов текстур, форм контуров и масштабов сравнения.

Описанная система реализует возможности информационного поиска по архиву видеозаписей на основе текстового запроса, включающего ключевые слова. Однако, предпочтительно предоставить пользователям дополнительную возможность информационного поиска на основе эталонного фрагмента фильма. Например, пользователь мог бы выполнить первый поиск по ключевым словам, получить перечень кинофрагментов, включающих элементы требуемых классов, например выполнить поиск по ключевому слову "Слон". Далее, пользователь мог бы выбрать среди результатов первого поиска кинофрагмент с требуемыми трудноформализуемыми характеристиками, такими как масштаб и количество слонов в кадре, тип фона (лес, небо, водоем), характеристики освещенности (закатное небо или полдень) и т.п. Было бы предпочтительно, чтобы устройство для семантической индексации и поиска позволило выполнить второй поиск по образцу выбранного эталонного фрагмента, т.к. часто дать описание требований сложнее, чем предоставить визуальный образец.

Указанный источник информации выбран в качестве наиболее близкого аналога.

Таким образом, известные в технические решения для создания систем семантической индексации и информационного поиска обладают следующими недостатками. Использование разнообразных гистограмм в качестве признаков изображения ограничивает производительность системы в связи с затруднениями при параллелизации расчетов. Использование большого количества разнообразных признаков, извлекаемых из изображений, затрудняет разработку программного обеспечения. Используемые в качестве признаков гистограммы не несут семантической информации, а лишь позволяют статистически анализировать изображения на основе распределения тона, яркости, ориентации штрихов и т.п. Разделение фильма на сцены на основе вектора классификации приводит к неточной классификации из-за отсутствия усреднения между связанными кадрами, и к ложным срабатываниям, т.е. фрагментации целостных сцен. Разделение фильма на сцены на основе анализа тональности соседних кадров не учитывает содержания кадров и также приводит к ложным срабатываниям и фрагментации сцен. Применение каскадной классификации приводит к повышенным вычислительным затратам при обучении классификаторов и при классификации кадров и не устраняет ошибок классификации. Применение признаков типа текстуры и формы контуров затрудняет процесс обучения классификаторов, т.к. эффективность подобных признаков сильно зависит от оптимального выбора базиса. Применение векторов движения в качестве признаков недостаточно для семантической классификации объектов кадра. Избранная в качестве прототипа система для семантической классификации сцен в видеофильмах не позволяет осуществлять информационный поиск на основе образцового видеофрагмента и на основе эталонных изображений т.к. в индексе сохраняют только признаки принадлежности сцен к заранее заданным классам.

Настоящее изобретение направлено на решение задачи разработки устройства для семантической классификации и поиска в архивах оцифрованных киноматериалов, позволяющего: формировать индекс киноархива, позволяющего осуществлять информационный поиск кинофрагментов по текстовому запросу в формате комбинации ключевых слов, формировать индекс киноархива, позволяющего осуществлять информационный поиск кинофрагментов по структурированному запросу в формате XML, формировать индекс киноархива, позволяющего осуществлять информационный поиск кинофрагментов по образцу кинофрагмента, формировать индекс киноархива, позволяющего осуществлять информационный поиск кинофрагментов по множеству образцов неподвижных изображений, осуществлять информационный поиск кинофрагментов.

Технический результат заявленного изобретения, достигаемый при его использовании, заключается в повышении точности сегментации фильмов на сцены благодаря учету семантики содержания сцены, повышении точности классификации сцен по заранее заданному перечню классов, повышении быстродействия процесса извлечения семантических признаков из кадров кинофильма за счет эффективной реализации параллельных вычислений, сокращении дополнительных затрат на программирование при увеличении размерности вектора признаков за счет извлечения семантических признаков из кадров кинофильма на основе унифицированного алгоритма, сокращении объема данных для хранения индекса для выполнения информационного поиска кинофрагментов по текстовым запросам, запросам в структурированной форме, запросам по образцу за счет сквозного использования унифицированных векторов признаков, сокращении времени выполнения индексации за счет однократного применения операции извлечения признаков и однократного применения классификаторов, повышении точности и чувствительности информационного поиска за счет применения векторов признаков, включающих значимую семантическую информацию.

Указанный технический результат достигается за счет использования устройства для семантической классификации и поиска в архивах оцифрованных киноматериалов, которое включает последовательно соединенные средство получения оцифрованных материалов, средство извлечения выборочных кадров из оцифрованных киноматериалов, средство извлечения векторов признаков, средство сегментации и классификации, средство хранения индекса, средство для выполнения информационного поиска, серверное устройство и клиентское устройство, при этом средство извлечения выборочных кадров из оцифрованных киноматериалов выполнено с возможностью раскодировки и извлечения кадров или изображений через заданные промежутки времени, масштабирования выборочных кадров или изображений в размер, пригодный для классификации, средство извлечения векторов признаков включает по крайней мере один слой свертки, соединенный по крайней мере с одним слоем голосования и по крайней мере с одним слоем финальной классификации, причем средство извлечения векторов признаков выполнено с возможностью получения вектора признаков из слоя голосования и получения вектора классификации из слоя финальной классификации, средство сегментации и классификации выполнено с возможностью сегментации фильма на отдельные сцены посредством сравнения между собой векторов признаков соседних выборочных кадров и с возможностью усреднения векторов классификации для кадров, составляющих одну сцену, средство хранения индекса выполнено с возможностью обмена данными между средством сегментации и классификации и средством для выполнения информационного поиска посредством интерфейса локальной сети и сохранения для каждой сцены фильма по крайней мере времени начала сцены, длительности сцены и по крайней мере одного признака класса, получаемого из усредненного вектора классификации для кадров, составляющих одну сцену, серверное устройство выполнено с возможностью обмена данными со средством для выполнения информационного поиска посредством интерфейса локальной сети и с клиентским устройством посредством глобальной сети Интернет, клиентское устройство выполнено с возможностью передачи текстового запроса серверному устройству посредством глобальной сети Интернет, причем серверное устройство выполнено с возможностью формирования декларативного запроса на основании текстового запроса и передачи декларативного запроса средству для выполнения информационного поиска посредством интерфейса локальной сети, причем серверное устройство и клиентское устройство выполнены с возможностью передачи множества образцовых кинофрагментов или неподвижных изображений средству для выполнения информационного поиска, выполненному с возможностью раскодировки и извлечения кадров или изображений через заданные промежутки времени, масштабирования выборочных кадров или изображений в размер, пригодный для классификации и вычисления векторов признаков для каждого образцового изображения или каждого образцового кинофрагмента для осуществления информационного поиска по архиву оцифрованных киноматериалов на основе введенного образцового кинофрагмента или по крайней мере одного образцового неподвижного изображения.

Также средство хранения индекса выполнено с возможностью сохранения усредненных векторов признаков по крайней мере одной сцены фильма.

При этом средство извлечения векторов признаков взаимодействует с устройством графического параллельного ускорения.

Также средство для выполнения информационного поиска, выполнено с возможностью выполнения сравнения усредненного векторов признаков образцового кинофрагмента, полученного из слоя голосования, с усредненными векторами признаков, сохраненными в устройстве хранения индекса, для поиска по образцовому кинофрагменту.

Причем средство для выполнения информационного поиска выполнено с возможностью извлечения векторов признаков образцового изображения, полученными из слоя голосования, для каждого образцового изображения и выполнения обучения классификатора, и применения обученного классификатора к усредненным векторам признаков, сохраненными в устройстве хранения индекса, для поиска по множеству образцовых изображений.

Средства получения оцифрованных киноматериалов считывают цифровой фильм, выполняют операцию раскодирования и передают последовательность кадров средствам извлечения выборочных кадров. Указанные средства извлекают кадры через заданные промежутки времени, производят масштабирование выборочных кадров в размер, пригодный для классификации, и передают указанные кадры в средства извлечения векторов признаков. Указанные средства производят вычисление вектора признаков из каждого выборочного кадра, причем вектор признаков включает семантическую информацию, пригодную для классификации изображения в кадре. Это достигают за счет использования блока расчета сверточных нейронных сетей, известных в технике благодаря своим свойствам извлечение семантически значимой информации. В блок расчета сверточных нейронных сетей подают входной кадр на первый слой свертки. Выходной сигнал с первого слоя свертки подают на первый слой голосования. Известные в технике решения заключаются в чередовании нескольких слоев свертки и голосования. По крайней мере, с одного слоя голосования выходной сигнал подают на слой финальной регрессии, на выходе которого получают вектор принадлежности кадра заранее известным классам.

В отличие от ближайшего прототипа, вычисление вектора признака производят однократно для каждого кадра, поэтому затраты вычислительной мощности и электроэнергии на извлечение признаков и последующую классификацию минимальны. Средства извлечения векторов признаков также вычисляют вектор принадлежности кадра к заранее заданным классам и передают вектор признаков и вектор принадлежности кадра к заранее заданным классам на средства сегментации и классификации по заранее заданным классам.

Далее, средства сегментации и классификации по заранее заданным классам производят сравнение векторного расстояния между векторами признаков соседних кадров, и в случае превышения порога векторного расстояния производят сегментацию последовательности кадров на отдельные сцены. В отличие от известных аналогов, используемые в данном изобретении векторы признаков содержат семантическую информацию, пригодную для классификации изображения в кадре, полученные сцены содержат семантически близкие кадры, а отдельные сцены значительно различаются по своему визуальному содержимому.

Для кадров, составляющих одну сцену, средства сегментации и классификации по заранее заданным классам производят усреднение векторов принадлежности кадра к заранее заданным классам и передают полученный усредненный вектор принадлежности сцены заранее заданным классам и усредненный вектор признаков кадров, составляющих сцену, средствам хранения индекса. Благодаря усреднению векторов принадлежности, точность классификации сцены повышается по сравнению с достигнутым уровнем техники.

В отличие от ближайшего прототипа, сегментацию фильма производят не после классификации на основе векторов принадлежности отдельных кадров заранее заданным классам, а на основе векторов признаков, т.е. классификацию производят после сегментации и на основе усреднения векторов принадлежности кадров, составляющих сцену, заранее заданным классам.

Средства хранения индекса записывают информацию о сцене, включающую поля времени начала сцены, длительности сцены, усредненного вектора признаков сцены и метки принадлежности сцены по крайней мере одному из заранее заданных классов. В отличие от ближайшего прототипа, производят сохранение усредненного вектора признаков сцены, т.к. это позволяет без дополнительных вычислительных и энергетических затрат производить информационный поиск на основе запросов по образцовому кинофрагменту или по образцовым изображениям.

Для осуществления информационного поиска по архиву оцифрованных киноматериалов пользователь вводит поисковый запрос в текстовой или структурированной форме с помощью средств, для организации пользовательского интерфейса информационного поиска к которым относится серверное устройство и клиентское устройство. Указанные средства передают поисковый запрос средствам для выполнения информационного поиска. Средства для выполнения информационного поиска преобразуют поисковый запрос в декларативный формат запроса к средствам хранения индекса таким образом, чтобы выполнить поиск по меткам принадлежности сцены к заранее заданным классам. Средства для выполнения информационного поиска, обращаясь к средствам хранения индекса, выполняют поиск и формируют перечень найденных кинофрагментов. Указанный перечень передают средствам для организации пользовательского интерфейса информационного поиска для представления результатов поиска пользователю. Способы быстрого выполнения информационного поиска по декларативным запросам на основе заранее известных классов известны в технике, поэтому описываемое устройство реализует поиск по текстовому или структурированному запросу крайне быстро.

Для осуществления информационного поиска по архиву оцифрованных киноматериалов на основе образцового кинофрагмента пользователь выбирает образец из оцифрованного киноархива с помощью средств для организации пользовательского интерфейса информационного поиска. Указанные средства передают идентификационную информацию выбранного образцового кинофрагмента средствам для выполнения информационного поиска. Средства для выполнения информационного поиска получают усредненный вектор признаков первой сцены от средств хранения индекса, используя идентификационную информацию выбранного образцового кинофрагмента. Далее, средства для выполнения информационного поиска получают от средств хранения индекса по крайней мере один усредненный вектор признаков второй сцены, сравнивают с усредненным вектором признаков первой сцены и в случае близости векторов добавляют вторую сцену в перечень найденных кинофрагментов. Указанный перечень передают средствам для организации пользовательского интерфейса информационного поиска для представления результатов поиска пользователю.

В отличие от аналогов, для выполнения поиска семантически близких фрагментов не требуется повторное извлечение признаков, что приводит к экономии вычислительных и энергетических затрат, а также к ускорению поиска. Дополнительным преимуществом является высокая точность и чувствительность информационного поиска благодаря тому, что усредненный вектор признаков содержит семантически значимую информацию о визуальном содержимом кадра, в отличие от нынешнего уровня техники, в котором векторы признаков содержат информацию о распределении тона, яркости, направления штрихов и т.п.

Для осуществления информационного поиска по архиву оцифрованных киноматериалов на основе образцовых неподвижных изображений пользователь вводит по крайней мере одно образцовое неподвижное изображение с помощью средств для организации пользовательского интерфейса информационного поиска. Указанные средства передают множество образцовых неподвижных изображений средствам для выполнения информационного поиска. Средства для выполнения информационного поиска вычисляют векторы признаков для каждого образцового изображения и формируют первый набор векторов признаков. Далее, средства для выполнения информационного поиска формируют второй набор векторов признаков из усредненных векторов признаков по крайней мере одной сцены, сохраненной в устройстве хранения индекса. Затем средства для выполнения информационного поиска конфигурируют временный классификатор на основе первого и второго набора векторов признаков. Далее, средства для выполнения информационного поиска получают от средств хранения индекса усредненный вектор признаков по крайней мере одной сцены и применяют к нему указанный временный классификатор. В случае позитивного отклика классификатора добавляют сцену в перечень найденных кинофрагментов. Указанный перечень передают средствам для организации пользовательского интерфейса информационного поиска для представления результатов поиска пользователю.

В отличие от аналогов, использование множества эталонов неподвижных изображений и векторов признаков, включающих семантически значимую информацию, приводит к повышению точности и чувствительности информационного поиска.

За счет того, что в описываемом устройстве для семантической классификации и поиска сквозным образом используют однократно рассчитанные векторы признаков, включающие семантически значимую информацию, устройство имеет явные преимущества в быстродействии и энергоэффективности перед достигнутым уровнем техники. Указанные векторы признаков единообразно вычисляют с помощью унифицированных средств извлечения векторов признаков. Преимущество такого подхода в том, что при необходимости увеличения размерности векторов признаков для придания им еще большей способности семантической классификации не требуется дополнительная разработка и тестирование программного обеспечения, не требуется ручная настройка параметров или исследование в области новых методов извлечения признаков. Предложенные в данном изобретении средства извлечения векторов признаков в полной мере способны использовать преимущества параллельных вычислений для повышения производительности описываемого устройства. Применение унифицированных векторов признаков позволяет в одном устройстве объединить функции поиска по текстовому запросу, по образцовому кинофрагменту и по образцам изображений, в то время, как аналоги и ближайший прототип предлагают отдельные различающиеся устройства для реализации каждого из перечисленных способов информационного поиска.

Конструктивно, средства получения оцифрованных киноматериалов включают по крайней мере процессор и устройство долговременной памяти, например жесткий диск HDD или твердотельный диск SSD, а также устройство оперативной памяти, в котором располагают программу, управляющую процессом получения оцифрованных киноматериалов. Предпочтительно, чтобы средства получения оцифрованных киноматериалов включали по крайней мере одно устройство чтения сменных носителей, например DVD или Flash-диск.

Средства извлечения выборочных кадров из оцифрованных киноматериалов включают по крайней мере процессор и устройство оперативной памяти, в котором располагают программу извлечения выборочных кадров, а также располагают временные буферы хранения выборочных кадров. Средства извлечения выборочных кадров связаны со средствами получения оцифрованных киноматериалов с помощью локального сетевого интерфейса, например Ethernet или с помощью шины обмены данными внутри системного блока, например PCI.

Средства извлечения векторов признаков включают по крайней мере процессор и устройство оперативной памяти, в котором размещают программу управления процессом извлечения векторов признаков и временные буферы хранения выбранных кадров и векторов признаков. Предпочтительно включать в состав средств извлечения векторов признаков устройство для ускорения параллельных расчетов, например гра