Способ идентификации кадров потока мультимедийных данных на основе корреляционного анализа гистограмм изображений кадров
Иллюстрации
Показать всеИзобретение относится к области вычислительной техники, а именно к системам анализа изображений, и предназначено для использования в сфере обработки данных изображений. Техническим результатом является повышение вероятности достоверного обнаружения кадров-вставок в потоке мультимедийных данных при анализе последовательности кадров с динамично изменяющимися изображениями и интенсивной сменой яркости. В способе для каждого изображения вычисляют гистограммы по основным компонентам цвета пикселя, для каждого окна по каждой основной компоненте цвета пикселя определяют статистические характеристики интенсивности цвета изображения кадра и девять коэффициентов корреляций, определяют средние значения коэффициентов корреляции групп изображений кадров, по заданному критерию сравнения коэффициентов корреляции принимают решение о принадлежности видеокадра потока мультимедийных данных к одному из классов: кадры видеоизображения или кадры-вставки, формируют новое окно для идентификации вновь поступающих кадров в потоке мультимедийных данных. 5 ил.
Реферат
Изобретение относится к области вычислительной техники, а именно к системам анализа изображений, и предназначено для использования в сфере обработки данных изображений.
Способ идентификации кадров потока мультимедийных данных на основе корреляционного анализа гистограмм изображений кадров необходим для предотвращения негативного воздействия на уровень бессознательного восприятия человека с помощью подпороговых стимулов. Указанное воздействие зачастую применяется скрытно в виде дополнительных кадров, вставленных в поток мультимедийных данных.
Толкование терминов, используемых в заявке.
Вероятность пропуска кадра-вставки - вероятность возникновения ошибки, при принятии решения, о том, что кадр-вставка не определен в случае, когда он есть (Ерош И.Л., Сергеев М.Б., Соловьев Н.В. Обработка и распознавание изображений в системах превентивной безопасности: учебное пособие. - СПб.: ГУАП, 2005. - 154 с.).
Вероятность ложного обнаружения кадра-вставки - вероятность возникновения ошибки, при принятии решения, о том, что кадр-вставка идентифицирован в случае, когда он отсутствует (Ерош И.Л., Сергеев М.Б., Соловьев Н.В. Обработка и распознавание изображений в системах превентивной безопасности: учебное пособие. - СПб.: ГУАП, 2005. - 154 с.)
Гистограмма кадра - это функция, характеризующая частоту встречаемости на изображении пикселей одинаковой яркости (Красильников Н.Н. Цифровая обработка изображений. - М.: Вузовская книга, 2001. - 320 с.).
Кадр-вставка - кадр, добавленный в любое место видеопотока и отличающийся от кадров текущей сюжетной линии (сцены) визуально и статистически (Грузман И.С. и др. Цифровая обработка изображений в информационных системах. - НГТУ. Новосибирск, 2000. - 156 с.).
Корреляционный анализ - группа статистических методов, направленная на выявление и математическое представление структурных зависимостей между выборками (Гмурман В.Е. Теория вероятностей и математическая статистика: Учебное пособие для вузов. - 10-е издание, стереотипное. -Москва: Высшая школа, 2004. - 479 с.).
Коэффициент корреляции - математическая мера (отношение) корреляции двух случайных величин (Гмурман В.Е. Теория вероятностей и математическая статистика: Учебное пособие для вузов. - 10-е издание, стереотипное. - Москва: Высшая школа, 2004. - 479 с.).
Класс кадра потока мультимедийных данных - категория, характеризующая соответствие (или несоответствие) качества кадра определенным требованиям, под определением класса кадра будем понимать выяснение факта, обладает ли он набором требуемых свойств, обеспечивающих пригодность его к применению по назначению, и правильность выполнения им своих функций (Потапов А.А., Пахомов А.А., Никитин С.А., Гуляев Ю.В., Новейшие методы обработки изображений. - М.: Физматлит, 2008. - 496 с.).
Мультимедийные данные - это множество информационных сред: звук, анимированная компьютерная графика, видеоряд, каждая из которых имеет свою специфическую форму, соответствующую ее уровню, и различные способы интерактивного взаимодействия (Гонсалес Р. Мир цифровой обработки. Цифровая обработка изображений [Текст] / Р. Гонсалес, Р. Вудс; перевод с англ. Под. ред. П.А. Чочиа. - М.: Техносфера, 2006. - 1072 с.).
Пиксель - наименьший логический элемент двумерного цифрового изображения в растровой графике, или физический элемент матрицы дисплеев, формирующих изображение (ГОСТ 27459-87 Системы обработки информации. Машинная графика. Термины и определения - 46 с.).
Цветовая модель RGB - аддитивная цветовая модель, как правило, описывающая способ синтеза цвета для цветовоспроизведения (Синтез цвета // Фотокинотехника: Энциклопедия / Главный редактор Е.А. Иофис. - М.: Советская энциклопедия, 1981. - 274 с.).
Яркость изображения представляет собой характеристику, определяющую то, насколько сильно цвета пикселей отличаются от черного цвета (Домасев М.В. Цвет, управление цветом, цветовые расчеты и измерения. Санкт-Петербург: Питер, 2009. - 218 с.).
Известно устройство для обработки изображений и способ определения линейного сдвига изображения (патент RU 2138851 С1, опубл. 05.08.1993 г. Авторы: Кристоф Айзенбарт (DE), Ира Финкельштайн (US), Дэннис Мак Ги (US), Эдвард Панофский (US)), которые позволяют обнаруживать несовпадение фактического изображения относительно опорного и обеспечивать их максимальное совпадение. Этот технический результат достигается благодаря тому, что воспринимают два участка фактического изображения, запоминают два аналогичных участка опорного изображения, сравнивают соответствующие участки фактического и опорного изображений и определяют наличие сдвига, причем повторяют сравнение для тех же участков после сдвига фактического изображения на заранее заданное число пикселей по осям X и Y, при этом вычисляют абсолютные значения разностей между соответствующими участками фактического и опорного изображений для каждого сдвига и сохраняют в памяти, как полученные абсолютные значения, так и их сумму.
Недостатком данного аналога является то, что при идентификации видеовставки в процессе сравнения невозможно выделить опорное изображение, участки кадра для сравнения и пороговое значение линейного сдвига, так как оно будет динамически изменяться в результате смены сюжетов в видеопотоке.
Известен также способ идентификации подлинных серий изображений и устройство для его осуществления (патент RU 2216044 С2, опубл. 10.11.2003. Автор Шульце Клаус (DE)), которые позволяют получить технический результат в виде повышения эффективности процедур учета и хронометрирования рекламных сообщений, видеоклипов, политических выступлений.
Этот результат достигается за счет того, что для отдельных изображений из серий изображений определяют признаки яркости, преобразуют их в цифровую форму и сравнивают с эталоном, при этом признаки яркости декоррелируют квазистохастическим отбором по множеству изображений.
Недостатком данного аналога является низкая эффективность определения кадров-вставок в видеопотоке, обусловленная тем, что по одному изображению, определяющему эталонные признаки яркости, невозможно получить полную статистическую информацию, характеризующую яркостные свойства каждой из наблюдаемых динамически меняющихся сцен видеопотока, в силу их значительных отличий по цвету и яркости.
Наиболее близким по технической сущности и выполняемым функциям аналогом (прототипом) к заявленному является способ идентификации кадров-вставок в потоке мультимедийных данных (патент RU №2506640, МПК G06T 7/00, опубл. 10.02.2014 г. Бюл. №4. Авторы: Скурнович А.В., Орешин А.Н., Кирюхин Д.А.), заключающийся в определении признаков яркости и сравнении их значений с пороговым, отличающийся тем, что дополнительно вычисляют суммарную дифференциальную яркость каждого кадра-разности и пороговое значение яркости трех предыдущих кадров-разностей, сравнивают яркостные характеристики кадра-разности с вычисляемым по ходу смены кадров видеопотока пороговым значением суммарной дифференциальной яркости предыдущих трех кадров-разностей.
При такой совокупности описанных действий достигается уменьшение количества ошибочных распознаваний, как кадров-вставок, так и кадров отдельных сюжетных линий (сцен) видеопотока.
Недостатком способа-прототипа является низкая вероятность достоверного обнаружения кадров-вставок в потоке мультимедийных данных при анализе последовательности кадров с динамично изменяющимися изображениями и интенсивной сменой яркости.
Задачей изобретения является создание способа идентификации кадров потока мультимедийных данных на основе корреляционного анализа гистограмм изображений кадров, позволяющего повысить вероятность достоверного обнаружения кадров-вставок в потоке мультимедийных данных при анализе последовательности кадров с динамично изменяющимися изображениями и интенсивной сменой яркости.
Задача изобретения решается тем, что способ идентификации кадров потока мультимедийных данных на основе корреляционного анализа гистограмм изображений кадров, заключающийся в том, что на основе изображений кадров потока мультимедийных данных формируют последовательность изображений наблюдаемых окон, в которых будет производиться поиск одного, двух или трех кадров-вставок, для каждого изображения определяют множества интенсивностей основных компонентов цвета пикселей, отличающийся тем, что для каждого изображения вычисляют гистограммы по основным компонентам цвета пикселя, для каждого окна по каждой основной компоненте цвета пикселя определяют статистические характеристики интенсивности цвета изображения кадра и девять коэффициентов корреляций, определяют средние значения коэффициентов корреляции групп изображений кадров, по заданному критерию сравнения коэффициентов корреляции принимают решение о принадлежности видеокадра потока мультимедийных данных к одному из классов: кадры видеоизображения или кадры-вставки, формируют новое окно для идентификации вновь поступающих кадров в потоке мультимедийных данных.
Перечисленная новая совокупность существенных признаков обеспечивает возможность повышения вероятности достоверного обнаружения кадров-вставок в потоке мультимедийных данных при анализе последовательности кадров с динамично изменяющимися изображениями и интенсивной сменой яркости.
Проведенный анализ позволил установить, что аналоги, тождественные признакам заявленного способа, отсутствуют, что указывает на соответствие заявленного способа условию патентоспособности «новизна».
Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».
Заявленный способ поясняется чертежами, на которых показаны:
фиг. 1 - общая схема операций, реализующих в совокупности способ идентификации кадров потока мультимедийных данных;
фиг. 2 - цветовое пространство пикселя;
фиг. 3 - гистограммы изображения по основным компонентам цвета;
фиг. 4 - алгоритм, поясняющий процесс идентификации кадров потока мультимедийных данных на основе корреляционного анализа гистограмм изображений кадров;
фиг. 5 - принцип работы методики идентификации кадров потока мультимедийных данных на основе корреляционного анализа гистограмм изображений кадров (на примере анализа Red - гистограмм).
Общая схема последовательности операций заявленного способа, представленная на фиг. 1, работает следующим образом.
С блока преобразования потока мультимедийных данных в кадры RGB 1 на блок присвоения номеров кадрам потока мультимедийных данных, сюжетам и формирования наблюдаемого окна 2, подается упорядоченная последовательность видеокадров:
Цифровой кадр в потоке мультимедийных данных представляет функцию распределения яркости или цвета на двумерной плоскости: ƒ(i,j), где i и j - декартовы координаты, описывающие плоскость кадра. С математической точки зрения каждый кадр можно представить в виде множества пикселей на прямоугольном носителе, которое математически будем описывать двумерной матрицей , , , где k - номер наблюдаемого кадра, i и j - соответственно номера столбца и строки матрицы, на пересечениях которых расположен пиксель. Пиксель имеет целочисленное значение, пропорциональное значению функции распределения яркости ƒ(i,j) в данной точке плоскости.
Поскольку пиксель характеризуется определенным цветом , то растровым изображением кадра является множество цветных точек на носителе видеоинформации: , , .
При описании цвета пикселя будем использовать аддитивную цветовую модель RGB (аббревиатура английских слов Red, Green, Blue - красный, зеленый, синий), основанную на декартовой системе координат с осями величин r, g и b, значения которых определяют интенсивности соответственно красного, зеленого и синего цветов.
Учитывая, что в данной модели цвет пикселя k-го кадра характеризуется интенсивностями трех цветовых составляющих , , , то величину в дальнейшем математически будем описывать упорядоченным множеством .
Таким образом, в модели RGB цветовое пространство пикселя (цветовая палитра пикселя) можно представить в виде куба, показанного на фиг. 2.
Точки, соответствующие красному, зеленому и синему цветам, расположены в трех вершинах куба, лежащих на координатных осях r, g, b. Различные цвета в этой модели представляют собой точки на поверхности или внутри куба и определяются вектором, проведенным в данную точку из начала координат, или упорядоченным множеством (кортежем) .
С учетом введенных обозначений цвета пикселя и определения кадра κ изображение Ik k-го кадра представим в форме матрицы размером I×J, где I и J - соответственно число столбцов и строк матрицы:
В блоке 2 на основе изображений кадров потока мультимедийных данных осуществляется формирование последовательности изображений окон , в которых будет производиться поиск кадров-вставок.
Формально цифровую обработку изображения на данном этапе представим отображением
Каждое o-тое окно включает восемь изображений подряд поступающих кадров:
где ko - текущий номер изображения кадра в o-том окне;
o=k+3 - текущий номер окна;
k - текущий номер кадра в потоке мультимедийных данных.
Далее для каждого ko-тото изображения определяются множества интенсивностей основных компонентов цвета пикселей:
Формально цифровую обработку изображения на данном этапе представим отображением
Сформированная последовательность изображений окон с определенным множеством интенсивностей основных компонентов цвета пикселей экспортируется в блок инициализации 3, который задает исходные начальные параметры для осуществления дальнейших расчетов.
В блоке вычисления гистограмм изображений кадров RGB 4, для каждого ko-того изображения находятся гистограммы по основным компонентам цвета пикселя (красный, синий, зеленый): ; и . При этом, поскольку в цветовой модели RGB основные составляющие , , цвета пикселя являются случайными величинами, то для сравнительного анализа изображений кадров наблюдаемого окна в данном подходе используется закон распределения pk(ξ) этих величин, который устанавливает связь между возможными значениями интенсивностей цветов пикселя k-ого кадра и соответствующими им статистическими вероятностями .
Этот закон распределения задается в виде гистограммы, в которой по горизонтальной оси указывается интенсивность пикселей k-того кадра, а по вертикали - относительное число пикселей pk(r)(pk(g), pk(b)) с конкретным значением интенсивности (фиг. 3).
Поскольку в RGB изображении каждая из компонент цвета пикселя (красная, зеленая и синяя) является 8-битовой, то суммарное число всевозможных интенсивностей составляет 28=256 (то есть , ; , ; , ), а суммарное число всевозможных цветов пикселя - .
Относительное число pk(r)(pk(g), pk(b)) пикселей с конкретным значением интенсивности определяется по выражению p=n/I×J, где n - число пикселей с конкретным значением интенсивности, I и J - соответственно число столбцов и строк матрицы изображения, I×J - общее число пикселей в изображении.
Формально цифровую обработку изображения на данном этапе представим отображением:
В блоке вычисления коэффициентов корреляций гистограмм изображений кадров RGB 5 выполняется корреляционный анализ гистограмм изображений кадров, основанный на анализе свойств и цифровой обработки изображений кадров потока мультимедийных данных, образующих последовательность окон, состоящих из восьми кадров:
Далее по графикам статистического распределения интенсивностей ξ, в цифровом изображении кадра для каждого o-того окна определяются статистические характеристики интенсивности изображения кадра (яркость изображения по основным компонентам цвета): математическое ожидание, дисперсия, среднеквадратичное отклонение:
С учетом полученных гистограмм и рассчитанных статистических характеристик для каждого o-того окна по каждой основной компоненте цвета пикселя определяются девять коэффициентов корреляций:
В блоке вычисления средних значений коэффициентов корреляции групп изображений кадров RGB 6, для каждого o-того окна по каждой основной компоненте ξ∈(r,g,b) цвета пикселя определяются средние значения коэффициентов корреляции групп , , изображений кадров:
В блоке сравнения 7 принимается решение о классе кадров по следующим критериям:
При невыполнении условия (12) принимается решение, что первые четыре кадра анализируемого окна принадлежат к классу Ψ1, то есть , , , .
При выполнении этого условия делается предположение о возможности нахождения в потоке мультимедийных данных кадров-вставок. В блоке выделения кадров потока мультимедийных данных 8 проверяется условие , где:
При невыполнении данного условия делается предположение o принадлежности кадров , к классу вставок Ψ2, а при выполнении - предполагается, что кадры и , , могут принадлежать к классу вставок Ψ2.
Далее по выполнению условия
принимаются окончательные решения о классе кадров , и о необходимости формирования для анализа нового окна.
При невыполнении условия происходит формирование нового окна, то есть величине о присваивается значение o=o+1.
После этого проверяются условия , где:
и
При выполнении первого условия принимается решение о принадлежности кадров , , к классу вставок Ψ2, а при невыполнении - предполагается, что кадр может принадлежать к классу вставок Ψ2.
Окончательное решение о принадлежности кадра к тому или иному классу принимается по критерию (17).
По окончании принятия решения формируется новое окно для идентификации вновь поступающих кадров в потоке мультимедийных данных.
Выделенные кадры из потока мультимедийных данных хранятся в блоке 9.
Алгоритм, поясняющий процесс идентификации кадров потока мультимедийных данных на основе корреляционного анализа гистограмм изображений кадров, представлен на фиг. 4.
Принцип работы методики идентификации кадров потока мультимедийных данных на основе корреляционного анализа гистограмм изображений кадров представлен на фиг. 5 (Визильтер, Ю. Обработка и анализ цифровых изображений с примерами на Lab VIEW и IMAQ Vision [Текст] / Ю. Визильтер, С. Желтов, В. Князь, А. Ходарев, А. Моржин. - М.: ДМК. Пресс, 2008. - 464 с.).
Оценка достижимости заявленного в способе технического результата проводилась путем сравнения достоверности идентификации кадров-вставок в потоке мультимедийных данных в условиях интенсивной смены яркости и динамично изменяющейся последовательности изображений кадров для способа-прототипа и для предлагаемого способа.
Экспериментальная проверка способа идентификации кадров потока мультимедийных данных была выполнена на ЭВМ в среде графического программирования LabVIEW при следующих исходных данных:
1) 100 видеороликов без кадров-вставок длительностью от 1 до 5 минут с различным количеством сюжетных линий;
2) 100 видеороликов с размещенными через каждые 100 кадров кадрами-вставками (количество подряд идущих кадров-вставок от 1 до 3);
3) кадры видеороликов и кадры-вставки не искажены и имеют нормальное качество.
Результаты экспериментов показали, что в условиях интенсивной смены яркости и динамично изменяющейся последовательности изображений кадров вероятность ложного обнаружения кадра-вставки у способа-прототипа составляет 32%, а у заявленного способа - 18%.
Таким образом, эффективность заявленного способа по сравнению со способом - прототипом составляет 14%, чем и достигается повышение вероятности достоверного обнаружения кадров-вставок в потоке мультимедийных данных при анализе последовательности кадров с динамично изменяющимися изображениями и интенсивной сменой яркости.
Промышленная применимость изобретения обусловлена тем, что устройство, реализующее предложенный способ, может быть осуществлено с помощью современной элементной базы, в качестве которой используются современные высокопроизводительные программируемые логические интегральные схемы (ПЛИС) типа Xilinx Spartan-6 LX45 FPGA или Xilinx Virtex-7 2000T архитектуры FPGA, обеспечивающие быстродействующую обработку потока изображений (Угрюмов Е.П., Программируемые логические матрицы, программируемая матричная логика, базовые матричные кристаллы / Цифровая схемотехника. Учебное пособие для вузов. Изд. 2, БХВ-Петербург, 2004. Глава 7 - 357 с.).
Способ идентификации кадров потока мультимедийных данных на основе корреляционного анализа гистограмм изображений кадров, заключающийся в том, что на основе изображений кадров потока мультимедийных данных формируют последовательность изображений наблюдаемых окон, в которых будет производиться поиск одного, двух или трех кадров-вставок, для каждого изображения определяют множества интенсивностей основных компонентов цвета пикселей, отличающийся тем, что для каждого изображения вычисляют гистограммы по основным компонентам цвета пикселя, для каждого окна по каждой основной компоненте цвета пикселя определяют статистические характеристики интенсивности цвета изображения кадра и девять коэффициентов корреляций, определяют средние значения коэффициентов корреляции групп изображений кадров, по заданному критерию сравнения коэффициентов корреляции принимают решение о принадлежности видеокадра потока мультимедийных данных к одному из классов: кадры видеоизображения или кадры-вставки, формируют новое окно для идентификации вновь поступающих кадров в потоке мультимедийных данных.