Способ автоматического кадрирования фотографий

Иллюстрации

Показать все

Изобретение относится к области цифровой фотографии. Техническим результатом является собственно создание усовершенствованного способа интеллектуального кадрирования и обрезки цифровых изображений для использования в автоматических устройствах обработки и печати. Предложен способ автоматического кадрирования фотографий, причем в случае альбомной ориентации изображения осуществляют анализ однородности горизонтальных строк изображения, а в случае портретной ориентации осуществляют анализ однородности вертикальных строк изображения, при этом анализ осуществляют на основе кластеризации фрагментов строк с использованием их текстурных признаков; по результату анализа определяют число g(i) различных кластеров, в которые попали прямоугольные фрагменты, покрывающие данную строку, при этом число g(i) используют для оценки однородности строки изображения, и по результатам оценок для изображения определяют предварительное положение рамки обрезки фотографий, далее осуществляют обнаружение лиц на изображении и производят корректировку положения рамки посредством нахождения максимальной у-координаты уt и минимальной у-координаты уb прямоугольников, описанных вокруг обнаруженных лиц и последующим выравниванием рамки обрезки с центром вертикального отрезка с концами в точках уt и уb. 5 з.п. ф-лы, 14 ил.

Реферат

Заявляемое изобретение относится к области цифровой фотографии и может найти применение в проектировании автоматических устройств для печати качественных цифровых фотографий.

В настоящее время широко применяются два основных подхода к решению задачи обрезки фотографии, не связанных с анализом ее содержания. Первый подход заключается в обрезке верхнего и нижнего краев фотографии в отношении 50% на 50%, или 20% на 80%, соответственно. Это означает, что если высота фотографии должна быть уменьшена на 1 см, то сверху и снизу будут отрезаны горизонтальные полосы высотой, соответственно, 5 и 5 мм, или 2 и 8 мм. Во многих случаях этот подход не приводит к обрезке важных объектов на фотографии, расположенных в центре снимка. Однако в тех нередких случаях, когда объект съемки, например человек, находится близко к краю фотографии, этот подход может приводить к обрезке частей лица, головы или других частей человека.

Другой известный подход заключается в том, чтобы не обрезать фотографию, а распечатать ее на листе, сделав отступы слева и справа. Недостатком здесь является то, что площадь листа фотобумаги используется не полностью.

Менее известны, так называемые, методы интеллектуальной обрезки или кадрирования изображения, в частности фотографии. Эти методы предназначены для изменения соотношения геометрических размеров сторон изображения, т.е. отношения его ширины к высоте, путем обрезки нижней и/или верхней, а также левой и/или правой части изображения. Термин «интеллектуальная» означает, что обрезка фотографии производится на основе анализа ее содержания с целью исключить обрезку важных объектов, запечатленных на фотографии.

Потребность в изменении соотношения сторон фотографии возникает, например, у пользователей цифровых фотокамер, желающих распечатать свои цифровые снимки: обычная цифровая фотография имеет соотношение сторон 4:3, тогда как стандартные листы фотобумаги в автоматических лабораториях печати имеют соотношение сторон 3:2.

Основная проблема в задаче автоматической обрезки заключается в определении и сегментации главного объекта или объектов на изображении. Теоретические методы определения главного объекта можно разделить на две категории. Методы, основанные на обработке пикселов, выделяют отдельные пикселы или небольшие группы пикселов, которые, как правило, соответствуют частям объектов, запечатленных на фотографии. К числу таких методов относятся, например, методы выделения краев. Методы, основанные на обработке областей, выделяют области, соответствующие целым семантически значимым объектам на изображении.

К настоящему времени теория автоматической обрезки исследована лишь поверхностно. Авторам не известны пакеты программ обработки изображений, в которых функция кадрирования фотографии явно основывалась бы на выделении главных объектов съемки.

Частичное использование интеллектуального способа кадрирования и обрезки цифровых изображений встречается в некоторых новейших публикациях. Например, программа XV (см. www.trilon.com/xv [1]) имеет функцию автоматического обрезания изображений, работающую следующим образом.

- Выделяют граничные строки и столбцы изображения, в частности, верхнюю и нижнюю строки, крайние столбцы слева и справа.

- Определяют вариации яркости в выделенных строках и столбцах. В полутоновых изображениях обрезают полностью однородные строки и столбцы. В цветных изображениях обрезают строки и столбцы с низкими значениями пространственной и спектральной корреляции.

- Две предыдущие операции повторяют необходимое число раз.

Таким образом, программа удаляет относительно однородные области по краям изображения. Она не определяет содержание изображения в целом. На практике эффективно удаляются темные края отсканированных изображений, возникающие из-за неточного выравнивания оригинала перед сканированием. Часто получаются неудовлетворительные результаты из-за недостаточного анализа содержания сцены.

В заявке на патент США №5978519 [2] рассматривается способ обрезки изображений, основанный на различии уровней интенсивности. Типичное изображение содержит как области однородной интенсивности и цвета, так и области, где интенсивность и цвет значительно меняются. Например, портрет обычно содержит резкие яркостные переходы от главного объекта к фону. В описываемом способе размер изображения уменьшается, и изображение делят на не перекрывающиеся блоки. Для каждого блока вычисляют среднее и дисперсию интенсивности. На основе распределения дисперсии в блоках выбирают порог и все блоки с дисперсией выше пороговой отмечают как области интереса. Области интереса затем вырезают ограничивающим прямоугольником.

Необходимо отметить, что этот способ эффективен только в случае, когда исходные изображения содержат как области, где уровни интенсивности постоянны, так и области, где уровни интенсивности значительно изменяются. Ожидается, что эффективность метода будет сравнима с [1]. Различие между [1] и [2] заключается в том, что [1] анализирует однородность изображения построчно, в то время как [2] анализирует изображение поблочно. Оба метода, однако, плохо работают с изображениями, имеющими неоднородный фон.

Функция интеллектуального обрезания пакета Microsoft Digital Image Suite 2006 [3] обладает возможностью определения лиц на портретах или семейных фотографиях. Программа предлагает некоторый вариант обрезки, после чего пользователь может выбрать нужное соотношение сторон из списка стандартных форматов печати. Кроме того, пользователь может задать размеры изображения в пикселах.

В работе V.D.Gesu et al. in "Local operators to detect regions of interest,"Pattem Recognition Letters, vol.18, pp.1077-1081, 1997 [4] для измерения локальных центральных моментов и локальной радиальной симметрии используют дискретное преобразование момента (ДПМ) и дискретное преобразования симметрии (ДПС). Для исключения случаев тривиальной симметрии необходим выбор неоднородной области. Оператор ДПМ действует как детектор резких границ, а оператор ДПС - как детектор симметричных областей. Результаты действия двух операторов объединяются посредством логической операции "И". Используются морфологические операции для дилатации карты контуров, генерируемой оператором ДПМ.

В работе R. Milanese in "Detecting salient regions in an image: From biology to implementation", PhD thesis. University of Geneva, Switzerland, 1993 [5] разработана численная модель зрительного внимания, которая объединяет знание о зрительной системе человека с методами компьютерного зрения. Модель состоит из трех основных уровней. Вначале на основе исходного изображения создаются многомерные карты признаков (ориентация, кривизна, цветовой контраст и т.д.). Затем с использованием производной модели Гаусса, выделяющей области интереса на каждой карте признаков, строятся карты «видимости». Наконец, построенные карты объединяются при помощи метода нелинейной релаксации.

В работе Q. Huang et al. in "Foreground/background segmentation of color images by integration of multiple cues," in Proc. IEEE Int. Conf. Image Process., 1995 [6] рассмотрена автоматическая сегментация цветных изображений по переднему и заднему планам с использованием многоуровневой схемы сегментации, включающей цветовую кластеризацию, автоматическую сегментацию, основанную на принципе минимальной длины описания (МДО), выделении переднего/заднего планов посредством анализа границ и объединенной сегментации на основе границ и областей. Алгоритм сегментации на основе МДО используется для дальнейшего группирования областей после начальной цветовой кластеризации.

В работе Т.F.Syeda-Mahmood in "Data and model-driven selection using color regions," Int. J. Comput. Vision, vol.21, no.1, pp.9-36, 1997 [7] предложен метод выбора областей с использованием цветовой сегментации и измерения важности области. Набор из 220 основных цветовых категорий преобразуется в форму таблицы преобразования цветов. Пиксели, относящиеся к одной из цветовых категорий, группируются посредством анализа связных компонент и далее объединяются в соответствующие цветовые категории. Для определения суммарной важности области используются два типа мер важности - абсолютная и относительная, - которые объединяются с использованием эвристически выбранных весов. Абсолютная важность области включает цветовую насыщенность, яркость и размер, в то время как относительная важность включает цветовой контраст и соотношение размеров между рассматриваемой областью и ее окружением.

В целом, почти все существующие методы обрезки разработаны для определенных типов изображений: фотографий людей на относительно простом фоне; музейных фотографий, на которых выделяющийся объект съемки находится в центре изображения с однородным фоном; изображений модельных сцен с несколькими главными предметами различной окраски и формы. Некоторые из этих методов изначально не предназначены для обработки произвольных изображений, эффективность же других методов, разработанных с использованием слишком общих принципов, показана лишь на простых изображениях.

Патент США №6282317 [8] описывает метод обнаружения главного объекта на изображении. Метод включает в себя получение цифрового изображения; извлечение областей произвольной формы и размера, соответствующих присутствующим на изображении объектам; группирование областей в более крупные области, соответствующие физически связанным объектам; извлечение для каждой области как минимум одной структурно-выделяемой особенности и как минимум одной семантически выделяемой особенности; оценку для каждой выделенной области вероятности того, что эта область соответствует главному объекту.

Патент США №665450 [9] описывает метод кадрирования цифровых изображений, который включает ввод доверительной карты изображения, значение в каждой точке которой описывает важность информации в соответствующей точке изображения; выбор масштабирующего коэффициента и окна обрезки; кластеризацию областей доверительной карты для определения областей фона, вторичных областей и областей главного объекта; позиционирование окна обрезки в области главного объекта так, чтобы сумма значений доверия внутри окна была максимальной; и обрезку изображения по границам окна обрезки.

Выложенная заявка на патент США №2002/0191861 [10] описывает автоматическое и полуавтоматическое кадрирование изображений, и, в частности, аппарат и метод использования электронной камеры для захвата и кадрирования изображений. Электронное устройство для кадрирования изображений включает средства обработки изображения, в частности, электронный процессор и программируемое оборудование и/или программное обеспечение для обработки изображений. Устройство идентифицирует особенности композиции изображения и для каждой выделенной особенности находит похожую в некотором смысле особенность из числа предопределенных особенностей, хранимых в устройстве. Затем выбирается одно или несколько предопределенных композиционных правил, связанных с хранимыми особенностями. Устройство определяет одну или несколько подходящих границ кадрирования, применяя одно или несколько выбранных композиционных правил.

Решение [10] является наиболее близким из всех известных решений к заявляемому изобретению и выбрано в качестве прототипа. При анализе недостатков прототипа основное внимание уделялось вопросам композиционного построения кадра. Как известно, при композиционном построении кадра фотограф выделяет главные объекты, учитывая и определяя следующие факторы:

- расположение объектов в границах кадра,

- цветовой, тоновый и текстурный контраст между главными объектами и фоном,

- освещение главных объектов.

Если фотограф умело использует эти факторы, независимые эксперты в большинстве случаев приходят к согласию относительно того, какие из запечатленных на фотографии объектов являются главными. Это позволяет надеяться на то, что в принципе возможно создание автоматической системы обнаружения главных объектов на фотографии, которая использовала бы только информацию, имеющуюся на фотографии, без учета информации об объектах и условиях съемки, которая имелась у фотографа.

Анализ базы фотографических изображений, содержащей более 2000 изображений, показал, что более 70% фотографий содержат изображение человека, и примерно такой же процент изображений содержит лица достаточно крупного размера (см. S.Li, A.Jain "Handbook of Face Recognition", 2005 [11]). Поэтому в идентификации на изображении главных объектов полезен алгоритм, который мог бы эффективно обнаруживать человеческие лица. Хотя исследования по распознаванию лиц были начаты очень давно, до недавнего времени этой задаче не уделялось большого внимания. В последние десять лет распознаванию лиц уделяется больше внимания; наблюдается рост числа и разнообразия методов обнаружения лиц. Проблема состоит в том, чтобы на данном изображении произвольного размера определить лица и их расположение. Эта проблема является весьма непростой в силу того, что лица могут иметь разный размер и ориентацию. Кроме того, ситуацию усложняют такие факторы, как условия освещения, изменчивость формы и выражений лиц, присутствие дополнительных предметов или цветов (очки, косметика, борода).

В литературе описано большое количество методов обнаружения лиц. В работе [11] дается всесторонний обзор существующих методов. Согласно этому обзору, методы обнаружения лиц могут быть разделены, главным образом, на две категории: методы, основанные на анализе лица в целом, и методы, основанные на анализе отдельных структурных элементов лица. Методы последней группы выявляют отдельные особенности лица и затем сопоставляют эти особенности с моделью лица, тогда как методы первый группы основаны на анализе интенсивности писелов. Методы, основанные на анализе отдельных структурных элементов, нуждаются в априорной информации о лице (форма головы, форма и положение глаз и рта, цвет лица, текстура и трехмерная модель лица). Напротив, методы, основанные на анализе лица в целом, не нуждаются ни в каких предварительных знаниях. Известно, что эти методы лучше подходят для обнаружения лиц не во фронтальном ракурсе, а также для анализа сложных сцен. Однако при обработке простых сцен методы, основанные на анализе отдельных структурных элементов, дают лучшие результаты.

Задача, на решение которой направлено заявляемое изобретение, заключается в разработке усовершенствованного способа интеллектуального кадрирования и обрезки цифровых изображений, пригодного для использования в автоматических устройствах обработки и печати.

Технический результат достигается за счет того, что в заявляемом способе автоматического кадрирования фотографий осуществляют

- анализ однородности горизонтальных, преимущественно в случае альбомной ориентации изображения, и вертикальных, преимущественно в случае портретной ориентации, полос изображения на основе кластеризации фрагментов полос с использованием их текстурных признаков;

- обнаружение лиц;

- корректировку положения линий обрезки с учетом информации об обнаруженных на изображении лицах.

Анализ однородности предлагается выполнять параллельно с обнаружением лиц. Способ применим как к цветным, так и монохромным изображениям альбомной или портретной ориентации.

Отличительные признаки заявляемого способа заключаются в использовании кластеризации областей изображения для оценки однородности полос изображения и определения положений линий обрезки, а также в усовершенствованной методике обнаружения лиц для корректировки линий обрезки.

Существо заявляемого изобретения излагается далее с привлечением графических материалов.

Фиг.1. Схема взаимодействия основных компонентов системы, реализующей заявляемый способ.

Фиг.2. Блок-схема реализации заявляемого способа кадрирования.

Фиг.3. Иллюстрация к шагу 201 заявляемого способа кадрирования.

Фиг.4. Блок-схема шага 201 заявляемого способа кадрирования.

Фиг.5. Блок-схема используемого детектора лиц.

Фиг.6. Иллюстрация к шагу 503 методики обнаружения лиц.

Фиг.7. Блок-схема проверки условия "Глаза и рот".

Фиг.8. Иллюстрация к шагу 703 проверки условия "Глаза и рот".

Фиг.9. Иллюстрация к шагу 705 проверки условия "Глаза и рот".

Фиг.10. Иллюстрация коррекции положения рамки обрезки на основе информации о лицах, обнаруженных на изображении.

Фиг.11-14. Примеры изображений, обрезанных с помощью заявляемого способа кадрирования.

На Фиг.1 изображены основные компоненты системы, реализующей заявляемый способ. Процессор 101 управляет работой системы и исполняет программный код, хранящийся в памяти 104. Изображение, подлежащее обработке, также хранится в памяти 104.

После обрезки изображение передается на устройство 106 отображения. При помощи устройства 102 ввода пользователь системы принимает или отклоняет полученный вариант обрезки фотографии. Обрезанное изображение передается на устройство 105 печати. Обмен данными осуществляется при помощи шины 103 данных.

Блок-схема описываемого способа представлена на Фиг.2. Шаг 201 схемы иллюстрируется Фиг.3. Чтобы изменить соотношение сторон изображения с 4:3 на 3:2, необходимо уменьшить его высоту на . Для этого необходимо разместить на исходном изображении размера 4l×3l пикселов (где l - некоторое целое число) рамку обрезки высотой .

На Фиг.3 пунктирными горизонтальными линиями A, D показана рамка обрезки, центрированная на изображении по вертикали. Пунктирная линия В показывает верхний край рамки при ее крайнем нижнем положении на изображении, линия С - нижний край рамки при ее крайнем верхнем положении.

Блок-схема шага 201 представлена на Фиг.4. На шаге 401 заданное цветное изображение преобразуется в монохромное с 256 уровнями яркости и разбивается на P×Q смежных прямоугольных фрагментов (изображенных серыми линиями на Фиг.3).

На шаге 402 для каждого прямоугольного фрагмента вычисляют текстурные признаки. В предпочтительном варианте реализации метода используют следующие шесть признаков:

- средняя яркость;

- дисперсия яркости σ2;

- ;

- , где h1 есть доля пикселов фрагмента, имеющих яркость не более 128, h2=1-h1.

- e=-h1 log2 h1-h2 log2 h2;

-

На шаге 403 проводят кластеризацию P·Q прямоугольных фрагментов изображения на k кластеров по вычисленным признакам. В предпочтительном варианте реализации метода используют алгоритм древовидной кластеризации. Таким образом, выделяют группы фрагментов, имеющих сходные текстурные признаки.

На шаге 404 для каждой строки i изображения вычисляют число g(i) различных кластеров, в которые попали прямоугольные фрагменты, покрывающие эту строку (Фиг.3). Это число является оценкой однородности строки изображения. Строки с малыми значениями g считаются более однородными, а строки с высокими значениями g - менее однородными и содержащими большее количество информации о сцене.

На шагах 406, 408, 410 и 411 вычисляют предварительное положение рамки обрезки в соответствии с условиями 405, 407, 409.

Числа Р, Q, и k являются настроечными параметрами метода. В экспериментах с изображениями размера 1024×768 пикселов наилучшие результаты дали следующие значения параметров: Р=32, Q=32, k=50.

На шаге 202 блок-схемы, изображенной на Фиг.2, выполняют обнаружение лиц. Существует большое количество алгоритмов обнаружения лиц, которые могут быть использованы на этом шаге. В предпочтительном варианте реализации метода используют алгоритм обнаружения лиц, работающий в соответствии с блок-схемой, изображенной на Фиг.5 (см. Commonly-assigned RU Laid-Open Patent Application "Method for automatic face detection in ready-for-print digital images" by A.Shakenov [12]). На шаге 501 осуществляют обнаружение лиц при помощи каскада классификаторов с использованием признаков Хаара. Строят множество прямоугольных фрагментов различного размера, соответствующих обнаруженным лицам. Каждый фрагмент этого множества далее проходит проверку на выполнение трех условий: «Размер», «Кожа», «Глаза и рот».

На шаге 502 проверяют условия «Размер». Фрагмент шириной w и высотой h пикселов изображения шириной v и высотой u пикселов удовлетворяет этому условию, если выполнено одно из двух неравенств:

На шаге 503 проверяют условие «Кожа». Фрагмент удовлетворяет этому условию, если выполнено неравенство: ,

где N - число всех пикселов подобласти фрагмента, показанной на Фиг.6 серым цветом, a Ns - число пикселов этой подобласти, которые в цветовом пространстве RGB имеют значение красной компоненты, которая превосходит значение зеленой и голубой компоненты, и имеет в пять раз меньшее значение, чем синяя компонента.

На шаге 504 проверяется условие «Глаза и рот» в соответствии с блок-схемой, показанной на Фиг.7. На шаге 701 по правилу, описанному выше, происходит выделение пикселов кожи. На шаге 702 вокруг выделенных пикселов методом наименьших квадратов описывается эллипс. На следующих шагах рассматривается только область внутри этого эллипса.

На шаге 703 производят фильтрацию глаз и рта при помощи сверки с маской, показанной на Фиг.8. Маска имеет размер R1×R2, где R1=0,09h, R2=0,02w. На шаге 704 полученное после фильтрации изображение бинаризуют по порогу t=m+2σ, где m есть средняя яркость полученного изображения, а σ - среднеквадратичное отклонение яркости.

На шаге 705 происходит выделение связных компонент. В областях, соответствующих кругам А, В и С, показанным на Фиг.9, из выделенных компонент выбирают одну, имеющую максимальную площадь.

Наконец, на шаге 706 проверяют следующие условия:

- каждый круг должен содержать одну компоненту,

- х - координата центра компоненты, лежащей в круге С, должна принадлежать отрезку [хA+0,2D, хB-0,2D], где ХA и XB - х - координаты компонент, лежащих в кругах А и В, соответственно, a D - расстояние между этими компонентами.

Условие «Глаза и рот» считается выполненным, если выполнены последние два условия.

Продолжим рассмотрение блок-схемы на Фиг.2. Если на шаге 202 были найдены лица, на последнем шаге 204 производят корректировку положения рамки обрезки. Эта корректировка может быть выполнена, например, следующим способом (Фиг.10).

- Находят минимальную у-координату yt и максимальную у-координату уb прямоугольников, описанных вокруг обнаруженных лиц.

- Центр рамки обрезки выравнивают по центру вертикального отрезка с концами в точках yt и уb.

В заключении этого раздела сделаем несколько замечаний.

- Из блок-схемы на Фиг.2 следует, что процедура обнаружения лиц может применяться к входному изображению параллельно с процедурой, выполняемой на шаге 201. Кроме того, в описанной блок-схеме могут использоваться процедуры обнаружения других семантически значимых объектов для предотвращения обрезки частей человеческого тела, памятников и т.п.

- Для способа кадрирования, реализованного во встроенном программном обеспечении принтера, время работы около одной минуты является допустимым, поскольку в настоящее время печать одной цветной страницы занимает примерно одну минуту. Таким образом, в то время, пока печатается одна фотография, процессор принтера может производить кадрирование следующей фотографии.

В изложенном варианте выполнения изобретения возможны различные модификации, добавления и замены, не изменяющие объема и смысла изобретения, которое описывается прилагаемой формулой изобретения.

На Фиг.11 показаны примеры изображений, откадрированных описанным способом.

Способ может быть реализован в пакетах программ обработки изображений, во встроенном программном обеспечении принтеров, цифровых камер и других устройств, подключаемых к устройствам печати цифровых изображений.

При реализации способа в программном обеспечении, встраиваемом в принтеры с ЖК-дисплеем, для пользователя может быть добавлена возможность изменения положения рамки обрезки клавишами «вверх», «вниз».

1. Способ автоматического кадрирования фотографий, заключающийся в том, что в случае альбомной ориентации изображения осуществляют анализ однородности горизонтальных строк изображения, а в случае портретной ориентации осуществляют анализ однородности вертикальных строк изображения, при этом анализ осуществляют на основе кластеризации фрагментов строк с использованием их текстурных признаков; по результату анализа определяют число g(i) различных кластеров, в которые попали прямоугольные фрагменты, покрывающие данную строку, при этом число g(i) используют для оценки однородности строки изображения, и по результатам оценок для изображения определяют предварительное положение рамки обрезки фотографий, далее осуществляют обнаружение лиц на изображении и производят корректировку положения рамки посредством нахождения максимальной у-координаты уt и минимальной у-координаты уb прямоугольников, описанных вокруг обнаруженных лиц и последующим выравниванием рамки обрезки с центром вертикального отрезка с концами в точках уt и уb.

2. Способ по п.1, в котором используют метод древовидной кластеризации.

3. Способ по п.1, в котором используют метод кластеризации k-ближайших соседей.

4. Способ по п.1, в котором используют следующие текстурные признаки:

средняя яркость;

дисперсия яркости σ2;

где h1 есть доля пикселов фрагмента, имеющих яркость не более 128, h2=1-h1.

e=-h1 log2 h1-h2 log2 h2;

5. Способ по п.4, в котором используют дополнительные текстурные признаки, основанные на преобразовании Фурье.

6. Способ по п.1, в котором используют процедуру обнаружения других семантически-значимых объектов.