Способ и система для преобразования двухмерного видео в трехмерное видео

Патент 2454025

Авторы

БУРАЗЕРОВИЧ Джевдет (NL)

Правообладатели

КОНИНКЛЕЙКЕ ФИЛИПС ЭЛЕКТРОНИКС Н.В. (NL)

Классы МПК

Способ и система для преобразования двухмерного видео в трехмерное видео

Иллюстрации

Показать все

Изобретение относится к способу для обеспечения оценки пространственной глубины видеопоследовательности и, в частности, к способу преобразования двухмерного (2D) видеоформата в трехмерный (3D). Техническим результатом является снижение вычислительной нагрузки и, тем самым, обеспечение возможности более эффективной оценки глубины изображений. Указанный технический результат достигается тем, что предложено преобразование 2D видеоформата в 3D с использованием способа обеспечения оценки пространственной глубины для видеопоследовательности, причем способ содержит классификацию аудиосцены, в которой показатель категоризации пространственной глубины некоторой сцены получается на основе анализа аудиоинформации для упомянутой сцены, в котором показатель категоризации пространственной глубины используется в последующей оценке пространственной глубины, основываясь на видеоинформации для такой же сцены. 3 н. и 10 з.п. ф-лы, 10 ил.

Реферат

ОБЛАСТЬ ИЗОБРЕТЕНИЯ

Настоящее изобретение относится к способу для обеспечения оценки пространственной глубины видеопоследовательности.

Изобретение также относится к способу для преобразования 2D изображений в 3D изображения, причем способ содержит оценку пространственной глубины.

Изобретение дополнительно относится к системе для обеспечения оценки пространственной глубины видеопоследовательности.

УРОВЕНЬ ТЕХНИКИ

Пространственная глубина, то есть расстояние между точкой наблюдения и объектами в изображении, является важным параметром для преобразования исходного двухмерного 2D изображения в трехмерное 3D изображение. Для преобразования двухмерного изображения в трехмерное изображение должна быть создана карта пространственной глубины, в которой для каждого пикселя обеспечивается некоторое значение глубины, обычно называемое z-значение. Значение Z может быть абсолютным или относительным. Используя данные на пикселе и карту глубины, можно создать два изображения, левое и правое изображение. Левое и правое изображения объединяются в трехмерный поток данных. Совокупность устройств отображения трехмерного изображения позволяет производить два незначительно отличающихся изображения, которые воспринимаются наблюдателем как левое и правое изображения, таким образом, давая видимость и ощущение трехмерного изображения.

Чтобы точно произвести левое и правое изображения, полезно или необходимо знание пространственной глубины.

Известна попытка оценивать значения глубины пикселей внутри изображения из отличительных признаков изображения. Такими отличительными признаками изображения могут быть, например, наложение (один элемент изображения расположен за другим), различия фокуса между объектами, относительный размер объектов по сравнению с предыдущими изображениями.

Хотя такие способы могут обеспечивать приемлемые результаты, мощность вычислений, требуемая для оценки пространственной глубины, обычна очень велика, поскольку затрагивается большое количество данных. Преобразование из двухмерного изображения в трехмерное является очень трудным, если вообще возможно.

Требуется способ, который позволяет снизить вычислительную нагрузку и, тем самым, обеспечивает возможность более эффективной оценки глубины.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Для достижения поставленной цели обеспечивается способ согласно изобретению, который отличается тем, что способ содержит классификацию аудиосцены, в которой показатель категоризации пространственной глубины некоторой сцены получается на основе анализа аудиоинформации для указанной сцены, в котором показатель категоризации пространственной глубины используется в последующей оценке пространственной глубины, основываясь на видеоинформации для такой же сцены.

Система согласно изобретению отличается тем, что содержит аудиоклассификатор для анализа аудиоинформации некоторой сцены и для классификации сцены на категорию пространственной глубины на основе анализа, который аудиоклассификатор имеет на выходе, обеспечивая показатель категоризации пространственной глубины сцены, причем показатель категоризации пространственной глубины подается в анализатор пространственной глубины видеоизображения видеоинформации той же сцены.

Изобретение основано на понимании того, что существует некоторая корреляция между аудиосценой и расстоянием камеры (наблюдения).

Используя аудиоинформацию, сцены можно категоризировать на категории пространственной глубины, например очень крупным планом, крупным планом, средним планом и тому подобные, то есть каждой сцене может быть дан некоторый показатель категоризации пространственной глубины.

Затем этот показатель категоризации пространственной глубины используется на следующем этапе для определения пространственной глубины на основе видеоинформации для той же сцены.

Анализ аудиоданных вместо видеоданных означает снижение задержки вычислений благодаря намного более низкой пропускной способности аудиоданных. В литературе описаны классификаторы аудиоданных, которые действуют в десятки раз быстрее, чем в реальном масштабе времени, на основе того, что временные кадры в несколько раз короче, чем один видеокадр. Таким образом, информация, собранная посредством анализа аудиоданных, не накладывает какой-либо ощутимой вычислительной нагрузки и может выполняться в реальном масштабе времени (или даже быстрее, если вся звуковая дорожка видеопрограммы уже доступна в памяти). Однако информация, собранная из анализа аудиоданных, значительно снижает вычислительную нагрузку в последующем видеоанализе, поскольку информация из классификатора аудиоданных является хорошей начальной точкой.

Предпочтительно показатель категоризации пространственной глубины содержит вероятности для некоторой сцены, проанализированной аудиоанализом, показывающей вероятность того, что сцена попадает в одну или несколько категорий пространственной глубины.

Следует отметить, что в рамках настоящего изобретения термин "показатель" может быть единичной индикацией, такой как единичная индикация категории пространственной глубины, как, например: "данная сцена является сценой очень крупного плана", или может представлять собой более сложные данные. В предпочтительном варианте осуществления показатель обеспечивает вероятности того, что сцена принадлежит к некоторой категории пространственной глубины. Такая индикация может быть использована при последующем анализе пространственной глубины на основе видеоинформации, чтобы быстро, то есть с относительно быстрым или простым алгоритмом, выяснить, является ли категория глубины с наиболее высокой вероятностью правильной начальной точкой или наиболее вероятной является следующая.

Таким образом, информация вероятности обеспечивает возможность более адекватной начальной точки для определения пространственной глубины. Она снижает шанс того, что последующий видеоанализ пространственной глубины скорее, чем поддерживаемый информацией из аудиоклассификатора, будет введен в заблуждение этой информацией.

В вариантах осуществления классификация аудиосцен основана на дереве решений, в котором аудиопризнаки анализируются в форме дерева решений.

В вариантах осуществления классификация аудиосцен основана на способе, в котором каждый из аудиопризнаков используется, чтобы обеспечить отдельную классификацию некоторого веса и для каждой классификации некоторый вес, который вносит соответствующий вклад в вес аудиопризнака.

В первом варианте осуществления аудиопризнак основан на речевом содержимом. Соответствие между речью и расстоянием камеры оказывается относительно высоким.

В дополнительном варианте осуществления аудиопризнак основан на музыкальном содержимом. Оказывается, что тональность музыки и/или интенсивность соотносятся с расстоянием камеры.

Еще в одном варианте осуществления аудиопризнак основан на шуме.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

В дальнейшем изобретение поясняется описанием конкретных вариантов его осуществления со ссылками на сопровождающие чертежи, на которых:

фиг.1 изображает геометрию части изображения и двух ориентаций,

фиг.2 показывает часть изображения,

фиг.3 иллюстрирует схематически способ и систему согласно изобретению,

фиг.4 иллюстрирует типичные положения камеры.

фиг.5 иллюстрирует экспериментальные результаты,

фиг.6 иллюстрирует взаимозависимость типичного признака пространственной глубины,

фиг.7 дает общее представление экспериментальной реализации способа,

фиг.8 иллюстрирует классификацию аудиоданных (левых) и временную компоновку данных аудиокадра и видеокадра (правых),

фиг.9 изображает пример дерева решений,

фиг.10 изображает пример, относящийся к ориентации и движению камеры.

Фигуры даны в произвольном масштабе. В основном идентичные компоненты обозначены на фигурах одинаковыми номерами позиций.

ПОДРОБНОЕ ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ

Концепция трехмерного телевидения 3D-TV в настоящее время испытывает истинное возрождение, что отражается в растущих инвестициях в существующие и новые принципы и технологии трехмерного телевидения. Несмотря на то что было в прошлом, текущие усилия касаются всех граней цепи производство-потребление, то есть параллельно и содержимого, и устройств отображения. Хотя киноиндустрия поддерживает опыт трехмерного кино, основываясь на записи и просмотре стереоизображения, компании предлагают решения для преобразования таких стереофильмов или обычных двухмерных видеофильмов в форматы, подходящие для воспроизведения в (пользовательских) автодисплеях со стереоскопическим изображением. В то же время стандартизация таких форматов обсуждается в таких форумах, как MPEG (экспертная группа по кинематографии). Все это делает трехмерное телевидение катализатором следующего значительного импульса мультимедийных средств.

Для успешного введения трехмерного телевидения в рынок, важной составной частью является доступность (автоматического) преобразования 2D в 3D. Как только становится доступным некоторое ограниченное количество стереоматериалов, трехмерное телевидение становится привлекательным для широкой аудитории, только если существующие материалы (например, DVD (цифровой видеодиск) диски) могут быть показаны также в трехмерном 3D формате. Основной идеей указанного преобразования является оценка глубины, то есть квантование относительно тех объектов в сцене (пиксели в изображении), которые находятся ближе к зрителю, чем остальные. Такое преобразование может выполняться посредством транслятора и результирующей карты глубины пикселей, передаваемой наверху обычного ТВ сигнала. Однако преобразование на стороне потребителя обеспечивает возможность эволюционного введения трехмерного телевидения, которое не требует адаптации инфраструктуры вещания.

Фиг.1 показывает геометрию части изображения 10 и две ориентации 12a,b. Часть изображения может быть человеком или любым другим объектом в изображении. Настоящее изобретение относится к способу обеспечения карты глубины для изображения. Глубина может рассматриваться как приписывание некоторого z-значения, то есть значения глубины, точкам объектов. Когда изображения сцены, содержащей часть изображения 10, получаются с использованием точечной проекции с различных ориентаций 12a,b, положения, в которых точки 14, 15 на части изображения будут видны в изображении, являются проекциями 16a,b, 17a,b точек 14, 15. Проекции могут иллюстрироваться линиями 19a-d на чертеже из точек 14, 15 через ориентации 12a,b до плоскости изображения 18. Чтобы наметить основополагающие принципы, ориентации 12a,b были выбраны в плоскости, параллельной плоскости изображения 18, но изобретение не ограничивается таким выбором ориентаций 12a,b. Точки пересечения между линиями 19a-d и плоскостью изображения 18 иллюстрируют положения, где точки 14, 15 части изображения 10 будут видны на изображениях.

Следует отметить, что изменение точки наблюдения 12a,b приводит к параллельному переносу положения 16a,b, 17a,b, где точка 14, 15 части изображения будет видна в плоскости изображения 18. Этот параллельный перенос обратно пропорционален глубине "z" между точкой наблюдения и указанной точкой и прямо пропорционален величине изменения положения точки наблюдения. В результате параллельный перенос будет различным для точек 14, 15 части изображения 10, которые имеют различные глубины "z" от ориентаций 12a,b. Когда карту z-глубины приходится делать из двухмерного изображения, обычно используются визуальные признаки, такие как наложение, размер объекта, относительные размеры подобных объектов, резкость края объекта. Однако часто результаты бывают неоднозначными. Дерево, которое мало по размеру пикселя, может быть маленьким деревом вблизи или большим деревом, находящимся на расстоянии, следовательно, размер является признаком, но может быть обманчивым. Тот факт, находится ли объект в фокусе, может указывать, что это объект переднего плана по сравнению с объектами дальнего плана. Однако является ли расстояние между камерой и объектом маленьким или относительно большим, может быть не различимо. Таким образом, положение в фокусе или вне фокуса может формировать визуальный признак, но может быть обманчивым. Ниже дано несколько примеров обманчивых признаков.

Изобретатели поняли, что часто используется несколько относительно фиксированных установочных параметров, например очень крупным планом, крупным планом, средним планом, полномасштабное отображение и вытянутое изображение. Каждый из упомянутых установочных параметров имеет более или менее характеристический диапазон расстояния камеры до объекта.

Более того, изобретатели обнаружили, что имеется корреляция между аудиосценой, то есть звуковая дорожка, ассоциированная со сценой, и расстоянием камеры.

Это составляет ядро изобретения: при использовании аудиоинформации сцене дается некоторый показатель, показывающий расстояние камеры. Аудиоинформация требует намного меньше данных и мощности вычислений, чем видеоданные, и может анализироваться на порядки величины быстрее.

Фиг.3 иллюстрирует базовую установку способа и системы согласно настоящему изобретению. Она обеспечивает возможность преобразования из двухмерного формата в трехмерный.

Входной сигнал I(2D), то есть видеосцена в 2D формате, расщепляется на входе 31 на часть 32 аудиосцены и часть 33 видеосцены. Аудиосцена посылается в классификатор 34. Классификатор содержит анализатор 35, который анализирует некоторые характеристики генерации аудиосцены, такие как наличие речи, наличие музыки, громкость речи, музыки, наличие шума и т.п. Примеры будут даны ниже. Эта информация используется во внутреннем классификаторе 36, который использует результаты анализа для классификации аудиосцены и дает ей показатель 37, например показатель представляет собой некоторое число, показывающее сцену очень крупным планом, или таблицу, дающую вероятности сцены очень крупным планом, крупным планом, средним планом и т.п.

Показатель 37 используется в блоке 38 оценки пространственной глубины. Чтобы создать карту глубины, блок 38 оценки пространственной глубины использует, с одной стороны, данные показателя и, с другой стороны, визуальные признаки в некоторой видеосцене. Карта глубины прибавляется к данным изображения. Используя карту глубины, можно теперь отобразить изображение на устройстве трехмерного изображения.

Преимущество настоящего изобретения состоит в том, что, используя объединенные аудио- и визуальные признаки, можно намного ускорить преобразование двухмерного формата в трехмерный и часто даже делать это в реальном масштабе времени.

Фиг.4 иллюстрирует типичные положения камеры: очень крупным планом (extreme CU), крупным планом (CU), средним планом, полномасштабное отображение и вытянутое изображение. С каждым из указанных установочных параметров камеры ассоциируется типичное расстояние или типичный диапазон расстояний между наиболее важными объектами и камерой. Хотя глаз человека, или точнее разум человека, может почти мгновенно отличить различные установочные параметры камеры, выполнение этого посредством визуальных признаков в видеофайле часто требует большой мощности вычислений, и даже так, что могут получиться неоднозначные результаты. Автоматическая оценка глубины из двухмерного видеоформата неотъемлемо полагается на эвристические признаки глубины, каждый из которых является неизбежно несовершенным и может работать лучше или хуже для различных типов сценариев (например, крупным планом по сравнению со средним планом, внутренний по сравнению с наружным). Классификация визуальных сцен из изображений изучалась как отдельная задача, и было предложено много решений, которые тем или иным путем затрагивают такие методы, как многомерный анализ образов и/или контролируемое изучение. Однако когда в качестве входа берутся видеоданные с высокой пропускной способностью (число изображений в секунду), эти методы часто вносят значительную вычислительную задержку, по причине чего они не приводят к практическим системам преобразования двухмерного формата в трехмерный.

Последнее означает, что желательно иметь механизм для детектирования различных типов сцен, так чтобы стало возможным адекватное (динамическое) смешивание или переключение между признаками.

Изобретатели обнаружили, что имеется корреляция между аудиосценой и установочным параметром камеры. Аудиосцены могут анализироваться и категоризироваться на порядки величины быстрее, поскольку объем данных на порядки величины меньше. Это детектирование посредством аудиоданных обеспечивает возможность очень быстрой, возможно грубой категоризации сцен в одной из установок камеры. Подобная категоризация обеспечивает очень важный признак, который должен использоваться в визуальном анализе, обычно в качестве начальной точки для одного или нескольких параметров для алгоритмов, используемых в анализаторе 38 пространственной глубины. Изобретение эффективно использует тот факт, что в видео, и особенно в фильме, сочетание и специфика различных акустических источников (например, речь, музыка фильма, окружающие звуки …) говорят много о сцене. Имеется корреляция между аудиосценой и расстоянием (наблюдения) камеры.

Следует отметить, что был известен способ категоризировать аудиосцену, например, для монолога или диалога, внутренних - наружных сцен, но не делалось связи с категоризацией установочных параметров камеры или с использованием такой категоризации в преобразовании изображений из двухмерного формата в трехмерный.

Фиг.5 иллюстрирует экспериментальные результаты. Фиг.5 иллюстрирует корреляцию между композицией аудиосцены и расстоянием камеры, в котором 1 = очень крупным планом, 2 = крупным планом, 3 = средним планом, 4 = полномасштабное отображение и 5 = вытянутое изображение. Фиг.5 касается произвольно выбранного отрывка из художественного фильма ("Пираты Карибского моря"). Верхние части показывают результаты аудиоклассификатора, обработавшего звуковую дорожку видеопоследовательности. Хотя результаты неизбежно несовершенны, они показали хорошее приближение к истинной ситуации. Низ картины показывает покадровую ручную аннотацию этого видеофильма в терминах расстояния камеры. Сравнивая различные фигуры, можно сделать пару важных наблюдений:

1. Интервалы с высокой речевой активностью почти всегда соответствуют меньшим расстояниям камеры (крупным планом и очень крупным планом);

2. Интервалы с отчетливой фоновой музыкой и недостаточной речью (но включающие другие акустические источники) часто соответствуют более длинным расстояниям камеры (средним планом, полномасштабное отображение и вытянутое изображение).

Таким образом, аудиоклассификатор во многих случаях обеспечивает возможность делать прогнозирование о расстоянии камеры.

Теперь будут более подробно обсуждаться проблемы, ассоциированные с преобразованием из двухмерного формата в трехмерный.

Многие системы оценки глубины из двухмерного видео используют статические профили глубины либо в качестве начальной точки для обработки, либо даже в качестве полного признака. Фиг.6 иллюстрирует зависимость такого профиля глубины от типа визуальной сцены. В карте глубины более темные места означают наибольшую удаленность (от зрителя).

Фиг.6 показывает, что, очевидно, этот признак хорошо подходит к снимкам мгновенного состояния (например, наружным) с четким разделением между уровнем земли и горизонтом, но, конечно, не виды крупным планом и очень крупным планом, где некоторый объект протягивается по большому участку или всей высоте картины.

Некоторые другие примеры, где тип сцены может определять ход и характеристики компьютерной оценки глубины, представляют собой:

сцены движения - включают в себя движение объекта от камеры, записывающей сцену, иногда одновременно. Наличие или уровень сложности движения может быть важным параметром, поскольку точная оценка последовательности движений может позволить вывести зависимости наложения (и, таким образом, глубины) в сцене;

сложные сцены - содержат многочисленные объекты и (текстурированный) фон. Уровень визуальной неоднородности может быть решающим для способности выполнять адекватную сегментацию по границам объекта, что, в свою очередь, может использоваться для выведения последовательных смен глубины.

Чтобы избежать ингибирующего действия разнесенности визуальных сцен на характеристики генерированных компьютером признаков пространственной глубины, авторы изобретения предложили дифференцировать некоторые характеристические типы визуальных сцен и настроить вычисления, соответственно смешивая и, возможно, потом обрабатывая эти признаки глубины.

Отличительные особенности и варианты осуществления следующие:

1. Авторы начинают с того наблюдения, что много сцен в видеоданных неизбежно направляется аудиоданными, что особенно справедливо для повествовательного содержания, исходящего из профессионального телевидения и кинопромышленности.

2. Центральная идея изобретения состоит в том, чтобы дать доступ схемы преобразования двухмерного видеоформата в двухмерный для выхода аудиоклассификатора - принимающего в качестве входа звуковую дорожку видеоданных, подлежащих преобразованию. Аудиоклассификатор выводит показатель категоризации пространственной глубины, который может включать в себя вероятности, посредством которых он присваивает каждый аудиокадр каждому из одного или нескольких классов аудиоданных, таких как речь, музыка, тишина, шум, окружающие звуки и т.п. Анализируя эти вероятности во время некоторого интервала видео (нескольких кадров), можно получить признаки о типе сцены. Например:

- Высокая активность речи указывает на высокий шанс наличия диалога и, таким образом, снимка мгновенного состояния крупным планом.

- Высокая активность фоновой музыки и/или окружающих звуков (возможно в сочетании с речью) указывает на высокий шанс наличия действия и, таким образом, сложной сцены (движения).

Естественно возможны более изощренные стратегии решений, и некоторые из них будут обсуждаться здесь далее.

Более того, если обнаруживается сегмент аудиоданных, принадлежащий к одному (доминирующему) классу аудиоданных, его можно представить для дальнейшего анализа, специфического для этого класса, например:

- Отслеживание (изменение) говорящего - знание того, что некоторый сегмент речи поочередно принадлежит различным говорящим, повышает вероятность диалога и, таким образом, снимка мгновенного состояния крупным планом.

- Анализ темпа музыки - партитура динамического фильма обычно используется, чтобы сопровождать интенсивное действие, и, таким образом, может показывать на (сложную) сцену движения.

- Анализ настроения музыки - партитура "драматического" фильма часто используется, чтобы извещать о приближающейся тревоге, что обычно выглядит в фильме как чередование сцен крупным планом и средним планом.

- Подразделение, например, "шума" или "окружающих звуков" как толпы, аплодисментов, выстрелов, взрывов и тому подобного, может дать полезные признаки о действии и его окружении (внутреннее, наружное и т.п.).

Анализ аудиоданных вместо видеоданных означает снижение задержки вычислений благодаря намного более низкой пропускной способности данных.

Получаемые на такой скорости решения (показатель классификации сцены), полученные из аудиоинформации, дополняются решениями, исходящими из дополнительного анализа изображений для улучшения надежности.

Фиг.7 дает общую схему иллюстративного воплощения способа. Различные этапы обработки объясняются более подробно ниже. Следует отметить, что, по меньшей мере, компоненты, показанные пунктирными линиями, являются необязательными для основного предложения.

- Таким образом, буферизация данных является особенно полезной в преобразовании двухмерного видеоформата в двухмерный не в реальном масштабе времени, где классификация сцен может применяться к большим интервалам видеоданных, например, число кадров, содержащееся между ключевыми кадрами (например, детектированные границы снимка мгновенного состояния камеры.

- Аудиоклассификатор присваивает каждому кадру вероятность, с которой кадр может быть присвоен каждому из предварительно заданного набора классов, таких как речь, музыка, тишина, шум, окружающие звуки и т.п. В литературе приводятся алгоритмы, которые могут выполнять быструю и надежную классификацию аудиоданных, где вероятности различных классов аудиоданных часто вычисляются неодновременно, то есть независимо друг от друга. Фиг.8 изображает возможный выход такого существующего классификатора.

- Пороги могут применяться к доминанте (наиболее высокой) и/или другим ненулевым вероятностям как путь решения того, какой аудиокадр исходит из одного акустического источника (класс аудиоданных).

- Вторичный анализ аудиоданных относится к обработке, специфической для некоторого класса аудиоданных, такой как:

- Отслеживание (изменение) говорящего: хотя распознавание говорящего, в основном является трудной задачей, распознавание только изменения говорящих, не заботясь об их точной идентичности, является осуществимым.

- Анализ темпа музыки: охватывается расширением системы, также включая некоторый более развитый анализ музыки по ее настроению, ритму, тональности и т.п.

- Классификация окружающих звуков на толпу, выстрелы, взрывы и т.п.

- Классификация визуальных сцен, основываясь на аудиоданных, относится к анализу вероятностей класса аудиоданных и, возможно, другой информации, получаемой из вторичного анализа аудиоданных, с целью классификации некоторого временного видеокадра согласно типу сцен, которые он представляет. Анализ может связываться с простой логикой продукционных правил или с более изощренной обработкой, как будет объясняться впоследствии.

- Временное выравнивание выравнивает классификацию, полученную из аудиоданных на скорости видеоданных. Оно может быть достигнуто путем усреднения интерполирующих данных, основываясь на аудиокадре, подразумевая отметки времени, доступные для каждого видеокадра и аудиокадра. Это также иллюстрируется на фиг.8.

- Логика управления ассоциируется с правилами для переключения некоторого показателя глубины или настройки его вычисления (например, инициализации, установки параметров) или веса согласно типу детектированной сцены.

- Оценка глубины относится к генерации карты глубины для некоторого изображения для любого показателя глубины, обычно выполняемая путем суммирования карт глубины, происходящих из всех признаков, каждая из которых берется с некоторым весом.

Фиг.8 иллюстрирует классификацию аудиоданных (левая часть) и временное выравнивание данных аудиокадра и данных видеокадра (правая часть). Выравнивание здесь достигается путем усреднения (более высокой скорости) данных аудиокадра между каждыми двумя следующими друг за другом видеокадрами. Следует отметить, что характеристический вектор может эффективно быть некоторым скаляром, "показателем сцены в виде меток", представляющим результат классификации сцены.

Существует несколько способов использовать аудиопризнаки, чтобы обеспечить показатель категоризации пространственной глубины. Простой способ использовать аудиопризнаки состоит в том, чтобы использовать логику на основе правил через деревья решений. Деревья решений классифицируют картину через последовательность вопросов, в которой каждый следующий вопрос зависит от ответа на текущий вопрос. Фиг.9 показывает пример. Подтекст и реализация классификации аудиоданных, отслеживание-изменение говорящего и анализ темпа музыки упоминались ранее. Квантование скорости речи и настроения является гранью стандартного анализа просодии, относящейся к супрасегментным аспектам разговорного языка, например вариации высоты тона, длительности, громкости и тембра. Такой когнитивный анализ является наиболее трудным для музыки; до сих пор приводились разные исследования, использующие методы обработки сигнала и классификации конфигурации (например, нейронные сети), берущие интенсивность, тембр и особенности, связанные с ритмом, из акустического сигнала. Следует отметить, что классификация в терминах расстояния камеры проводится согласно пяти задаваемым расстояниям: очень крупным планом, крупным планом, средним планом, полномасштабное отображение и вытянутое изображение. Также, некоторые ветви обрываются в сомнительных классификациях, что выясняется посредством дополнительного анализа (основанного на изображении).

Полезным является вариант осуществления, в котором решение основано, по меньшей мере, на личностной информации. Личностной информацией может быть, например, имя директора или имена актеров. Некоторые директоры имеют особенный стиль. Некоторые директоры больше всего используют крупный план больше, чем другие. Также, некоторые актеры склонны сниматься крупным планом (обычно, ведущие роли), тогда как другие гораздо меньше снимаются крупным планом. Возможно, что использование этой информации, которая обычно доступна, дает более точное прогнозирование.

Другой подходящей методологией является байесово заключение. Оно предписывает базовое правило, которое связывает между собой апостериорную вероятность состояния натуры (например, тип визуальной сцены), априорную вероятность этого состояния и измерение некоторых особенностей с натуры (например, классификация аудиоданных). Уравнение (1) показывает упомянутое правило, тогда как ниже уравнения 1 классификация дается посредством примера условных обозначений. Каждая байесова доверительная сеть состоит из узлов их ассоциированных состояний. Связи между узлами представляют прямое причинное следствие, основанное на доказательстве. Например, узел B может иметь состояния {b _1, b ₂,…}, коллективно обозначенные как b: тогда вероятность P( b ) обозначает априорные вероятности {P(b ₁ ) _, P(b ₂ ),…}, и P(c|b) обозначает условные вероятности (правдоподобие) параметра c, при условии события b. Все априорные вероятности и правдоподобие могут быть использованы через уравнение (1) для вычисления апостериорных вероятностей, которые используются для составления решающего правила.

В классификаторе Байеса оценка (обусловленных классом) вероятностей играет решающую роль. В некоторых случаях может быть достаточным принятие стандартных распределений (например, гауссово) для различных вероятностей; в других случаях будет более правильной оценка (автономная) этих распределений из испытательных образцов.

Логика управления означает правила для переключения (взвешивания) различных признаков пространственной глубины или адаптации их вычисления (инициализация, установка параметров и т.п.) и возможную последующую обработку согласно детектированной информации класса сцены. Некоторые из этих правил являются потенциально возможными, и они могут быть сделаны более или менее консервативными, в зависимости от эмпирического доказательства, хотя некоторая характеризация сцены (например, в терминах расстояния камеры) может быть решающей для некоторых признаков глубины, она может быть "нейтральной" для других. Определение различных опций является темой текущего исследования, а также будет затрагиваться в следующем разделе. Сейчас будут показаны некоторые правдоподобные построения, которые хорошо иллюстрируют главную идею.

Ниже дается псевдокод возможной логики для управления оценки глубины на основе классификации сцены. Он показывает, каким образом выбор и использование некоторых общих признаков глубины или стратегий оценки глубины могут управляться посредством полученной классификации. Разработка таких признаков глубины может варьироваться и содержать любой из множества алгоритмов, содержащихся в литературе.

Следует отметить, что "показатель категоризации пространственной глубины" может быть простым показателем, дающим индикацию глубины обзора, но также может быть более детальным.

Кроме расстояния наблюдения, создатели кинофильмов используют много других формальных определений и соглашений. Фиг.10 показывает пример, относящийся к ориентации и движению камеры. Например, маловероятно, что "отслеживание" объекта (см. фиг.10 ниже) сопровождается большим количеством разговора (речи). В то же самое время отслеживание объекта может сильно влиять на алгоритмы, которые оценивают глубину с использованием допущения о движении (здесь изменяется не только движение объекта, но также фон) и/или визуальной неоднородности. Таким образом, аудиосцена используется для создания категорий пространственной глубины, относящихся к элементам кинематографического синтаксиса как в отношении позиционирования камеры (расстояние наблюдения, пространственная глубина), так и движения в сцене. Тогда показатель категоризации пространственной глубины имеет, по меньшей мере, две составляющие пространственную глубину и движение и/или визуальную неоднородность. Движение может содержать индикацию речи, часто имеется корреляция между звуком и скоростью движения, причем громкая и быстрая музыка или речь являются индикацией быстрого движения или быстрого изменения положения камеры, тогда как легкая музыка ассоциируется с относительно медленными движениями.

В предпочтительных вариантах осуществления используется нечеткая логика для выделения некоторого показателя категоризации пространственной глубины из аудиопризнаков.

Изобретение также осуществляется в любом программном продукте, содержащем средство программного кода для выполнения способа согласно изобретению, когда упомянутая программа прогоняется на компьютере, а также в любом компьютерном программном продукте, содержащем средство программного кода, хранимое на считываемом компьютером носителе, для выполнения способа согласно изобретению. Компьютерные программные продукты могут включать в себя, например, графический процессор для игровой приставки.

Должно быть понятно, что в рамках настоящего изобретения возможно много вариаций. Специалистам должно быть понятно, что настоящее изобретение не ограничивается тем, что здесь конкретно показано и описано выше. Изобретение имеет место в любом и каждом признаке новизны и в любой и каждой комбинации отличительных признаков. Номера позиций в пунктах не ограничивают их охранных рамок. Использование глагола "содержать" и его спряжений не исключает наличия элементов, отличных от тех, которые утверждаются в пунктах. Использование единственного числа элемента не исключает наличия множества таких элементов.

Настоящее изобретение описано в терминах специфических вариантов осуществления, которые являются иллюстративными, а не ограничивающими. Изобретение также может быть реализовано в способе и устройстве, в аппаратных средствах, встроенном программном обеспечении или программном обеспечении или в их комбинации. Другие варианты осуществления находятся в рамках следующей формулы изобретения.

1. Способ обеспечения оценки пространственной глубины для видеопоследовательности, причем способ содержит классификацию (34) аудиосцены, в которой показатель (37) категоризации пространственной глубины для пространственной глубины сцены получается на основе анализа аудиоинформации (32) для этой сцены, причем показатель (37) категоризации пространственной глубины используется в последующей оценке (38) пространственной глубины, основываясь на видеоинформации (33) для той же сцены.

2. Способ по п.1, в котором показатель категоризации пространственной глубины содержит вероятности для сцены, проанализированной аудиоанализом, п