Устройство и способ представления трехмерного объекта на основе изображений с глубиной

Реферат

 

Изобретение относится к представлению трехмерных объектов на основе изображений с глубиной. Его применение при визуализации трехмерного изображения в компьютерной графике и анимации позволяет получить технический результат в виде обеспечения компактности хранения информации об изображении, быстрой визуализации с высоким качеством выходного изображения. Этот результат достигается благодаря тому, что способ включает в себя генерирование: фрагмента информации о точке наблюдения, цветных изображений на основе информации о цвете, соответствующих точек пикселов, составляющих объект, изображений с глубиной, узлов изображений, состоящих из информации о точке наблюдения, цветного изображения и изображения с глубиной, соответствующих информации о точке наблюдения; и кодирование генерированных узлов изображений. 10 с. и 56 з.п.ф-лы, 54 ил., 13 табл.

Область техники

Настоящее изобретение относится к устройству и способу для представления трехмерных (3D) объектов на основе изображений с глубиной, более конкретно, к устройству и способу для представления трехмерных объектов с использованием изображения с глубиной для компьютерной графики и анимации, определяемого как основанные на изображениях с глубиной представления (DIBR), что было принято в стандарте AFX (расширение структуры анимации) MPEG-4.

Описание предшествующего уровня техники

С самого начала исследований в области трехмерной графики конечной целью исследователей является синтезирование реалистичной графической сцены (визуализируемого трехмерного пространства), подобной реальному изображению. С этой целью выполнялись исследования по традиционньм технологиям рендеринга (визуализации) с использованием полигональных моделей, результатом которых стали разработки технологий моделирования и рендеринга, обеспечивающие получение весьма реалистических трехмерных представлений среды. Однако процедура генерирования усложненной модели требует огромных усилий экспертов и больших затрат времени. Кроме того, реалистическое и усложненное представление среды требует очень больших объемов информации и обуславливает снижение эффективности в хранении и передаче.

В настоящее время полигональные модели в типовом случае используются для представления трехмерных объектов в компьютерной графике. Произвольная форма может быть по существу представлена множеством цветных многоугольников, т.е. треугольников. Значительно усовершенствованные алгоритмы программного обеспечения и разработка аппаратных средств графики позволяют визуализировать комплексные объекты и сцены как в значительной мере реалистические полигональные модели неподвижных и движущихся изображений.

Однако в последнее десятилетие весьма активно проводились поиски альтернативных трехмерных представлений. Основные причины этого включают трудность конструирования полигональных моделей для объектов реального мира, а также сложность рендеринга и неудовлетворительное качество формирования сцен истинно фотографического качества.

Необходимые приложения требуют чрезвычайно большого количества многоугольников; например, детальная модель человеческого тела содержит несколько миллионов треугольников, что вызывает трудности в обработке. Хотя последние достижения в методах определения расстояний, например с использованием лазерного сканера расстояний, позволяют получать данные расстояний высокой плотности с допустимыми ошибками, по-прежнему является дорогостоящим и очень трудным получение плавной (без швов) полной полигональной модели объекта в целом. С другой стороны, алгоритмы рендеринга для получения приближенного к фотографии качества требуют сложных вычислений сложными и не обеспечивают рендеринга в реальном времени.

Сущность изобретения

Одним из аспектов настоящего изобретения является создание устройства и способа представления трехмерных объектов на основе изображений с глубиной, для компьютерной графики и анимации, называемого DIBR, принятого в стандарте AFX (расширение структуры анимации) MPEG-4.

Другим аспектом настоящего изобретения является создание компьютерно-читаемого носителя записи, имеющего программу для реализации способа представления трехмерных объектов на основе изображений с глубиной, для компьютерной графики и анимации, DIBR, принятого в стандарте AFX (расширение структуры анимации) MPEG-4.

В одном из аспектов настоящее изобретение предусматривает устройство для представления трехмерных объектов, основанного на изображениях по глубине содержащее генератор информации о точке наблюдения для генерирования по меньшей мере одного фрагмента информации о точке наблюдения, первый генератор изображений для генерирования цветных изображений на основе цветовой информации, соответствующей информации о точке наблюдения, на соответствующих точках пикселов, образующих объект, второй генератор изображений для генерирования изображений с глубиной на основе информации о глубине, соответствующей информации о точке наблюдения, по соответствующим точкам пикселов, образующих объект, генератор узлов для генерирования узлов изображений, состоящих из информации о точке наблюдения, цветного изображения и изображения с глубиной, соответствующего информации о точке наблюдения, и кодер для кодирования сформированных узлов изображения.

В другом аспекте настоящее изобретение предусматривает устройство для представления трехмерных объектов, основанного на изображениях с глубиной, содержащее генератор информации о точке наблюдения для генерирования по меньшей мере одного фрагмента информации о точке наблюдения, из которой наблюдается объект, генератор информации о плоскости для генерирования информации о плоскости, определяющей ширину, высоту и глубину плоскости изображения, соответствующей информации о точке наблюдения, генератор информации о глубине для генерирования последовательности данных о глубине для глубин всех проецируемых точек объекта, которые проецируются на плоскость изображения, генератор информации о цвете для генерирования последовательности данных о цвете по соответствующим проецируемым точкам, и генератор узлов для генерирования узла, составленного на основе информации о плоскости, соответствующей плоскости изображения, последовательности данных о глубине и последовательности данных о цвете.

Еще в одном аспекте настоящее изобретение предусматривает устройство для представления трехмерного объекта на основе изображений с глубиной, содержащее генератор информации о форме для генерирования информации о форме для объекта путем деления октодерева, содержащего объект, на 8 субкубов и определения разделенных субкубов как дочерние узлы, блок определения эталонного изображения для определения эталонного изображения, содержащего цветное изображение для каждого куба, разделенного генератором информацией о форме, генератор индексов для генерирования индексной информации эталонного изображения в соответствии с информацией о форме, генератор узлов для генерирования узлов октодерева, включающих информацию о форме, индексную информацию и эталонное изображение, и кодер для кодирования узлов октодерева в выходные потоки битов, причем генератор информации о форме итеративно выполняет подразделение до тех пор, пока субкуб не станет меньше, чем предварительно определенный размер.

Еще в одном аспекте настоящее изобретение предусматривает устройство для представления трехмерных объектов на основе изображений с глубиной, содержащее блок ввода для ввода битовых потоков, первый блок выделения для выделения узлов октодерева из входных битовых потоков, декодер для декодирования узлов октодерева, второй блок выделения для выделения информации о форме и эталонных изображений для множества кубов, образующих октодеревья, из декодированных узлов октодерева, и блок представления объекта для представления объекта путем комбинации выделенных эталонных изображений соответственно информации о форме.

Альтернативно, настоящее изобретение предусматривает способ представления трехмерного объекта на основе изображений с глубиной, включающий генерирование по меньшей мере одного фрагмента информации о точке наблюдения, генерирование цветных изображений на основе цветовой информации, соответствующей информации о точке наблюдения, по соответствующим точкам пикселов, образующих объект, генерирование изображений с глубиной на основе информации о глубине, соответствующей информации о точке наблюдения, по соответствующим точкам пикселов, образующих объект, генерирование узлов изображений, состоящих из информации о точке наблюдения, цветного изображения и изображения с глубиной, соответствующего информации о точке наблюдения, и кодирование сформированных узлов изображения.

В другом аспекте настоящее изобретение предусматривает способ представления трехмерных объектов на основе изображений с глубиной, включающий генерирование информации о точке наблюдения, из которой наблюдается объект, генерирование информации о плоскости, определяющей ширину, высоту и глубину плоскости изображения, соответствующей информации о точке наблюдения, генерирование последовательности данных о глубине для глубин всех проецируемых точек объекта, которые проецируются на плоскость изображения, генерирование последовательности данных о цвете по соответствующим проецируемым точкам и генерирование узла, состоящего из информации о плоскости, соответствующей плоскости изображения, последовательности данных о глубине и последовательности данных о цвете.

Еще в одном аспекте настоящее изобретение предусматривает способ представления трехмерного объекта на основе изображений с глубиной, включающий генерирование информации о форме для объекта путем деления октодерева, содержащего объект, на 8 субкубов и определения разделенных субкубов как дочерних узлов, определение эталонного изображения, содержащего цветное изображение, для каждого куба, разделенного генератором информации о форме, генерирование индексной информации эталонного изображения, соответствующей информации о форме, генерирование узлов октодерева, включающих информацию о форме, индексную информацию и эталонное изображение, и кодирование узлов октодерева в выходные битовые потоки, причем на этапе генерирования информации о форме подразделение выполняется итеративньм образом до тех пор, пока субкуб не станет меньше, чем предварительно определенный размер.

Еще в одном аспекте настоящее изобретение предусматривает способ представления трехмерных объектов на основе изображений с глубиной, включающий ввод битовых потоков, выделение узлов октодерева из входных битовых потоков, декодирование узлов октодерева, выделение информации о форме и эталонных изображений для множества кубов, образующих октодеревья, из декодированных узлов октодерева, и представление объекта путем комбинации выделенных эталонных изображений соответственно информации о форме.

Согласно настоящему изобретению время визуализации для моделей, основанных на изображениях, пропорционально количеству пикселов в эталонном и выходном изображениях, но, принципиально, не геометрической сложности, как в случае многоугольной модели. Кроме того, когда основанное на изображениях представление применяется к объектам и сценам реального мира, становится возможной визуализация с фотографическим качеством естественной сцены без использования миллионов многоугольников и дорогостоящих вычислений.

Краткое описание чертежей

Вышеописанные задачи и преимущества настоящего изобретения поясняются путем детального описания предпочтительных вариантов осуществления изобретения со ссылками на чертежи, на которых представлено следующее:

фиг.1 - примеры основанного на изображениях представления, интегрированного в современном программном обеспечении;

фиг.2 - диаграмма структуры октодерева и порядок дочерних элементов;

фиг.3 - график, представляющий коэффициенты сжатия октодерева;

фиг.4 - диаграмма примеров многослойного изображения с глубиной (МИГ): а - проекция объекта, где темные ячейки (вокселы) соответствуют единицам ("1") и белые ячейки соответствуют нулям ("0"); b - двумерное сечение в координатах (x, глубина);

фиг.5 - диаграмма, показывающая инвариантность вероятности возникновения узла: а - исходный текущий и порождающий узел; b - текущий и порождающий узел, повернутые вокруг оси на 90 градусов;

фиг.7, 8, 9 - коэффициенты геометрического сжатия для наилучшего способа, основанного на РРМ;

фиг.6 - предположение об ортогональной инвариантности;

фиг.10 - диаграмма, показывающая два пути переупорядочения цветового поля модели точечной текстуры "Ангел" в двумерное изображение;

фиг.11 -диаграмма примеров геометрического сжатия без потерь и цветового сжатия с потерями: а и b - исходная и сжатая модель "Ангел" соответственно; с и d - исходная и сжатая версия модели "Мортон 256" соответственно;

фиг.12 - диаграмма модели бинарного волюметрического дерева (БВО) и модели текстурированного бинарного волюметрического октодерева (ТБВО) "Ангел";

фиг.13 - диаграмма, показывающая дополнительные изображения, снятые дополнительными камерами в ТБВО: а - изображение индекса камеры; b - первое дополнительное изображение; с - второе дополнительное изображение;

фиг.14 - диаграмма, показывающая пример записи потока ТБВО: а - структура дерева ТБВО (серый цвет является "неопределенным" символом текстуры; каждый цвет обозначает индекс камеры; b - порядок прохождения октодерева в узле БВО и индексах камеры; с - результирующий поток ТБВО, в котором заполненные кубы и кубы октодерева обозначают байты текстуры и байты БВО соответственно;

фиг.15, 17, 18 и 19 - диаграммы, показывающие результаты сжатия ТБВО моделей "Ангел", "Мортон", "Пальма 512" и "Роботы 512" соответственно;

фиг.16 - диаграмма, показывающая лишенные оболочки модели "Ангел" и "Мортон";

фиг.20 - диаграмма примера изображения текстуры и карты глубины;

фиг.21 - диаграмма примера многослойного изображения с глубиной (МИГ): а - проекция объекта; b - пикселы многослойного изображения;

фиг.22 - диаграмма примера текстуры блока (БТ), в котором шесть простых текстур (пары изображений и карта глубины) используются для визуализации модели, показанной в центре;

фиг.23 - диаграмма примера обобщенной текстуры блока (ОТБ): а - местоположения камеры для модели "Пальма"; b - плоскости опорного изображения для той же самой модели (использована 21 простая текстура);

фиг.24 - диаграмма примера, показывающего двумерное представление октодерева: а - "совокупность точек"; b - соответствующие средние карты отображения;

фиг.25 - псевдокод для записи потока битов ТБВО;

фиг.26 - диаграмма, показывающая спецификацию узлов представлений на основе изображений с глубиной (ПОИГ);

фиг.27 - диаграмма модели объема наблюдения для изображения с глубиной: а - пространственное представление, b - ортогональное представление;

фиг.28 - псевдокод основанной на OpenGL визуализации простой текстуры;

фиг.29 - диаграмма примера, показывающего сжатие опорного изображения в простой текстуре: а - исходное опорное изображение; b - модифицированное опорное изображение в формате JPEG;

фиг.30 - диаграмма примера, показывающего результат визуализации модели "Мортон" в различных форматах: а - в исходном полигональном формате, b - в формате изображений с глубиной; с - в формате изображения октодерева;

фиг.31 - диаграмма примеров визуализации: а - просканированная модель "Башня" в формате изображения с глубиной; b - та же самая модель в формате изображения октодерева (данные сканера были использованы без устранения шума, отсюда черные точки в верхней части модели);

фиг.32 - диаграмма примеров визуализации модели "Пальма": а - исходный полигональный формат, b - та же самая модель, но в формате изображения с глубиной;

фиг.33 - диаграмма примера визуализации, показывающая кадр анимации "Дракон 512" в формате изображения с глубиной;

фиг.34 - диаграмма примера визуализации модели "Ангел 512" в формате точечной текстуры;

фиг.35 - блок-схема устройства для представления трехмерных объектов на основе изображений с глубиной в соответствии с возможным вариантом осуществления настоящего изобретения;

фиг.36 - детальная блок-схема препроцессора 1820;

фиг.37 - блок-схема, иллюстрирующая процедуру реализации способа представления трехмерных объектов на основе изображений с глубиной с использованием простой текстуры согласно варианту осуществления настоящего изобретения;

фиг.38 - блок-схема устройства для представления трехмерных объектов на основе изображений с глубиной согласно настоящему изобретению;

фиг.39 - блок-схема, показывающая процедуру реализации способа представления трехмерных объектов на основе изображений с глубиной с использованием точечной текстуры согласно изобретению;

фиг.40 - блок-схема устройства для представления трехмерных объектов на основе изображений с глубиной с использованием октодерева в соответствии с настоящим изобретением;

фиг.41 - детальная блок-схема препроцессора 2310;

фиг.42 - детальная блок-схема генератора 2340 индексов;

фиг.43 - детальная блок-схема кодера 2360;

фиг.44 - детальная блок-схема второй секции 2630 кодирования;

фиг.45 - детальная блок-схема третьей секции 2640 кодирования;

фиг.46 - блок-схема, показывающая процедуру реализации способа представления трехмерных объектов на основе изображений с глубиной с использованием октодеревьев согласно варианту осуществления настоящего изобретения;

фиг.47 - блок-схема, иллюстрирующая процесс реализации предварительной обработки опорного изображения;

фиг.48 - блок-схема, показывающая процесс реализации генерирования индекса;

фиг.49 - блок-схема, показывающая процесс реализации кодирования;

фиг.50 - блок-схема, показывающая процесс реализации второго этапа кодирования;

фиг.51 - блок-схема, показывающая процесс реализации третьего этапа кодирования;

фиг.52 - блок-схема, показывающая процесс генерирования потоков битов на этапах кодирования;

фиг.53 - блок-схема устройства для представления трехмерных объектов на основе изображений с глубиной с использованием октодерева в соответствии с другим вариантом осуществления настоящего изобретения;

фиг.54 - блок-схема, показывающая процедуру реализации способа представления трехмерных объектов на основе изображений с глубиной с использованием октодеревьев согласно другому варианту осуществления настоящего изобретения.

Описание предпочтительных вариантов осуществления настоящего изобретения

Данная заявка испрашивает приоритет предварительных заявок США, приведенных ниже, которые включены в настоящее описание посредством ссылки во всей своей полноте.

I. Кодирование согласно стандарту ISO/IEC JTC 1/SC 29/WG 11 движущихся изображений и аудиосигналов

1. Введение

В настоящем документе изложены результаты основного эксперимента по визуализации на основе изображений AFX A8.3. Этот основной эксперимент относится к технологии визуализации на основе изображений, использующей текстуры с информацией о глубине. Также представлены изменения, основанные на экспериментах, проведенных после 57-го симпозиума MPEG, и обсуждений в рамках встречи Специальной Группы AFX в октябре, внесенные в спецификации узлов.

2.Экспериментальные результаты

2.1. Модели испытаний

Для неподвижных объектов

Узел изображения с глубиной с простой текстурой

Собака

Король Тираннозавр (изображение с глубиной с использованием около 20 камер)

Терраск (монстр) (изображение с глубиной с использованием около 20 камер)

ЧунСунгДае (изображение с глубиной, сканированные данные)

Пальма (изображение с глубиной, 20 камер)

Изображение с глубиной с многослойной текстурой

Ангел

Изображение с глубиной с точечной текстурой

Ангел

Узел изображения октодерева

Создание

Для анимационных объектов

Узел изображения с глубиной с простой текстурой

Дракон Дракон в окружающей среде

Изображение с глубиной с многослойной текстурой

Не предусмотрено

Узел изображения октодерева

Робот

Дракон в окружающей среде

В будущем будет обеспечено больше данных (сканированных или моделированных).

2.2. Результаты испытаний

Все узлы, предложенные в Сиднее, интегрированы в эталонное программное обеспечение blaxxun contact 4.3. Однако источники еще не загружены на сервер cvs.

Анимационные форматы представлений, основанных на изображениях (ПОИ) должны иметь синхронизацию между множеством файлов кинофрагментов таким путем, что изображения в одном и том же ключевом кадре из каждого файла кинофрагмента должны выдаваться в одно и то же время. Однако современное эталонное программное обеспечение не поддерживает данное свойство синхронизации, что возможно в системах стандартов MPEG. Поэтому в настоящее время анимационные форматы могут быть визуализированы в предположении, что все анимационные данные уже находятся в файле. Временно для каждой анимационной текстуры используются файлы кинофрагментов в формате AVI.

После проведения ряда экспериментов с многослойными текстурами было установлено, что узел многослойной текстуры является неэффективным. Такой узел был предложен для многослойного изображения с глубиной. Однако имеется также узел точечной текстуры, который может его поддерживать. Поэтому было предложено удалить узел многослойной текстуры из спецификации узлов. На фиг.1 представлены примеры представлений на основе изображений (ПОИ), интегрированные в современное эталонное программное обеспечение.

3. Обновление данных спецификации узлов ПОИ

Выводы, полученные на встрече в Сиднее в отношении предложения ПОИ, состояли в том, чтобы получить поток ПОИ, который содержит изображения и информацию камер, а узел ПОИ должен только иметь связь (Url - универсальный указатель ресурсов) с ним. Однако на встрече AhG в Ренне в результате обсуждений ПОИ было решено использовать изображения и информацию камер как в узлах ПОИ, так и в потоке. Таким образом, ниже приведена спецификация обновленных узлов для узлов ПОИ. Требования для потока ПОИ приведены в разделе, который поясняет поле Url.

Узел изображения с глубиной определяет отдельную текстуру ПОИ. Когда множество узлов изображения с глубиной связаны друг с другом, они обрабатываются как группа, и поэтому должны быть помещены под одним и тем же узлом преобразования.

Поле "diТекстура" определяет текстуру с глубиной, которая должна быть отображена в область, определяемую в узле изображения с глубиной. Она должна быть одной из текстур различных типов текстуры изображения с глубиной (простая текстура или точечная текстура).

Поля "положение" и "ориентация" определяют относительное местоположение точки наблюдения текстуры ПОИ в локальной системе координат. Положение определяется относительно начала координат (0, 0, 0) системы координат, а ориентация определяет поворот относительно установленной по умолчанию ориентации. В установленных по умолчанию положении и ориентации наблюдатель находится на оси Z и смотрит вдоль Z-оси в направлении начала координат, причем ось +Х находится справа, а ось +Y - впереди в направлении вверх. Однако иерархия преобразования оказывает влияние на окончательное положение и ориентацию.

Поле "поле зрения" определяет угол наблюдения из точки наблюдения камеры, определяемой полями положения и ориентации. Первое значение обозначает угол к горизонтальной стороне, а второе значение обозначает угол к вертикальной стороне. Значения, установленные по умолчанию, равны 45 в радианах. Однако когда ортогональное поле установлено на ИСТИННО, поле "поле зрения" обозначает ширину и высоту ближней и дальней плоскости.

Поля ближней и дальней плоскости определяют расстояния от точки наблюдения до ближней и дальней плоскости зоны наблюдения. Текстура и данные глубины показывают область, ограниченную ближней плоскостью, дальней плоскостью и точкой наблюдения. Данные глубины нормированы к расстоянию от ближней плоскости до дальней плоскости.

Поле "ортогональное" определяет тип наблюдения текстуры ПОИ. Когда оно установлено на ИСТИННО, то текстура ПОИ основана на ортогональном наблюдении. В ином случае текстура ПОИ основана на наблюдении в перспективе.

Поле "изображение с глубиной Url" определяет адрес потока изображения с глубиной, которое может дополнительно включать в себя следующее содержание:

Положение

Ориентация

Точка наблюдения

Ближняя плоскость

Дальняя плоскость

Ортогональное

diТекстура (простая текстура или точечная текстура)

Заголовок в 1 байт для флага включения/исключения для приведенных выше полей

Узел простой текстуры определяет отдельный слой текстуры ПОИ.

Поле "текстура" определяет плоское изображение, которое содержит цвет для каждого пиксела. Оно должно быть одним из различных типов узлов текстуры (текстура изображения, текстура кинофрагмента или пиксельная текстура).

Поле "глубина" определяет глубину для каждого пиксела в поле "текстура". Карта глубины должна иметь тот же размер, что и изображение или кинофрагмент в поле "текстура". Оно должно быть одним из различных типов узлов текстур (текстура изображения, текстура кинофрагмента или пиксельная текстура). Если узел глубины установлен на НУЛЬ или поле "глубина" неопределенно, то альфа-канал в поле "текстура" должен использоваться в качестве карты глубины.

Узел "точечная структура" определяет множество слоев точек ПОИ. Поля "ширина" и "высота" определяют ширину и высоту текстуры.

Поле "глубина" определяет множество глубин каждой точки (в нормированных координатах) в плоскости проекции в порядке пересечения, которое начинается из точки в нижнем левом углу и пересекает вправо для завершения на горизонтальной линии перед перемещением на более высокую линию. Для каждой точки число глубин (пиксели) сначала запоминаются, и это число значений глубины затем следует.

Поле "цвет" определяет цвет текущего пикселя. Порядок должен быть тем же самым, что и для поля "глубина", за исключением того, что число глубин (пикселей) для каждой точки не включается.

Узел "изображение октодерева" определяет структуру октодерева и его проецируемые текстуры. Размер описанного куба полного октодерева 111, и центр куба октодерева должен быть в начале координат (0, 0, 0) локальной системы координат.

Поле "разрешение октодерева" определяет максимальное число листьев октодерева вдоль стороны описанного куба. Уровень октодерева может быть определен из разрешения октодерева с использованием следующего уравнения: уровень октодерева=int(iog2(разрешение октодерева-1))+1).

Поле "октодерево" определяет множество внутренних узлов октодерева. Каждый внутренний узел представлен байтом. "1" в i-м бите этого байта означает, что дочерние узлы существуют для i-го дочернего элемента этого внутреннего узла, а "0" означает, что этого нет. Порядок внутренних узлов октодерева должен быть порядком прохождения сигнала по ширине октодерева. Порядок восьми дочерних элементов внутреннего узла показан на фиг.2.

Поле "изображения октодерева" определяет множество узлов "изображение с глубиной" с простой текстурой для поля "diТекстура". Однако поле "ближний план" и "дальний план" узла "изображение с глубиной" и поле глубины в узле "простая текстура" не используются.

Поле "октодеревоUrl" определяет адрес потока изображения октодерева со следующим содержанием:

заголовок для флагов

разрешение октодерева

октодерево

изображения октодерева (узлы множественного изображения с глубиной)

ближний план не используется

дальний план не используется

diТекстура простая текстура без глубины

II. Кодирование согласно стандарту ISO/IEC JTC 1/SC 29/WG 11 движущихся изображений и аудиосигналов

1. Введение

В настоящем документе изложены результаты основного эксперимента по визуализации на основе изображений с глубиной (DIBR), AFX A8.3. Этот основной эксперимент относится к узлам представления на основе изображений с глубиной с использованием текстур с информацией о глубине. Эти узлы были приняты и включены в предложение для Проекта Комитета на встрече в Паттайя. Однако формирование потока этой информации посредством поля "октодеревоUrl" узла "изображение октодерева" и поля "изображение с глубинойUrl" узла "изображение с глубиной" продолжает еще оставаться предметом исследований. В данном документе описан формат формирования потока, который должен связываться посредством этих полей Url. Формат формирования потока включает компрессию (сжатие) поля "октодерево" узла "изображение октодерева" и полей "глубина/цвет" узла "точечная текстура".

2. Формат формирования потока для "октодереваUrl"

2.1. Формат потока

Узел "избражение октодерева" включает в себя поле "октодеревоUrl", которое определяет адрес потока изображения октодерева. Этот поток может дополнительно включать в себя следующее содержание:

заголовок для флагов

разрешение октодерева

октодерево

изображения октодерева (узлы множественного изображения с глубиной)

ближний план не используется

дальний план не используется

diТекстура простая текстура без глубины

Поле "октодерево" определяет множество внутренних узлов октодерева. Каждый внутренний узел представлен байтом. "1" в i-м бите этого байта означает, что дочерние узлы существуют для i-го дочернего элемента этого внутреннего узла, а "0" означает, что этого нет. Порядок внутренних узлов октодерева должен быть порядком прохождения сигнала по ширине октодерева. Порядок восьми дочерних элементов внутреннего узла показан на фиг.2.

Поле "октодерево" узла "изображение октодерева" сформировано в компактном формате. Однако это поле может быть дополнительно сжато, чтобы иметь эффективное формирование потока. В следующем разделе описана схема сжатия октодерева для поля "октодерево" узла "изображение октодерева".

2.2. Схема сжатия для поля "октодерево"

В представлении октодерева, соответствующем DIBR, данные содержатся в поле "октодерево", которое представляет геометрический компонент. Октодерево представляет собой множество точек в описанном кубе, полностью, представляющем поверхность объекта.

Неидеальная реконструкция геометрии из сжатого представления приводит к весьма заметным артефактам. Следовательно, геометрия должна быть сжата без потери информации.

2.2.1. Сжатие октодерева

Для сжатия поля "октодерево", представленного в форме октодерева первого прохода глубины, был разработан способ сжатия без потерь, использующий некоторые идеи метода предсказания посредством частичного согласования (ПЧС). Основная идея, которая была использована, заключается в "предсказании" (т.е. оценке вероятности) следующего символа по нескольким предшествующим символам, которые называются контекстом. Для каждого контекста имеется таблица вероятности, которая содержит оценки вероятностей появления каждого символа в данном контексте. Это используется в комбинации с арифметическим кодером, называемым кодером расстояния.

Двумя главными особенностями способа являются следующие:

1) использование порождающего узла в качестве контекста для дочернего узла;

2) использование предположения "ортогональной инвариантности" для сокращения числа контекстов.

Вторая идея основана на наблюдении того, что "вероятность перехода" для пар узлов "порождающий-дочерний" в типовом случае инварианта для ортогональных преобразований (поворот и симметрия). Это предположение иллюстрируется в Приложении 1. Это предположение позволяет использовать более сложный контекст без необходимости использования слишком большого количества таблиц вероятности. Это, в свою очередь, позволило достичь довольно хороших результатов в смысле объема и скорости, так как чем больше контекстов используется, тем более точной является оценка вероятности и, следовательно, тем более компактньм является код.

Кодирование является процессом конструирования и обновления таблицы вероятностей в соответствии с контекстной моделью. В предложенном способе контекст моделируется как иерархия типа "порождающий-дочерний" в структуре октодерева. Сначала определяется символ как байтовый узел, биты которого указывают на заполнение субкуба после внутреннего подразделения. Поэтому каждый узел в октодереве может быть символом, и его числовое значение равно от 0 до 255. Таблица вероятностей (ТВ) содержит 256 целочисленных значений. Значение i-й переменной (0i255), разделенное на сумму всех переменных, равно частоте (оценке вероятности) появления i-го символа. Таблица вероятностного контекста (ТВК) представляет собой набор таблиц вероятностей (ТВ). Вероятность символа определяется из одной и только одной ТВ. Число конкретных ТВ зависит от контекста. Пример ТВК показан в таблице 1.

Кодер работает следующим образом. Он сначала использует 0-контекстную модель (т.е. единственную ТВ для всех символов, начиная с равномерного распределения, и обновляя ТВ после каждого нового кодированного символа. Дерево проходится в первом порядке глубины. Если собрано достаточное количество статистики (эмпирически найденное значение составляет 512 кодированных символов), кодер переключается на 1-контекстную модель. Он имеет 27 контекстов, которые определены следующим образом.

Рассмотрим набор из 32 фиксированных ортогональных преобразований, которые включают в себя симметрию и повороты на 90 относительно осей координат (см. Приложение 2). Затем можно разделить символы по категориям в соответствии с конфигурацией заполнения их субкубов. В использованном заявителем методе будет иметься 27 наборов символов, называемых здесь группами и имеющих следующие свойства: 2 символа связаны одним из этих фиксированных преобразований, если и только если они принадлежат к одной и той же группе.

В байтовой записи группы представлены 27 наборами чисел (см. Приложение 2). Предполагается, что таблица вероятностей зависит не от самого порождающего узла (в этом случае было бы 256 таблиц), а только от группы (обозначено Порождающий символ на фиг.2), к которой принадлежит порождающий узел (отсюда 27 таблиц).

В момент переключения ТВ для всех контекстов устанавливаются на копирование 0-контекстной ТВ. Затем каждая из 27 ТВ обновляется, когда она используется для кодирования.

После того как закодированы 2048 (еще одно эвристическое значение) символов в 1-контекстной модели, производится перекл