2407220 - Способ кодирования и способ декодирования изображений, устройства для них, программа для них и носитель информации для хранения программ

Способ кодирования и способ декодирования изображений, устройства для них, программа для них и носитель информации для хранения программ

Иллюстрации

Показать все

Изобретение относится к кодированию и декодированию изображений с несколькими точками зрения и видеоизображений с несколькими точками зрения. Техническим результатом является повышение точности компенсации параллакса с использованием данных параллакса, которые представлены, основываясь на расстоянии для опорного изображения от камеры до отображаемого объекта и обеспечении более высокой эффективности кодирования. Указанный технический результат достигается тем, что осуществляют определение соответствующей точки на целевом изображении для кодирования, которая соответствует каждому пикселу на опорном изображении, основываясь на расстоянии от камеры, используемой для получения опорного изображения, до отображаемого объекта и позиционном соотношении между камерами; вычисление вектора параллакса от положения пиксела до соответствующей точки в пиксельном пространстве; вычисление целевого прогнозного вектора, имеющего ту же самую начальную точку, что и у вектора параллакса, и компоненты, полученные округлением компонентов вектора параллакса; вычисление целевого опорного вектора, имеющего ту же самую начальную точку, что и у вектора параллакса, и тот же самый размер и направление, что и у вектора разности между целевым прогнозным вектором и вектором параллакса; и установку предсказанного значения пиксела на целевом изображении кодирования, которое указано целевым прогнозным вектором, на значение пиксела на опорном изображении, которое указано целевым опорным вектором. 6 н. и 19 з.п. ф-лы, 10 ил.

Реферат

Область техники

Настоящее изобретение относится к способам кодирования и декодирования изображений с множеством точек обзора.

Испрашивается приоритет японской патентной заявки № 2006-253845, поданной 20 сентября 2006, содержание которой включено в настоящий документ посредством ссылки.

Предшествующий уровень техники

Изображения с множеством точек зрения - это изображения, полученные фотографированием того же самого объекта и его фона с использованием множества камер, и видеоизображения с множеством точек зрения - это видеоизображения для изображений с множеством точек зрения. Ниже видеоизображение, полученное единственной камерой, называется "двумерным видеоизображением", а набор множества двумерных видеоизображений, полученных фотографированием того же самого объекта и его фона, называется "видеоизображением с множеством точек зрения".

Так как между двумерными видеоизображениями имеет место сильная корреляция, эффективность их кодирования улучшается за счет использования такой корреляции. С другой стороны, когда камеры для получения изображений с множеством точек зрения или видеоизображений с множеством точек зрения синхронизированы друг с другом, изображения (камер), соответствующие одному и тому же времени, зафиксировали отображаемый объект и его фон полностью в том же самом состоянии из различных положений, так что имеется сильная корреляция между камерами. Эффективность кодирования изображений с множеством точек зрения или видеоизображений с множеством точек зрения может быть улучшена за счет использования этой корреляции.

Сначала будут показаны обычные методы, относящиеся к кодированию двумерных видеоизображений.

Во многих известных методах кодирования двумерных видеоизображений, таких как H.264, MPEG-2, MPEG-4 (которые являются международными стандартами кодирования) и т.п., весьма эффективное кодирование выполняется посредством компенсации движения, ортогонального преобразования, квантования, энтропийного кодирования и т.п. Например, в H.264, кодирование может быть выполнено посредством временной корреляции вместе с множеством прошлых или будущих кадров.

Например, непатентный документ 1 раскрывает детализированные методы компенсации движения, используемые в H.264. Общие объяснения этого приведены ниже.

В соответствии с компенсацией движения в H.264 целевой кадр для кодирования может быть разделен на блоки любого размера, и каждый блок может иметь индивидуальный вектор движения и опорное изображение. Кроме того, опорное изображение подвергается фильтрации, чтобы генерировать видеоизображение, основанное на половине или одной четвертой положения пиксела, таким образом реализуя компенсацию движения более высокой точности уровня одной четверти пиксела и, таким образом, реализуя кодирование, имеющее более высокую эффективность по сравнению с кодированием, основанным на любом обычном международном стандарте кодирования.

Далее будет рассмотрен обычный способ кодирования изображений с множеством точек зрения или видеоизображений с множеством точек зрения.

Различие между кодированием изображений с множеством точек зрения и кодированием видеоизображений с множеством точек зрения заключается в том, что видеоизображения с множеством точек зрения имеют не только корреляцию между камерами, но также и временную корреляцию. Однако тот же самый способ, использующий корреляцию между камерами, может быть применен и к изображениям с множеством точек зрения, и к видеоизображениям с множеством точек зрения. Поэтому ниже будут объяснены способы, используемые в кодировании видеоизображений.

Поскольку кодирование видеоизображений с множеством точек зрения использует корреляцию между камерами, видеоизображения с множеством точек зрения кодируются с высокой эффективностью в известном способе, который использует "компенсацию параллакса (или несоответствия)", в котором компенсация движения применена к изображениям, полученным различными камерами в то же самое время. Здесь "параллакс" (или несоответствие) является различием между положениями, в которые проецируется та же самая точка на отображаемом объекте, в плоскостях изображения камер, которые расположены в различных положениях.

Фиг.8 - схематичное представление, показывающее принцип параллакса, создаваемого между такими камерами. В схематичном представлении по фиг.8 плоскости изображения камер, оптические оси которых параллельны друг другу, обращены вниз (вертикально) от их верхней стороны. Вообще, такие точки, в которые проецируется одна и та же точка на отображаемом объекте, в плоскостях изображения различных камер, называются "соответствующими точками".

В компенсации параллакса, основанной на вышеупомянутом соотношении соответствия, каждое пиксельное значение целевого кадра для кодирования предсказывается с использованием опорного кадра, и соответствующий остаток предсказания и данные параллакса, которые указывают отношение соответствия, кодируются.

При использовании параметров камеры и ограничения эпиполярной геометрии, вышеупомянутое соотношение соответствия может быть представлено одномерной величиной, такой как расстояние от одной (в качестве стандарта) из камер до отображаемого объекта, без использования двумерного вектора.

На фиг.9 приведено схематичное представление, показывающее принцип ограничения эпиполярной геометрии. В соответствии с ограничением эпиполярной геометрии, когда точка в изображении камеры соответствует точке в изображении другой камеры, точка другой камеры ограничена на прямой линии, называемой "эпиполярной линией". В таком случае, если расстояние от камеры до отображаемого объекта получено для соответствующего пиксела, соответствующая точка может быть определена на эпиполярной линии способом однозначного соответствия.

Например, как показано на фиг.9, точка отображаемого объекта, которая спроецирована в положение "m" в изображении камеры A, проецируется (в изображении камеры B) (i) в положение m' на эпиполярной линии, когда соответствующая точка отображаемого объекта в действительном пространстве есть положение М', (ii) в положение m" на эпиполярной линии, когда соответствующая точка отображаемого объекта в действительном пространстве есть положение М", и (iii) в положение m'" на эпиполярной линии, когда соответствующая точка отображаемого объекта в реальном пространстве есть положение М'".

На фиг.10 представлена диаграмма для пояснения того, что соответствующие точки могут быть получены между множеством камер, когда предоставлено расстояние от одной из камер до отображаемого объекта.

Вообще, параллакс изменяется в зависимости от целевого кадра для кодирования, и, таким образом, данные параллакса должны кодироваться для каждого целевого кадра. Однако расстояние от камеры до отображаемого объекта определяется в соответствии с физическими состояниями отображаемого объекта, и, таким образом, соответствующие точки на изображениях множества камер могут быть представлены, используя только данные расстояния от камеры до отображаемого объекта.

Например, как показано в фиг.10, как соответствующая точка m_b в изображении камеры B, так и соответствующая точка m_c в изображении камеры C, каждая из которых соответствует точке m_a в изображении камеры A, может быть представлена с использованием только данных расстояния от положения точки зрения камеры до точки М на отображаемом объекте.

В соответствии с вышеуказанными характеристиками, когда данные параллакса представлены расстоянием от камеры соответствующего опорного изображения к отображаемому объекту, можно осуществить компенсацию параллакса из опорного изображения до всех кадров, полученных другими камерами в то же самое время, где были получены позиционные соотношения между камерами. В непатентном документе 2 число элементов данных параллакса, которые должны кодироваться, уменьшается с использованием вышеуказанных характеристик, чтобы выполнять весьма эффективное кодирование видеоизображений с множеством точек зрения.

Непатентный документ 3 представляет собой документ предшествующего уровня техники, который раскрывает способ, упоминаемый в варианте осуществления (объясняется ниже) настоящего изобретения, и объяснения, касающиеся параметров для индикации позиционных соотношений между множеством камер и параметров для индикации данные проецирования (камерой) на плоскость изображения.

Непатентный документ 1: ITU-T Rec. H.264/ISO/IEC 11496-10, "Editor's Proposed Draft Text Modifications for Joint Video Specification (ITU-T Rec.H.264/ISO/IEC 14496-10 AVC), Draft 7", Final Committee Draft, Document JVT-E022, pp. 10-13, 62-68, September 2002.

Непатентный документ 2: Shinya SHIMIZU, Masaki KITAHARA, Kazuto KAMIKURA и Yoshiyuki YASHIMA, "Multi-view Video Coding based on 3-D Warping with Depth Map", Proceedings of Picture Coding Symposium 2006, SS3-6, April, 2006.

Непатентный документ 3: Oliver Faugeras, Three-Dimension Computer Vision-MIT Press; BCTC/UFF-006.37 F259 1993-ISBN:0-262-06158-9, pp. 33-68.

Раскрытие изобретения

Проблемы, решаемые изобретением

Конечно, в соответствии со способом, раскрытым в непатентном документе 2, можно кодировать данные параллакса с меньшим объемом кода по сравнению со случаем, в котором данные параллакса закодированы для каждого целевого изображения для кодирования.

Так как кодирование изображений с множеством точек зрения имеет целью кодировать каждый пиксел целевого изображения для кодирования, необходимо в компенсации параллакса предсказывать значение каждого пиксела в целевом изображении. Однако в способе для обеспечения расстояния от камеры до отображаемого объекта для каждого пиксела в опорном изображении соответствующий пункт в опорном изображении фиксируется, и таким образом соответствующий пункт в целевом изображении для кодирования не всегда совпадает с соответствующим пикселом. В таком случае следующие три способа могут легко предвидеться в качестве способа для предсказания.

В первом способе выполняется определение расстояния так, чтобы каждая соответствующая точка в целевом изображении всегда совпадала с положением соответствующего пиксела.

Однако для множества целевых изображений для кодирования расстояние для реализации такого совпадения с положением соответствующего пиксела ограничено. Поэтому данный способ не может достигнуть компенсации параллакса для сокращения ошибки предсказания и, таким образом, ухудшает полную эффективность кодирования.

Во втором способе определенная соответствующая точка в целевом изображении для кодирования округляется так, чтобы совпадать с ближайшим пикселом.

В этом способе может быть выполнена почти точная компенсация параллакса. Однако процесс округления обуславливает не малое ухудшение точности предсказания. Кроме того, данные, которые были получены с использованием кодированных данных параллакса, являются округленными. Поэтому, по сравнению со случаем кодирования округленных данных, кодируются избыточные данные.

В третьем способе, после получения соответствующей точки в целевых изображениях (для кодирования) для каждого пиксела в опорном изображении, каждый пиксел в целевом изображении подвергается интерполяции с использованием значений пикселов полученных соответствующих точек вокруг соответствующего пиксела.

В третьем способе могут использоваться все кодированные данные параллакса. Однако в этом способе значения пикселов всего целевого изображения для кодирования должны быть определены посредством интерполяции с использованием дискретных значений пикселов, что требует очень высоких затрат на вычисления, чтобы выполнить интерполяцию с высокой точностью. Кроме того, ошибка предсказания из-за компенсации параллакса получается только после того, как соответствующие точки всех пикселов определены. Поэтому, чтобы получить расстояние для кодирования, которое может минимизировать ошибку предсказания, следующий процесс должен повторяться для всех комбинаций элементов данных параллакса, где процесс включает допущение данных параллакса для всех пикселов; определение соответствующих точек в целевом изображении (для кодирования) для всех пикселов в соответствующем опорном изображении с использованием данных предполагаемого параллакса; и генерацию предсказанного изображения для целевого изображения, подвергая соответствующее изображение, для которого получены дискретные значения пикселов, интерполяции, чтобы вычислить ошибку предсказания. Соответственно, объем необходимого вычисления очень велик, и, таким образом, очень трудно получить набор оптимальных элементов данных параллакса.

Кроме того, в способе (как раскрыто в непатентном документе 2) обеспечения расстояния от камеры до отображаемого объекта для каждого пиксела в опорном изображении, каждая соответствующая точка в опорном изображении всегда помещается в положение, определяемое целым числом пикселов. Поэтому невозможно выполнить высокоточную компенсацию, соответствующую точному движению, основываясь на пиксельных значениях в положениях, определяемых десятичным значением пиксела (например, в положениях в половину или четверть пиксела) в опорном изображении, как определено в предсказании движения согласно H.264.

Вообще, для положений, определяемых десятичным значением пиксела (например, положений в половину или четверть пиксела) в опорном изображении, высокоточная компенсация параллакса может быть выполнена путем предоставления расстояние от камеры до отображаемого объекта. Однако число элементов данных параллакса, которые должны быть закодированы, увеличивается, что ухудшает эффективность кодирования.

Кроме того, даже когда расстояние для десятичного пиксельного положения оценивается из расстояния, определенного для целочисленного пиксельного положения, объем вычислений для получения соответствующей точки увеличивается многократно.

В свете вышеупомянутых обстоятельств целью настоящего изобретения является обеспечить способы кодирования и декодирования изображения, посредством которых, когда компенсация параллакса для целевого изображения для кодирования выполняется с использованием данных параллакса, которые представлены, основываясь на расстоянии для опорного изображения от камеры до отображаемого объекта, высокая эффективность кодирования может быть достигнута путем выполнения компенсации параллакса, основываясь на десятичных пиксельных положениях, с использованием максимального объема данных параллакса, которые были использованы для кодирования, без увеличения числа элементов данных параллакса, которые должны кодироваться.

Средства для решения проблемы

Для того чтобы решить вышеописанные проблемы, настоящее изобретение обеспечивает способ кодирования изображений для кодирования изображений с множеством точек зрения, получаемых множеством камер, выполняя предсказание изображений между камерами с использованием уже закодированного опорного изображения и расстояния от одной из камер, которая использовалась для получения опорного изображения до отображаемого объекта, причем способ содержит:

этап определения вектора параллакса, включающий в себя

определение соответствующей точки на каждом целевом изображении для кодирования, которая соответствует каждому пикселу на опорном изображении, основываясь на расстоянии, предусмотренном для каждого пиксела на опорном изображении, и позиционном соотношении между камерой, используемой для получения опорного изображения, и камерой, используемой для получения каждого целевого изображения; и

вычисление вектора параллакса от положения пиксела на опорном изображении к соответствующей точке на целевом изображении в пиксельном пространстве;

этап определения целевого прогнозного вектора, включающий в себя вычисление целевого прогнозного вектора, имеющего ту же самую начальную точку, что и у вектора параллакса, и компоненты, полученные округлением компонентов вектора параллакса до целых чисел путем отбрасывания десятичной части каждого компонента вектора параллакса или выбора целого числа, ближайшего к значению каждого компонента вектора параллакса;

этап определения целевого опорного вектора, включающий в себя вычисление целевого опорного вектора, имеющего ту же самую начальную точку, что и у вектора параллакса, и тот же самый размер и направление, что и у вектора разности между целевым прогнозным вектором и вектором параллакса; и

этап предсказания изображения между камерами, включающий в себя выполнение предсказания изображения между камерами путем установления предсказанного значения пиксела на целевом изображении, которое указано целевым прогнозным вектором, на пиксельное значение в целочисленном или десятичном пиксельном положении на опорном изображении, которое указано целевым опорным вектором.

Соответственно, данные соответствующей точки (которая не всегда позиционирована в целочисленном пиксельном положении) на целевом изображении для кодирования, причем данные предоставляются для каждого целочисленного пиксельного положения на опорном изображении, используются так, чтобы выполнять предсказание изображения посредством компенсации параллакса с использованием пиксельного значения в десятичном пиксельном положении на опорном изображении, для соответствующего целочисленного пиксельного положения на целевом изображении, таким образом обеспечивая высокую эффективность кодирования.

В типичном примере способ кодирования изображений может дополнительно содержать:

этап определения псевдорасстояния для определения псевдорасстояния для каждого пиксела на опорном изображении, где псевдорасстояние указывает соответствующую точку, используемую для предсказания целевого изображения для кодирования из опорного изображения, основываясь на ограничении эпиполярной геометрии; и

этап кодирования псевдорасстояния для кодирования псевдорасстояния, определенного на этапе определения псевдорасстояния,

причем на этапе определения вектора параллакса псевдорасстояние используется как расстояние, предусмотренное для каждого пиксела на опорном изображении.

Псевдорасстояние имеет значение, которым определяется точка на эпиполярной прямой линии (на целевом изображении) для пиксела на опорном изображении. Более конкретно, это значение указывает оцененное расстояние от соответствующей камеры до объекта, полученного в соответствующем пикселе на опорном изображении. Псевдорасстояние может быть собственно расстоянием, оцененным расстоянием, полученным, например, стереосогласованием, или индексом, соответствующим такому расстоянию.

В соответствии с вышеупомянутым способом, даже когда явное расстояние от камеры до отображаемого объекта не может быть получено, компенсация параллакса с использованием параметра расстояния может быть выполнена путем передачи параметра, который использовался в компенсации параллакса на стороне кодирования, на сторону декодирования.

В предпочтительном варианте для типичного примера этап определения псевдорасстояния включает в себя:

определение предполагаемого вектора параллакса в пиксельном пространстве, причем конечная точка вектора является соответствующей точкой на целевом изображении, которая вычисляется на основе ожидаемого псевдорасстояния, определенного путем оценивания возможного значения и позиционного соотношения между камерами, и начальная точка вектора определяется в пикселе на опорном изображении, для которого предоставляется оцененное псевдорасстояние;

определение оцененного целевого прогнозного вектора, получаемого путем округления конечной точки оцененного вектора параллакса до целочисленного пиксельного положения;

определение оцененного целевого опорного вектора, имеющего ту же самую начальную точку, что и у оцененного вектора параллакса, и тот же самый размер и направление, что и у вектора разности между оцененным целевым прогнозным вектором и ожидаемым вектором параллакса; и

установку псевдорасстояния на оцененное псевдорасстояние, которое создает минимальную полную сумму ошибок предсказания, полученную, когда предсказание изображения между камерами с использованием оцененного целевого прогнозного вектора и оцененного целевого опорного вектора применяется к каждому целевому изображению, полученному фотографированием отображаемого объекта в едином состоянии.

Таким образом, на этапе определения псевдорасстояния, (i) оцененный вектор параллакса определяется посредством процесса, подобного выполняемому на этапе определения вектора параллакса, (ii) оцененный целевой прогнозный вектор определяется посредством процесса, подобного выполняемому на этапе определения целевого прогнозного вектора, и применяется к оцененному вектору параллакса, (iii) оцененный целевой опорный вектор определяется посредством процесса, подобного выполняемому на этапе определения целевого опорного вектора, и применяется к оцененному вектору параллакса и оцененному целевому прогнозному вектору, и (iv) псевдорасстояние устанавливается на оцененное псевдорасстояние, которое создает минимальную полную сумму ошибок предсказания, полученную, когда предсказание изображения с использованием оцененного целевого прогнозного вектора и оцененного целевого опорного вектора применяется к каждому целевому изображению, полученному фотографированием объекта в едином состоянии.

Метод округления для получения оцененного целевого прогнозного вектора может быть методом исключения десятичной части или методом округления целевого значения до ближайшего целочисленного пиксела, где выбранный метод должен совпадать с соответствующим процессом, выполняемым при компенсации параллакса.

Когда расстояние от камеры до отображаемого объекта для пиксела предоставлено, можно предположить, что расстояние от камеры до отображаемого объекта для положения, которое несколько смещено от пиксела, является почти тем же самым, что и расстояние, предусмотренное для пиксела; однако эти два расстояния не всегда совершенно совпадают друг с другом. Поэтому, даже когда используется псевдорасстояние, которое является чрезвычайно близким к фактическому расстоянию (не упоминая случай использования подходящего псевдорасстояния), компенсация параллакса может быть выполнена с использованием соответствующей точки, которая создает большую ошибку предсказания.

Однако в настоящем изобретении используется псевдорасстояние, которое создает ошибку предсказания (для компенсации параллакса) меньше, чем та, которая создается при использовании других расстояний. Поэтому можно предотвратить использование соответствующей точки, которая создает большую ошибку предсказания, в компенсации параллакса, таким образом обеспечивая высокую эффективность кодирования.

Дополнительно, может быть получено псевдорасстояние для минимизации стоимости искажения скорости, где стоимость искажения скорости вычисляется путем добавления соответствующей ошибки предсказания к значению, полученному умножением предсказанного значения величины кода, необходимого для кодирования псевдорасстояния, на определенный вес. Полученное псевдорасстояние более предпочтительно с учетом эффективности кодирования, хотя оно может увеличить ошибку предсказания.

Если искажение возникает в кодировании псевдорасстояния, то декодированное псевдорасстояние, которое получено декодированием кодированного псевдорасстояния, может использоваться как расстояние на этапе определения вектора параллакса, так что сторона кодирования и сторона декодирования могут использовать те же самые параметры, тем самым предотвращая дрейф, который является искажением кодирования.

В другом предпочтительном примере для типичного примера способ кодирования изображений может дополнительно содержать:

этап установки разделения на области, для установки разделения на области на опорном изображении, причем:

на этапе определения псевдорасстояния псевдорасстояние определяется для каждой области, установленной на этапе установки разделения на области; и

на этапе кодирования псевдорасстояния псевдорасстояние кодируется для каждой области, установленной на этапе установки разделения на области.

В большинстве случаев, расстояние от камеры до отображаемого объекта не изменяется так часто в изображении, и, соответственно, ограниченная область имеет то же самое значение расстояния. Поэтому число псевдорасстояний, подлежащих кодированию, может быть сокращено путем установки соответствующего разделения на области, и определения, и кодирования псевдорасстояния для каждой разделенной области, тем самым уменьшая соответствующий объем кода.

В таком случае данные, которые указывают разделение на области, должны также кодироваться и передаваться к стороне декодирования. Если все опорное изображение было подвергнуто разделению на области, и каждая разделенная область была закодирована вместе с данными разделения на области, которые указывают разделение на области, то разделение на области для определения каждого псевдорасстояния может совпадать с разделением на области в соответствии с данными разделения на области, включенными в кодированные данные опорного изображения, таким образом опуская кодирование данных разделения на области для псевдорасстояния.

В разделении на области для кодирования изображения форма каждой разделенной области часто соответствует форме каждого отображаемого объекта. Кроме того, расстояние от камеры до отображаемого объекта должно иметь почти то же самое значение в каждом отображаемом объекте. Поэтому объем кода, требуемого для данных разделения на области, может быть эффективно уменьшен за счет вышеописанного совпадения для данных разделения на области.

Однако разделение на области для кодирования изображения может быть установлено с учетом различия в текстуре (или внешнем виде). Поэтому может возникнуть различие между разделением на области для кодирования изображения и разделением на области, которое создает псевдорасстояние, соответствующее каждому соответствующему расстоянию. В таком случае, когда кодируются только данные, которые указывают различие, можно предотвратить создание большого объема кода, обусловленного кодированием, по отношению к разделению на области на всем изображении, и также может быть предотвращено ухудшение эффективности предсказания из-за ошибки в разделении на области.

Дополнительно, расстояние от камеры до отображаемого объекта не изменяется значительно между смежными пикселами и областями с учетом пространственных характеристик отображаемого объекта в фактическом пространстве. Соответственно, при кодировании псевдорасстояния, может быть выбрано уже закодированное псевдорасстояние, и могут кодироваться данные, которые указывают уже закодированное псевдорасстояние, и разность между целевым расстоянием для кодирования и выбранным псевдорасстоянием, чтобы уменьшить объем кода, требуемого для кодирования псевдорасстояния.

Кроме того, набор псевдорасстояний, предусмотренных для опорного изображения, может рассматриваться как изображение. Поэтому такое изображение может кодироваться с использованием способа кодирования изображения, такого как JPEG или 2000 JPEG, чтобы эффективно кодировать псевдорасстояние.

Расстояние от камеры до отображаемого объекта также не изменяется значительно во времени. Поэтому, когда видеоизображения с множеством точек зрения кодируются с применением способа согласно настоящему изобретению для набора изображений, полученных в то же самое время, набор псевдорасстояний для каждого времени может рассматриваться как изображение, и набор таких изображений может рассматриваться как видеоизображение. В таком случае все псевдорасстояния могут кодироваться с использованием способа видеокодирования, такого как MPEG-2 или H.264/AVC, чтобы эффективно кодировать псевдорасстояние.

На вышеупомянутом этапе определения целевого прогнозного вектора целевой прогнозный вектор может быть определен как вектор, каждый компонент которого является целым кратным размера блока для кодирования, где целое кратное является ближайшим к соответствующему компоненту вектора параллакса.

Чтобы осуществить высокоэффективное кодирование всех видеоизображений с множеством точек зрения, остаток компенсации параллакса должен быть высокоэффективно закодирован при уменьшении объема кода псевдорасстояния. Таким образом, при оценивании псевдорасстояния для каждого блока, подлежащего обработке в соответствующем кодировании, необходимо учитывать не только объем кода, требуемого для кодирования псевдорасстояния, а также объем кода, требуемого для остатка блока, который был подвергнут компенсации параллакса с использованием соответствующего псевдорасстояния. Однако блок, подвергнутый компенсации параллакса с использованием псевдорасстояния, предоставленного целевому блоку (для кодирования) на опорном изображении, может продолжаться по множеству блоков (подлежащих обработке) на целевом изображении для кодирования. В таком случае очень трудно оценить объем кода, требуемого для остатка при компенсации параллакса для соответствующего блока, и, таким образом, невозможно точно выполнить оптимизацию для реализации высокоэффективного кодирования.

В противоположность этому, если целевой прогнозный вектор определен как вектор, каждый компонент которого является целым кратным размера блока для кодирования, причем целое кратное является ближайшим к соответствующему компоненту вектора параллакса, как описано выше, затем обеспечивается, что блок (на целевом изображении для кодирования), подвергнутый компенсации параллакса, всегда совпадает с блоком, подлежащим обработке в кодировании. Поэтому объем кода, необходимого для кодирования остатка компенсации параллакса для соответствующего блока, может быть вычислен с учетом способа кодирования для остатка компенсации параллакса. В результате, в принципе, может быть выполнено высокоэффективное кодирование изображения с множеством точек зрения.

При кодировании (или декодировании) видеоизображения с множеством точек зрения набор соответствующих кадров, принадлежащих тому же самому времени, может рассматриваться как изображения с множеством точек зрения, к которым может быть применен способ кодирования (или декодирования) изображений, соответствующий настоящему изобретению.

Дополнительно, для видеоизображений с множеством точек зрения все изображение может кодироваться не только с использованием способа кодирования изображений согласно настоящему изобретению, но также путем соответствующего выбора другого способа, такого как компенсация движения, которая использует временную корреляцию, для каждой цели кодирования, таким образом улучшая эффективность кодирования.

Эффект изобретения

В соответствии с настоящим изобретением возможно точно вычислить десятичное пиксельное положение на опорном изображении, которое соответствует целочисленному пиксельному положению на целевом изображении для кодирования, с низкими затратами, с использованием данных соответствующих точек на целевом изображении, которое предоставлено на основе целочисленных пиксельных положений на опорном изображении. Поэтому возможно реализовать компенсацию параллакса для меньшего параллакса и, таким образом, высокоэффективное кодирование изображения целых изображений с множеством точек зрения.

Краткое описание чертежей

Фиг.1 - диаграмма, показывающая отношения между векторами в настоящем изобретении.

Фиг.2 - диаграмма, показывающая пример структуры устройства кодирования изображения в качестве варианта осуществления настоящего изобретения.

Фиг.3 - блок-схема, показывающая процесс кодирования изображения устройством кодирования изображения.

Фиг.4 - блок-схема, показывающая процесс формирования изображения расстояния блоком формирования изображения расстояния.

Фиг.5 - блок-схема, показывающая процесс формирования изображения, скомпенсированного по параллаксу, блоком формирования изображения, скомпенсированного по параллаксу.

Фиг.6 - диаграмма, показывающая пример структуры устройства декодирования изображения в качестве варианта осуществления настоящего изобретения.

Фиг.7 - блок-схема, показывающая процесс кодирования изображения устройством декодирования изображения.

Фиг.8 - схематичное представление, показывающее принцип параллакса, генерируемого между камерами.

Фиг.9 - схематичное представление, показывающее принцип ограничения эпиполярной геометрии.

Фиг.10 - диаграмма для пояснения того, что соответствующие точки могут быть получены между множеством камер, когда предоставляется расстояние от одной из камер до отображаемого объекта.

Лучший режим выполнения изобретения

Ниже настоящее изобретение будет объяснено подробно в соответствии с его вариантами осуществления.

Во-первых, принцип настоящего изобретения будет объяснен со ссылками на фиг.1.

На первом этапе, для каждого пиксела в опорном изображении, соответствующая точка в целевом изображении для кодирования определяется путем обращения к расстоянию (назначенному каждому пикселу в опорном изображении) от камеры до отображаемого объекта и позиционного соотношения между камерами.

На этом этапе вектор, который определен в пиксельном пространстве и имеет начальную точку в пикселе в опорном изображении и конечную точку в соответствующем пикселе в целевом изображении для кодирования, называется "вектором параллакса". В этом случае, начальная точка вектора параллакса всегда определяется в целочисленном пиксельном положении, в то время как его конечная точка не всегда определяется в целочисленном пиксельном положении.

Затем, для каждого вектора параллакса, вычисляется вектор, имеющий ту же самую начальную точку, что и вектор параллакса, где десятичные части горизонтальных и вертикальных компонентов вычисленного вектора опускаются, и этот вектор называется "целевым прогнозным вектором".

Целевой прогнозный вектор присутствует в прямоугольнике, определенном начальной и конечной точками соответствующего вектора параллакса (то есть прямоугольник, диагональ которого представляет собой вектор параллакса и который определяется координатами начальной и конечной точек в координатной плоскости), и имеет конечную точку, определенную в целочисленном пиксельном положении, ближайшем к конечной точке вектора параллакса.

На следующем этапе, для каждого вектора параллакса, вычисляется вектор, который также имеет ту же самую начальную точку, что и у вектора параллакса, причем размер и направление вычисленного вектора равны соответствующим параметрам вектора, который получен вычитанием соответствующего вектора параллакса из целевого прогнозного вектора, вычисленного на предыдущем этапе. Текущий вычисленный вектор называется "целевым опорным вектором", и его конечная точка не всегда определяется в целочисленном пиксельном положении.

В настоящем изобретении для каждого набора целевого прогнозного вектора и целевого опорного вектора, которые вычислены, как описано выше, значение положения (на опорном изображении), указанного целевым опорным вектором, используется как предсказанное значение пиксельного положения (указанное целевым прогнозным вектором) на целевом изображении для кодирования, таким образом, реализуя предсказание изображения между соответствующими камерами.

В настоящем изобретении каждая соответствующая точка определяется, основываясь на предположении, что расстояние от камеры до отображаемого объекта в положении, которое лишь незначительно смещено от пиксела, является почти тем же самым, что и расстояние от камеры до отображаемого объекта в пикселе. Таким образом, чем проще форма расстояния от камеры до отображаемого объекта, тем более точным является предсказание изображения.

Напротив, вышеописанные второй и третий способы (которые могут быть легко ожидаемыми) используют предположение, что текстур

Способ кодирования и способ декодирования изображений, устройства для них, программа для них и носитель информации для хранения программ

Патент 2407220