Устройства и способы для кодирования и декодирования hdr-изображений
Иллюстрации
Показать всеИзобретение относится к вычислительной технике. Технический результат заключается в повышении эффективности кодирования яркостей. Блок кодирования изображений, выполненный с возможностью кодирования изображения с расширенным динамическим диапазоном, содержит первый приемник для приема меньшего динамического диапазона; первый блок кодового отображения, выполненный с возможностью кодирования в первом изображении всех пикселей изображения с расширенным динамическим диапазоном с яркостями в меньшем динамическом диапазоне; второй приемник для приема максимальной избыточности, которая задает, до какой величины нужно снова избыточно кодировать яркости, уже кодированные в первом изображении; блок обработки изображений, выполненный с возможностью определения на основе максимальной избыточности, какие пиксели изображения с расширенным динамическим диапазоном нужно кодировать во втором изображении; второй блок кодового отображения, выполненный с возможностью кодирования во втором изображении яркостей пикселей изображения с расширенным динамическим диапазоном, которые нужно кодировать во втором изображении; и средство форматирования, выполненное с возможностью вывода первого и второго изображений в виде кодированного выходного сигнала. 7 н. и 9 з.п. ф-лы, 10 ил.
Реферат
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Изобретение относится к устройствам и способам и результирующим изделиям типа изделий для хранения данных или кодированных сигналов для усовершенствованного кодирования изображений, в частности, изображений HDR-сцен.
УРОВЕНЬ ТЕХНИКИ ИЗОБРЕТЕНИЯ
В последнее время произошли новые события касательно кодирования изображений/видеоизображений (захваченных сцен либо компьютерной графики), а именно, желательно захватывать полнее весь диапазон яркостей и цветов объекта, возникающих в природе, что называется HDR-кодированием (расширенный динамический диапазон). По нескольким причинам по меньшей мере в течение некоторого количества лет в будущем может быть нужен некий вид обратной совместимости, что означает, что должны быть доступны данные так называемого кодирования с малым динамическим диапазоном (LDR), в частности, способом, которым они были доступны всегда. Кроме того, как будет показано в этом тексте, это может пригодиться даже в отдаленной перспективе. Автор изобретения понял, что основная причина для наличия LDR-кодирования состоит в том, что хотя появляются устройства отображения с неизменно увеличивающимся динамическим диапазоном (высший класс), также имеется значительный сегмент устройств отображения с малым динамическим диапазоном (например, переносные при внешнем применении, проекционные и т.п.).
Захват и кодирование HDR-сцены могут казаться простыми, а именно: всего лишь навести линейный формирователь сигналов изображения, например CCD или CMOS, на HDR-сцену и непосредственно записать линейный цветовой сигнал, включающий в себя информацию о яркости (обратим внимание, что если нет технической путаницы, то можно использовать яркость и цвет как синонимы и говорить, например, о ярком цвете, когда фактически это сильная яркостная компонента). Однако последовательность формирования HDR-изображений сложнее, поскольку в конечном счете данные HDR-изображения приходится визуализировать на устройстве визуализации, например телевизоре, и визуализация и исходная сцена наблюдаются очень сложной психовизуальной системой человеческого зрения, принимающей во внимание все виды относящихся к изображению и окружающих условий и даже другие условия, например настроение зрителя, биологические факторы и т.п.
Физически (колориметрически) солнечное небо в наружной сцене (вне помещения) может обладать яркостью в 6000 нит, а объект в сцене - 300 нит (коэффициент контрастности CR равен 20:1). Только тот объект можно “правдиво” визуализировать на стандартном телевизоре, например, с белым цветом в 500 нит (если в качестве упрощенного стандарта правдивости используется точное повторение яркости, хотя, даже не учитывая возможности устройства визуализации, такое значение кодирования яркости или стратегия визуализации, в принципе, сами по себе не означают ничего, поскольку также вовлекается зрительное состояние человека, то есть, среди прочего, окружение просмотра, которое может сообщать конкретной визуализированной яркости различные фактические ощущения светлоты, которые зависят даже от таких условий, как значения цвета у пикселей изображения, окружающих визуализированный объект, и т.п.). Чего можно фактически добиться на практике в качестве смягченного критерия качества визуализации, так это “реалистичности” (например, если солнечное небо сравнительно визуализируется на телевизоре в гостиной в 20 раз ярче, чем объект, то независимо от того, какие фактические абсолютные яркости визуализируются на устройстве отображения, изображение может считаться достаточно реалистичным). Теперь ту же самую сцену также нужно визуализировать реалистично (то есть правдоподобно интерпретируемой мозгом как солнечная наружная сцена) в кинотеатре с белым цветом экрана только в 25 нит и коэффициентом контрастности/динамическим диапазоном 200:1 (внутри кадра).
Все становится интереснее при захвате HDR-сцен с высокими коэффициентами контрастности, например, составных сцен с разными субокружениями. Например, поскольку внешнее освещение без труда может быть от 100 до 1000 раз ярче, чем внутреннее (например, когда камера устанавливается в длинном темном коридоре, смотрящая через окно на внешнее солнечное субокружение), можно получить в одной и той же захваченной сцене пиксели изображения, представляющие внутренние объекты в 4 нит и внешние объекты в 4000 нит. Этот коэффициент контрастности уже может быть на пределе того, что способны захватить линейно многие формирователи сигналов изображения (максимальная польза в сравнении с шумом), но он определенно выше динамического диапазона многих технологий визуализации (например, просмотр телевизора в светлой обстановке и печать имеют динамический диапазон приблизительно в 40:1). С другой стороны, также можно представить, например, что мозг человека в действительности не настолько заботится о том, является ли источник света (точно) в 20 или 1000 раз ярче, чем отражающий белый объект в сцене, при условии, что он достоверно выглядит как яркий источник света при визуализации. Поэтому, видимо, имеется область конфликта между математикой простого линейного света со стороны захваченной сцены, с одной стороны (обратим внимание, что игнорируются такие проблемы, как гамма 0,45, и она рассматривается в связи с инверсией на стороне устройства отображения все же как по существу линейно связанная цепочка сигналов), и сложным нелинейным характером воспроизведения изображения для просмотра человеком на стороне визуализации. Это также может создать область конфликта для создания промежуточных технологий, например технологий кодирования изображений или видеоизображений, преобразования изображений вроде, например, улучшения изображений и т.п.
Не говоря уже о том, как захватить все возможные сцены (игнорируя для этого такие проблемы, как блик в объективе, маскирующий запись темных областей, и т.п.), хорошее кодирование изображения должно “достаточно” (то есть реалистично, например достоверно) представлять все эти естественные или искусственно сформированные сцены (а изображения могут принадлежать ко многим типам, от малоконтрастных подводных сцен до захватов ледяных структур, которые требуют высокой точности, световых и лазерных шоу с высокой освещенностью в записях концертов, до даже сформированных компьютером изображений горящих инопланетных миров или инфографики в научных программах и т.п.). "Достаточно" означает, что имеется по меньшей мере достаточная подробная информация о представленных объектах сцены, чтобы сделать возможным реалистичную визуализацию большей части сцены (то есть визуализированная сцена выглядит вполне аналогичной исходной сцене, по меньшей мере для важных частей/объектов сцены, по меньшей мере насколько это позволяет технология визуализации в соответствии с критериями качества, например, чтобы объекты в сцене можно было легко распознавать, или чтобы сцена передавала некоторое настроение и т.п.). И предпочтительно, чтобы информация об объекте дополнительно кодировалась в легко управляемой структуре, например для обработки изображений или совместного использования между несколькими устройствами или приложениями, и т.п.
Кроме того, в частности, вместо оптимального кодирования самого HDR-изображения существует потребность в кодировании HDR-изображения в отношении LDR-представления более низкого качества той же сцены (и это LDR-изображение может визуализироваться как желаемое, или по меньшей мере приемлемое, на устройствах LDR-визуализации). Отметим, что в известном уровне техники HDR-изображение геометрически является фактически таким же изображением/захватом, как и LDR-изображение, хотя можно предусмотреть схемы HDR-кодирования, кодирующие только информацию HDR о той же сцене, то есть, например, другое изображение типа другого вида сцены. Автор изобретения понял, что наличие нескольких доступных разновидностей кодирования сцены, например LDR-разновидности, делает возможным более простую обработку данных на стороне использования, например, более простое отображение в значения управления устройством отображения у LDR-устройства отображения.
Известный уровень техники изучил некоторые методики HDR-кодирования на основе некоторого вида идеи масштабируемого кодирования, в которой с помощью некоторого предсказания уточняется точность кодированной с LDR локальной текстуры, или говоря точнее, проецируется на HDR-версию той текстуры, а затем разность исходного HDR-изображения с предсказанием совместно кодируется в качестве изображения улучшения до нужной степени. Например, можно представить значение серого HDR в 1168 с помощью деления (которое не только нормализует к новому диапазону, но посредством этого, как правило, также уменьшает точность) на 8 до значения 146. Это значение HDR можно воссоздать опять путем умножения на 8, но поскольку значение 1169 квантуется до того же значения 146 базового уровня, то требуется значение улучшения, равное 1, чтобы иметь возможность воссоздать высококачественный HDR-сигнал. Пример такой технологии описывается в патенте EP2009921 [Liu Shan и др., Mitsubishi Electric: Method for inverse tone mapping (by scaling and offset)]. Теоретически для этих кодеков модель предсказания обратного тонального отображения (которая является более интеллектуальным эквивалентом стандартного умножителя) должна быть достаточно точной, чтобы уже выдавать довольно точный HDR-вид, к которому применяются незначительные корректировки (на самом деле, если проецировать диапазон возможных значений на другой диапазон с использованием нелинейной функции, значения исходного диапазона должны быть восстанавливаемыми, не говоря уже о проблемах точности).
Техническая проблема с текущими HDR-кодированиями состоит в том, что в связи со многими задаваемыми применениями потребностями кодирования (не только классический критерий сжатия изображений по наличию небольшого объема описательных информационных разрядов в сравнении с хорошим визуальным качеством всех сложных текстур объекта сцены, но также, например, простота использования кодированных данных по меньшей мере в некоторых из сценариев использования) существует потребность в наличии кодирований, которые не полагаются на такой сценарий предсказания. В частности, кодирования могут быть желательны для систем, которые уже имеют доступную структуру данных с сутью, аналогичной кодированиям двух изображений или их виду (например, 3D-кодирование, например, на дисках Blu-ray или в трансляции, имеет левое и правое изображение). Эти изображения могут иметь одинаковую структуру (например, 1920×1080 пикселей, 8 разрядов и т.п.) или разные структуры (например, 1920×1080 пикселей и 8 разрядов в первом изображении и 720×576 пикселей и 12 разрядов во втором изображении).
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Простое и легко применимое кодирование HDR-изображений можно реализовать с помощью идей вариантов осуществления нашего изобретения, следующих принципам, связанным с блоком кодирования изображений (551), выполненным с возможностью кодирования сигнала изображения с расширенным динамическим диапазоном (IM_HDR-in), содержащим:
- первый приемник (901) для приема меньшего динамического диапазона (SELR);
- первый блок кодового отображения (904), выполненный с возможностью кодирования в первом изображении (Im_1) всех пикселей сигнала изображения с расширенным динамическим диапазоном (IM_HDR-in) с яркостями в меньшем динамическом диапазоне (SELR);
- второй приемник (902) для приема максимальной избыточности (MAXRED), которая задает, до какой величины нужно снова избыточно кодировать яркости, уже кодированные в первом изображении (Im_1);
- блок обработки изображений (903), выполненный с возможностью определения на основе максимальной избыточности (MAXRED), какие пиксели сигнала изображения с расширенным динамическим диапазоном (IM_HDR-in) нужно кодировать во втором изображении (Im_2);
- второй блок кодового отображения (905), выполненный с возможностью кодирования во втором изображении (Im_2) яркостей пикселей сигнала изображения с расширенным динамическим диапазоном (IM_HDR-in), которые нужно кодировать во втором изображении (Im_2); и
- средство форматирования (906), выполненное с возможностью вывода первого и второго изображения в виде кодирования S(Im_1, Im_2) с расширенным динамическим диапазоном.
Хотя может иметь место некоторое перекрытие яркостей, которые кодируются в обоих изображениях, определенное максимальной избыточностью, основное намерение состоит в том, что второй блок 905 кодового отображения кодирует в Im_2 преимущественно те яркости у IM_HDR_in, которые еще не кодированы в Im_1 или по меньшей мере кодированы не точно, например, потому что широкий диапазон захвата сцены или яркостей исходного RAW HDR-изображения был представлен только несколькими кодами в Im_1. В принципе, благодаря вложенному характеру диапазонов яркости уже будут кодированы все объекты сцены с яркостями, входящими в диапазон яркости LDR. И если они достаточно кодированы, их больше не нужно кодировать в информации HDR второго изображения, то есть там будет максимальная избыточность. Однако наличие доступных структур данных двух изображений действительно допускает очень высокий уровень универсальности для сортировщика, например, на участке постпроизводства фильма. Он может, например, решить кодировать темные части сцены в LDR-сигнале очень приблизительно (например, путем отсечения или приблизительного представления только по нескольким отличительным кодовым значениям), а затем решить записать те же объекты сцены или области значительно усовершенствованным способом во втором изображении. Распределение может происходить по другим причинам, нежели исключительно информационно-техническое хранение лежащих в основе текстур объекта сцены, то есть он может сообщить дополнительную информацию в кодированиях двух изображений, например другую сортировку, которая должна быть использована для некоторых более темных или более ярких областей на HDR-устройствах отображения. Тогда как кодирование одиночного изображения, требующее одного значения яркости на пиксель, может содержать только двойную кодификацию некоторых областей сцены с помощью, например, способа чередующихся пикселей с пространственной субдискретизацией (first_grade_luma, second_grade_luma, first_grade_luma, …), наличие двух или более доступных запоминающих устройств изображений для представления сцены делает возможным еще более универсальные стратегии кодирования и соответствующие применения. Максимальная избыточность также может быть, например, структурой, предписывающей кодировать пару конкретных ключевых яркостей в обоих изображениях, например, для идентификации включенных объектов.
Дополнительными вариантами осуществления, разновидностями и альтернативными реализациями, содержащими некоторые идеи настоящего изобретения, среди прочего, являются:
Блок кодирования изображений, в котором максимальная избыточность (MAXRED) содержит задания уровней яркости, и блок обработки изображений (903) выполнен с возможностью сравнения яркостей изображения с расширенным динамическим диапазоном (IM_HDR-in) с заданиями уровней яркости и определения из этого, какие пиксели изображения с расширенным динамическим диапазоном (IM_HDR_in) нужно кодировать во втором изображении (Im_2).
Блок кодирования изображений, в котором первый блок кодового отображения (904) дополнительно выполнен с возможностью определения, предпочтительно по согласованию с блоком определения диапазона (950), кодирования яркостей изображения с расширенным динамическим диапазоном (IM_HDR_in) в первом изображении (Im_1) в соответствии с критерием качества (Qcrit) у качества визуализации данных, кодированных в Im_1, на эталонном LDR-устройстве отображения. Может использоваться несколько критериев качества, чтобы уравновесить такие проблемы, как лучшая визуализация, кодирование с большей эффективностью, более простая повторная сортировка на принимающей стороне и т.п.
Конечно, также можно рассматривать - что кодировать или пропускать и как это кодировать в ярком/темном дополнительном HDR-контенте, на основе дополнительных критериев качества, например Qcrit2, касательно HDR-контента или HDR-вида. Например, при кодировании для конкретной технической системы можно принимать во внимание, какие виды HDR-эффектов можно точно визуализировать на конкретном устройстве отображения, и кодировать второе изображение с учетом этого.
Блок кодирования изображений, в котором второй блок кодового отображения (905) дополнительно содержит блок геометрической оптимизации (960), выполненный с возможностью применения геометрического преобразования для кодирования данных для второго изображения (Im_2) при реализации второго изображения (Im_2), которое меньше по размеру и/или появляется реже во времени, чем первое изображение (Im_1). Это позволяет увеличить сжатие.
Блок кодирования изображений, в котором первый блок кодового отображения (904) и второй блок кодового отображения (905) выполнены с возможностью применения соответствующих тональных отображений TM1 и TM2, которые оптимизируются в соответствии с эффективностью кодирования и/или визуальным качеством визуализации.
Блок кодирования изображений, в котором первый блок кодового отображения (904) выполнен с возможностью создания первого изображения (Im_1) с длиной слова на пиксель в 8 разрядов, а второй блок кодового отображения (905) выполнен с возможностью создания второго изображения (Im_2) с длиной слова на пиксель в 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15 или 16 разрядов, но предпочтительно 8 разрядов. Очень выгодно, если первая (применимая для LDR-визуализации) структура изображения является классической, например 8-разрядным MPEG2, однако идеи настоящего изобретения, конечно, также работают при других определениях для первой структуры изображения (например, может быть выбрано кодирование преобладающей информации LDR в 6-разрядном приближении или в любой 10-разрядной структуре путем всего лишь заполнения меньших кодовых значений, линейного расширения, использования определяющей кодовое значение гамма-функции и т.п., и любое средство может использоваться для создания дополнительных кодовых значений, например линейная интерполяция, оставление некоторых промежуточных кодовых значений пустыми, применение функций восстановления текстур компьютерной графики и т.п.).
Настоящие варианты осуществления могут использоваться со многими уже существующими форматами контейнеров для кодирования изображений, в частности, где память или каналы передачи данных допускают разумное использование пропускной способности, например, кодированные HDR-данные могут храниться в системах, которые обладают уже заданной двойной структурой кодирования изображений, например для 3D-приложений.
Блок кодирования изображений, в котором средство форматирования (906) выполнено с возможностью передачи первого изображения (Im_1) и второго изображения (Im_2) по отдельным каналам связи, например Im_1 в виде сигнала кабельного телевидения, a Im_2 по запросу по Интернет-соединению.
Блок кодирования изображений (1051), выполненный с возможностью кодирования изображения с расширенным динамическим диапазоном (IM_HDR-in), содержащий:
- приемник (1075) для приема изображения с расширенным динамическим диапазоном (IM_HDR-in) и первого изображения (Im_1_in), кодирующего яркости в меньшем динамическом диапазоне, расположенном в большем динамическом диапазоне упомянутого изображения с расширенным динамическим диапазоном (IM_HDR-in);
- блок обработки изображений (1003), выполненный с возможностью определения максимальной избыточности (MAXRED), которая задает, до какой величины нужно снова избыточно кодировать яркости, уже кодированные в первом изображении (Im_1_in), и содержащий селектор (1033), выполненный с возможностью определения на основе максимальной избыточности (MAXRED), какие пиксели изображения с расширенным динамическим диапазоном (IM_HDR-in) нужно кодировать во втором изображении (Im_2);
- второй блок кодового отображения (1005), выполненный с возможностью кодирования во втором изображении (Im_2) яркостей пикселей изображения с расширенным динамическим диапазоном (IM_HDR_in), которые нужно кодировать во втором изображении (Im_2); и
- средство форматирования (906), выполненное с возможностью вывода первого и второго изображения в виде кодирования S(Im_1, Im_2) с расширенным динамическим диапазоном.
Блок декодирования изображений (651), выполненный с возможностью декодирования кодирования S(Im_1, Im_2) с расширенным динамическим диапазоном, в котором Im_2 содержит данные яркостей вне диапазона яркостей, кодированных в Im_1, содержащий:
- приемник (688) для получения первого изображения (Im_1) и второго изображения (Im_2) из кодирования S(Im_1, Im_2) с расширенным динамическим диапазоном; и
- блок цветового отображения (612), выполненный с возможностью применения первого обратного кодового отображения TMI1 соответственно второго обратного кодового отображения TMI2 к яркостям, кодированным в первом изображении (Im_1) соответственно втором изображении (Im_2), чтобы получить декодированное выходное HDR-изображение (Im_d), при помощи чего второе обратное кодовое отображение TMI2 отображается в яркости декодированного выходного HDR-изображения (Im_d) вне диапазона яркостей, в который осуществляет отображение первое обратное кодовое отображение TMI1.
Блок декодирования изображений (651), в котором приемник (688) выполнен с возможностью извлечения информации первого обратного кодового отображения TMI1 или второго обратного кодового отображения TMI2 из метаданных (MET), кодированных в кодировании S(Im_1, Im_2, MET) с расширенным динамическим диапазоном.
Блок декодирования изображений (651), содержащий блок геометрического отображения (611), выполненный с возможностью применения геометрического преобразования к данным в Im_2 перед выполнением второго обратного кодового отображения TMI2.
Блок декодирования изображений (651), в котором блок цветового отображения (612) дополнительно выполнен с возможностью применения дополнительных тональных отображений к данным яркости, независимо кодированным в первом изображении (Im_1) и втором изображении (Im_2).
Способ кодирования изображений для кодирования изображения с расширенным динамическим диапазоном (IM_HDR-in), содержащий:
- прием меньшего динамического диапазона (SELR);
- кодирование в первом изображении (Im_1) всех пикселей изображения с расширенным динамическим диапазоном (IM_HDR-in) с яркостями в меньшем динамическом диапазоне (SELR);
- прием максимальной избыточности (MAXRED), которая задает, до какой величины нужно снова избыточно кодировать яркости, уже кодированные в первом изображении (Im_1);
- определение на основе максимальной избыточности (MAXRED), какие пиксели изображения с расширенным динамическим диапазоном (IM_HDR-in) нужно кодировать во втором изображении (Im_2);
- кодирование во втором изображении (Im_2) яркостей пикселей изображения с расширенным динамическим диапазоном (IM_HDR-in), которые нужно кодировать во втором изображении (Im_2); и
- вывод первого и второго изображения в виде кодирования S(Im_1, Im_2) с расширенным динамическим диапазоном.
Способ декодирования изображений для декодирования кодирования S(Im_1, Im_2) с расширенным динамическим диапазоном, в котором Im_2 содержит данные яркостей вне диапазона яркостей, кодированных в Im_1, содержащий:
- получение первого изображения (Im_1) и второго изображения (Im_2) из кодирования S(Im_1, Im_2) с расширенным динамическим диапазоном; и
- применение первого обратного кодового отображения TMI1 соответственно второго обратного кодового отображения TMI2 к яркостям, кодированным в первом изображении (Im_1) соответственно втором изображении (Im_2), чтобы получить декодированное выходное HDR-изображение (Im_d), при помощи чего второе обратное кодовое отображение TMI2 отображается в яркости декодированного выходного HDR-изображения (Im_d) вне диапазона яркостей, в который осуществляет отображение первое обратное кодовое отображение TMI1.
Структура изображения, кодирующая изображение с расширенным динамическим диапазоном, содержащая:
- данные яркостей в предпочтительном более узком поддиапазоне (Sel(L_sc)_LDR) расширенного динамического диапазона (Sel(L_sc)_HDR), кодируемые в первом изображении (Im_1); и
- данные яркостей вне предпочтительного более узкого поддиапазона (Sel(L_sc)_LDR) расширенного динамического диапазона (Sel(L_sc)_HDR), кодируемые во втором изображении (Im_2),
- где предпочтительный более узкий поддиапазон (Sel(L_sc)_LDR) предпочтительно выбирается для обеспечения хорошей визуализации первого изображения (Im_1) на эталонном устройстве отображения с малым динамическим диапазоном в соответствии с критерием качества (Qcrit) для качества визуализации данных, кодированных в Im_1, на эталонном устройстве отображения с малым динамическим диапазоном.
Предпочтительный более узкий поддиапазон (Sel(L_sc)_LDR) обычно может быть тем, что оптимально выбирается сортировщиком, например при создании DVD- или BD-версии, начинающемся с цифровой основной сортировки, но также может определяться автоматически, например транскодером, например по исключительно техническим критериям, таким как эффективность кодирования в сравнении с визуальным качеством и влиянием. В любом случае это число, которое определяет диапазон яркостей, который затем используется дальнейшими частями нижеприведенных способов, реализующих структуры кодирования, которые нужно, например, записать на один или несколько BD или отправить по каналу связи.
Носитель информации, содержащий кодирование изображений по любому из представленных разновидностей.
Компьютерный программный продукт, содержащий средства кода, позволяющие вычислительному блоку выполнять любой из описанных способов.
Конечно, возможны многие дополнительные разновидности нижеописанных вариантов осуществления, и специалист понимает, что их можно, например, реализовать в разных устройствах в разных географических регионах мира, применяя их частичные функциональные возможности в разные моменты времени или в несколько моментов друг за другом, и т.п.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Эти и другие особенности способа и устройства согласно изобретению станут очевидными и разъясненными со ссылкой на описанные ниже реализации и варианты осуществления и со ссылкой на прилагаемые чертежи, которые служат только как неограничивающие конкретные иллюстрации, иллюстрирующие более общую идею, и в которых тире используются для указания, что компонент является необязательным, а не отмеченные тире компоненты не обязательно являются существенными. Тире также могут использоваться для указания, что элементы, которые объясняются как неотъемлемые, спрятаны внутри объекта, или для неосязаемых сущностей, например выборок объектов/областей (и как их можно показать на устройстве отображения).
На чертежах:
Фиг. 1 схематически иллюстрирует сцену с расширенным динамическим диапазоном яркостей, чтобы объяснить некоторые проблемы и то, как с ними справляются нижеприведенные варианты осуществления;
Фиг. 2 схематически иллюстрирует гистограммы яркостей в той сцене;
Фиг. 3 схематически иллюстрирует то, как варианты осуществления настоящего изобретения могут распределять разные части сцены разным кодированным изображениям;
Фиг. 4 схематически иллюстрирует тональное отображение между яркостями сцены и кодами разных кодированных изображений;
Фиг. 5 схематически иллюстрирует систему кодирующей стороны, которая может управляться, например, сортировщиком цвета;
Фиг. 6 схематически иллюстрирует систему декодирующей стороны, которая может быть, например, потребительской телевизионной системой;
Фиг. 7 схематически иллюстрирует, как система принимающей стороны будет отображать коды кодированного сигнала в нижеприведенных вариантах осуществления в диапазон декодированного изображения с расширенным динамическим диапазоном;
Фиг. 8 схематически иллюстрирует, как можно форматировать сигнал и его структуру данных, чтобы передавать информацию, разрешающую нижеприведенные принципы кодирования;
Фиг. 9 схематически иллюстрирует более подробное внутреннее устройство возможного блока кодирования; и
Фиг. 10 схематически иллюстрирует более подробное внутреннее устройство другого возможного блока кодирования.
ПОДРОБНОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Если рассматривать оптические сигналы (то есть информацию, поступающую в камеру), то можно установить разные правила в отношении того, как измерять и представлять различные свойства этих сигналов. Что касается дискретизации по времени, закон инерции обычно подразумевает, что равноудаленной дискретизации на достаточном количестве моментов времени должно быть достаточно для объективного моделирования динамически развивающейся системы, например движущегося человека. Пространственная дискретизация имеет совершенно иной характер. Фрактальный характер предмета подразумевает, что возможно придется использовать постоянно более мелко распределенные выборки (например, захват сцены с горами издалека приводит к горам, которым при ближнем рассмотрении нужны промежуточные пиксели для растительной структуры типа листьев, на которые накладываются еще более мелкие структуры с интересными подробностями, и т.п.). Однако все же можно сгруппировать такие сцены в “иерархические окружения”. Например, могут присутствовать стоящие на горе люди, и окружение может быть захвачено в их масштабе. В том окружении с акцентом на человека можно все же спорить, сколько пространственных деталей нужно для (не)желательного представления всех морщин на их лицах, однако даже при умеренном пространственном разрешении уже можно распознать, что это люди, что они делают, какое у них настроение и т.п. (очевидно, с правильного расстояния захвата это можно сделать точно с сигналом низкого разрешения типа PAL). В любом случае, по-видимому имеется тенденция к разрешениям 4K и даже 8K.
Аналогичная парадигма равноудаленной дискретизации, приводящая к набору возможных значений, применялась (так как математическое описание двумерной функции не трактует ось x функции никак иначе по сравнению с осью y) к захваченным значениям яркости (или цвета): они обычно попадают куда-нибудь в диапазон (например, значение EV 16, характерное для белых объектов в полном солнце). Однако в принципе можно сделать диапазон каким угодно большим путем определения любого нужного максимального значения. От того максимального значения (которое обычно интерпретируется как “белый”) требуется только представлять меньшие значения - линейно или нелинейно - с нужной точностью (которые также будут определять уровень черного у всего, что ниже наименьшего кода 0).
Эта парадигма является широко распространенной. Это то, как работают камеры (будь это тем, что они определяют прагматичный максимальный уровень белого из возможностей их датчика), это то, как определяется свет и цветовые пространства (например, пространство RGB телевизора определяется вниз от некоторого белого), и это также то, как устроено SNR-масштабируемое кодирование. Последнее утверждает, что обычно уже вполне достаточно, если приблизительно выразить значения яркости пикселей, и если информация по-прежнему считается недостаточной (например, потому что возникают артефакты типа полосатости), то можно точно настроить некоторые значения с большей точностью, что можно сделать путем добавления разрядов, кодирующих доли квантованных уровней (то есть кодируются микротекстурные изображения).
Однако уже видна новая проблема, возникающая с HDR-сценами: что есть эталон белого? В классическом формировании LDR-изображений это легко задается, например, освещают телевизионную студию светом с модуляцией света-темноты в 8:1, и используют белые объекты с отражением 90%, что приводит к хорошему распределению цветов/яркостей всех пикселей у студийных объектов. Однако в формировании HDR-изображений может присутствовать первый белый, который является релевантным белым, например белым в студии, второй белый субокружения снаружи, которое видно через окно, и возможно даже (гораздо) более яркие объекты. Выбор самого яркого белого непрактичен (в частности, если ограничены длины слов, например, 8 разрядами для яркостей, или ограничены возможности визуализации, то многие из релевантных объектов будут плохо визуализированы). Однако выбор промежуточного уровня белого также сложен, поскольку возникает два вопроса, а именно, где выбирать тот уровень белого, и чем является влияние невоспроизводимых яркостей объектов с большей яркостью. Это не выглядит проблемой в уравновешенных LDR-сценах, которые всегда создаются с похожим характером, используя хорошо продуманное освещение, но создает зависимую от случая проблему во многих HDR-сценах, возникающих в природе.
Однако, кажется, есть другое хорошее свойство кодирования цветов сцены, которое является чем-то аналогичным пространственным иерархическим окружениям, упомянутым выше (так же, как не нужно видеть все около горы или несовершенства лиц, если изображаются действия людей на горе), а именно, можно определить “поддиапазоны фокуса представления” в направлении значения цвета/яркости (обратим внимание: контрастируя с пространственной структурой, полный диапазон светлоты окружений обычно гораздо меньше, но он по-прежнему большой по сравнению с текущими технологиями формирования изображений, поэтому желательно разумное обращение с ним). В принципе, переформулированное таким образом, это является тем, что приходится делать, когда задают (автоматическую) экспозицию камеры и получают из нее (цифровой) сигнал, но эти системы не справлялись с возникающими далее проблемами.
Далее иллюстрируется идея с помощью типовой HDR-сцены из фиг. 1, на которой показана кухонная обстановка для рекламы некоего пищевого продукта. Несомненно, имеется основная пространственная область, соответствующая “предпочтительным” яркостям пикселей (область 101), которая охватывает большинство объектов в кухне. Это сделало ее интересным поддиапазоном яркостей, чтобы ориентировать на него представление. На фиг. 2, которая схематически (то есть отсчеты/высоты всех областей нормализуются до сходной высоты) показывает гистограмму отсчетов n(L_sc) для яркостей L_sc пикселей подобластей из фиг.1, это соответствует основному выступу 201, который обычно может иметь промежуточные яркости (обратим внимание, поскольку здесь нет путаницы, можно взаимозаменяемо говорить о яркостях пикселей изображения в сравнении с яркостями с точки зрения объектов в сценах). Представленные в цифровом виде яркости пикселей изображения будет обозначены заглавной буквой Y). В HDR-сценах, например, из-за освещения только с небольшого количества попыток также могут присутствовать темные области (102, 202), которые темнее самых темных пикселей основного выступа 201, и часто темнее того, что можно (по меньшей мере точно) представить в конкретном кодировании изображений (то есть эти пиксели могут иметь очень шумные значения цвета из-за ограничений камеры и могут попадать только на небольшое количество наименьших кодов яркости, например 0, 1 и 2). Примерная область является областью 102 тени, соответствующей темному выступу 202. Однако та область обычно не представляет большого интереса, то есть там нет важных объектов, которые нужно визуализировать отчетливо видимыми или с высоким качеством. Также могут быть области с большей яркостью, например область снаружи через окно (область 103 высокой яркости, соответствующая яркому выступу 203). Такие области высокой яркости отличаются по характеру от областей низкой яркости. Во-первых в том, что хотя она также может не содержать никаких объектов особого интереса, все же может быть желательно визуализировать ее как можно реалистичнее. Во-вторых, эти области большей освещенности в точности являются областями, где более яркие устройства отображения могут принести пользу при визуализации (по сравнению с устройствами отображения в 500 нит, 5000 нит могут показывать солнце и свет на изображении как включенный, а не тусклый, как в случае с цветами раскрашенного объекта). HDR-устройства отображения также могут визуализировать более темные цвета, но в некоторых более ярких окружениях просмотра это может не быть приоритетом реалистичной визуализации, так как в тех сценариях они могут не отличаться от LDR-устройств о