2616549 - Архитектура кодека для многослойного кодирования видео

Архитектура кодека для многослойного кодирования видео

Иллюстрации

Показать все

Изобретение относится к системам, способам реализации кодирования видео. Технический результат заключается в расширении арсенала технических средств кодирования видео. Указанный технический результат достигается за счет выполнения этапов, на которых: принимают видеосигнал, содержащий базовый слой (BL), слой улучшения (EL) и указание типа масштабируемости, который соотносит BL с EL; определяют на основе типа масштабируемости межслойный процесс для слоя картинки для обработки картинки BL в межслойную опорную (ILR) картинку; выполняют определенный межслойный процесс для слоя картинки в отношении картинки BL для формирования ILR картинки; и в ответ на определение, что ILR картинка включена в набор опорных картинок, связанный с текущей картинкой EL, предсказывают текущую картинку EL с использованием ILR картинки. 2 н. и 34 з.п. ф-лы, 17 ил., 2 табл.

Реферат

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИ

[0001] По данной заявке испрашивается приоритет Предварительной Патентной Заявки США № 61/699356, поданной 09 июля 2012 г. и 61/734264, поданной 06 декабря 2012 г., содержимое которых включено в настоящее описание посредством ссылки.

УРОВЕНЬ ТЕХНИКИ

[0002] В последние годы произошел значительный рост и коммерческий успех мультимедийных технологий и мобильной связи. Технологии беспроводной связи значительно увеличили беспроводную полосу пропускания и повысили качество услуги для мобильных пользователей. Например, стандарт Долгосрочного Развития (LTE) Проекта Партнерства 3-его Поколения обладает повышенным качеством услуги в сравнении со 2-ым Поколением (2G) и/или 3-им Поколением (3G).

[0003] При наличии высоких полос пропускания в беспроводных сетях, видео и мультимедийный контент, который доступен в проводной сети, может повлечь за собой желание пользователей иметь эквивалентный доступ по запросу к такому контенту с широкого многообразия мобильных устройств с разными возможностями в плане размера, качества, и/или возможности соединения.

[0004] Для обеспечения доступности видео контента различных типов по сетям, может быть использован один или более механизмы кодирования и сжатия видео. Системы кодирования видео могут быть использованы для сжатия цифровых видеосигналов, например, для сокращения потребностей в отношении хранения и/или полосы пропускания передачи таких сигналов. Могут быть использованы различные типы технологий сжатия видео, основанные на одном или более стандартах кодирования видео. Стандарты могут включать в себя, например, H.261, MPEG-1, MPEG-2, H.263, MPEG-4 часть 2 и H.264/MPEG-4 часть 10 AVC, Высокоэффективное Кодирование Видео (HEVC), и т.д. Могут быть использованы расширения стандартов кодирования видео, например, H.264 (масштабируемое кодирование видео (SVC)), и/или масштабируемое HEVC. Механизмы масштабируемого кодирования могут обладать недостатками и могут быть не отвечающими требованиям.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

[0005] Предоставляются системы, способы, и средства для реализации системы кодирования видео (VCS). VCS, включающая в себя, например, кодер базового слоя, кодер слоя улучшения (EL), компонент управления и обработки межслойного предсказания (ILP), и т.д., может быть выполнена с возможностью приема видеосигнала. Видеосигнал может содержать один или более слоев (например, базовый слой (BL) и/или один или более слоев улучшения (EL)). VCS может обрабатывать картинку BL в межслойную опорную (ILR) картинку, например, используя процесс межслойного предсказания на уровне картинки. Обработанная ILR картинка может быть не совместно расположенной ILR картинкой.

[0006] Обработка картинки BL в ILR картинку может включать в себя форматирование картинки BL в формат, который может быть пригоден для предсказания текущей картинки EL. Формат может зависеть от типа масштабируемости между кодеком BL и кодеком EL. Тип масштабируемости между кодеком BL и кодеком EL может включать в себя один или более из типов: пространственную масштабируемость, масштабируемость формата цветности, масштабируемость качества, пространственную масштабируемость, масштабируемость вида, или масштабируемость битовой глубины. Форматирование может включать в себя одно или более из следующего: повышающую дискретизацию, устранение шумов, восстановление, или перенастройку (переориентацию), компенсацию несоответствия, или обратное отображение оттенков.

[0007] VCS может выбирать одну или обе из картинок: обработанную ILR картинку или опорную картинку слоя улучшения (EL). Выбранная опорная картинка(и) может содержать одну из опорной картинки EL, или ILR картинки. Множество выбранных опорных картинок может соответствовать общему моменту времени.

[0008] VCS может предсказывать текущую картинку EL, используя одну или более из выбранной ILR картинки или опорной картинки EL. VCS может сохранять обработанную ILR картинку в буфере декодированных картинок EL (DPB). VCS может извлекать информацию BL из BL. Информация BL может включать в себя одну или более из следующей информации: информацию о режиме BL или информацию о движении BL. VCS может обрабатывать картинку BL на основании информации, содержащей извлеченную информацию BL. VCS может конвертировать информацию BL из первого формата во второй формат и может использовать конвертированную информацию BL при кодировании EL. Первый формат может относиться к кодеку BL, а второй формат может относиться к кодеку EL, и первый формат может отличаться от второго формата.

[0009] VCS может пакетировать информацию ILP и отправлять информацию ILP, например, через единицы сетевого уровня абстракции (NAL). Информация ILP может включать в себя, например, информацию фильтра повышающей дискретизации, один или более коэффициенты для повышающей дискретизации, один или более коэффициенты для устранения шумов, один или более параметры компенсации несоответствия, один или более параметры обратного отображения оттенков, и т.д.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0010] Более глубокое понимание может быть получено из нижеследующего описания, приведенного в качестве примера совместно с сопроводительными чертежами.

[0011] Фиг. 1 является схемой, иллюстрирующей пример масштабируемой системы кодирования видео.

[0012] Фиг. 2 является схемой, иллюстрирующей пример структуры предсказания, использующей многовидовое кодирование видео (MVC) для кодирования стереоскопического видео, например, с левым видом и правым видом.

[0013] Фиг. 3 является схемой, иллюстрирующей пример архитектуры 2-слойного масштабируемого кодера видео.

[0014] Фиг. 4 является схемой, иллюстрирующей пример архитектуры 2-слойного масштабируемого декодера видео.

[0015] Фиг. 5 является схемой, иллюстрирующей пример основанного на блоках однослойного кодера видео.

[0016] Фиг. 6 является схемой, иллюстрирующей пример основанного на блоках однослойного декодера видео.

[0017] Фиг. 7 является схемой, иллюстрирующей пример двухслойной масштабируемой системы кодирования с поддержкой межслойного предсказания (ILP) на уровне картинки.

[0018] Фиг. 8 является схемой, иллюстрирующей пример двухслойной масштабируемой системы декодирования с поддержкой ILP на уровне картинки.

[0019] Фиг. 9 является схемой, иллюстрирующей пример двухслойной системы с временным предсказанием и межслойным предсказанием, которые разрешены для кодирования слоя улучшения.

[0020] Фиг. 10 является схемой, иллюстрирующей пример компонента управления и обработки ILP.

[0021] Фиг. 11 иллюстрирует примерную структуру предсказания, используя межслойное предсказание вектора движения.

[0022] Фиг. 12 является схемой, иллюстрирующей пример масштабируемой системы кодирования, которая может использовать улучшенный компонент управления и обработки ILP.

[0023] Фиг. 13A является системной схемой примерной системы связи, в которой может быть реализован один или более раскрываемые варианты осуществления.

[0024] Фиг. 13B является системной схемой примерного компонента беспроводной передачи/приема (WTRU), который может быть использован в системе связи, иллюстрируемой на Фиг. 13A.

[0025] Фиг. 13C является системной схемой примерной сети радиодоступа и примерной базовой сети, которые могут быть использованы в системе связи, иллюстрируемой на Фиг. 13A.

[0026] Фиг. 13D является системной схемой другой примерной сети радиодоступа и другой примерной базовой сети, которые могут быть использованы в системе связи, иллюстрируемой на Фиг. 13A.

[0027] Фиг. 13E является системной схемой другой примерной сети радиодоступа и другой примерной базовой сети, которые могут быть использованы в системе связи, иллюстрируемой на Фиг. 13A.

ПОДРОБНОЕ ОПИСАНИЕ

[0028] Теперь со ссылкой на различные фигуры будет описано подробное описание иллюстративных вариантов осуществления. Несмотря на то, что данное описание предоставляет подробный пример возможных реализаций, следует отметить, что подробности предназначены быть примерными и никоим образом не ограничивают объем заявки. В дополнение, фигуры могут иллюстрировать блок-схемы, которые подразумеваются как примерные. Могут быть использованы другие варианты осуществления. Очередность сообщений может быть изменена где это уместно. Сообщения могут быть опущены, если не требуются, и, могут быть добавлены дополнительные потоки.

[0029] Масштабируемое кодирование видео может повысить качество восприятия применительно к видео приложениям, выполняемым на устройствах с разными возможностями по неоднородным сетям. Масштабируемое кодирование видео может один раз кодировать сигнал с наивысшим представлением (например, временным разрешением, пространственным разрешением, качеством, и т.д.), но обеспечивать декодирование из подмножеств видео потоков в зависимости от конкретной скорости и представления, которые требуются конкретным приложениям, выполняемым на клиентском устройстве. Масштабируемое кодирование видео может экономить полосу пропускания и/или хранилище, в сравнении с не масштабируемыми решениями. Международные стандарты видео, например, MPEG-2 Видео, H.263, MPEG4 Визуальный, H.264, и т.д., могут обладать инструментами и/или профилями, которые поддерживают режимы масштабируемости.

[0030] Фиг. 1 является схемой, иллюстрирующей пример основанной на блоках гибридной масштабируемой системы кодирования видео. Пространственное/временное разрешение сигнала, которое может быть представлено слоем 1 (например, базовым слоем), может быть сгенерировано посредством понижающей дискретизации входного видеосигнала. Подходящая установка квантователя (например, Q1) может приводить к определенному уровню качества базовой информации. Реконструкция Y1 базового слоя, которая может быть аппроксимацией одного или более (например, всех) уровней разрешения более высокого слоя, может быть использована при кодировании/декодировании последующих слоев, например, для более эффективного кодирования последующих более высоких слоев. Компонент 1010 и/или 1012 повышающей дискретизации может выполнять повышающую дискретизацию сигнала реконструкции базового слоя до разрешения слоя-2. Понижающая дискретизация и повышающая дискретизация могут быть выполнены на протяжении каждого из слоев (например, 1, 2… N). Коэффициенты понижающей дискретизации и повышающей дискретизации могут быть разными в зависимости от размера масштабируемости между двумя заданными слоями.

[0031] Как иллюстрируется на Фиг. 1, для любого заданного более высокого слоя n (2≤n≤N), разностный сигнал может быть сгенерирован посредством вычитания сигнала более низкого слоя после повышающей дискретизации (например, сигнала слоя n-1) из сигнала текущего слоя n. Полученный сигнал разности может быть закодирован. Если видеосигналы, представленные двумя слоями (например, n1 и n2), имеют одинаковое пространственное разрешение, может быть выполнен обход соответствующих операций понижающей дискретизации и повышающей дискретизации. Любой заданный слой n (1≤n≤N) или множество слоев могут быть декодированы без использования какой-либо декодированной информации из более высоких слоев. Базирование на кодировании остаточного сигнала (например, сигнала разности между двумя слоями) применительно к слоям за исключением базового слоя, например, как может быть использовано системой с Фиг. 1, может вызывать визуальные артефакты. Визуальные артефакты могут присутствовать из-за желания квантовать и нормализовать остаточный сигнал для ограничения его динамического диапазона, и/или дополнительного квантования, выполняемого во время кодирования остатка. Один или более из кодеров более высокого слоя может использовать предсказание с оценкой движения и/или компенсацией движения в качестве режима кодирования. Оценка движения и/или компенсация движения в остаточном сигнале могут отличаться от обычной оценки движения и, например, могут быть более склонны к появлению визуальных артефактов. Может быть использовано более сложное квантование остатка, как, впрочем, и совмещенное квантование между желанием квантовать и нормализовать остаточный сигнал для ограничения его динамического диапазона и дополнительным квантованием, выполняемым во время кодирования остатка, и оно может увеличить сложность системы, например, для минимизации таких визуальных артефактов. Система с Фиг. 1 может не рассматривать прочие режимы межслойного предсказания, что может ограничивать уровень эффективности сжатия, который она может достичь.

[0032] Масштабируемое Кодирование Видео (SVC) является расширением стандарта H.264, которое может разрешать передачу и декодирование частичных битовых потоков, например, для обеспечения видео услуг с более низкими временными или пространственными разрешениями, или сниженной точностью воспроизведения, при этом сохраняя качество реконструкции (например, более высокое качество реконструкции), учитывая скорости частичных битовых потоков. SVC может включать в себя Декодирование с Одной Петлей, которое может предусматривать то, что декодер SVC устанавливает одну петлю компенсации движения в декодируемом слое, и не может устанавливать петлю(и) компенсации движения на другом более низком слое(ях). Например, если битовый поток включает в себя 2 слоя, слой 1 (например, базовый слой) и слой 2 (например, слой улучшения). Декодер может реконструировать видео слоя 2 посредством установки буфера декодированных картинок и предсказания с компенсацией движения (например, для слоя 2, но не для слоя 1; слой 2 может зависеть от слоя 1). SVC может не требоваться полная реконструкция опорной картинки(ок) из более низких слоев, что может сократить сложность вычислений и память, используемую на декодере. Декодирование с одной петлей может быть достигнуто посредством ограниченного межслойного предсказания текстуры. Для блока (например, текущего блока) в заданном слое, пространственное предсказание текстуры из более низкого слоя может быть использовано, если соответствующий блок низкого слоя кодирован в интра-режиме (например, ограниченное интра-предсказание). Когда блок более низкого уровня кодирован в интра-режиме, он может быть реконструирован без операций компенсации движения и буфера декодированных картинок. SVC может использовать дополнительные методики межслойного предсказания, например, предсказание вектора движения, предсказание остатка, предсказание режима, и т.д. Свойство SVC декодирования с одной петлей может сокращать сложность вычислений и/или память, используемую на декодере. Декодирование с одной петлей может увеличивать сложность реализации, например, из-за базирования в большей степени на реализациях межслойного предсказания на уровне блока для достижения удовлетворительной производительности. Исполнение кодера и сложность вычислений могут быть увеличены с тем, чтобы могла быть достигнута требуемая производительность, например, для компенсации снижения производительности, вызванного наложением ограничения в виде декодирования с одной петлей. С достаточной производительностью SVC не может обеспечивать масштабируемое кодирование контента с чересстрочной разверткой, что может повлиять на его использование индустрией вещания.

[0033] Многовидовое Кодирование Видео (MVC) является примером расширения стандарта H.264, которое может обеспечивать масштабируемость вида. Масштабируемость вида может означать, что битовый поток базового слоя может быть декодирован для реконструкции обычного 2D видео, а дополнительные слои улучшения могут быть декодированы для реконструкции других представлений вида этого же видеосигнала. Когда один или более виды (например, все виды) объединяются вместе и демонстрируются посредством надлежащего 3D дисплея, пользователь может воспринимать 3D видео с правильным ощущением глубины. Фиг. 2 является схемой, иллюстрирующей примерную структуру предсказания, используя MVC для кодирования стереоскопического видео с левым видом (например, слоем 1) и правым видом (например, слоем 2). Как иллюстрируется примером на Фиг. 2, видео левого вида может быть кодировано со структурой предсказания IBBP. Видео правого вида может быть кодировано со структурой предсказания PBBB. Например, на правом виде, первая совместно расположенная картинка с первой I картинкой 2002 в левом виде, может быть кодирована как P картинка 2004. Каждая из других картинок в правом виде могут быть кодированы как B картинки, например, с первым предсказанием, исходящим от временных опорных данных в правом виде, и вторым предсказанием, исходящим из межслойных опорных данных в левом виде. MVC может не поддерживать декодирование с одной петлей. Например, как показано на Фиг. 2, декодированию видео правого вида (например, слоя 2) может требоваться доступность полных картинок в левом виде (например, слое 1), что может поддерживать петли компенсации движения в обоих видах/слоях.

[0034] MVC может включать в себя (например, только включать в себя) изменения высокоуровневого синтаксиса, и может не включать в себя изменения на уровне блока по отношению к H.264/AVC. Например, поскольку лежащая в основе логика кодера/декодера MVC может оставаться одной и той же и может быть продублирована, опорные картинки (например, только опорные картинки) на уровне слайса/картинки могут быть корректно сконфигурированы для обеспечения MVC. MVC может поддерживать кодирование более двух видов посредством расширения примера на Фиг. 2 для выполнения межслойного предсказания между несколькими видами.

[0035] В качестве методики кодирования может быть использовано кодирование с кадровой совместимостью (MFC) Экспертной Группы По Кинематографии (MPEG). 3D контент может быть стереоскопическим 3D видео, которое может включать в себя один или более виды, например, левый вид и правый вид. Доставка стереоскопического 3D контента может быть достигнута посредством упаковки/мультиплексирования двух видов в одном кадре, содержащем и передающем запакованное видео с помощью кодека (например, H.264/AVC). На стороне приемника, после декодирования, кадры могут быть распакованы и продемонстрированы в качестве двух видов. Виды могут быть мультиплексированы во временной области и/или пространственной области. Когда виды мультиплексируются в пространственной области, два вида могут быть подвергнуты пространственной понижающей дискретизации на коэффициент (например, коэффициент два) и упакованы посредством различных компоновок, например, для сохранения точно такого же размера картинки. Например, картинка может быть скомпонована с помощью левого вида после понижающей дискретизации в левой половине картинки, и правого вида после понижающей дискретизации в правой половине картинки. Прочие компоновки могут включать в себя сверху-и-снизу, строка-за-строкой, в шахматном порядке, и т.д. Конкретная компоновка, используемая для получения 3D видео с кадровой совместимостью, может быть перенесена посредством сообщений SEI компоновки упаковки кадра. Пространственная понижающая дискретизация может вызывать ступенчатость в видах и ухудшать визуальное качество и восприятие пользователя 3D видео. Внимание может быть сконцентрировано на обеспечении масштабируемого расширения применительно к кадровой совместимости (например, два вида упаковываются в один и тот же кадр) видео базового слоя, и/или обеспечении одного или более слоев улучшения для восстановления видов с полным разрешением для повышенного 3D восприятия. Несмотря на то, что это может быть направлено на предложение доставки 3D видео, лежащая в основе технология, которая может обеспечить MFC с полным разрешением, может быть отнесена к технологиям пространственной масштабируемости.

[0036] Может быть предоставлено масштабируемое улучшение HEVC. Масштабируемость стандартов может относится к типу масштабируемости, когда базовый слой кодируется с помощью одного стандарта, например, H.264/AVC или MPEG, тогда как один или более слоев улучшения могут быть закодированы, используя другой стандарт, например, стандарт HEVC. Масштабируемость стандартов может обеспечивать обратную совместимость с унаследованным контентом, закодированным, используя предыдущие стандарты, и может улучшить качество унаследованного контента с помощью одного или более слоев улучшения.

[0037] Может быть предоставлено кодирование 3D видео (3DV). 3DV может обеспечивать одну или более разные масштабируемости вида, которые могут быть нацелены на автосереоскопические приложения. Автостереоскопические дисплеи и приложения могут обеспечивать людям 3D восприятие без громоздких очков. Для достижения хорошего 3D восприятия без очков, может быть использовано больше чем два вида. Кодирование боле чем двух видов (например, 9 видов или 10 видов) может быть дорогостоящим. 3DV может использовать гибридный подход в виде кодирования вместе меньшего числа видов (например, 2 или 3 видов) с относительно большим несоответствием, и/или с одной или более картами глубины, которые могут предоставлять информацию о глубине видов. Это может именоваться как Многовидовое плюс Глубина (MVD). На стороне дисплея, кодированные виды и карты глубины могут быть декодированы. Оставшиеся виды могут быть сгенерированы, используя декодированные виды и их карты глубины, используя технологии синтеза вида. 3DV может использовать различные реализации для кодирования видов и карт глубины, например, кодирования их, используя сочетание разных стандартов, как например, но не ограничиваясь, H.264/AVC, MVC, HEVC и т.д. 3DV может кодировать базовый слой с помощью одного стандарта (например, H.264/AVC) и кодировать один или более слоев улучшения с помощью другого стандарта (например, HEVC).

[0038] Таблица 1 предоставляет пример разных типов масштабируемости вместе с соответствующими стандартами, которые могут их поддерживать. Масштабируемость битовой глубины и масштабируемость формата цветности могут быть привязаны к видео форматам (например, выше чем 8-битное видео, и форматы дискретизации цветности выше YUV4:2:0), главным образом, используемым профессиональными видео приложениями. Может быть предоставлена масштабируемость соотношения сторон.

Таблица 1
Масштабируемость	Пример	Стандарты
Масштабируемость вида	2D→3D (2 или более вида)	MVC, MFC, 3DV
Пространственная масштабируемость	720p→1080p	SVC, масштабируемое HEVC
Масштабируемость качества (SNR)	35дБ→38дБ	SVC, масштабируемое HEVC
Временная масштабируемость	30кадр/с→60кадр/с	H.264/AVC, SVC, масштабируемое HEVC
Масштабируемость стандартов	H.264/AVC→HEVC	3DV, масштабируемое HEVC
Масштабируемость битовой глубины	8-битовое видео→10-битовое видео	Масштабируемое HEVC
Масштабируемость формата цветности	YUV4:2:0→YUV4:2:2, YUV4:4:4	Масштабируемое HEVC
Масштабируемость соотношения сторон	4:3→16:9	Масштабируемое HEVC

[0039] Масштабируемое кодирование видео может обеспечивать первый уровень качества видео, связанный с первым набором параметров видео, используя битовый поток базового слоя. Масштабируемое кодирование видео может обеспечивать один или более уровни более высокого качества, связанные с одним или более наборами улучшенных параметров, используя один или более битовые потоки слоя улучшения. Набор параметров видео может включать в себя одно или более из следующего: пространственное разрешение, частота кадров, качество реконструированного видео (например, в форме SNR, PSNR, VQM, визуального качества, и т.д.), 3D возможность (например, с помощью двух или более видов), битовая глубина яркости и цветности, формат цветности, и лежащий в основе однослойный стандарт кодирования. Как иллюстрируется в Таблице 1, разные случаи использования могут требовать разных типов масштабируемости. Как здесь рассматривается, масштабируемая архитектура кодирования может предлагать общую структуру, которая может быть выполнена с возможностью обеспечения одной или более масштабируемостей (например, масштабируемости, перечисленные в Таблице 1). Масштабируемая архитектура кодирования может быть гибкой для обеспечения разных масштабируемостей с помощью минимальных конфигурационных усилий. Масштабируемая архитектура кодирования может включать в себя, по меньшей мере, один предпочтительный режим работы, который может не требовать изменения в операциях на уровне блока, так что логика кодирования (например, логика кодирования и/или декодирования) может быть максимально повторно использована в рамках масштабируемой системы кодирования. Например, может быть предоставлена масштабируемая архитектура кодирования, основанная на компоненте управления и обработки межслойного предсказания на уровне картинки, при этом межслойное предсказание может быть выполнено на уровне картинки.

[0040] Фиг. 3 является схемой примерной архитектуры двухслойного масштабируемого кодера видео. Например, входные видеоданные слоя улучшения и входные видеоданные базового слоя могут соответствовать друг другу посредством процесса понижающей дискретизации, что может обеспечивать пространственную масштабируемость. Как иллюстрируется на Фиг. 3, видео слоя улучшения может быть подвергнуто понижающей дискретизации, используя средство 3002 понижающей дискретизации. Кодер 3006 базового слоя (например, HEVC кодер в данном примере) может кодировать блок за блоком входные видеоданные базового слоя и генерировать битовый поток базового слоя. Фиг. 5 является схемой, которая иллюстрирует примерный основанный на блоке однослойный кодер видео, который может быть использован в качестве кодера базового слоя на Фиг. 3. Как иллюстрируется на Фиг. 5, однослойный кодер может использовать методики, как например, пространственное предсказание 5020 (например, именуемое интра-предсказанием) и/или временное предсказание 5022 (например, именуемое интер-предсказание и/или предсказание с компенсацией движения) для достижения эффективного сжатия, и/или предсказания входного видеосигнала. Кодер может иметь логику 5002 решений по режиму, которая может выбирать наиболее подходящую форму предсказания. Логика решений кодера может быть основана на сочетании соображений скорости и искажения. Кодер может преобразовывать и квантовать остаток предсказания (например, сигнал разности между входным сигналом и сигналом предсказания), используя компонент 5004 преобразования и компонент 5006 квантования соответственно. Квантованный остаток, совместно с информацией о режиме (например, интра- или интер-предсказание) и информацией предсказания (например, векторами движения, индексами опорной картинки, режимами интра-предсказания и т.д.), может быть дополнительно сжат в энтропийным кодере 5008 и упакован в выходной битовый поток видео. Кодер также может генерировать реконструированный видеосигнал посредством применения обратного квантования (например, используя компонент 5010 обратного квантования) и обратное преобразование (например, используя компонент 5012 обратного преобразования) к квантованному остатку, чтобы получить реконструированный остаток. Кодер может складывать реконструированный видеосигнала обратно с сигналом 5014 предсказания. Реконструированный видеосигнал может проходить через процесс 5016 петлевого фильтра (например, используя фильтр устранения блочности, Адаптивные Смещения Выборки, и/или Адаптивные Петлевые Фильтры), и может быть сохранен в хранилище 5018 опорных картинок, для использования при предсказании будущих видеосигналов.

[0041] Понятие хранилище опорных картинок может быть здесь использовано взаимозаменяемо с понятием буфер декодированных картинок или DPB. Фиг. 6 является структурной схемой примерного основанного на блоках однослойного декодера, который может принимать битовый поток видео, созданный кодером с Фиг. 5 и может реконструировать видеосигнал, который должен быть продемонстрирован. В декодере видео, битовый поток может быть проанализирован энтропийным декодером 6002. Остаточные коэффициенты могут быть обратно квантованы (например, используя компонент 6004 де-квантования) и обратно преобразованы (например, используя компонент 6006 обратного преобразования) для получения реконструированного остатка. Режим кодирования и информация предсказания могут быть использованы для получения сигнала предсказания. Это может осуществляться, используя пространственное предсказание 6010 и/или временное предсказание 6008. Сигнал предсказания и реконструированный остаток могут быть сложены вместе для получения реконструированного видео. Реконструированное видео может дополнительно проходить через петлевую фильтрацию (например, используя петлевой фильтр 6014). Затем реконструированное видео может быть сохранено в хранилище 6012 опорных картинок, чтобы быть продемонстрированным и/или использованным для декодирования будущих видеосигналов.

[0042] Как иллюстрируется в примерном масштабируемом кодере на Фиг. 3, в слое улучшения, кодер 3004 слоя улучшения (EL) может принимать входной видеосигнал EL более высокого пространственного разрешения (и/или с более высокими значениями других параметров видео). Кодер 3004 EL может создавать битовый поток EL по существу образом аналогичным тому, что использует кодер 3006 видео базового слоя, например, используя пространственные и/или временные предсказания для достижения сжатия. Дополнительная форма предсказания, именуемая здесь межслойным предсказанием (ILP) (например, как указывается затененными стрелками на Фиг. 3), может быть доступна в кодере улучшения для повышения его производительности кодирования. В отличие от пространственного и временного предсказаний, которые получают сигнал предсказания, основанный на кодированных видеосигналах в текущем слое улучшения, межслойное предсказание может получать сигнал предсказания, основанный на кодированных видеосигналах из базового слоя (и/или других более низких слоев, когда присутствует более двух слоев в масштабируемой системе). В масштабируемой системе может существовать, по меньшей мере, две формы межслойного предсказания, ILP на уровне картинки и ILP на уровне блока. Здесь рассматриваются ILP на уровне картинки и ILP на уровне блока. Мультиплексор битового потока (например, MUX 3014 на Фиг. 3) может объединять битовые потоки базового слоя и слоя улучшения вместе для создания одного масштабируемого битового потока.

[0043] Фиг. 4 является структурной схемой примерной архитектуры 2-слойного масштабируемого декодера видео. Архитектура 2-слойного масштабируемого декодера видео с Фиг. 4 может соответствовать масштабируемому кодеру с Фиг. 3. Например, демультиплексор (например, DEMUX 4002) может разделять масштабируемый битовый поток на битовые потоки базового слоя и слоя улучшения. Декодер 4006 базового слоя может декодировать битовый поток базового слоя и может реконструировать видео базового слоя. Декодер 4004 слоя улучшения может декодировать битовый поток слоя улучшения. Декодер слоя улучшения может делать это, используя информацию из текущего слоя и/или информацию из одного или более зависимых слоев (например, базового слоя). Например, такая информация из одного или более зависимых слоев может проходить через межслойную обработку, которая может быть выполнена, когда используется ILP на уровне картинки и/или ILP на уровне блока. Несмотря на то, что не показано на Фиг. 3 и 4, дополнительная информация ILP может быть мультиплексирована вместе с битовыми потоками базового слоя и слоя улучшения в MUX 3014. Информация ILP может быть демультиплексирована посредством DEMUX 4002.

[0044] Фиг. 7 является примерной двухслойной масштабируемой системой кодирования с поддержкой ILP на уровне картинки. Кодер 7006 BL (например, кодер HEVC) на Фиг. 7 может кодировать входные видеоданные BL, используя сочетание пространственного и/или временного предсказания, как например, но не ограничиваясь, рассмотренное со ссылкой на Фиг. 5. Кодер BL может создавать DPB 7010 базового слоя, для хранения реконструированных картинок с целью выполнения предсказания входного видеосигнала, например, посредством временного предсказания с компенсацией движения. В слое улучшения, кодер 7004 EL может работать образом по существу аналогичным тому, который использует кодер 7006 BL. DPB 7008 слоя улучшения, который может предоставлять опорные картинки для предсказания входного видео EL посредством кодера EL, может включать в себя опорные картинки из текущего слоя улучшения и/или опорные картинки из DPB одного или более зависимых слоев (например, DPB 7010 BL, как иллюстрируется на Фиг. 7). Опорные картинки из DPB BL могут быть обработаны посредством компонента 7012 управления и обработки межслойного предсказания перед тем, как быть использованы для предсказания видео EL. Компонент 7012 управления и обработки межслойного предсказания может обрабатывать картинки из DPB 7010 BL перед использованием их для предсказания видео EL. Компонент 7012 управления и обработки ILP может обрабатывать одну или более картинки, хранящиеся в DPB 7010 BL, в формат, который пригоден для предсказания видео слоя улучшения. Компонент 7012 управления и обработки ILP может управлять обработанными опорными картинками и адаптивно принимать решение в отношении того, какая из обработанных картинок может быть использована в качестве предсказания для видео EL посредством кодера 7004 EL.

[0045] Компонент управления и обработки ILP может обрабатывать опорные картинки, хранящиеся в DPB BL, в формат, который может быть пригоден для предсказания видео слоя улучшения. Природа обработки может быть основана на типе масштабируемости между BL и EL. Например, если видео BL и видео EL соответствуют разным пространственным разрешениям, обработка может включать в себя повышающую дискретизацию для выравнивания пространственных разрешений BL и EL. Обработка может переносить параметры, использованные в процессе повышающей дискретизации. Например, компонент 7012 управления и обработки ILP может создавать предварительно определенный набор фильтров повышающей дискретизации. Компонент 7012 управления и обработки ILP может выбирать один или более из предварительно определенных фильтров повышающей дискретизации для выполнения повышающей дискретизации картинок в DPB BL и может отправлять один или более соответствующие индексы фильтра в битовом потоке. Например, декодер может выполнять точно такой же процесс повышающей дискретизации. Компонент управления и обработки ILP может получать (например, адаптивно получать) один или более фильтры повышающей дискретизации, которые являются преимущественными для использования (например, в том смысле, что опорные данные после повышающей дискретизации могут быть использованы для предсказания видео EL более эффективно и создавать более предпочтительные характеристики отношения скорости к искажению). При использовании адаптивных фильтров повышающей дискретизации коэффициенты фильтра и размеры отвода фильтра могут быть включены в битовый поток.

[0046] В другом примере масштабируемости SNR или качества, видео BL и видео EL могут иметь одинаковое разрешение. Видео BL может быть кодированным с помощью более грубого квантования (например, более низкой скоростью передачи бит с более низким качеством), тогда как видео EL может быть кодировано с помощью более тонкого квантования (например, более высокой скоростью передачи бит с более высоким качеством). Компонент 7012 управления и обработки ILP может выполнять операции типа устранения шумов и/или восстановления изображения над опорными картинками в DPB 7010 BL. Такие операции устранения шумов или восстановления могут включать в себя, но не ограничиваются, адаптивные фильтры (например, основанные на методиках Наименьших Квадратов или LS), адаптивные смещения выборок (SAO) (например, как поддерживаемые HEVC), и/или другие типы фильтров устранения шумов нацеленных, например, на сокращение шумов квантования. Соответствующие параметры, которые могут быть использованы в операциях устранения шумов или восстановления мо

Архитектура кодека для многослойного кодирования видео

Патент 2616549