2646325 - Произвольный доступ и сигнализация долгосрочных опорных картинок при кодировании видео

Произвольный доступ и сигнализация долгосрочных опорных картинок при кодировании видео

Иллюстрации

Показать все

Изобретение относится к области кодирования/декодирования видеоданных. Технический результат – предотвращение неравномерности в скорости передачи кадров. Способ декодирования видеоданных содержит: декодирование, устройством декодирования видео, содержащим один или несколько процессоров, картинки точки произвольного доступа (RAP); идентификацию одной или нескольких картинок первого типа, ассоциированных с картинкой RAP, причем одна или несколько картинок первого типа предшествуют картинке RAP в значении порядка вывода, следуют за картинкой RAP в порядке декодирования и ссылаются на видеоданные, более ранние, чем картинка RAP в порядке декодирования; отбрасывание одной или нескольких картинок первого типа; декодирование одной или нескольких декодируемых начальных картинок для картинки RAP в соответствии с ограничением, которое вынуждает заданное условие быть истинным, причем заданное условие требует того, что все из одной или нескольких картинок первого типа предшествуют одной или нескольким декодируемым начальным картинкам, ассоциированным с картинкой RAP в порядке вывода; и вывод декодированной картинки RAP. 8 н. и 49 з.п. ф-лы, 11 ил., 8 табл.

Реферат

[0001] Настоящая заявка испрашивает приоритет

предварительной заявки на патент № 61/665,862, поданной 28 июня 2012, и

предварительной заявки на патент № 61/666,688, поданной 29 июня 2012,

каждая из которых тем самым включена по ссылке в их полноте.

ОБЛАСТЬ ТЕХНИКИ

[0002] Настоящее раскрытие в целом относится к кодированию видео.

УРОВЕНЬ ТЕХНИКИ

[0003] Цифровые возможности видео могут быть включены в широкий диапазон устройств, включающий в себя цифровые телевизоры, цифровые системы прямого вещания, беспроводные системы вещания, персональные цифровые помощники (PDA), ноутбуки или настольные компьютеры, планшетные компьютеры, электронные книги, цифровые камеры, цифровые устройства регистрации, цифровые медиаплееры, видеоигровые устройства, пульты видеоигр, сотовые или спутниковые радиотелефоны, так называемые “смартфоны», видеоустройства организации телеконференций, устройства потоковой передачи видео, и т.п. Эти цифровые видеоустройства реализуют способы кодирования видео, такие как описаны в стандартах, определенных посредством MPEG-2, MPEG-4, ITU-T H.263, ITU-T H.264/MPEG-4, Часть 10, Усовершенствованное кодирование видео (AVC), стандарт высокоэффективного кодирования видео (HEVC), развивающийся в настоящее время, и расширениях таких стандартов. Недавний проект развивающегося стандарта HEVC, называемого “HEVC Working Draft 7», или "WD7", описан в документе HCTVC-I1003, Bross et al., “High Efficiency Video Coding (HEVC) Text Specification Draft 7», Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG11, 9th Meeting: Geneva, Switzerland,, 27 апреля 2012-7 мая 2012, который, на 5 февраля 2013, доступен по адресу http://phenix.it-sudparis.eu/jct/doc_end_user/documents/9_Geneva/wg11/JCTVC-I1003-v5.zip. Видеоустройства могут передавать, принимать, кодировать, декодировать, и/или хранить цифровую информацию видео более эффективно, реализовывая такие способы кодирования видео.

[0004] Способы кодирования видео включают в себя пространственное (внутри картинки) предсказание и/или временное (между картинками) предсказание, чтобы уменьшить или удалить избыточность, присущую видеопоследовательностям. Для основанного на блоке кодирования видео видеовырезка (то есть видеокадр или часть видеокадра) может быть разделена на блоки видео, которые могут также упоминаться как блоки дерева кодирования (CTU), единицы кодирования (CU) и/или узлы кодирования. Блоки видео во внутренне кодированной (I) вырезке картинки закодированы, используя пространственное предсказание относительно опорных выборок в соседних блоках в одной и той же картинке. Блоки видео во внешне кодированной (P или B) вырезке картинки могут использовать пространственное предсказание относительно опорных выборок в соседних блоках в одной и той же картинке или временное предсказание относительно опорных выборок в других опорных картинках. Картинки могут упоминаться как кадры, и опорные картинки могут упоминаться как опорные кадры.

[0005] Пространственное или временное предсказание приводит к предсказывающему блоку для блока, который должен быть закодирован. Остаточные данные представляют пиксельные разности между первоначальным блоком, который должен быть закодирован, и предсказывающим блоком. Внешне кодированный блок кодируют согласно вектору движения, который указывает на блок опорных выборок, формирующих предсказывающий блок, и остаточным данным, указывающим разность между закодированным блоком и предсказывающим блоком. Внутренне кодированный блок кодируют согласно режиму внутреннего кодирования и остаточным данным. Для дальнейшего сжатия остаточные данные могут быть преобразованы из пиксельной области в область преобразования, приводя к остаточным коэффициентам преобразования, которые затем могут быть квантованы. Квантованные коэффициенты преобразования, первоначально скомпонованные в двумерном массиве, могут быть сканированы, чтобы сформировать одномерный вектор коэффициентов преобразования, и энтропийное кодирование может быть применено, чтобы достигнуть еще большего сжатия.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

[0006] В целом, настоящее раскрытие описывает способы для поддержания произвольного доступа и сигнализации долгосрочных опорных картинок при кодировании видео. Настоящее раскрытие предлагает несколько ограничений для поддержания произвольного доступа на основании различных типов картинок. В одном примере все тэгированные для отбрасывания (TFD) картинки для картинки точки произвольного доступа (RAP) могут иметь значение порядка отображения, которое является более ранним, чем значение порядка отображения для всех декодируемых начальных картинок (DLPs) для этой RAP. Настоящее раскрытие также предлагает ограничение, в котором предотвращено перемежение начальных картинок с “находящимися сзади картинками” в порядке декодирования. То есть, в соответствии со способами настоящего раскрытия, видеокодировщики могут гарантировать, что все начальные картинки (включая и картинки TFD и DLPs) имеют значения порядка декодирования ранее, чем значения порядка декодирования картинок, которые имеют и значения порядка отображения, большие, чем значение порядка отображения соответствующей картинки RAP, и значения порядка декодирования, большие, чем значения порядка декодирования соответствующей картинки RAP. Порядок отображения может также упоминаться как порядок вывода. Картинки TFD могут также упоминаться как пропущенные начальные картинки произвольного доступа (RASL), и картинки DLP могут также упоминаться как декодируемые начальные картинки произвольного доступа (RADL).

[0007] В одном примере способ кодирования видеоданных включает в себя кодирование картинки точки произвольного доступа (RAP); и кодирование одной или более декодируемых начальных картинок (DLPs) для картинки RAP таким образом, что все картинки, которые предназначены для отбрасывания, предшествуют картинкам DLP, ассоциированным с картинкой RAP в порядке отображения.

[0008] В другом примере устройство для кодирования видеоданных включает в себя видеокодировщика, конфигурируемого, чтобы закодировать картинку точки произвольного доступа (RAP); и кодировать одну или более декодируемых начальных картинок (картинок DLP) для картинки RAP таким образом, что все картинки, которые предназначены для отбрасывания, предшествуют картинкам DLP, ассоциированным с картинкой RAP в порядке отображения.

[0009] В другом примере устройство для кодирования видеоданных включает в себя средство для кодирования картинки точки произвольного доступа (RAP); и средство для кодирования одной или более декодируемых начальных картинок (картинок DLP) для картинки RAP таким образом, что все картинки, которые предназначены для отбрасывания, предшествуют картинкам DLP, ассоциированным с картинкой RAP в порядке отображения.

[0010] В другом примере считываемый компьютером запоминающий носитель, хранящий инструкции, которые, когда выполняются одним или более процессорами, заставляют один или более процессоров кодировать картинку точки произвольного доступа (RAP); и кодировать одну или более декодируемых начальных картинок (картинок DLP) для картинки RAP таким образом, что все картинки, которые предназначены для отбрасывания, предшествуют картинкам DLP, ассоциированным с картинкой RAP в порядке отображения.

[0011] В другом примере способ кодирования видеоданных включает в себя кодирование картинки точки произвольного доступа (RAP) и кодирование одной или более декодируемых начальных картинок (картинок DLP) для картинки RAP таким образом, что все картинки, которые предназначены для отбрасывания, предшествуют картинкам DLP, ассоциированным с картинкой RAP в порядке отображения.

[0012] В другом примере устройство для кодирования видеоданных включает в себя видеокодер, конфигурируемый, чтобы закодировать картинку точки произвольного доступа (RAP); и кодировать одну или более декодируемых начальных картинок (картинок DLP) для картинки RAP таким образом, что все картинки, которые предназначены для отбрасывания, предшествуют картинкам DLP, ассоциированным с картинкой RAP в порядке отображения.

[0013] В другом примере устройство для кодирования видеоданных включает в себя средство для кодирования картинки точки произвольного доступа (RAP) и средство для кодирования одной или более декодируемых начальных картинок (картинок DLP) для картинки RAP таким образом, что все картинки, которые предназначены для отбрасывания, предшествуют картинкам DLP, ассоциированным с картинкой RAP в порядке отображения.

[0014] В другом примере считываемый компьютером запоминающий носитель хранит инструкции, которые, когда выполняются одним или более процессорами заставляют один или более процессоров кодировать картинку точки произвольного доступа (RAP); и кодировать одну или более декодируемых начальных картинок (картинок DLP) для картинки RAP таким образом, что все картинки, которые предназначены для отбрасывания, предшествуют картинкам DLP, ассоциированным с картинкой RAP в порядке отображения.

[0015] Подробности одного или более примеров сформулированы в сопроводительных чертежах и описании ниже. Другие признаки, объекты, и преимущества будут очевидны из описания и чертежей и из формулы изобретения.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0016] Фиг. 1 является блок-схемой, иллюстрирующей примерную систему кодирования и декодирования видео, которая может использовать способы для сигнализации долгосрочных опорных картинок в заголовках вырезок.

[0017] Фиг. 2 является блок-схемой, иллюстрирующей пример видеокодера, который может реализовать способы для сигнализации долгосрочных опорных картинок в заголовках вырезок.

[0018] Фиг. 3 является блок-схемой, иллюстрирующей пример видеодекодера, который может реализовать способы для сигнализации долгосрочных опорных картинок в заголовках вырезок.

[0019] Фиг. 4 является концептуальной диаграммой, иллюстрирующей последовательность закодированных видео картинок.

[0020] Фиг. 5 является блок-схемой, иллюстрирующей примерный набор устройств, которые формируют часть сети.

[0021] Фиг. 6 является последовательностью операций, иллюстрирующей примерную операцию для кодирования картинки точки произвольного доступа (RAP) согласно способам настоящего раскрытия.

[0022] Фиг. 7 является последовательностью операций, иллюстрирующей примерную операцию для кодирования картинок RAP согласно способам настоящего раскрытия.

[0023] Фиг. 8 является последовательностью операций, иллюстрирующей примерную операцию для кодирования картинок RAP согласно способам настоящего раскрытия.

[0024] Фиг. 9 является последовательностью операций, иллюстрирующей примерную операцию для кодирования картинок RAP согласно способам настоящего раскрытия.

[0025] Фиг. 10 является последовательностью операций, иллюстрирующей примерную операцию для кодирования картинок RAP согласно способам настоящего раскрытия.

[0026] Фиг. 11 является последовательностью операций, иллюстрирующей примерную операцию для кодирования картинок RAP согласно способам настоящего раскрытия.

ПОДРОБНОЕ ОПИСАНИЕ

[0027] Обычно видеоданные представляют последовательностью картинок, которые захватываются или отображаются в быстрой последовательности. Должно быть понятно, что в некоторых примерах картинки или части картинок могут генерироваться, например, используя компьютерную графику, вместо (или в дополнение к) захвата. Порядок, в котором должны быть отображены картинки (который может быть или может не быть тем же самым как порядком, в котором были захвачены или сгенерированы картинки), может отличаться от порядка, в котором закодированные картинки включены в поток битов. Порядок отображения картинок в пределах закодированной видеопоследовательности может быть представлен значением счета по порядку картинки (POC), в то время как порядок кодирования картинок может быть представлен значениями количества кадров (frame_num).

[0028] Кодирование картинок обычно вовлекает преимущественное использование избыточных данных, имеющих место в картинках. Например, пространственное кодирование, также называемое внутреннее предсказывающее кодирование, использует преимущество избыточных данных, имеющих место между пространственно соседними блоками пиксельных значений общей картинки. В качестве другого примера, временное кодирование, также называемое внешнее предсказывающее кодирование, использует преимущество избыточных данных, имеющих место между различными картинками, которые захвачены, сгенерированы или отображены в различные моменты времени. Более подробно, картинка может быть разделена на вырезки, которые могут быть назначены для внутреннего или внешнего предсказания. Кроме того, каждая вырезка может быть разделена на блоки (например, наибольшие единицы кодирования (единицы LCU), также называемые как единицы дерева кодирования), и каждый из блоков может быть или далее разделен или закодирован на основании того, назначена ли соответствующая вырезка для внутреннего или внешнего предсказания.

[0029] Относительно примера внешнего предсказывающего кодирования блоки картинки, кодируемой в настоящее время, (также называемой “текущей картинкой”), могут быть предсказаны из опорной картинки. WD7 определяет "опорную картинку" как картинку с nal_ref_flag равным 1. nal_ref_flag является элементом синтаксиса единицы уровня абстракции сети (NAL), указывающей, нужно ли данные, включенные в единицу NAL, рассматривать как опорную картинку. WD7 также обеспечивает, что опорная картинка содержит выборки (то есть пиксельные значения), которые могут быть использованы для внешнего предсказания в процессе декодирования последующих картинок в порядке декодирования.

[0030] Как введено выше, обычно видеоданные включают в себя различные типы картинок. Например, видеоданные включают в себя случайные точки доступа (точки RAP), которые могут быть использованы для начала потока видеоданных. Точки RAP являются картинками, которые независимо кодируются, например, как кодированные картинки с внутренним предсказанием (I-картинки). Точки RAP включают в себя картинки мгновенного обновления декодера (IDR), картинки доступа с разорванной ссылкой (BLA), картинки чистого произвольного доступа (CRA), и картинки постепенного обновления при декодировании (GDR). Другие типы картинок включают в себя картинки, которые предназначены для отбрасывания (TFD), декодируемые начальные картинки (картинки DLP), и находящиеся сзади картинки. Вообще, картинки DLP (как все начальные картинки) являются картинками, которые имеют порядок вывода, который является более ранним, чем порядок вывода соответствующей RAP, но порядок декодирования, который является более поздним, чем порядок декодирования соответствующей RAP. Однако, картинки DLP являются начальными картинками, которые являются декодируемыми без извлечения данных, которые предшествуют соответствующей RAP в порядке декодирования. Находящиеся сзади картинки, с другой стороны, имеют порядок вывода, который является более поздним, чем порядок вывода соответствующей RAP, так же как порядок декодирования, который является более поздним, чем порядок декодирования соответствующей RAP. Картинки, которые являются TFD, не могут быть должным образом декодированы при выполнении произвольного доступа от соответствующей RAP. Это происходит обычно из-за картинки TFD, предсказываемой исходя из данных, которые предшествуют соответствующей RAP в порядке декодирования. Поскольку произвольный доступ от RAP опускает извлечение данных ранее, чем RAP в порядке декодирования, картинки TFD, которые зависят от данных ранее, чем RAP в порядке декодирования, не являются правильно декодируемыми, когда RAP используется как точка произвольного доступа, и могут поэтому быть отброшены без декодирования. Картинки TFD "зависят" от более ранних данных в том смысле, что они предсказываются относительно одной или более картинок, имеющих место в порядке декодирования, чем RAP.

[0031] Единицам NAL можно назначить конкретные значения типа единицы NAL, например, в заголовке единицы NAL, чтобы указать тип данных, включенных в соответствующую единицу NAL. Единицы NAL могут обычно включать в себя данные уровня кодирования видео (VCL), также называемые единицы NAL VCL, или данные не-VCL, также называемые единицы NAL не-VCL. Данные не-VCL включают в себя, например, наборы параметров, такие как наборы параметров картинки (PPS), наборы параметров последовательности (SPS), и наборы параметров адаптации (APS), так же как сообщения информации дополнительного расширения (SEI). Данные VCL обычно включают в себя закодированные видеоданные. Тип единицы NAL может обеспечить индикацию типа данных, включенных в единицу NAL, включая, соответствуют ли RAP закодированные видеоданные в единице NAL, и если это так, соответствуют ли эти закодированные видеоданные картинке CRA, BLA или IDR. Тип единицы NAL может указывать, включает ли единица NAL в себя другие типы данных также. Таблица 1 ниже обеспечивает пример некоторых значений типа единицы NAL, и данных, включенных в соответствующую единицу NAL, как было предоставлено в WD7:

ТАБЛИЦА 1
nal_unit_type	Контент единицы NAL и структура синтаксиса RBSP	Класс типа единицы NAL
1	Кодированная вырезка не-RAP, не-TFD and не-TLA картинки slice_layer_rbsp()	VCL
2	Кодированная вырезка картинки TFD slice_layer_rbsp()	VCL
3	Кодированная вырезка картинки TLA не-TFDslice_layer_rbsp()	VCL
4, 5	Кодированная вырезка картинки CRA slice_layer_rbsp()	VCL
6,7	Кодированная вырезка картинки BLAslice_layer_rbsp()	VCL
8	Кодированная вырезка картинки IDR slice_layer_rbsp()	VCL

[0032] Кроме того, WD7 различает долгосрочные опорные картинки от краткосрочных опорных картинок. Например, WD7 определяет долгосрочную опорную картинку как опорную картинку, которая маркирована как “используется для долгосрочной ссылки». WD7 обеспечивает, что флаг в наборе параметров последовательности (SPS) указывает, сигнализированы ли долгосрочные опорные картинки обычно для закодированной видеопоследовательности. В соответствии с WD7, видеокодировщики сигнализируют младшие значащие биты (LSB) значений POC долгосрочных опорных картинок в заголовках вырезок в вырезках. Сигнализация LSB может привести к экономии битов относительно сигнализации полного значения POC. Видеокодировщики, в соответствии с WD7, могут сигнализировать старшие значащие биты (MSB) значений POC долгосрочной опорной картинки, если имеется больше, чем одна опорная картинка в буфере декодированных картинок (DPB), которая имеет те же самые биты LSB как долгосрочная опорная картинка. Кроме того, в соответствии с WD7, видеокодировщики могут использовать флаг, чтобы указать, могут ли сигнализированные долгосрочные опорные картинки использоваться текущей картинкой для ссылки.

[0033] Одно предположение для конструкции набора опорных картинок (RPS) в HEVC является то, что выведение RPS должно быть робастным к потерям картинок, пока относительные значения POC могут быть корректно установлены как для краткосрочных опорных картинок (STRP) так и для долгосрочных опорных картинок (LTRP). Чтобы достигнуть этого, выведение RPS для любой картинки может быть автономным, то есть не в зависимости от статуса буфера декодированных картинок (DPB). С этим принципом конструкции, в соответствии с WD7, STRP сигнализируются, используя значения их дельты POC относительно текущей картинки. Следовательно, декодер может быть в состоянии вывести POC этих опорных картинок, даже когда некоторые картинки были потеряны, и следовательно проверить, присутствует ли каждая из STRP.

[0034] Настоящее раскрытие распознает некоторые проблемы в текущей сигнализации заголовка вырезки для LTRP в присутствии потерь картинок в WD7. Ошибочное выведение RPS возможно в присутствии потерь. Это происходит из-за сигнализации только величины LSB для POC для LTRP, которая является той же самой, как для сигнализации значения POC для каждой текущей картинки (то есть pic_order_cnt_lsb), хотя в некоторых случаях полные значения POC, используя элемент синтаксиса delta_poc_msb_cycle_lt сигнализируются для LTRPs. Если есть картинка в DPB, которая имеет тот же самый LSB, как тот что сигнализирован для LTRP, то может быть двусмысленность в выведении RPS, и неправильный результат RPS может иметь место, как показано в примерах, представленных ниже. В примерах, описанных ниже, "MaxPicOrderCntLsb", как предполагается, равен 256, или другими словами, log2_max_pic_order_cnt_lsb_minus4 равняется 4.

[0035] В качестве первого примера, который иллюстрирует проблемы, описанные выше, рассмотрим три картинки n-1, n, и n+1, которые являются последовательными в порядке декодирования. Предположим, что картинка n-1 имеет опорные картинки со значениями POC 0 и 256 в качестве LTRP, и картинки n и n+1 имеют только опорную картинку с POC 256 в качестве LTRP. Значения POC картинок n-1, n, и n+1 находятся все в диапазоне 257-511, включительно. Также предположим, что ни одна из картинок n-1, n, и n+1 или любая другая картинка в DPB не имеет значения LSB, равного 0. При сигнализации HEVC согласно WD7, релевантные элементы синтаксиса соответствующего потока битов являются такими, как показано в Таблице 2.

ТАБЛИЦА 2
POC (в порядке декодирования)	LTRP	LSB LTRP	delta_poc_msb_present_flag	delta_poc_msb_cycle_lt
…	…	…	…	…
n–1	0,256	0,0	1,1	1,0
n	256	0	1	0
n+1	256	0	0	-
…	…	…	…	…

[0036] Для картинки n, даже при том, что только картинка 256 сигнализирована как LTRP, когда RPS картинки n выводится, картинка 0 все еще была в DPB. Следовательно, даже для картинки n, delta_poc_msb_present_flag устанавливается в 1, и значение delta_poc_msb_msb_cycle_lt посылается. После выведения RPS для картинки n, картинка 0 маркируется как “неиспользуемая для ссылки» и может быть удалена из DPB. Для картинки n+1, однако, так как только одна LTRP присутствует в DPB, delta_poc_msb_present_flag устанавливается в 0, и delta_poc_msb_cycle_lt не присутствует.

[0037] При структуре синтаксиса WD7 вышеупомянутая таблица будет соответствовать соответствующему потоку битов. Однако, если картинка n потеряна, то сигнализация LTRP для картинки n+1, будет недостаточной, чтобы решить, какая картинка из DPB должна быть выбрана как LTRP. И 0 и 256 имеют LSB равный 0, и декодер может не быть в состоянии решить проблему. Декодер нуждается в delta_poc_msb_present_flag, равным 1 для картинки n+1, чтобы уникально идентифицировать картинку, которая должна быть использоваться как единственная LTRP.

[0038] Второй пример проблем, описанных выше, относящихся к первому примеру выше, является следующим. Описание Таблицы 3 подобно описанию Таблицы 2, за исключением того, что картинка 0 сигнализируется как LTRP, и картинка 256 сигнализируется как STRP для картинки n-1.

ТАБЛИЦА 3
POC (в порядке декодирования)	LTRPs	STRPs	LTRP LSBs	delta_poc_msb_present_flag	delta_poc_msb_cycle_lt
…	…	…	…	…	…
n-1	0	256	0	1	1
n	256	-	0	1	0
n+1	256	-	0	0	-
…	…	…	…	…	…

[0039] Здесь снова, если бы картинка n потеряна, декодер может не быть в состоянии правильно идентифицировать эту LTRP, сигнализированную как картинка 256, и декодер будет нуждаться в delta_poc_msb_present_flag, равным 1, чтобы уникально идентифицировать картинку, которая должна быть использоваться как единственная LTRP.

[0040] Третий пример проблем, описанных выше, описан со ссылками на Таблицу 4.

ТАБЛИЦА 4
POC (в порядке декодирования)	LTRPs	STRP	LTRP LSBs	delta_poc_msb_present_flag	delta_poc_msb_cycle_lt
…	…	…	…	…	…
255	0	-	0	0
256	0	-	0	0
257	256	-	0	1	0
258	256	-	0	0	-
…	…	…	…	…	…

[0041] Относительно примера Таблицы 4, предположим, что картинка с POC 255 принята, с последующей картинкой 258 (другими словами, картинки 256 и 257 были потеряны). После декодирования заголовка вырезки для картинки 258, картинка 0 (вместо картинки 256) будет маркирована как LTRP. Вместо того, чтобы указать, что опорная картинка 256 не присутствует для картинки 258, декодер может некорректно вывести, что картинка 0 является сигнализированной LTRP и продолжить декодирование (обеспечив другие аспекты работы процесса декодирования для этой потери).

[0042] Из вышеупомянутых примеров обманчиво простое решение для решения вышеупомянутых проблем может оказаться сигнализировать фактическое полное значение POC этих LTRP. Также может казаться, что выведение RPS будет автономным с полной сигнализацией POC. Однако, возможность, что картинки CRA могут или начать поток битов, или что картинки CRA могут быть преобразованы в картинку BLA с помощью средством стыковки, исключает сигнализацию полного значения POC. Например, рассмотрим картинку CRA в потоке битов со значением POC равным 256 (все еще принимая, что MaxPicOrderCntLsb = 256), и пусть некоторые картинки, которые следуют за картинкой CRA в порядке декодирования, имеют картинку CRA в качестве LTRP. Если полное POC картинки CRA, которое равно 256, сигнализируется, и картинка CRA преобразуется в картинку BLA или начинает поток битов, то LTRP может быть неправильно выведена, и поток битов станет несогласованным. Когда картинка CRA преобразуется в картинку BLA или начинает поток битов, декодер выводит свою POC только на основе его LSB, в соответствии со способами WD7. В вышеупомянутом примере POC картинки CRA (которая является теперь картинкой BLA) будет настроено равным 0. Когда декодер просматривает LTRP с POC 256, DPB не будет содержать какую-либо подобную картинку, потому что теперь картинка CRA имеет выведенный POC равный 0. Это будет приводить к «нет опорной картинки» в RPS, и если текущая картинка не является картинкой TFD, ассоциированной с картинкой CRA, результирующий поток битов будет несогласованным.

[0043] Настоящее раскрытие описывает способы для поддержания произвольного доступа для видеоданных. В некоторых случаях эти способы могут быть использованы для преодоления вышеупомянутых проблем в WD7. Более подробно, настоящее раскрытие предлагает несколько ограничений для поддержания произвольного доступа на основании различных типов картинок. Во-первых, согласно одному способу настоящего раскрытия, все картинки TFD для картинки RAP должны иметь значение порядка отображения, которое является более ранним, чем значение порядка отображения для всех картинок DLP для RAP. Это ограничение может улучшить опыт просмотра зрителем, избегая зыби в скорости передачи кадров. Таким образом, если есть одна или более картинок, которые не могут быть корректно декодированы (то есть картинки TFD) и если эти картинки имеют значения порядка отображения, смешанные с картинками DLP, то скорость передачи кадров может казаться изменчивой, что может ухудшить пользовательский опыт. Согласно другому способу настоящее раскрытие также предлагает ограничение, в котором предотвращено перемежение начальных картинок с “находящимися сзади картинками” в порядке декодирования. Таким образом, в соответствии со способами настоящего раскрытия, видеокодировщики могут гарантировать, что все начальные картинки (включая как картинки TFD так и картинки DLP) имеют значения порядка декодирования более ранние, чем значения порядка декодирования картинок, которые имеют значения порядка отображения, большие чем значение порядка отображения соответствующей картинки RAP. Как отмечено выше, “находящиеся сзади картинки” являются картинками, которые следуют за картинкой RAP и в порядке декодирования и в порядке отображения.

[0044] Как введено выше, обычно видеоданные включают в себя различные типы картинок. Например, видеоданные включают в себя точки RAP, которые могут быть использованы для начала потока видеоданных. Точки RAP являются картинками, которые являются независимо кодированными, например, в качестве кодированных картинок с внутренним предсказанием (I-картинки). Точки RAP включает в себя картинки IDR, картинки BLA и картинки CRA.

[0045] Другие типы картинок включают в себя TFD, картинки DLP, и находящиеся сзади картинки. Обычно, картинки DLP (как и все начальные картинки) являются картинками, которые имеют порядок вывода, который является более ранним, чем порядок вывода соответствующей картинки RAP, но порядок декодирования, который является более поздним, чем порядок декодирования соответствующей RAP. Однако, картинки DLP являются начальными картинками, которые являются декодируемыми без извлечения данных, которые предшествуют соответствующей картинке RAP в порядке декодирования. Другими словами, картинки DLP являются начальными картинками, которые предсказываются относительно данных одной или более картинок, включая и/или следующие после соответствующей RAP. Находящиеся сзади картинки, с другой стороны, имеют порядок вывода, который является более поздним, чем порядок вывода соответствующей RAP, так же как порядок декодирования, который является более поздним, чем порядок декодирования соответствующей картинки RAP.

[0046] Картинки, которые являются картинками TFD, не могут быть должным образом декодированы при выполнении произвольного доступа от соответствующей картинки RAP. Это происходит обычно из-за картинки TFD, предсказываемой из данных, которые предшествуют соответствующей картинке RAP в порядке декодирования. Поскольку произвольный доступ из картинки RAP пропускает извлечение данных ранее, чем картинка RAP, картинки TFD в зависимости от данных, более ранних, чем картинка RAP, не будет правильно декодирована, и может поэтому быть отклонена без декодирования.

[0047] Настоящее раскрытие предлагает несколько ограничений для поддержания произвольного доступа на основании этих различных типов картинок. Во-первых, все картинки TFD картинки RAP должны иметь значение порядка отображения, которое является более ранним, чем значение порядка отображения для всех картинок DLP этой картинки RAP. Это ограничение может улучшить опыт зрительского просмотра, потому что оно избегает зыби в скорости передачи кадров. Таким образом, если имеется одна или более картинок, которые не могут быть корректно декодированы (такие как картинки TFD), если эти картинки имеют значения порядка отображения, смешанные с картинками DLP, то скорость передачи кадров может казаться изменчивой, что может ухудшить пользовательский опыт.

[0048] Настоящее раскрытие также предлагает ограничение, в котором предотвращено перемежение начальных картинок с “находящимися сзади картинками” в порядке декодирования. Таким образом, в соответствии со способами настоящего раскрытия видеокодировщики могут гарантировать, что все начальные картинки (включая как картинки TFD так и картинки DLP) имеют значения порядка декодирования ранние, чем значения порядка декодирования картинок, которые имеют значения порядка отображения, большие, чем значение порядка отображения соответствующей картинки RAP. Как отмечено выше, «находящиеся сзади картинки” являются картинками, которые следуют за картинкой RAP и в порядке декодирования и в порядке отображения. Реализуя способы настоящего раскрытия, видеокодер может быть сконфигурирован, чтобы закодировать картинку RAP и закодировать одну или более картинок DLP для картинки RAP таким образом, что все картинки, которые предназначены для отбрасывания, предшествуют картинкам DLP, ассоциированным с картинкой RAP в порядке вывода. Аналогично, видеодекодер не должен пытаться декодировать картинки TFD, следующие после картинки RAP, которая используется как точка произвольного доступа. Вместо этого видеодекодер может просто синтаксически разобрать данные для таких картинок TFD, не пытаясь декодировать данные. Это может обеспечить экономию ресурсов для устройства, такого как видеодекодер. Например, эти способы могут сэкономить мощность батареи и/или улучшить эффективность обработки. Не перемежая начальные и находящиеся сзади картинки в порядке декодирования, система (такая как MANE или видеодекодер) может легко идентифицировать начальные картинки, ассоциированные с картинкой RAP, не имея потребности выполнять синтаксический разбор вне первой находящейся сзади картинки, которая следует за ассоциированной картинкой RAP. Идентификация начальных картинок может быть полезной в принятии решения о выводе при случайном доступе, потому что начальная картинка имеет место перед RAP в порядке отображения и может быть полезной для удаления начальных картинок, если промежуточная система конфигурируется, чтобы делать это. Кроме того, как отмечено выше, эти способы могут привести к улучшенному пользовательскому опыту, избегая зыби в скорости передачи кадров.

[0049] Фиг. 1 является блок-схемой, иллюстрирующей примерную систему 10 кодирования и декодирования видео, которая может использовать способы для сигнализации долгосрочных опорных картинок в заголовках вырезок. Как показано на фиг. 1, система 10 включает в себя исходное устройство 12, которая обеспечивает закодированные видеоданные, которые должны быть декодированы в более позднее время устройством 14 назначения. В частности, исходное устройство 12 выдает видеоданные устройству 14 назначения через считываемый компьютером носитель 16. Исходное устройство 12 и устройство 14 назначения могут содержать любое из широкого диапазона устройств, включая настольные компьютеры, портативные компьютер

Произвольный доступ и сигнализация долгосрочных опорных картинок при кодировании видео

Патент 2646325