2641470 - Устройство передачи/приема, способ и устройство кодирования/декодирования

Устройство передачи/приема, способ и устройство кодирования/декодирования

Иллюстрации

Показать все

Предложено устройство передачи, содержащее секцию иерархической классификации для классификации данных изображения для каждого кадра. Технический результат заключается в адаптации устройства приема для воспроизведения видео с подходящей частотой кадров. Достижение результата обеспечивает устройство передачи, содержащее: секцию иерархической классификации для классификации, на множество слоев, данных изображения для каждого кадра, входящего в состав данных движущегося изображения; секцию кодирования изображений для кодирования классифицированных данных изображения для каждого слоя и генерирования множества видео потоков, содержащих закодированные данные изображений каждого из множества слоев; секцию передачи для передачи контейнера. заданного формата, содержащего сгенерированный видео поток, и секцию вставки информации идентификации, выполненную с возможностью вставки информации идентификации потока для идентификации видео потока каждого слоя в слой контейнера; при этом секция кодирования изображений выполнена с возможностью осуществления кодирования так, что кадр, на который ссылаются, принадлежит слою данных изображения, осуществляющего ссылку, и/или более низкому слою по сравнению со слоем данных изображения, осуществляющим ссылку. 4 н. и 5 з.п. ф-лы, 23 ил.

Реферат

Область техники, к которой относится изобретение

Настоящая технология касается устройства передачи, способа передачи, устройства кодирования, устройства приема, способа приема и устройства декодирования и, более конкретно, устройства передачи и подобного, позволяющего предоставить услугу с высокой частотой ТВ-кадров.

Уровень техники

При предоставлении сжатых движущихся изображений с помощью широковещательной передачи или с помощью сетевых услуг и подобного, верхняя граница частоты ТВ-кадров, которые могут быть воспроизведены, ограничена производительностью устройства приема. Следовательно, на стороне услуг необходимо учитывать производительность при воспроизведении широко распространенных устройств приема и ограничивать услугу только низкой частотой ТВ-кадров или одновременно предоставлять несколько высококачественных и низкокачественных услуг.

Добавление поддержки услуг с высокой частотой ТВ-кадров увеличивает стоимость устройства приема и становится барьером для адаптации. Если широко распространены только устройства приема с низкой стоимостью, предназначенные для услуг с низкой частотой ТВ-кадров и в будущем на стороне услуг запускается услуга с высокой частотой ТВ-кадров, то новую услугу абсолютно невозможно просмотреть без нового устройства приема, что становится барьером при адаптации услуги.

Схемы сжатия движущегося изображения, такие как H.264/AVC (Улучшенное кодирование видео) (смотри Документ 1, который не относится к патентной литературе) в общем состоят из следующих трех типов кадров.

I кадр: может быть декодирован отдельно

Р кадр: может быть декодирован отдельно на основании I кадра или другого Р кадра

В кадр: может быть декодирован отдельно на основании I кадра, Р кадра или другого В кадра.

С использованием этого свойства, до некоторой степени возможно воспроизведение с отбором ТВ-кадров, такое как воспроизведение, например, только I кадров и Р кадров. Тем не менее, при этом способе точное воспроизведение с отбором трудно осуществимо и его использование на практике вызывает сомнения.

Список цитируемой литературы

Литература, не относящаяся к патентам

Документ 1, который не относится к патентной литературе: ITU-T Н.264 (06/2011), «Улучшенное кодирование видео для общих аудиовизуальных услуг».

Раскрытие изобретения

Техническая задача

Задача настоящего изобретения заключается в том, чтобы без затруднений получить услугу с высокой частотой ТВ-кадров.

Решение задачи

В соответствии с одним аспектом настоящего изобретения, предложено устройство передачи, содержащее секцию иерархической классификации для классификации на множество слоев данных изображения для каждого кадра, входящего в состав данных движущегося изображения, секцию кодирования изображений для кодирования классифицированных данных изображения для каждого слоя и генерирования видео потока, содержащего закодированные данные изображения каждого слоя, и секцию передачи, для передачи контейнера заранее заданного формата, содержащего сгенерированный видео поток. В секции кодирования изображений осуществляют кодирование, так что кадр, на который ссылаются, принадлежит слою данных изображения, которое ссылается, и/или более низкому слою по сравнению со слоем данных изображения, которое ссылается.

В настоящем изобретении данные изображения каждого кадра, входящего в состав данных движущегося изображения, классифицируют на несколько слоев, что делают в секции иерархической классификации. Данные изображения каждого слоя кодируют в секции кодирования изображений и генерируют видео поток, содержащий закодированные данные изображений каждого слоя. В этом случае данные изображения кодируют так, что кадр, на который ссылаются, принадлежит слою данных изображения, которое ссылается, и/или более низкому слою по сравнению со слоем данных изображения, которое ссылается.

Контейнер заранее заданного формата, который содержит упомянутый выше видео поток, передают с помощью секции передачи. Например, контейнер может являться транспортным потоком (MPEG-2 TS), который применяют в стандартах цифрового вещания. В качестве другого примера, контейнер может являться МР4, который используется при доставке с помощью интернет и в подобных случаях, или может быть контейнером некоторого другого формата.

Таким образом, в настоящем изобретении данные изображения каждого кадра, входящего в состав данных движущегося изображения, классифицируют во множество слоев и передают видео поток, содержащий закодированные данные изображений каждого слоя. По этой причине путем простой передачи одной программы или одного файла может быть обеспечено предоставление услуги поддержки различных частот кадров и становится возможным уменьшение операционных затрат.

Также на приемной стороне, закодированные данные изображений в заданном слое или более низких слоях могут быть выборочно извлечены и декодированы, что позволяет воспроизводить с частотой ТВ-кадров, подходящей для производительности воспроизведения самой приемной стороны, тем самым оказывая эффективное содействие адаптации устройств приема. Здесь данные изображения кодируют так, что кадры, на которые ссылаются, принадлежит слою данных изображения, которое ссылается, и/или более низкому слою по сравнению со слоем данных изображения, которое ссылается, и в устройстве приема производительность воспроизведения самого устройства приема может быть эффективно использована без необходимости декодировать слои, более высокие по сравнению с заданным слоем.

Заметим, что в настоящем изобретении, например, секция кодирования изображений может быть выполнена так, чтобы в ней генерировать единственный видео поток, содержащий закодированные данные изображений каждого слоя, и для каждого изображения добавлять к закодированным данным изображений каждого слоя идентификационную информацию слоя для идентификации слоя, содержащего изображения. В этом случае на приемной стороне возможно осуществить хорошее выборочное извлечение закодированных данных изображений в заданном слое или более низких слоях на основе идентификационной информации слоя.

Также в настоящем изобретении, например, секция иерархической классификации может быть выполнена так, чтобы в ней классифицировать данные изображения для каждого кадра, входящего в состав данных движущегося изображения, на множество слоев так, что, за исключением самого низкого слоя, количество кадров, принадлежащих каждому слою, совпадает с количеством кадров, принадлежащих всем более низким слоям и, помимо этого, кадры, принадлежащие каждому слою, расположены во временном центре между кадрами, принадлежащими всем более низким слоям. В этом случае частота ТВ-кадров удваивается каждый раз при увеличении слоя на один и, таким образом, на приемной стороне становится возможным легко распознать частоту ТВ-кадров в каждом слое только по информации о частоте ТВ-кадров для кадров самого низкого слоя.

Также настоящее изобретение может быть выполнено так, чтобы предусмотреть секцию вставки информации, в которой вставляют в контейнер информацию о частоте ТВ-кадров для кадров в самом низком слое и информацию о количестве слоев, указывающую количество слоев. Например, она может быть выполнена так, чтобы информацию вставляли в слой-контейнер или видео слой. В этом случае на приемной стороне становится возможно легко получить информацию о частоте ТВ-кадров в самом низком слое и информацию о количестве слоев, указывающую количество слоев.

Также в настоящем изобретении секция вставки информации может быть выполнена так, чтобы при вставке информации в видео слой, в секции вставки информации дополнительно вставляют в слой-контейнер идентификационную информацию, которая идентифицирует, существует или нет вставка информации в видео слой. В этом случае на приемной стороне становится возможно легко узнать, без декодирования видео потока, вставлена ли в видео поток информация о частоте ТВ-кадров изображений в самом низком слое и информация о количестве слоев, указывающая количество слоев.

Также настоящее изобретение может быть реализовано так, чтобы генерировать множество видео потоков, содержащих, например, закодированные данные изображений каждого слоя. В этом случае, например, настоящее изобретение может быть реализовано так, чтобы дополнительно содержать секцию вставки идентификационной информации, в которой вставляют в слой-контейнер идентификационную информацию потока для идентификации видео потока каждого слоя. В этом случае на приемной стороне возможно осуществить хорошее выборочное извлечение закодированных данных изображений в заданном слое или более низких слоях на основе идентификационной информации потока.

В соответствии с другим аспектом настоящего изобретения, предложено устройство приема, содержащее секцию приема, в которой принимают контейнер заранее заданного формата, который содержит видео поток, содержащий данные изображения для каждого кадра, входящего в состав данных движущегося изображения, при этом данные изображения прошли классификацию на множество слоев и прошли кодирование, так что кадр, на который ссылаются, принадлежит слою данных изображения, которое ссылается, и/или более низкому слою по сравнению со слоем данных изображения, которое ссылается, секцию декодирования изображений, в которой выборочно извлекают и декодируют закодированные данные изображений заданного слоя и более низких слоев из видео потока, содержащегося в принятом контейнере, и получают данные изображения для каждого кадра, и секцию регулировки скорости воспроизведения, в которой регулируют скорость воспроизведения изображения в соответствии с декодированными данными изображения для каждого кадра, что делают с целью соответствия частоте ТВ-кадров для кадров в заданном слое.

В настоящем изобретении, контейнер заранее заданного формата принимают с помощью секции приема. Контейнер содержит видео поток, содержащий данные изображения для каждого кадра, входящего в состав данных движущегося изображения, при этом данные изображения прошли классификацию на множество слоев и прошли кодирование, так что кадр, на который ссылаются, принадлежит слою данных изображения, которое ссылается, и/или более низкому слою по сравнению со слоем данных изображения, которое ссылается. Например, контейнер может являться транспортным потоком (MPEG-2 TS), который применяют в стандартах цифрового вещания. В качестве другого примера, контейнер может являться МР4, который используется при доставке с помощью интернет и в подобных случаях, или может быть контейнером некоторого другого формата.

Закодированные данные изображений заданного слоя и более низкого слоя выборочно извлекают и декодируют из видео потока, содержащегося в контейнере, что делают в секции декодирования изображений, и получают данные изображения для каждого изображения. Далее скорость воспроизведения изображения, соответствующего декодированным данным изображений для каждого кадра, регулируют в секции регулировки скорости воспроизведения с целью соответствия частоте ТВ-кадров для кадров в заданном слое.

Например, настоящее изобретение может быть реализовано так, что в контейнер вставляют информацию о частоте ТВ-кадров кадров самого низкого слоя и информацию о количестве слоев, указывающую количество слоев, и настоящее изобретение может дополнительно содержать секцию управления, в которой на основе вставленной в контейнер информации и производительности декодирования устройства приема управляют слоем декодирования в секции декодирования изображений и управляют скоростью воспроизведения изображения в секции регулировки скорости воспроизведения.

Таким образом, в настоящем изобретении закодированные данные изображений в заданном слое или более низких слоях могут быть выборочно извлечены и декодированы, что позволяет воспроизводить с частотой ТВ-кадров, подходящей для производительности воспроизведения самого устройства приема. Также данные изображения кодируют так, что изображение, на которое ссылаются, принадлежит слою данных изображения, которое ссылается, и/или более низкому слою по сравнению со слоем данных изображения, которое ссылается, и производительность воспроизведения самого устройства приема может быть эффективно использована без необходимости декодировать слои, более высокие по сравнению с заданным слоем.

Заметим, что настоящее изобретение может быть выполнено так, чтобы, например, единственный видео поток, содержащий закодированные данные изображений каждого слоя, содержится в контейнере и для каждого кадра, идентификационную информацию слоя для идентификаций слоя, содержащего кадр, добавляют в закодированные данные изображений каждого слоя. В секции декодирования изображений выборочно извлекают и декодируют закодированные данные изображений в заданном слое и более низких слоях из единственного видео потока, что делают на основе идентификационной информации слоя. В этом случае, даже если контейнер содержит единственный видео поток, содержащий закодированные данные изображений каждого слоя, может быть осуществлено хорошее выборочное извлечение закодированных данных изображений заданного слоя и более низких слоев.

Также настоящее изобретение может быть выполнено так, что, например, несколько видео потоков, содержащих закодированные данные изображений для каждого из множества слоев, содержится в контейнере и идентификационную информацию потока для идентификации видео потока каждого слоя вставляют в слой-контейнер. В секции кодирования изображений выборочно извлекают и декодируют закодированные данные изображений из видео потоков заданного слоя и более низких слоев, что делают на основе идентификационной информации потока. В этом случае, даже если контейнер содержит множество видео потоков, содержащих закодированные данные изображений каждого слоя, может быть осуществлено хорошее выборочное извлечение закодированных данных изображений заданного слоя и более низких слоев.

Полезные эффекты изобретения

В соответствии с настоящим изобретением, возможно облегчить предоставление услуги с высокой частотой ТВ-кадров.

Краткое описание чертежей

Фиг. 1 - вид, показывающий структурную схему, иллюстрирующую типовую конфигурацию системы телевизионной передачи/приема в качестве типового варианта осуществления изобретения;

фиг. 2 - вид, показывающий структурную схему, иллюстрирующую типовую конфигурацию устройства телевизионной передачи, входящего в состав системы телевизионной передачи/приема;

фиг. 3 - вид, показывающий пример иерархической классификации и кодирования изображений;

фиг. 4 - вид, поясняющий позицию расположения иерархической идентификационной информации (temporal_id);

фиг. 5 - вид, поясняющий позицию расположения FPS дескриптора (fps_descriptor);

фиг. 6 - вид, показывающий пример синтаксиса FPS дескриптора;

фиг. 7 - вид, показывающий пример синтаксиса FPS информации (fps_info), вставленной в качестве SEI сообщения в «SEI» часть блока доступа, и пример синтаксиса FPS дескриптора существования (fps_exist_descriptor), расположенного под РМТ;

фиг. 8 - вид, показывающий структурную схему, иллюстрирующую типовую конфигурацию устройства ТВ приема, входящего в состав системы ТВ передачи/приема;

фиг. 9 - вид, показывающий блок-схему, иллюстрирующую пример последовательности операций передачи в случае, когда FPS дескриптор (fps_descriptor) расположен в том же PID и под РМТ;

фиг. 10 - вид, показывающий блок-схему, иллюстрирующую пример последовательности операций приема в случае, когда FPS дескриптор (fps_descriptor) расположен в том же PID и под РМТ;

фиг. 11 - вид, показывающий блок-схему, иллюстрирующую пример последовательности операций передачи в случае добавления FPS информации (fps_info) SEI сообщения в тот же PID;

фиг. 12 - вид, показывающий блок-схему, иллюстрирующую пример последовательности операций приема в случае, когда FPS информацию (fps_info) SEI сообщения добавляют в тот же PID;

фиг. 13 - вид, иллюстрирующий выделение соответствующих слоев в соответствии с различными PID в случае генерирования множества видео потоков, в которых данные изображения содержатся в каждом из множества слоев при кодировании изображений;

фиг. 14 - вид, показывающий пример дескриптора структуры (strucnare_descriptor), расположенного под РМТ;

фиг. 15 - вид, иллюстрирующий пример использования FPS информации (fps_info) SEI сообщения в случае выработки нескольких видео потоков, в которых данные изображения содержатся в каждом из множества слоев при кодировании изображений;

фиг. 16 - вид, показывающий блок-схему, иллюстрирующую пример последовательности операций передачи в случае, когда FPS дескриптор (fps_descriptor) расположен в разных PID и под РМТ;

фиг. 17 - вид, показывающий блок-схему, иллюстрирующую пример последовательности операций приема в случае, когда FPS дескриптор (fps_descriptor) расположен в разных PID и под РМТ;

фиг. 18 - вид, показывающий блок-схему, иллюстрирующую пример последовательности операций передачи в случае добавления FPS информации (fps_info) SEI сообщения в разные PID;

фиг. 19 - вид, показывающий блок-схему, иллюстрирующую пример последовательности операций приема в случае, когда FPS информацию (fys_info) SEI сообщения добавляют в разные PID;

фиг. 20 - вид, показывающий сравнение дополнительной информации для четырех способов: (а) синтаксические правила в одном и том же PID (PES) и в РМТ, (b) синтаксические правила в одном и том же PID (PES) и в SEI, (с) синтаксические правила в различных PID (PES) и в РМТ и (d) синтаксические правила в различных PID (PES) и в SEI;

фиг. 21 - вид, показывающий другой пример иерархической классификации и кодирования изображений;

фиг. 22 - вид, показывающий другой пример иерархической классификации и кодирования изображений;

фиг. 23 - вид, показывающий другой пример иерархической классификации и кодирования изображений.

Осуществление изобретения

Здесь и далее будут описаны варианты осуществления изобретения (здесь и далее называются типовыми вариантами осуществления изобретения). Далее, описание будет приведено в следующем порядке.

1. Типовые варианты осуществления изобретения

2. Типовые модификации

1. Типовые варианты осуществления изобретения

Система ТВ передачи/приема

На фиг. 1 в качестве типового варианта осуществления изобретения показана типовая конфигурация системы 10 телевизионной (ТВ) передачи/приема. Система 10 ТВ передачи/приема содержит устройство 100 ТВ передачи и устройство 200 ТВ приема.

Устройство 100 ТВ передачи передает транспортный поток TS, который служит контейнером для несущей частоты. В транспортном потоке TS данные изображения каждого кадра, который входит в состав данных движущегося изображения, делят на множество слоев и транспортный поток TS включает в себя единственный видео поток, содержащий закодированные данные данных изображений в каждом слое. В этом случае осуществляют кодирование, такое как, например, H.264/AVC, так что кадр, на который ссылаются, принадлежит слою данных изображения, которое ссылается, и/или более низкому слою по сравнению со слоем данных изображения, которое ссылается.

В этом случае, данные изображения каждого кадра, который входит в состав данных движущегося изображения, классифицируют на множество слоев так, что, за исключением самого низкого слоя, количество кадров, принадлежащих каждому слою, совпадает с количеством кадров, принадлежащих всем более низким слоям и, помимо этого, кадры, принадлежащие каждому слою, расположены во временных центрах между кадрами, принадлежащими всем более низким слоям. С такой классификацией, частота ТВ-кадров удваивается каждый раз при увеличении слоя на единицу и, таким образом, на приемной стороне становится возможным легко распознать частоту кадров в каждом слое только по информации о частоте ТВ-кадров для кадров самого низкого слоя.

Для каждого кадра к закодированным данным изображений каждого слоя добавляют идентификационную информацию слоя, предназначенную для идентификации содержащего слоя. В этом типовом варианте осуществления изобретения идентификационная информация слоя (temporal_id) расположена в заголовочной части NAL блока (nal_unit) каждого кадра. В результате такого добавления идентификационной информации слоя, на приемной стороне возможно осуществлять хорошее выборочное извлечение для закодированных данных изображений в заданном слое и более низких слоях.

В транспортный поток TS вставляют информацию о частоте кадров изображений самого низкого слоя и информацию о количестве слоев, указывающую количество слоев. Эту информацию вставляют в транспортный слой или видео слой. Например, эту информацию вставляют в инструкции под элементарным циклом видео под таблицей структуры программы (РМТ). В качестве другого примера, эту информацию вставляют в качестве SEI сообщения в «SEI» часть блока доступа. В результате такой вставки информации о частоте кадров и информации о количестве слоев на приемной стороне становится возможным легко получить эту информацию.

Устройство 200 ТВ приема принимает упомянутый выше транспортный поток TS, переданный устройством 100 ТВ передачи на несущей частоте. Устройство 200 ТВ приема выборочно извлекает и декодирует закодированные данные изображений заданного слоя и более низких слоев из видео потока, содержащегося в транспортном потоке TS, получает данные изображения для каждого кадра и осуществляет воспроизведение изображения. В этом случае скорость воспроизведения изображения, соответствующего декодированным данным изображений для каждого кадра, регулируют с целью соответствия частоте ТВ-кадров для кадров в заданном слое.

Как описано ранее, в транспортный поток TS вставляют информацию о частоте ТВ-кадров кадров самого низкого слоя и информацию о количестве слоев, указывающую количество слоев. В устройство 200 ТВ приема слоем декодирования управляют на основе этой информации и производительности декодирования самого устройства 200 ТВ приема и, помимо этого, управляют скоростью воспроизведения изображений.

Типовая конфигурация устройства ТВ передачи

На фиг. 2 показана типовая конфигурация устройства 100 ТВ передачи. Устройство 100 ТВ передачи содержит секцию 101 подачи данных исходного движущегося изображения, устройство 102 декодирования, секцию 103 иерархической классификации, секцию 104 кодирования изображений, секцию 105 кодирования аудио, секцию 106 мультиплексирования, секцию 107 генерирования дополнительной информации и секцию 108 модуляции/передающей антенны.

В секции 101 подачи данных исходного движущегося изображения извлекают данные исходного движущегося изображения (данные изображения, данные аудио), сохраненные в надлежащем формате профессионального сжатия на таком устройстве, как жесткий магнитный диск (HDD), и подают извлеченные данные исходного движущегося изображения на устройство 102 декодирования. В устройстве 102 декодирования декодируют данные исходного движущегося изображения и подают на выход распакованные данные изображения и распакованные данные аудио.

В секции 103 иерархической классификации классифицируют данные изображения для каждого кадра, входящего в состав данных распакованных данных изображения, на множество слоев. Например, как показано на чертежах, данные изображения классифицируют на три слоя: первый слой, второй слой и третий слой. Здесь в секции 103 иерархической классификации так осуществляют классификацию, что, за исключением самого низкого слоя, количество изображений, принадлежащих каждому слою, совпадает с количеством кадров, принадлежащих всем более низким слоям и, помимо этого, кадры, принадлежащие каждому слою, расположены во временном центре между кадрами, принадлежащими всем более низким слоям.

В секции 104 кодирования изображений кодируют прошедшие классификацию данные изображения для каждого слоя и генерируют видео поток (элементарный видео поток), содержащий закодированные данные изображений каждого слоя. Здесь, в секции 104 кодирования изображений осуществляют кодирование, такое как, например, H.264/AVC, так что изображение, на которое ссылаются, принадлежит слою данных изображения, которое ссылается, и/или более низкому слою по сравнению со слоем данных изображения, которое ссылается.

На фиг. 3 показан пример иерархической классификации и кодирования изображений. Этот пример является примером классификации данных изображения для каждого кадра в трех слоях: от первого слоя до третьего слоя. В этом примере I кадры (внутренние кадры) и Р кадры (изображения для предсказания) принадлежат первому слою. I кадр не ссылается на другой кадр, а Р кадр ссылается только на I кадр или Р кадр. По этой причине первый слой возможно декодировать с помощью кадров только первого слоя.

Кроме того, В кадры (кадры двунаправленного предсказания) расположены в позициях временных центров между соответствующими кадрами в первом слое и выполнены так, что принадлежат второму слою. В кадры второго слоя кодируют так, чтобы ссылаться только на кадры, принадлежащие объединенному слою из второго слоя и/или первого слоя.

В этом примере В кадры второго слоя выполнены так, чтобы ссылаться только на I кадры и Р кадры первого слоя. По этой причине второй слой возможно декодировать с помощью кадров только объединенного первого/второго слоя. Также по сравнению со случаем декодирования только первого слоя, частота ТВ-кадров удваивается, когда декодируют объединенный первый/второй слой.

Кроме того, В кадры расположены в позициях временных центров между соответствующими кадрами в объединенном первом/втором слое и выполнены так, что принадлежат третьему слою. В кадры третьего слоя выполнены так, чтобы ссылаться только на кадры, принадлежащие третьему слою и/или объединенному первому/второму слою. По этой причине третий слой возможно декодировать с помощью кадров только объединенного первого - третьего слоя. Также по сравнению со случаем декодирования только объединенного первого/второго слоя, частота ТВ-кадров удваивается, когда декодируют объединенный первый - третий слой.

На фиг. 3 пунктирными линиями показаны взаимоотношения кадров, заключающиеся в ссылках кадров друг на друга. Р кадр первого слоя ссылается только на непосредственно предшествующие I кадр или Р кадр. В кадр второго слоя ссылается только на непосредственно предшествующий или непосредственно следующий за ним I кадр или Р кадр первого слоя. В кадр третьего слоя ссылается только на непосредственно предшествующий или непосредственно следующий за ним I кадр, Р кадр или В кадр объединенного первого/второго слоя.

Для каждого кадра, в секции 104 кодирования изображений к закодированным данным изображений каждого слоя добавляют идентификационную информацию слоя, предназначенную для идентификации слоя, содержащего кадр. Другими словами, в секции 104 кодирования изображений в заголовочной части NAL блока (nal_unit) каждого изображения располагают идентификационную информацию слоя (temporal_id).

На фиг. 4 показана позиция расположения идентификационной информации слоя (temporal_id). А именно, идентификационную информацию слоя (temporal_id) располагают, например, в SVC расширении заголовка NAL блока (svc расширение заголовка). Кроме того, как показано на фиг. 3, «temporal_id=0» присваивают изображениям, принадлежащим первому слою, «temporal_id=1» присваивают изображениям, принадлежащим второму слою и «temporal_id=2» присваивают изображениям, принадлежащим третьему слою.

В примере с фиг. 3, когда частота ТВ-кадров первого слоя составляет только 30 кадр/сек, частота кадров объединенного первого/второго слоя составляет 60 кадр/сек, а частота кадров объединенного первого-третьего слоя составляет 120 кадр/сек. Также, хотя это не показано на чертежах, возможно аналогично спроектировать четвертый и пятый слои.

Возвращаясь к фиг. 2, в секции 105 кодирования аудио осуществляют кодирование, такое как MPEG-2 аудио или ААС для распакованных аудио данных и генерируют аудио поток (элементарный аудио поток). В секции 106 мультиплексирования осуществляют мультиплексирование элементарных потоков, подаваемых на выход устройством 132 кодирования видео и устройством 133 кодирования аудио. Далее в секции 106 мультиплексирования в качестве транспортных данных подают на выход транспортный поток TS.

В секции 107 генерирования дополнительной информации генерируют и передают в секцию 106 мультиплексирования, информацию о частоте кадров изображений в самом низком слое и информацию о количестве слоев, указывающую количество слоев. В секции 106 мультиплексирования вставляют эту информацию в транспортный слой. Например, в цикле дескриптора под «ES_info_length» таблицы структуры программы (РМТ), в секции 106 мультиплексирования располагают вновь определенный FPS дескриптор (fps_descriptor), указывающий информацию о частоте кадров и информацию о количестве слоев, как показано на фиг. 5. Этот цикл дескриптора является местом, в котором указана информация о характеристиках каждого элементарного потока (elementary_stream). С FPS дескриптором обращаются как с одним дескриптором, содержащимся среди описанного выше.

На фиг. 6 показан пример синтаксиса FPS дескриптора. 8-битовое поле «descriptor_tag» указывает класс дескриптора и здесь указывает на то, что дескриптор является FPS дескриптором. Например, присваивают значение «0×f0», указывающее на неиспользование в настоящее время. 8-битовое поле «descriptor_length» указывает на непосредственно следующий байт длины и здесь значение поля равно «0×02».

8-битовое поле «base» выражает информацию о частоте ТВ-кадров кадров в самом низком слое или, другими словами, информацию о частоте ТВ-кадров первого слоя. Например, в случае 30 кадр/сек, как в показанном на фиг. 3 примере, значение равно «0×1е», что означает 30. 8-битовое поле «шах» выражает информацию о количестве слоев, указывающую количество слоев. Например, в случае слоев до третьего слоя, как в показанном на фиг. 3 примере, значение равно «0×03», что означает 3.

Таким образом, путем добавления FPS дескриптора на стороне передачи (сторона кодирования), воспроизведение с отбором кадров становится легким на приемной стороне (сторона декодирования). Другими словами, из указанного содержимого FPS дескриптора становится известным, что частота ТВ-кадров составляет 30 кадр/сек только с одним слоем, 60 кадр/сек с объединенным первым/вторым слоем и 120 кадр/сек с объединенным первым-третьим слоем. Например, если производительность декодирования на приемной стороне доходит до максимума в 60 кадр/сек, то из этой информации известно, что объединенный первый/второй слой возможно декодировать. Дополнительно, известно, что достаточно декодировать изображения с «temporal_id=0» и «temporal_id=1». Также известно, что достаточно воспроизводить декодированные кадры при 60 кадр/сек.

Заметим, что также возможна вставка в видео слой информации о частоте ТВ-кадров и информации о количестве слоев, например, вставка SEI сообщения в «SEI» часть блока доступа. В этом случае в секции 107 генерирования дополнительной информации передают эту информацию в секцию 104 кодирования изображений, как указано пунктирной линией. Как показано на фиг. 7(b), в секции 104 кодирования изображений вставляют FPS информацию (fps_info), в том числе «base» и «шах» информацию как «fps_info SEI сообщение» в «SEI» часть блока доступа.

В случае такого использования SEI сообщения, в секции 106 мультиплексирования вставляют идентификационную информацию, указывающую на существование такого SEI сообщения в транспортном слое. Например, в цикле дескриптора под «ES_info_length» таблицы структуры программы (РМТ), в секции 106 мультиплексирования располагают вновь определенный FPS дескриптор существования (fps_exist_descriptor), как показано на фиг. 7(a).

8-битовое поле «descriptor_tag» указывает класс дескриптора и здесь указывает на то, что дескриптор является FPS дескриптором существования. Например, присваивают значение «0×F2», указывающее на неиспользование в настоящее время. 8-битовое поле «descriptor_length» указывает на непосредственно следующий байт длины и здесь значение поля равно «0×01». 8-битовое поле «fps_exist» указывает на существование SEI сообщения со вставленной FPS информацией (fps_info). Например, «fps_exist=0» указывает на то, что не существует SEI сообщения, a «fps_exist=1» указывает на существование SEI сообщения.

Таким образом, путем добавления FPS дескриптора существования на стороне передачи (сторона кодирования), на приемной стороне (сторона декодирования) знают о существовании SEI сообщения со вставленной FPS информацией (fps_info), которая содержит информацию о частоте кадров и информацию о количество слоев. Если FPS дескриптор существования указывает на существование SEI сообщения, то на приемной стороне (стороне декодирования) извлекают fps_info и могут знать из содержащихся внутри значений «base» и «max», какие изображения обладают «temporal_id», которые должны быть декодированы на приемной стороне (сторона декодирования). На основе этого, на приемной стороне (стороне декодирования) декодируют изображения с нужным «temporal_id».

Возвращаясь к фиг. 2, в секции 108 модуляции/передающей антенны модулируют транспортный поток TS в соответствии со схемой модуляции, подходящей для широковещательной передачи, такой как QPSK/OFDM. Далее в секции 108 модуляции/передающей антенны передают РЧ модулированный сигнал для передающей антенны.

Будут описаны операции устройства 100 ТВ передачи, показанного на фиг. 2. Данные исходного движущегося изображения (данные изображения, аудио данные), сохраненные в надлежащим формате профессионального сжатия, подают из секции 101 подачи данных исходного движущегося изображения в устройство 102 декодирования. В устройстве 102 декодирования декодируют данные исходного движущегося изображения и получают распакованные данные изображения и распакованные аудио данные.

Распакованные данные изображения, полученные устройством 102 декодирования, подают в секцию 103 иерархической классификации. В секции 103 иерархической классификации классифицируют данные изображения каждого кадра, входящего в состав распакованных данных изображения, на множество слоев. В этом случае, кадры классифицируют так, что, за исключением самого низкого слоя, количество кадров, принадлежащих каждому слою, совпадает с количеством кадров, принадлежащих всем более низким слоям и, помимо этого, кадры, принадлежащие каждому слою, расположены во временном центре между изображениями, принадлежащими всем более низким слоям (фиг. 3).

Данные изображения каждого слоя, таким образом иерархически классифицированные, подают в секцию 104 кодирования изображений. В секции 104 кодирования изображений кодируют классифицированные данные изображений каждого слоя и генерируют видео поток (элементарный видео поток), содержащий закодированные данные изображения каждого слоя. В этом случае осуществляют кодирование, такое как H.264/AVC, так что кадр, на который ссылаются, принадлежит слою данных изображения, которое ссылается, и/или более низкому слою по сравнению со слоем данных изображения, которое ссылается.

В этом случае, для каждого кадра, в секции 104 кодирования изображений к закодированным данным изображений каждого слоя добавляют идентификационную информацию слоя, предназначенную для идентификации слоя, содержащего кадр. Другими словами, в секции 104 кодирования изображений располагают идентификационную информацию слоя (temporal_id) в заголовочной части NAL блока (nal_unit) каждого кадра (смотри фиг. 4).

Кроме того, распакованные аудио данные, полученные устройством 102 декодирования, подают в секцию 105 кодирования аудио. В секции 105 кодирования аудио осуществляют кодирование, такое как MPEG-2 аудио или ААС, для распакованных аудио данных и генерируют аудио поток (элементарный аудио поток).

Видео поток, сгенерированный в секции 104 кодирования изображений, и аудио поток, сгенерированный в секции 105 кодирования аудио, подают в секцию 106 мультиплексирования. В секции 106 мультиплексирования элементарные потоки мультиплексируют и в качестве транспортных данных получают транспортный поток TS. В секции 106 мультиплексирования генерируют информацию о частоте ТВ-кадров для изображений в самом низком слое и информацию о количестве слоев, указывающую количество слоев, и добавляют упомянутую информацию

Устройство передачи/приема, способ и устройство кодирования/декодирования

Патент 2641470