Декодирующее устройство, способ декодирования, кодирующее устройство, способ кодирования и программа

Иллюстрации

Показать все

Изобретение относится к декодирующему устройству, способу декодирования, кодирующему устройству, способу кодирования. Технический результат изобретения заключается в получении высококачественного реалистичного звучания при воспроизведении принимаемых аудиоданных на аппаратуре. Кодирующее устройство сохраняет информацию о расположении громкоговорителей в области комментариев элемента РСЕ в составе кодированного потока битов данных, а также сохраняет синхронное слово и идентификационную информацию в области комментариев таким образом, чтобы можно было отличать друг от друга другие открытые комментарии и информацию о расположении громкоговорителей, сохраняемую в области комментариев. При декодировании кодированного потока битов данных определяют, хранится ли информация о расположении громкоговорителей, на основе синхронного слова и идентификационной информации, хранящейся в области комментариев. Аудиоданные, включенные в кодированный поток битов данных, выводятся согласно расположению громкоговорителей в соответствии с результатами определения. 6 н. и 4 з.п. ф-лы, 40 ил.

Реферат

Область техники, к которой относится изобретение

Настоящее изобретение относится к декодирующему устройству, способу декодирования, кодирующему устройству, способу кодирования и программе и, более конкретно, к декодирующему устройству, способу декодирования, кодирующему устройству, способу кодирования и программе, позволяющим получить высококачественное реалистичное звучание.

Уровень техники

В последние годы во всех странах мира появились сервис распространения кинофильмов, цифровое телевизионное вещание и архивирование следующего поколения. В дополнение к известному стереофоническому вещанию началось внедрение звукового вещания, соответствующего множеству каналов, таких как каналы стандарта 5.1.

Для дальнейшего усовершенствования качества изображения проводятся исследования в области телевидения высокой четкости с увеличенным числом пикселов. На основе результатов исследований телевидения высокой четкости следующего поколения можно ожидать, что совокупность каналов может быть расширена до множества каналов, превышающих каналов 5.1 в горизонтальном направлении и в вертикальном направлении в поле обработки звука для достижения реалистичного звучания.

Для кодирования аудиоданных предложен способ, группирующий множество окон из разных каналов в некоторое число ячеек, "плиток", для повышения эффективности кодирования (например, см. Патентный документ 1).

Список литературы

Патентная литература

Патентный документ 1: JP 2010-217900 A

Раскрытие изобретения

Проблемы, которые должно решить изобретение

Однако при использовании упомянутого выше способа трудно получить высококачественное реалистичное звучание.

Например, при многоканальном кодировании на основе стандарта Усовершенствованного аудио кодирования Группы экспертов по кинематографии (Moving Picture Experts Group-2 Advanced Audio Coding (MPEG-2AAC)) и на основе стандарта MPEG-4AAC, являющихся международными стандартами, определены только расположение громкоговорителей в горизонтальном направлении и информация о микшировании с уменьшением числа каналов для преобразования от стандарта 5.1 каналов в стереоканалы. Поэтому трудно реагировать в достаточной степени на протяженность каналов в плоскости и в вертикальном направлении.

Предлагаемый способ разработан с учетом упомянутых выше проблем и позволяет получить высококачественное реалистичное звучание.

Решение проблем

Декодирующее устройство согласно первому аспекту настоящего изобретения содержит декодирующий модуль, который декодирует аудиоданные, включенные в кодированный поток битов данных, модуль считывания, который считывает из кодированного потока битов данных информацию, указывающую, что в кодированном потоке битов данных присутствует расширенная информация, и считывает расширенную информацию на основе считанной информации, и обрабатывающий модуль, который обрабатывает декодированные аудиоданные на основе расширенной информации.

Расширенная информация может представлять собой информацию о микшировании с уменьшением числа каналов, а обрабатывающий модуль может осуществлять микширование с уменьшением числа каналов декодированных аудиоданных множества каналов на основе расширенной информации.

Обрабатывающий модуль может далее осуществлять микширование с уменьшением числа каналов применительно к аудиоданным, которые уже были подвергнуты микшированию с уменьшением числа каналов на основе расширенной информации, на основе информации, отличной от расширенной информации, входящей в состав кодированного потока битов данных.

Расширенная информация может представлять собой информацию для получения коэффициента, используемого для микширования аудиоданных с уменьшением числа каналов.

Расширенная информация может представлять собой информацию для получения значения коэффициента усиления, используемого для регулировки коэффициента усиления аудиоданных, микшированных с уменьшением числа каналов.

Расширенная информация может представлять собой информацию, указывающую, нужно ли использовать аудиоданные определенного канала при микшировании с уменьшением числа каналов.

Способ декодирования или программа согласно первому аспекту настоящего изобретения содержит этап декодирования аудиоданных, включенных в кодированный поток битов данных, этап считывания информации, указывающей на наличие расширенной информации в кодированном потоке битов данных, и считывания расширенной информации на основе считанной информации, и этап обработки декодированных аудиоданных на основе расширенной информации.

Согласно первому аспекту настоящего изобретения декодируют аудиоданные, включенные в кодированный поток битов данных. Из кодированного потока битов данных считывают информацию, указывающую на наличие расширенной информации в кодированном потоке битов данных, и считывают расширенную информацию на основе считанной информации. Указанные декодированные аудиоданные обрабатывают на основе расширенной информации.

Кодирующее устройство согласно второму аспекту настоящего изобретения содержит кодирующий модуль, который кодирует аудиоданные, информацию, указывающую на наличие расширенной информации, и расширенную информацию, и модуль упаковки, который сохраняет кодированные аудиоданные, кодированную информацию, указывающую на наличие расширенной информации, и кодированную расширенную информацию в заданной области и генерирует кодированный поток битов данных.

Указанная расширенная информация может представлять собой информацию о микшировании с уменьшением числа каналов, так что декодированные аудиоданные множества каналов могут быть подвергнуты микшированию с уменьшением числа каналов на основе расширенной информации.

Аудиоданные, которые уже были подвергнуты микшированию с уменьшением числа каналов на основе расширенной информации, могут быть дополнительно микшированы с уменьшением числа каналов на основе информации, отличной от расширенной информации, входящей в состав кодированного потока битов данных.

Указанная расширенная информация может представлять собой информацию для получения коэффициента, используемого при микшировании аудиоданных с уменьшением числа каналов.

Расширенная информация может представлять собой информацию для получения значения коэффициента усиления, используемого для регулировки коэффициента усиления аудиоданных, микшированных с уменьшением числа каналов, так что коэффициент усиления аудиоданных, микшированных с уменьшением числа каналов, может быть отрегулирован на основе указанного значения коэффициента усиления.

Расширенная информация может представлять собой информацию, указывающую, следует ли использовать аудиоданные определенного канала при микшировании с уменьшением числа каналов.

Способ или программа кодирования согласно второму аспекту настоящего изобретения содержит этап кодирования аудиоданных, информации, указывающей на наличие расширенной информации, и расширенной информации и этап сохранения кодированных аудиоданных, кодированной информации, указывающей на наличие расширенной информации, и кодированной расширенной информации в заданной области и генерирования кодированного потока битов данных.

Согласно второму аспекту настоящего изобретения кодируют аудиоданные, информацию, указывающую на наличие расширенной информации, и расширенную информацию. Кодированные аудиоданные, кодированную информацию, указывающую на наличие расширенной информации, и кодированную расширенную информацию сохраняют в заданной области и генерируют кодированный поток битов данных.

Полезные результаты изобретения

Согласно первому и второму аспектам настоящего изобретения можно получить высококачественное реалистичное звучание.

Краткое описание чертежей

Фиг. 1 представляет схему, иллюстрирующую расположение громкоговорителей.

Фиг. 2 представляет таблицу, иллюстрирующую пример расшифровки обозначений громкоговорителей.

Фиг. 3 представляет схему, иллюстрирующую кодированный поток битов данных.

Фиг. 4 представляет таблицу, иллюстрирующую синтаксис элемента height_extension_element.

Фиг. 5 представляет таблицу, иллюстрирующую высоты расположения громкоговорителей.

Фиг. 6 представляет таблицу, иллюстрирующую синтаксис вспомогательных данных согласно стандарту MPEG4.

Фиг. 7 представляет таблицу, иллюстрирующую синтаксис параметра bs_info().

Фиг. 8 представляет таблицу, иллюстрирующую синтаксис параметра ancillary_data_status().

Фиг. 9 представляет таблицу, иллюстрирующую синтаксис параметра downmixing_levels_MPEG4().

Фиг. 10 представляет таблицу, иллюстрирующую синтаксис параметра audio_coding_mode().

Фиг. 11 представляет таблицу, иллюстрирующую синтаксис параметра MPEG4_ext_ancillary_data().

Фиг. 12 представляет таблицу, иллюстрирующую синтаксис параметра ext_ancillary_data_status().

Фиг. 13 представляет таблицу, иллюстрирующую синтаксис параметра ext_downmixing_levelsO.

Фиг. 14 представляет таблицу, иллюстрирующую целевые объекты, к которым применяется каждый коэффициент.

Фиг. 15 представляет таблицу, иллюстрирующую синтаксис параметра ext_dowiimixing_global_gains().

Фиг. 16 представляет таблицу, иллюстрирующую синтаксис параметра ext_downmixing_lfe_level().

Фиг. 17 представляет таблицу, иллюстрирующую микширование с уменьшением числа каналов.

Фиг. 18 представляет таблицу, иллюстрирующую коэффициент, определяемый для параметра dmix_lfe_idx.

Фиг. 19 представляет таблицу, иллюстрирующую коэффициенты, определяемые для параметров dmix_a_idx и dmix_b_idx.

Фиг. 20 представляет таблицу, иллюстрирующую синтаксис параметра drc_presentation_mode.

Фиг. 21 представляет таблицу, иллюстрирующую параметр drc_presentation_mode.

Фиг. 22 представляет схему, показывающую пример структуры кодирующего устройства.

Фиг. 23 представляет логическую схему, иллюстрирующую процесс кодирования.

Фиг. 24 представляет схему, показывающую пример структуры декодирующего устройства.

Фиг. 25 представляет логическую схему, иллюстрирующую процесс декодирования.

Фиг. 26 представляет схему, показывающую пример структуры кодирующего устройства.

Фиг. 27 представляет логическую схему, иллюстрирующую процесс кодирования.

Фиг. 28 представляет схему, показывающую пример декодирующего устройства.

Фиг. 29 представляет схему, показывающую пример структуры устройства микширования с уменьшением числа каналов.

Фиг. 30 представляет схему, показывающую пример структуры модуля микширования с уменьшением числа каналов.

Фиг. 31 представляет схему, показывающую пример структуры модуля микширования с уменьшением числа каналов.

Фиг. 32 представляет схему, показывающую пример структуры модуля микширования с уменьшением числа каналов.

Фиг. 33 представляет схему, показывающую пример структуры модуля микширования с уменьшением числа каналов.

Фиг. 34 представляет схему, показывающую пример структуры модуля микширования с уменьшением числа каналов.

Фиг. 35 представляет схему, показывающую пример структуры модуля микширования с уменьшением числа каналов.

Фиг. 36 представляет логическую схему, иллюстрирующую процесс декодирования.

Фиг. 37 представляет логическую схему, иллюстрирующую процесс реорганизации данных.

Фиг. 38 представляет логическую схему, иллюстрирующую процесс реорганизации данных.

Фиг. 39 представляет логическую схему, иллюстрирующую процесс микширования с уменьшением числа каналов.

Фиг. 40 представляет схему, показывающую пример структуры компьютера.

Осуществление изобретения

Далее, варианты предлагаемой технологии будут описаны со ссылками на перечисленные чертежи.

Первый вариант

Очерк предлагаемой технологии

Сначала будет дан общий очерк предлагаемой технологии.

Настоящее изобретение относится к кодированию и декодированию аудиоданных. Например, при многоканальном кодировании на основе стандарта MPEG-2AAC или MPEG-4AAC трудно получить информацию о протяженности каналов в горизонтальной плоскости и в вертикальном направлении.

При многоканальном кодировании отсутствует информация о микшировании с уменьшением числа каналов применительно к контенту расширенных каналов и не известен подходящий коэффициент смешивания каналов. Поэтому портативному устройству с небольшим числом воспроизводимых каналов трудно воспроизводить звук.

Предлагаемая технология позволяет получать высококачественное реалистичное звучание с использованием следующих характеристик с (1) по (4),

(1) Информация о расположении громкоговорителей в вертикальном направлении записана в области комментариев в элементе конфигурации РСЕ (Program_config_element), определенном в существующем стандарте ААС.

(2) В случае характеристики (1), чтобы отличать открытые комментарии от информации о расположении громкоговорителей в вертикальном направлении, используют два кодируемых на стороне кодирующего устройства элемента идентификационной информации, а именно слово синхронизации и циклически избыточный контрольный код (CRC), а декодирующее устройство сравнивает эти два элемента идентификационной информации. Когда эти два элемента идентификационной информации идентичны один другому, декодирующее устройство принимает информацию о расположении громкоговорителей.

(3) Информацию о микшировании аудиоданных с уменьшением числа каналов записывают в области вспомогательных данных (DSE (data_stream_element)).

(4) Процедура микширования с уменьшением числа каналов для преобразования сигналов от стандарта 6.1 каналов или 7.1 каналов к стандарту 2 каналов представляет собой двухступенчатую процедуру обработки данных, содержащую этап микширования от стандарта 6.1 каналов или 7.1 каналов к стандарту 5.1 каналов и этап микширования от стандарта 5.1 каналов к стандарту 2 каналов.

В такой ситуации использование информации о расположении громкоговорителей в вертикальном направлении делает возможным воспроизведение звукового изображения в вертикальном направлении, в дополнение к изображению в плоскости, и воспроизведение более реалистичного звучания, чем это возможно при использовании нескольких каналов в плоскости в соответствии с известными способами.

Кроме того, при передаче информации о микшировании от стандарта 6.1 каналов или стандарта 7.1 каналов к стандарту 5.1 каналов или 2 каналов использование одного кодирующего элемента данных делает возможным воспроизведение звука с числом каналов, наиболее подходящим для каждой среды, где происходит воспроизведение. В декодирующем устройстве в известных системах, не соответствующих предлагаемой технологии, информацию в вертикальном направлении игнорируют, как открытые комментарии, и декодируют аудиоданные. Таким образом, совместимость не пострадала.

О расположении громкоговорителей

Далее будет описано расположение громкоговорителей при воспроизведении аудиоданных.

Например, предположим, что, как показано на Фиг. 1, пользователь смотрит на экран TVS дисплея устройства, такого как телевизор, спереди. Иными словами, предположим, что пользователь находится перед экраном TVS дисплея, показанным на Фиг. 1.

В этой ситуации, предположим, что вокруг пользователя расположены 13 громкоговорителей, а именно Lvh, Rvh, Lrs, Ls, L, Lc, C, Rc, R, Rs, Rrs, Cs и LFE.

В дальнейшем каналы аудиоданных (звуки), воспроизводимые громкоговорителями Lvh, Rvh, Lrs, Ls, L, Lc, C, Rc, R, Rs, Rrs, Cs и LFE, будут именоваться Lvh, Rvh, Lrs, Ls, L, Lc, C, Rc, R, Rs, Rrs, Cs и LFE, соответственно.

Как показано на Фиг. 2, канал L представляет собой "Передний левый" ("Front Left"), канал R представляет собой "Передний правый" ("Front Right") и канал C представляет собой "Передний центральный" ("Front Center").

Кроме того, канал Ls представляет собой "Левый окружной" ("Left Surround"), канал Rs представляет собой "Правый окружной" ("Right Surround"), канал Lrs представляет собой "Левый задний" ("Left Rear"), канал Rrs представляет собой "Правый задний" ("Right Rear") и канал Cs представляет собой "Центральный задний" ("Center Back").

Канал Lvh представляет собой "Левый верхний передний" ("Left High Front"), канал Rvh представляет собой "Правый верхний передний" ("Right High Front") и канал LFE представляет собой канал "Канал низкочастотных эффектов" ("Low-Frequency-Effect").

Возвращаясь к Фиг. 1, громкоговоритель Lvh и громкоговоритель Rvh расположены на левой и правой сторонах, соответственно, спереди от пользователя. Уровень, на котором расположены громкоговорители Rvh и Lvh, называется "Верхний уровень".

Громкоговорители L, C и R расположены соответственно слева, в центре и справа от пользователя. Громкоговорители Lc и Rc расположены между громкоговорителями L и C и между громкоговорителями R и C, соответственно. Кроме того, громкоговорители Ls и Rs расположены на левой и правой сторонах от пользователя, соответственно, а громкоговорители Lrs, Rrs и Cs расположены сзади слева, сзади справа и сзади от пользователя, соответственно.

Громкоговорители Lrs, Ls, L, Lc, С, Rc, R, Rs, Rrs и Cs расположены в плоскости, лежащей по существу на высоте ушей пользователя так, чтобы окружать пользователя. Уровень, на котором расположены эти громкоговорители, называется "Средний уровень".

Громкоговоритель LFE канала низкочастотных эффектов находится с передней нижней стороны от пользователя, а уровень, на котором расположен этот громкоговоритель LFE, так и называется "уровень LFE" ("LFE layer").

О кодированном потоке битов данных

Когда кодируют аудиоданные в каждом канале, получают кодированный поток битов данных, показанный, например, на Фиг. 3. Иными словами, Фиг. 3 иллюстрирует синтаксис кодированного потока битов данных для кадра по стандарту AAC.

Кодированный поток битов данных, показанный на Фиг. 3, содержит поля и элементы "Header/sideinfo", "РСЕ", "SCE", "CPE", "LFE", "DSE", "FIL(DRC)" и "FIL(END)". В этом примере кодированный поток битов данных содержит три элемента "СРЕ".

Например, элемент "РСЕ" содержит информацию о каждом канале аудиоданных. В этом примере элемент "РСЕ" содержит параметр "Matrix-mixdown", представляющий собой информацию о микшировании аудиоданных с уменьшением числа каналов, и элемент "Информация о высоте" ("Height Infomation"), представляющий собой информацию о расположении громкоговорителей. Кроме того, элемент "РСЕ" содержит параметр "comment_field_data", представляющий собой область комментариев (поле комментариев), которое может сохранять произвольные комментарии, причем параметр "comment_field_data" содержит элемент "height_extension_element", представляющий расширенную область. Область комментариев может иметь произвольные данные, такие как открытые комментарии. Указанный элемент "height_extension_element" содержит элемент "Height Infomation", представляющий собой информацию о высоте, на которой расположены громкоговорители.

Элемент "SCE" содержит аудиоданные единственного канала, элемент" СРЕ" содержит аудиоданные пары, т.е. двух, каналов и элемент "LFE" содержит аудиоданные, например, канала LFE. Например, элемент "SCE" сохраняет аудиоданные канала C или Cs и элемент "СРЕ" содержит аудиоданные канала L или R, либо канала Lvh или Rvh.

Кроме того, элемент "DSE" представляет собой область вспомогательных данных. Элемент "DSE" сохраняет произвольные данные. В этом примере, элемент "DSE" содержит в качестве информации о микшировании аудиоданных с уменьшением числа каналов поля «Микширование от 5.1 к 2» ("Downmix 5.1ch to 2ch"), «Управление динамическим диапазоном» ("Dynamic Range Control"), «Режим представления DRC» ("DRC Presentation Mode"), «Микширование от 6.1 и 7.1 к 5.1» ("Downmix 6.1ch and 7.1ch to 5.1ch"), «микширование с глобальным коэффициентом усиления» ("global gain downmixing") и «микширование LFE»" ("LFE downmixing").

Кроме того, элемент "FIL(DRC)" содержит информацию об управлении динамическим диапазоном звуков. Например, элемент "FIL(DRC)" содержит параметры «Опорный уровень программы» ("Program Reference Level") и «Управление динамическим диапазоном» ("Dynamic Range Control").

О поле комментариев

Как описано выше, поле "comment_field_data" элемента "РСЕ" содержит элемент "height_extension_element". Поэтому многоканальное воспроизведение обеспечивается с применением информации о расположении громкоговорителей в вертикальном направлении. Иными словами, громкоговорители, расположенные на каждом уровне, таком как «Верхний уровень» или «Средний уровень», воспроизводят высококачественный реалистичный звук.

Например, как показано на Фиг. 4, элемент "height_extension_element" содержит слово синхронизации, чтобы отличать эту информацию от других открытых комментариев. Иными словами, Фиг. 4 представляет таблицу, иллюстрирующую синтаксис элемента height_extension_element.

На Фиг. 4 параметр "PCE_HEIGHT_EXTENSION_SYNC" обозначает слово синхронизации.

Кроме того, параметры "front_element_height_info [i]", "side_element_height_info [i]" и "back_element_height_info [i]" указывают высоты расположения громкоговорителей, находящихся спереди, сбоку и сзади от наблюдателя, т.е. уровни.

Далее, параметр "byte_alignment()" обозначает выравнивание байтов, а параметр "height_info_crc_check" указывает циклически избыточный контрольный код CRC, используемый в качестве идентификационной информации. Кроме того, контрольный код CRC вычисляют на основе информации, считываемой между параметрами "PCE_HEIGHT_EXTENSION_SYNC" и "byte_alignment()", иными словами в последовательности, содержащей слово синхронизации, информацию о расположении каждого громкоговорителя (информацию о каждом канале) и данные о выравнивании байтов. Затем определяют, идентичен ли вычисленный контрольный код CRC контрольному коду CRC, указанному в параметре "height_info_crc_check". Когда указанные контрольные коды CRC идентичны один другому, определяют, что информация о расположении каждого громкоговорителя прочитана правильно. Кроме того, параметр "crc_cal()!=height_info_crc_check" обозначает результат сравнения контрольных кодов CRC.

Кроме того, параметры "front_element_height_info [i]" и "back_element_height_info [i]", представляющие собой информацию о позициях источников звука, иными словами, о расположении (высоте) громкоговорителей, задают, как показано на Фиг. 5.

Иными словами, когда информация о параметрах "front_element_height_info [i]", "side_element_height_info [i]" и "back_element_height_info [i]" равна "0", "1" и "2", высоты расположения громкоговорителей соответствуют «Нормальной высоте», «Верхнему громкоговорителю» и «Нижнему громкоговорителю». Иными словами, уровни, на которых расположены громкоговорители, являются «Средним уровнем», «Верхним уровнем» и «Уровнем LFE».

Об элементе DSE

Далее будет описана область «Вспомогательные данные MPEG4», представляющая собой область вспомогательных данных, входящую в элемент "DSE", иными словами, "data_stream_byte []" из состава элемента "data_stream_element()". Эта область «Вспомогательные данные MPEG4» ("MPEG4 ancillary data") может обеспечивать управление динамическим диапазоном (DRC) при микшировании с уменьшением числа каналов от стандарта 6.1 каналов или 7.1 каналов к стандарту 5.1 каналов или 2 канала.

Фиг. 6 представляет таблицу, иллюстрирующую синтаксис этой области вспомогательных данных согласно стандарту MPEG4. Указанная область «Вспомогательные данные MPEG4» содержит параметры "bs_info()", "ancillary_data_status()", "downmixing_levels_MPEG4()", "audio_coding_mode()", "Compression_value" и "MPEG4_ext_ancillary_data()".

Здесь параметр "Compression_value" соответствует полю "Управление динамическим диапазоном" ("Dynamic Range Control"), показанному на Фиг. 3. Кроме того, синтаксис параметров "bs_info()", "ancillary_data_status()", "downmixing_levels_MPEG4()", "audio_coding_mode()" и "MPEG4_ext_ancillary_data()" показан на Фиг. 7-11, соответственно.

Например, как показано на Фиг. 7, параметр "bs_infto()" содержит параметры "mpeg_audio_type", "dolby_surround_mode", "drc_presentation_mode" и "pseudo_surround_enable".

Кроме того, параметр "drc_presentation_mode" соответствует параметру «Режим представления управления динамическим диапазоном» ("DRC Presentation Mode"), показанному на Фиг. 3. Далее, параметр "pseudo_surround_enable" содержит информацию, указывающую процедуру микширования от стандарта 5.1 каналов к стандарту 2 канала, иными словами, информацию, указывающую один из нескольких способов микширования с уменьшением числа каналов, который нужно использовать для микширования.

Например, процедура зависит от того, равен ли параметр "ancillary_data_extension_status", входящий в состав параметра "ancillary_data_status()", изображенного на Фиг. 8, 0 или 1. Когда параметр "ancillary_data_extension_status" равен 1, осуществляется доступ к параметру "MPEG4_ext_ancillary_data()" в области «Вспомогательных данных MPEG4», показанной на Фиг. 6, и выполняется управление динамическим диапазоном DRC при микшировании с уменьшением числа каналов. С другой стороны, когда параметр "ancillary_data_extension_status" равен 0, осуществляется процедура согласно известным технологиям. Такой подход позволяет обеспечить совместимость с существующими стандартами.

Кроме того, параметр "downmixing_levels_MPEG4_status", входящий в состав параметра "ancillary_data_status()", показанного на Фиг. 8, представляет собой информацию для назначения коэффициента (пропорции микширования), используемого при микшировании от стандарта 5.1 каналов к 2 каналам. Иными словами, когда параметр "downmixing_levels_MPEG4_status" равен 1, для микширования используется коэффициент, определенный информацией, записанной в параметре "downmixing_levels_MPEG4()", показанном на Фиг. 9.

Кроме того, параметр "downmixing_levels_MPEG4()", показанный на Фиг. 9, содержит параметры "center_mix_level_value" и "surround_mix_level_value" в качестве информации, задающей коэффициент микширования. Например, значения коэффициентов, соответствующих параметрам "center_mix_level_value" и "surround_mix_level_value", определены в показанной на Фиг. 19 таблице, которая будет рассмотрена ниже.

Кроме того, параметр "dovvnmixing_levels_MPEG4()", показанный на Фиг. 9, соответствует полю «Микширование от 5.1 к 2», изображенному на Фиг. 3.

Далее, параметр "MPEG4_ext_ancillary_data()", показанный на Фиг. 11, содержит параметры "ext_ancillary_data_status()", "ext_downmixing_levels()", "ext_downmixing_global_gains()" и "ext_downmixing_lfe_level()".

Информация, необходимая для увеличения числа каналов, чтобы аудиоданные стандарта 5.1 каналов расширить до аудиоданных стандартов 7.1 каналов или 6.1 каналов, сохранена в параметре "MPEG4_ext_ancillary_data()".

В частности, параметр "ext_ancillary_data_status()" содержит информацию (флаг), указывающую, следует ли микшировать каналы от стандарта более 5.1 каналов к стандарту 5,1 канала, информацию, нужно ли производить регулировку коэффициента усиления в процессе микширования, и информацию, указывающую, следует ли использовать канал LFE при микшировании.

Информацию, задающую коэффициент (пропорцию микширования), используемый при микшировании, сохраняют в параметре "ext_downmixing_levels()", а информацию, относящуюся к коэффициенту усиления в процессе регулировки усиления, сохраняют в параметре "ext_downmixing_global_gains()". Информацию, задающую коэффициент (пропорцию микширования) для сигнала канала LEF, используемый при микшировании, сохраняют в параметре "ext_downmixing_lfe_level()".

В частности, например, синтаксис параметра "ext__ancillary_data_status()" показан на Фиг. 12. Параметры "ext_ancillary_data_status()", "ext_downmixing_levels_status" указывают, нужно ли выполнять микширование от стандарта 6.1 каналов или стандарта 7.1 каналов к стандарту 5.1 каналов. Иными словами, параметр "ext_downmixing_levels_status" обозначает, присутствует ли параметр "ext_downmixing_levels()". Параметр "ext_downmixing_levels_status" соответствует параметру «Микширование от 6.1 и 7.1 к 5.1», показанному на Фиг. 3.

Кроме того, параметр "ext_downmixing_global_gains_status" указывает, нужно ли осуществлять глобальную регулировку усиления, и соответствует параметру «микширование с глобальным коэффициентом усиления», показанному на Фиг. 3. Иными словами, параметр "ext_downmixing_global_gains_status" обозначает, присутствует ли параметр "ext_downmixing_global_gains()". Кроме того, параметр "ext_downmixing_lfe_level_status" указывает, нужно ли использовать канал LFE во время микширования от стандарта 5.1 каналов к стандарту 2 каналов, и соответствует параметру «Микширование с использованием канала LFE», показанному на Фиг. 3.

Синтаксис параметра "ext_downmixing_levels()" в составе параметра "MPEG4_ext_ancillary_data()", показанного на Фиг. 11, соответствует тому, что представлено на Фиг. 13, а параметры "dmix_a_idx" и "dmix_b_idx", изображенные на Фиг. 13, представляют собой информацию, указывающую пропорцию микширования (коэффициент) во время микширования с уменьшением числа каналов.

Фиг. 14 иллюстрирует соответствие между параметрами "dmix_a_idx" и "dmix_b_idx", определяемое параметром "ext_downmixing_levels()", и компоненты, к которым применяются параметры "dmix_a_idx" и "dmix_b_idx", когда происходит микшированием аудиоданных от стандарта 7.1 с уменьшением числа каналов.

Синтаксис параметров "ext_downmixing_global_gains()" и "ext_downmixing_lfe_level()" в составе параметра "MPEG4_ext_ancillary_data()", показанного на Фиг. 11, изображен на Фиг. 15 и 16.

Например, параметр "ext_downmixing_global_gains()", показанный на Фиг. 15, содержит параметр "dmx_gain_5_sign", указывающий знак коэффициента усиления при микшировании к стандарту 5.1. каналов, параметр "dmx_gain_5_idx", указывающий величину коэффициента усиления при таком микшировании, параметр "dmx_gain_2_sign", указывающий знак коэффициента усиления при микшировании к стандарту 2 каналов, и параметр dmx_gain_2_idx", указывающий величину коэффициента усиления при таком микшировании.

Кроме того, параметр "ext_downmixing_lfe_level()", показанный на Фиг. 16, содержит параметры "dmix_lfe_idx" и "dmix_lfe_idx" в качестве информации, задающей пропорцию микширования (коэффициент) для канала LFE в процессе микширования с уменьшением числа каналом.

О микшировании с уменьшением числа каналов

Кроме того, параметр "pseudo_surround_enable" в составе синтаксиса параметра "bs_info()", изображенного на Фиг. 7, обозначает процедуру микширования с уменьшением числа каналов и процедуру, показанную на Фиг. 17. Здесь Фиг. 17 иллюстрирует две процедуры - случай, когда параметр "pseudo_surround_enable" равен 0, и случай, когда параметр "pseudo_surround_enable" равен 1

Далее будет описана процедура микширования аудиоданных с уменьшением числа каналов.

Сначала будет рассмотрена процедура микширования от стандарта 5.1 каналов к стандарту 2 каналов. В этом случае, когда канал L и канал R превращаются после микширования в канал L' и канал R', соответственно, выполняется следующая процедура.

Другими словами, когда параметр "pseudo_surround_enable" равен 0, аудиоданные в канале L' и в канале R' вычисляют с использованием следующего Выражения (1).

Другими словами, когда параметр "pseudo_surround_enable" равен 1, аудиоданные в канале L' и в канале R' вычисляют с использованием следующего Выражения (2).

В Выражении (1) и Выражении (2) L, R, С, Ls, Rs и LFE представляют собой каналы, составляющие совокупность каналов стандарта 5.1, и являются каналами L, R, С, Ls, Rs и LFE, которые были описаны со ссылками на Фиг. 1 и 2, соответственно.

В Выражении (1) и Выражении (2), "с" представляет собой константу, определяемую величиной параметра "dmix_lfe_idx" в составе параметра "ext_downmixing_lfe_level()", изображенного на Фиг. 16. Например, величины этой константы "с", соответствующие каждому значению параметра "dmix_lfe_idx", приведены на Фиг. 18. В частности, когда параметр "ext_downmixing_lfe_level_status" в составе параметра "ext_ancillary_data_status()", изображенного на Фиг. 12, равен 0, канал LFE не используется для вычисления Выражения (1) и Выражения (2). Когда параметр "ext_downmixing_lfe_level_status" равен 1, величину константы "с", умножаемой на данные канала LFE, определяют на основе таблицы, показанной на Фиг. 18.

В Выражении (1) и Выражении (2), "a" и "b" представляют собой константы, определяемые величинами параметров "dmix_a_idx" и "dmix_b_idx" в составе параметра "ext_downmixing_levels()", показанного на Фиг. 13. Кроме того, в Выражении (1) и Выражении (2), "a" и "b" могут быть константами, определяемыми величинами параметров "center_mix_level_value" и "surround_mix_level_value" в составе параметра "downmixing_levels_MPEG4()", показанного на Фиг. 9.

Например, величины констант "a" и "b" относительно величин параметров "dmix_a_idx" и "dmix_b_idx" или величин параметров "center_mix_level_value" и "surround_mix_level_value", показаны на Фиг. 19. В этом примере, поскольку одна и та же таблица относится и к паре параметров "dmix_a_idx" и "dmix_b_idx", и к паре параметров "center_mix_level_value" и "surround_mix_level_value", константы (коэффициенты) "a" и "b" для микширования с уменьшением числа каналов имеют одинаковую величину.

Затем, будет рассмотрена процедура микширования от стандарта 7.1 каналов или стандарта 6.1 каналов к стандарту 5,1 каналов.

Когда аудиоданные совокупности каналов С, L, R, Ls, Rs, Lrs, Rrs и LFE, содержащей каналы Lrs и Rrs, громкоговорители которых расположены сзади пользователя, преобразуют в аудиоданные стандарта 5.1. каналов, содержащие данные каналов C, L', R', Ls', Rs' и LFE', вычисления производят в соответствии со следующим Выражением (3). Здесь, каналы C, L', R', Ls', Rs' и LFE' обозначает каналы С, L, R, Ls, Rs и LFE, соответственно, после микширования с уменьшением числа каналов. Кроме того, в Выражении (3), С, L, R, Ls, Rs, Lrs, Rrs и LFE обозначают аудиоданные каналов С, L, R, Ls, Rs, Lrs, Rrs и LFE.

В Выражении (3) d1 и d2 являются константами. Например, величины этих констант d1 и d2 определены для значений параметров "dmix_a_idx" и "dmix_b_idx", приведенных на Фиг. 19.

Когда аудиоданные совокупности каналов С, L, R, Lc, Rc, Ls, Rs и LFE, содержащей каналы Lc и Rc, громкоговорители которых расположены спереди от пользователя, преобразуют в аудиоданные стандарта 5.1. каналов, содержащие данные каналов С, L', R', Ls', Rs' и LFE', вычисления производят в соответствии со следующим Выражением (4). Здесь, каналы С, L', R', Ls', Rs' и LFE' обозначает каналы С, L, R, Ls, Rs и LFE, соответственно, после микширования с уменьшением числа каналов. Кроме того, в Выражении (4), С, L, R, Lc, Rc, Ls, Rs и LFE обозначают аудиоданные каналов С, L, R, Lc, Rc, Ls, Rs и LFE.

В Выражении (4) e1 и e2 являются константами. Например, величины этих констант e1 и e2 определены для значений параметров "dmix_a_idx" и "dmix_b_idx", приведенных на Фиг. 19.

Когда аудиоданные совокупности каналов С, L, R, Lvh, Rvh, Ls, Rs и LFE, содержащей каналы Rvh и Lvh, громкоговорители которых расположены спереди сверху от пользователя, преобразуют в аудиоданные стандарта 5.1 каналов, содержащие данные каналов C, L', R', Ls', Rs' и LFE', вычисления производят в соответствии со следующим Выражением (5). Здесь, каналы C, L', R', Ls', Rs' и LFE' обозначает каналы С, L, R, Ls, Rs и LFE, соответственно, после микширования с уменьшением числа каналов. Кроме того, в Выражении (5), С, L, R, Lvh, Rvh, Ls, Rs и LFE обозначают аудиоданные каналов С, L, R, Lvh, Rvh, Ls, Rs и LFE.

В Выражении (5) f1 и f2 являются константами. Например, величины этих констант f1 и f2 определены для значений параметров "dmix_a_idx" и "dmix_b_idx", приведенных на Фиг. 19.

При осуществлении микширования от стандарта 6.1 каналов к стандарту 5,1 каналов выполняется следующая процедура. Иными словами, когда аудиоданные совокупности каналов С, L, R, Ls, Rs, Cs и LFE преобразуют в аудиоданные стандарта 5.1 каналов, содержащие данные каналов С, L', R', Ls', Rs' и LFE', вычисления производят в соответствии со следующим Выражением (6). Здесь, каналы C, L', R', Ls', Rs' и LFE' обозначает каналы С, L, R, Ls, Rs и LFE, соответственно, после микширования с уменьшением числа каналов. Кроме того, в Выражении (6) С, L, R, Ls, Rs, Cs и LFE обозначают аудиоданные каналов С, L, R, Ls, Rs, Cs и LFE.

В Выражении (6) g1 и g2 являются константами. Например, величины этих констант g1 и g2 определены для значений параметров "dmix_a_idx" и "dmix_b_idx", приведенных на Фиг. 19.

Далее будет описан глобальный коэффициент усиления для коррекции громкости во время микширования с уменьшением числа каналов.

Глобальный коэффициент усиления во время микширования с уменьшением числа каналов используется для коррекции громкости звучания, которая увеличивается или уменьшается в ходе микширования. Здесь параметр dmx_gain5 обозначает величину коррекции при микшировании от стандарта 7.1 каналов или стандарта 6.1 каналов к стандарту 5,1 каналов, а параметр dmx_gain2 обозначает величину коррекции при микшировании от стандарта 5.1 каналов к стандарту 2 каналов. Кроме того, параметр dmx_gain2 относится к декодирующему устройству или потоку битов данных, не соответствующему стандарту 7.1 каналов.

Применение этого подхода и его действие аналогичны сильному сжатию с управлением динамическим диапазоном (DRC). Кроме того, кодирующее устройство может должным образом выполнять избирательную оценку за период, для которого аудио кадр слишком длинен, или за период, для которого аудио кадр слишком короток, чтобы определить глобальный коэффициент усиления при микшировании с уменьшением числа каналов.

При осуществлении микширования от стандарта 7.1 каналов к стандарту 2 каналов применяется суммарный коэффициент усиления (dmx_gain5 + dmx_gain2). Например, в качестве параметров dmx_gain5 и dmx_gain2 используются 6-битовые целые числа без знака, а сами эти параметры dmx_gain5 и dmx_gain2 квантованы с шагом 0,25 дБ.

Поэтому, когда параметры dmx_gain5 и dmx_gain2 суммируют один с другим, суммарный коэффициент усиления находится в диапазоне ±15.75 дБ. Этот коэффициент усиления применяется к отсчету аудиоданных в д