Устройство декодирования, способ декодирования, устройство кодирования, способ кодирования и программа

Иллюстрации

Показать все

Изобретение относится к устройствам декодирования и кодирования информации. Технический результат заключается в повышении эффективности кодирования для получения высококачественного реалистического звука. Устройство кодирования хранит информацию о расположении громкоговорителей в области комментария в РСЕ кодированного битового потока и хранит синхронное слово и идентификационную информацию в области комментария, так что другие публичные комментарии и информация о расположении громкоговорителей, хранящиеся в области комментария, могут различаться друг от друга. Когда кодированный битовый поток декодирован, хранится ли информация о расположении громкоговорителей, определяется на основе синхронного слова и идентификационной информации, хранящихся в области комментария. Аудиоданные, содержащиеся в кодированном битовом потоке, выводятся согласно расположению громкоговорителей в соответствии с результатом определения. 6 н. и 1 з.п. ф-лы, 40 ил.

Реферат

Область техники, к которой относится изобретение

Настоящая технология относится к устройству декодирования, способу декодирования, устройству кодирования, способу кодирования и программе и, более конкретно, к устройству декодирования, способу декодирования, устройству кодирования, способу кодирования и программе, с помощью которых можно получать высококачественный реалистический звук.

Уровень техники

В последние годы все страны в мире внедрили службу распространения кинофильмов, широковещательное цифровое телевидение и архивирование следующего поколения. В дополнение к стереофоническому радиовещанию, соответствующему существующему уровню техники, начало внедряться звуковое радиовещание, соответствующее многочисленным каналам, таким как 5.1 каналы.

Чтобы дополнительно улучшить качество изображения, было изучено следующее поколение телевидения высокой четкости с повышенным количеством пикселей. При изучении следующего поколения телевидения высокой четкости в области обработки звука, чтобы достигнуть реалистического звука, ожидалось, что концепция каналов должна распространиться на многочисленные каналы, число которых больше, чем 5.1 каналов в горизонтальном направлении и вертикальном направлении.

В качестве технологии, относящейся к кодированию аудиоданных, была предложена технология, которая группирует окна из разных каналов в некие мозаичные элементы, чтобы повысить эффективность кодирования (смотрите, например, патентный документ 1).

Перечень литературы

Патентные документы

Патентный документ 1: JP 2010-217900 А

Сущность изобретения

Проблемы, решаемые изобретением

Однако в упомянутой выше технологии трудно получить высококачественный реалистический звук.

Например, при многоканальном кодировании, основанном на стандарте Moving Picture Experts Group-2 Advanced Audio Coding (MPEG-2AAC) и стандарте MPEG-4AAC, являющихся международными стандартами, определены только расположение громкоговорителей в горизонтальном направлении и информация о понижающем микшировании от 5.1 каналов до стереоканалов. Поэтому, трудно удовлетворительно отреагировать на расширение количества каналов в плоскости и в вертикальном направлении.

Настоящая технология была разработана с точки зрения упомянутых выше проблем и позволяет получить высококачественный реалистический звук.

Решения проблем

Устройство декодирования, соответствующее первому варианту настоящей технологии, содержит блок декодирования, декодирующий аудиоданные, содержащиеся в кодированном битовом потоке, блок считывания, считывающий информацию о положении источника звука в отношении высоты расположения источника звука аудиоданных из области, в которой могут храниться произвольные данные кодированного битового потока, и блок вывода, который выводит декодированные аудиоданные на основе информации о положении источника звука.

Информация о положении источника звука может быть информацией, указывающей, что высота источника звука, по существу, равна высоте пользователя, больше, чем высота пользователя, или меньше, чем высота пользователя.

Идентификационная информация для идентификации, присутствует ли информация о положении источника звука, сохраняется в области, в которой могут храниться произвольные данные, и блок считывания может считывать информацию о положении источника звука на основе идентификационной информации.

Сначала заданная идентификационная информация и вторая идентификационная информация, которая вычисляется на основе информации о положении источника звука, могут сохраняться как идентификационная информация в области, в которой могут храниться произвольные данные.

Блок считывания может решить, что информация о положении источника звука является действительной, когда первая идентификационная информация, содержащаяся в области, в которой могут храниться произвольные данные, является заданной конкретной информацией и вторая идентификационная информация, считанная из области, в которой могут храниться произвольные данные, идентична второй идентификационной информации, которая вычисляется на основе считанной информации о положении источника звука.

Вторая идентификационная информация может быть вычислена на основе информации, полученной при выполнении выравнивания байтов для информации, содержащей информацию о положении источника звука.

Устройство декодирования или программа, соответствующая первому варианту настоящей технологии, содержит этап декодирования аудиоданных, содержащихся в кодированном битовом потоке, этап считывания, на котором считывают информацию о высоте источника звука аудиоданных из области, в которой могут храниться произвольные данные кодированного битового потока, и этап вывода на котором выводят аудиоданные, декодированные на основе информации о положении источника звука.

В первом варианте настоящей технологии декодируются аудиоданные, содержащиеся в кодированном битовом потоке, информация о положении источника звука в отношении высоты источника звука аудиоданных считывается из области, в которой могут храниться произвольные данные кодированного битового потока, и декодированные аудиоданные выводятся на основе информации о положении источника звука.

Устройство кодирования, соответствующее второму варианту настоящей технологии, содержит блок сбора данных, получающий информацию о положении источника звука в отношении высоты источника звука, блок кодирования, кодирующий аудиоданные и информацию о положении источника звука, и блок упаковки, который хранит кодированную информацию о положении источника звука в области, в которой могут храниться произвольные данные, и формирует кодированный битовый поток, содержащий кодированные аудиоданные и кодированную информацию о положении источника звука.

Информация о положении источника звука может быть информацией, указывающей, что высота источника звука, по существу, равна высоте пользователя, больше, чем высота пользователя, или меньше, чем высота пользователя.

Информация о положении источника звука и идентификационная информация для идентификации, присутствует ли информация о положении источника звука, могут быть сохранены в области, в которой могут храниться произвольные данные.

Первая заданная идентификационная информация и вторая идентификационная информация, которая вычисляется на основе информации о положении источника звука, могут сохраняться как идентификационная информация в области, в которой могут храниться произвольные данные.

Информация для подачи команд на выравнивание байтов для информации, содержащей информацию о положении источника звука и информацию для подачи команды на сравнение между второй идентификационной информацией, которая вычисляется на основе информации, полученной выравниванием байтов, и втор идентификационной информацией, хранящейся в области, в которой могут хранит] произвольные данные, может дополнительно сохраняться в области, в которой могут храниться произвольные данные.

Способ кодирования или программа, соответствующие второму варианту настоящей технологии, содержит этапы, на которых собирают информацию о положен источника звука в отношении высоты источника звука, кодируют аудиоданные информацию о положении источника звука, и сохраняют кодированную информацию о положении источника звука в области, в которой могут храниться произвольные данные, и формируют кодированный битовый поток, содержащий кодированные аудиоданные кодированную информацию о положении источника звука.

Во втором варианте, соответствующем настоящей технологии, получают информацию о положении источника звука в отношении высоты источника звука. Аудиоданные и информация о положении источника звука кодируются. Кодированная информация о положении источника звука хранится в области, в которой могут хранить произвольные данные и кодированный битовый поток, содержащий кодированные аудиоданные, и формируется кодированная информация о положении источника звука.

Результаты изобретения

В соответствии с первым и вторым вариантами настоящей технологии можно получить высококачественный реалистический звук.

Краткое описание чертежей

Фиг. 1 - расположение громкоговорителей.

Фиг. 2 - пример расположения громкоговорителей.

Фиг. 3 - кодированный битовый поток.

Фиг. 4 - синтаксис height_extension_element.

Фиг. 5 - расположение громкоговорителей по высоте.

Фиг. 6 - синтаксис вспомогательных данных MPEG4.

Фиг. 7 - синтаксис bs_info().

Фиг. 8 - синтаксис ancillary_data_status().

Фиг. 9 - синтаксис downmixing_levels_MPEG4().

Фиг. 10 - синтаксис audio_coding_mode().

Фиг. 11 - синтаксис MPEG4_ext_ancillary_data().

Фиг. 12 - синтаксис ext_ancillary_data_status().

Фиг. 13 - синтаксис ext_downmixing_levels().

Фиг. 14 - объекты, к которым применяется каждый из коэффициентов.

Фиг. 15 - синтаксис ext_downmixing_global_gains().

Фиг. 16 - синтаксис ext_downmixing_lfe_level().

Фиг. 17 - понижающее микширование.

Фиг. 18 - коэффициент, определяемый для dmix_lfe_idx.

Фиг. 19 - коэффициенты, определяемые для dmix_a_idx и dmix_b_idx.

Фиг. 20 - синтаксис drc_presentation_mode.

Фиг. 21 - синтаксис drc_presentation_mode.

Фиг 22 - пример структуры устройства кодирования.

Фиг. 23 - блок-схема последовательности выполнения операций процесса кодирования.

Фиг 24 - пример структуры устройства декодирования.

Фиг. 25 - блок-схема последовательности выполнения операций процесса декодирования.

Фиг 26 - пример структуры устройства кодирования.

Фиг. 27 - блок-схема последовательности выполнения операций процесса кодирования.

Фиг. 28 - пример устройства декодирования.

Фиг 29 - пример структуры блока процесса понижающего микширования.

Фиг 30 - пример структуры блока понижающего микширования.

Фиг 31 - пример структуры блока понижающего микширования.

Фиг 32 - пример структуры блока понижающего микширования.

Фиг 33 - пример структуры блока понижающего микширования.

Фиг 34 - пример структуры блока понижающего микширования.

Фиг 35 - пример структуры блока понижающего микширования.

Фиг. 36 - блок-схема последовательности выполнения операций процесса декодирования.

Фиг. 37 - блок-схема последовательности выполнения операций процесса перегруппировки.

Фиг. 38 - блок-схема последовательности выполнения операций процесса перегруппировки.

Фиг. 39 - блок-схема последовательности выполнения операций процесса понижающего микширования.

Фиг. 40 - пример структуры компьютера.

Подробное описание изобретения

Далее варианты осуществления, к которым применяется настоящая технология, будут описаны со ссылкой на чертежи.

Первый вариант осуществления

Общее представление настоящей технологии

Сначала будет описано общее представление настоящей технологии.

Настоящая технология относится к кодированию и декодированию данных. Например, при многоканальном кодировании, основанном на стандарте MPEG-2AAC или стандарте MPEG-4AAC, трудно получить информацию для расширения канала в горизонтальной плоскости и в вертикальном направлении.

При многоканальном кодировании нет никакой информации о понижающем микшировании содержимого расширенного канала, и соответствующее отношение микширования каналов не известно. Поэтому, для переносного устройства с малым количеством каналов воспроизведения трудно воспроизводить звук.

Настоящая технология может получить высококачественный реалистический звук, используя следующие характеристики (1)-(4).

(1) Информация о расположении громкоговорителей в вертикальном направлении записывается в области комментария в РСЕ (Program_config_element), определенном существующим стандартом ААС.

(2) В случае характеристики (1), чтобы отличить публичные комментарии от информации о расположении громкоговорителей в вертикальном направлении, устройство кодирования кодирует два элемента идентификационной информации, а именно синхронное слово и контрольный код CRC, и устройство декодирования сравнивает два элемента идентификационной информации. Когда два элемента идентификационной информации идентичны друг другу, устройство декодирования получает информацию о расположении громкоговорителей.

(3) Информация о понижающем микшировании аудиоданных записывается в области вспомогательных данных (DSE (data_stream_element)).

(4) Понижающее микширование от 6.1 каналов или 7.1 каналов к 2 каналам является двухэтапным процессом, содержащим понижающее микширование от 6.1 каналов или 7.1 каналов к каналам 5.1 и понижающее микширование от 5.1 каналов к 2 каналам.

Также, использование информации о расположении громкоговорителей в вертикальном направлении позволяет воспроизводить звуковую картину в вертикальном направлении, в дополнение к воспроизведению в плоскости, и воспроизводить более реалистический звук, чем планарные многочисленные каналы, соответствующие предшествующему уровню техники.

Кроме того, когда передается информация о понижающем микшировании от 6.1 каналов или 7.1 каналов к 5.1 каналам или 2 каналам, использование одного элемента данных кодирования позволяет воспроизвести звук с числом каналов, наиболее подходящим для каждой среды воспроизведения. В устройстве декодирования, соответствующем предшествующему уровню техники, который не соответствует настоящей технологии, информация в вертикальном направлении игнорируется как публичный комментарий, и аудиоданные декодируются. Следовательно, совместимость не нарушается.

Расположение громкоговорителей

Далее будет описано расположение громкоговорителей при воспроизведении аудиоданных.

Например, предположим, что, как показано на фиг. 1, пользователь наблюдает экран TVS устройства дисплея, такого как телевизор, с передней стороны. То есть предполагается, что на фиг. 1 пользователь располагается перед экраном TVS дисплея.

В этом случае, предполагается, что 13 громкоговорителей, а именно Lvh, Rvh, Lrs, Ls, L, Lc, C, Rc, R, Rs, Rrs, Cs и LFE располагаются так, чтобы окружать пользователя.

Здесь далее, каналы аудиоданных (звуки), воспроизводимые громкоговорителями Lvh, Rvh, Lrs, Ls, L, Lc, C, Rc, R, Rs, Rrs, Cs и LFE, упоминаются как Lvh, Rvh, Lrs, Ls, L, Lc, C, Rc, R, Rs, Rrs, Cs и LFE, соответственно.

Как показано на фиг. 2, канал L является "передним левым", канал R является "передним правым" и канал С является "передним центральным".

Кроме того, канал Ls является "левым окружающим", канал Rs является "правым окружающим", канал Lrs является "левым задним", канал Rrs является "правым задним" и канал Cs является "центральным обратным".

Канал Lvh является "левым верхним передним", канал Rvh является "правым верхним передним" и канал LFE является каналом "низкочастотного эффекта".

Возвращаясь к фиг. 1, громкоговоритель Lvh и громкоговоритель Rvh располагаются на передних верхних левой и правой сторонах пользователя. Уровень, на котором расположены громкоговорители Rvh и Lvh, является "верхним уровнем".

Громкоговоритель L, С и R располагаются слева, в центре и справа от пользователя. Громкоговорители Lc и Rc располагаются между громкоговорителями L и С и между громкоговорителями R и С, соответственно. Кроме того, громкоговорители Ls и Rs располагаются на левой и правой сторонах пользователя, соответственно, и громкоговорители Lrs, Rrs и Cs располагаются на задней левой, задней правой сторонах от пользователя и сзади пользователя, соответственно.

Громкоговорители Lrs, Ls, L, Lc, С, Rc, R, Rs, Rrs и Cs располагаются в плоскости, находящейся, по существу, на высоте ушей пользователя, так чтобы окружать пользователя. Уровень, на котором расположены громкоговорители, является "средним уровнем".

Громкоговоритель LFE располагается на передней нижней стороне пользователя и уровень, на котором расположен громкоговоритель LFE, является "уровнем LFE".

Кодированный битовый поток

Когда аудиоданные каждого канала кодируются, получается, например, кодированный битовый поток, показанный на фиг. 3. То есть на фиг. 3 показан синтаксис кодированного битового потока кадра ААС.

Кодированный битовый поток, показанный на фиг. 3, содержит "Header/sideinfo", "РСЕ", "SCE", "CPE", "LFE", "DSE", "FIL (DRC)" и "FIL(END)". В этом примере кодированный битовый поток содержит три "СРЕ".

Например, "РСЕ" содержит информацию о каждом канале аудиоданных. В этом примере "РСЕ" содержит "Matrix-mixdown", которая является информацией о понижающем микшировании аудиоданных, и "Height Infomation", которая является информацией о расположении громкоговорителей. Кроме того, "РСЕ" содержит "comment_field_data", которая является областью комментария (поле комментария), в которой могут храниться свободные комментарии, и "commentfielddata" содержит элемент "heightextension_element", который является расширенной областью. Область комментария может хранить произвольные данные, такие как публичные комментарии. "height_extension_element" содержит "Height Infomation", которая является информацией о высоте расположения громкоговорителей.

"SCE" содержит аудиоданные одиночного канала, "СРЕ" содержит аудиоданные пары каналов, то есть двух каналов, и "LFE" содержит аудиоданные, например, канала LFE. Например, "SCE" хранит аудиоданные канала С или Cs и "СРЕ" содержит аудиоданные канала L или R или канала Lvh или Rvh.

Кроме того, "DSE" является областью вспомогательных данных. "DSE" хранит свободные данные. В этом примере "DSE" содержит в качестве информации о понижающем микшировании аудиоданных "Downmix 5.1ch to 2ch" (понижающее микширование с 5.1 каналов до 2 каналов) , "Dynamic Range Control" (управление динамическим диапазоном), "DRC Presentation Mode" (режим презентации DRC), "Downmix 6.1ch and 7.1ch to 5.1ch" (понижающее микширование с 6.1 каналов и 7.1 каналов до 5.1 каналов), "global gain downmixing" (понижающее микширование с глобальным усилением), и "LFE downmixing" (понижающее микширование LFE).

Кроме того, "FIL(DRC)" содержит информацию об управлении динамическим диапазоном звуков. Например, "FIL(DRC)" содержит "Program Reference Level" (контрольный уровень программы) и "Dynamic Range Control" (управление динамическим диапазоном).

Поле комментария

Как описано выше, данные "comment_field_data" для "РСЕ" содержат элемент "height_extension_element". Поэтому, многоканальное воспроизведение достигается информацией о расположении громкоговорителей в вертикальном направлении. То есть высококачественный реалистический звук воспроизводится громкоговорителями, которые располагаются на уровне на каждой высоте, таком как "Top layer" (верхний уровень) или "Middle layer" (средний уровень).

Например, как показано на фиг. 4, "height_extension_element" содержит синхронное слово для отличия от других публичных комментариев. То есть на фиг. 4 показан синтаксис "height_extension_element".

На фиг. 4, "PCE_HEIGHT_EXTENSION_SYNC" указывает синхронное слово.

Кроме того, выражения "front_element_height_info[i]", "side_element_height_info[i]", и "back_element_height_info[i]" указывают высоты громкоговорителей, которые располагаются на передней стороне, сбоку и сзади от наблюдателя, то есть уровни.

Кроме того, "byte_alignment()" указывает выравнивание байтов и "height_info_crc_check" указывает контрольный код CRC, который используется в качестве идентификационной информации. Кроме того, контрольный код CRC вычисляется на основе информации, которая считывается между "PCE_HEIGHT_EXTENSION_SYNC" и "byte_alignment()", то есть между синхронным словом, информацией о расположении каждого громкоговорителя (информацией о каждом канале) и выравниванием байтов. Затем определяется, идентичен ли вычисленный контрольный код CRC контрольному коду CRC, указанному "height_info_crc_check". Когда контрольные коды CRC идентичны друг другу, принимается решение, что информация о расположении каждого из громкоговорителей считывается правильно. Кроме того, "crc_cal()!=height_info_crc_check" указывает сравнение между контрольными кодами CRC.

Например, "front_element_height_info[i]", "side_element _height_info[i]" и "back_element_height_info[i]", которые являются информацией о положении источников звука, то есть расположении (высоте) громкоговорителей, устанавливается, как показано на фиг. 5.

То есть, когда информация о "front_element_height_info[i]", "side_element_height_info[i]" и "back_element_height_info[i]" равна "0", "1" и "2", высотами громкоговорителей являются "Normal height" (нормальная высота), "Top speaker" (верхний громкоговоритель) и "Bottom Speaker" (нижний громкоговоритель), соответственно. То есть уровнями, на которых располагаются громкоговорители, являются "Middle layer" (средний уровень), "Top layer" (верхний уровень) и "LFE layer" (уровень LFE).

DSE

Далее будут описаны данные "MPEG4 ancillary data" (вспомогательные данные MPEG4), которые являются областью вспомогательных данных, содержащейся в "DSE", то есть "data_stream_byte[]" для "data_stream_element()". Управление понижающим микшированием DRC для аудиоданных от 6.1 каналов или 7.1 каналов к 5.1 каналам или 2 каналам может быть выполнено посредством "MPEG4 ancillary data".

На фиг. 6 представлен синтаксис "MPEG4 ancillary data" (вспомогательных данных MPEG4). "MPEG4 ancillary data" содержат "bs_info()", "ancillary_data_status()", "downmixing_levels_MPEG4()", "audio_ coding_mode()", "Compression_value", и "MPEG4_ext_ancillary_data()".

Здесь, "Compression_value" соответствует "Dynamic Range Control" (управлению динамическим диапазоном), показанному на фиг. 3. Кроме того, синтаксис "bs_info()", "ancillary_data_status()", "downmixing_levels_MPEG4()", "audio_ coding_mode()" и "MPEG4_ext_ancillary_ data()" является таким, как показано на фиг. 7-11, соответственно.

Например, как показано на фиг. 7, "bs_info()" содержит "mpeg_audio_type", "dolby_surround_mode", "drc_presentation_ mode" и "pseudo_surround_enable".

Кроме того, "drc_presentation_mode" соответствует режиму "DRC Presentation Mode" (режиму представления DRC), показанному на фиг. 3. Дополнительно, выражение "pseudo_surround_enable" содержит информацию, указывающую процедуру понижающего микширования от 5.1 каналов до 2 каналов, то есть информацию, указывающую один из множества способов понижающего микширования, которые должны использоваться для понижающего микширования.

Например, процесс изменяется в зависимости от того, равно ли 0 или 1 выражение "ancillary_data_extension_status", содержащееся в "ancillary_data_status()", показанном на фиг. 8. Когда "ancillary_data_extension_status" равно 1, доступ к "MPEG4_ext_ancillary_data()" в "MPEG4 ancillary data", показанных на фиг. 6, выполняется и управление DRC понижающим микшированием выполняется. С другой стороны, когда "ancillary_data_extension_status" равно 0, выполняется процесс, соответствующий предшествующему уровню техники. Таким образом, можно гарантировать совместимость с существующим стандартом.

Кроме того, выражение "downmixing_levels_MPEG4_status", содержащееся в выражении "ancillary_data_status()", показанном на фиг. 8, является информацией для назначения коэффициента (отношение микширования), который используется для пониженного микширования с 5.1 каналов до 2 каналов. То есть, когда "downmixing_levels_MPEG4_status" равно 1, коэффициент, который определяется информацией, хранящейся в выражении "downmixing_levels_MPEG4()", показанном на фиг. 9, используется для пониженного микширования.

Кроме того, выражение "downmixing_levels_MPEG4()", показанное на фиг. 9, содержит "center_mix_level_value" и "surround_mix_level_ value" в качестве информации для указания коэффициента понижающего микширования. Например, значения коэффициентов, соответствующие "center_mix_level_value" и "surround_mix_level_value", определяются таблицей, показанной на фиг. 19, которая будет описана ниже.

Кроме того, выражение "downmixing_levels_MPEG4()", показанное на фиг. 9, соответствует выражению "Downmix 5.1ch to 2ch", показанному на фиг. 3.

Дополнительно, выражение "MPEG4_ext_ancillary_data()", показанное на фиг. 11, содержит выражения "ext_ancillary_data_status()", "ext_downmixing_levels()", "ext_downmixing_global_gains()" и "ext_downmixing_lfe_level()".

Информация, требующаяся для расширения количества каналов так, чтобы расширить аудиоданные 5.1 каналов до аудиоданных 7.1 каналов или 6.1 каналов, хранится в "MPEG4_ext_ancillary_data()".

Конкретно, выражение "ext_ancillary_data_status()" содержит информацию (флаг), указывающую понижающее микширование для количества каналов, большего, чем 5.1 каналов, до 5.1 каналов, информацию, указывающая, выполнять ли управление усилением во время понижающего микширования, и информацию, указывающую, использовать ли канал LFE во время понижающего микширования.

Информация для указания коэффициента (отношения микширования), используемого во время понижающего микширования, хранится в "ext_downmixing_levels()", и информация, связанная с усилением во время регулировки усиления, содержится в "ext_downmixing_global_gains()". Кроме того, информация для указания коэффициента (отношения микширования) канала LEF, используемого во время понижающего микширования, хранится в "ext_downmixing_lfe_level()".

Конкретно, например, синтаксис "ext_ancillary_data_ status()" является таким, как показано на фиг. 12. В "ext_ancillary_data_status()" "ext_downmixing_levels_ status" указывает, осуществлять ли пониженное микширование 6.1 каналов или 7.1 каналов до 5.1 каналов. То есть "ext_downmixing_levels_status" указывает, присутствует ли "ext_downmixing_levels()". "ext_downmixing_levels_status" соответствует "Downmix 6.1ch and 7.1ch to 5.1ch" (пониженное микширование 6.1 каналов и 7.1 каналов до 5.1 каналов), показанному на фиг. 3.

Кроме того, выражение "ext_downmixing_global_gains_status" указывает, выполнять ли глобальное управление усилением, и соответствует "global gain downmixing", показанному на фиг. 3. То есть "ext_downmixing_global_gains_status" указывает, присутствует ли "ext_downmixing_global_gains()". Кроме того, "ext_downmixing_lfe_level_status" указывает, используется ли канал LFE, когда 5.1 каналов понижаются микшированием до 2 каналов, и соответствует "LFE downmixing", показанному на фиг. 3.

Синтаксис "ext_downmixing_levels()" в выражении "MPEG4_ext_ancillary_data()", показанном на фиг. 11, является таким, как показано на фиг. 13, и "dmix_a_idx" и "dmix_b_idx", показанные на фиг. 13, являются информацией, указывающей отношение микширования (коэффициент) во время понижающего микширования.

На фиг. 14 показана связь между "dmix_a_idx" и "dmix_b_idx", определенными выражением "ext_downmixing_levels()", и компоненты, к которым применяются "dmix_a_idx" и "dmix_b_idx", когда аудиоданные 7.1 каналов понижаются микшированием.

Синтаксис "ext_downmixing_global_gains()" и "ext_downmixing_lfe_level()" в выражении "MPEG4_ext_ancillary_data()", показанном на фиг. 11, является таким, как показано на фиг. 15 и 16.

Например, выражение "ext_downmixing_global_gains()", показанное на фиг. 15, содержит выражение "dmx_gain_5_sign", которое указывает знак усиления во время понижающего микширования до 5.1 каналов, усиление "dmx_gain_5_idx", "dmx_gain_2_sign", которое указывает знак усиления во время понижающего микширования до 2 каналов и усиление "dmx_gain_2_idx".

Кроме того, выражение "ext_downmixing_lfe_level()", показанное на фиг. 16, содержит "dmix_lfe_idx" и "dmix_lfe_idx" и является информацией, указывающей отношение (коэффициент) микширования канала LFE во время понижающего микширования.

Понижающее микширование

Кроме того, выражение "pseudo_surround_enable" в синтаксисе "bs_info()", показанном на фиг. 7, указывает процедуру процесса понижающего микширования и процедура процесса является такой, как показано на фиг. 17. Здесь на фиг. 17 показаны две процедуры, когда "pseudo_surround_enable" равно 0 и когда "pseudo_surround_enable" равно 1.

Далее будет описан процесс понижающего микширования аудиоданных.

Сначала будет описано понижающее микширование от 5.1 каналов до 2 каналов. В этом случае, когда канал L и канал R после понижающего микширования являются каналом L' и каналом R', соответственно, выполняется следующий процесс.

То есть когда выражение "pseudo_surround_enable" равно 0, аудиоданные канала L' и канала R' вычисляются следующим выражением (1).

Когда выражение "pseudo_surround_enable" равно 1, аудиоданные канала L' и канала R' вычисляются следующим выражением (2).

В выражении (1) и выражении (2), L, R, С, Ls, Rs и LFE являются каналами, образующими 5.1 каналов, и указывают на каналы L, R, С, Ls, Rs и LFE, которые были описаны со ссылкой на фиг. 1 и 2, соответственно.

В выражении (1) и выражении (2), "с" является константой, которая определяется значением "dmix_lfe_idx", содержащимся в "ext_downmixing_lfe_level()", показанном на фиг. 16. Например, значение константы с, соответствующее каждому значению "dmix_lfe_idx", является таким, как показано на фиг. 18. Конкретно, когда "ext_downmixing_lfe_level_status" в выражении "ext_ancillary_data_status()", показанном на фиг. 12, равно 0, канал LFE не используется при вычислении, использующем выражение (1) и выражение (2). Когда выражение "ext_downmixing_lfe_level_status" равно 1, значение константы с, умноженное на канал LFE, определяется на основе таблицы, показанной на фиг. 18.

В выражении (1) и выражении (2), "а" и "b" являются константами, которые определяется значениями "dmix_a_idx" и "dmix_b_idx", содержащимися в "ext_downmixing_lfe_level)", показанном на фиг. 13. В выражении (1) и выражении (2), "а" и "b" могут быть константами, которые определяется значениями "center_mix_level_value" и "surround_mix_level_value" в "downrnixing_levels_MPEG4()", показанном на фиг. 9.

Например, значения констант а и b относительно значений "dmix_a_idx" и "dmix_b_idx" или значений "center_mix_level_value" и "surround_mix_level_value" являются такими, как показано на фиг. 19. В этом примере, поскольку ссылка делается на одну и ту же таблица посредством "dmix_a_idx" и "dmix_b_idx", и "center_mix_level_value" и "surround_mix_level_value", константы (коэффициенты) а и b для пониженного микширования имеют одно и то же значение.

Далее будет описано пониженное микширование с 7.1 каналов или 6.1 каналов до каналов 5.1.

Когда аудиоданные каналов С, L, R, Ls, Rs, Lrs, Rrs и LFE, содержащих каналы громкоговорителей Lrs и Rrs, которые располагаются сзади пользователя, преобразуются в аудиоданные каналов 5.1, содержащих каналы С, L', R', , Ls', Rs' и LFE', вычисление выполняется согласно следующему выражению (3). Здесь, каналы С, L', R', Ls', Rs' и LFE' указывают каналы С, L, R, Ls, Rs и LFE после понижающего микширования, соответственно. Кроме того, в выражении (3), С, L, R, Ls, Rs, Lrs, Rrs и LFE указывают аудиоданные каналов С, L, R, Ls, Rs, Lrs, Rrs и LFE.

В выражении (3) d1 и d2 являются константами. Например, константы d1 и d2 определяются для значений "dmix_a_idx" и "dmix_b_idx", показанных на фиг. 19.

Когда аудиоданные каналов С, L, R, Lc, Rc, Ls, Rs и LFE, содержащих каналы громкоговорителей Lc и Rc, которые располагаются спереди пользователя, преобразуются в аудиоданные каналов 5.1, содержащих каналы С, L', R', Ls', Rs' и LFE', вычисление выполняется согласно следующему выражению (4). Здесь, каналы С, L', R', Ls', Rs' и LFE' указывают каналы С, L, R, Ls, Rs и LFE после понижающего микширования, соответственно. В выражении (4), С, L, R, Lc, Rc, Ls, Rs и LFE указывают аудиоданные каналов С, L, R, Lc, Rc, Lb, Rs и LFE.

В выражении (4) e1 и e2 являются константами. Например, константы e1 и е2 определяются для значений "dmix_a_idx" и "dmix_b_idx", показанных на фиг. 19.

Когда аудиоданные каналов С, L, R, Lvh, Rvh, Ls, Rs и LFE, содержащих каналы громкоговорителей Rvh и Lvh, которые располагаются спереди пользователя, преобразуются в аудиоданные 5.1 каналов, содержащих каналы С, L', R', Ls', Rs' и LFE', вычисление выполняется согласно следующему выражению (5). Здесь, каналы С, L', R', Ls', Rs' и LFE' указывают каналы С, L, R, Ls, Rs и LFE после понижающего микширования, соответственно. В выражении (5), С, L, R, Lvh, Rvh, Ls, Rs и LFE указывают аудиоданные каналов С, L, R, Lvh, Rvh, Ls, Rs и LFE.

В выражении (5) f1 и f2 являются константами. Например, константы f1 и f2 определяются для значений "dmix_a_idx" и "dmix_b_idx", показанных на фиг. 19.

При выполнении понижающего микширования с 6.1 каналов на 5.1 каналы выполняется следующий процесс. То есть, когда аудиоданные каналов С, L, R, Ls, Rs, Cs и LFE преобразуются в аудиоданные 5.1 каналов, содержащих каналы С', L', R', Ls', Rs' и LFE', вычисление выполняется согласно следующему выражению (6). Здесь, каналы С', L', R', Ls', Rs' и LFE' указывают каналы С, L, R, Ls, Rs и LFE после понижающего микширования, соответственно. В выражении (6), С, L, R, Ls, Rs, Cs и LFE указывают аудиоданные каналов С, L, R, Ls, Rs, Cs и LFE.

В выражении (6) g1 и g2 являются константами. Например, константы g1 и g2 определяются для значений "dmix_a_idx" и "dmix_b_idx", показанных на фиг. 19.

Далее будет описано глобальное усиление для коррекции громкости во время понижающего микширования.

Глобальное усиление при понижающем микшировании используется для коррекции громкости звука, который увеличивается или уменьшается при понижающем микшировании. Здесь, dmx_gain5 указывает значение коррекции для понижающего микширования от 7.1 каналов или 6.1 каналов до 5.1 каналов, и dmx_gain2 указывает на значение коррекции для понижающего микширования от 5.1 каналов до 2 каналов. Кроме того, dmx_gain2 поддерживает устройство декодирования или битовый поток, который не соответствует 7.1 каналам.

Применение и порядок их действия подобны сильному сжатию DRC. Кроме того, устройство декодирования может соответственно выполнять выборочную оценку для периода, в котором аудиокадр является долгим, или для периода, в котором аудиокадр слишком короткий, чтобы определить глобальное усиление при понижающем микшировании.

Во время понижающего микширования от 7.1 каналов до 2 каналов применяется объединенное усиление, то есть (dmx_gain5 + dmx_gain2). Например, 6-битовое целое число без знака используется в качестве dmx_gain5 и dmx_gain2, и dmx_gain5 и dmx_gain2 квантуются в интервале 0,25 дБ.

Поэтому, когда dmx_gain5 и dmx_gain2 объединяются друг с другом, объединенное усиление находится в диапазоне ±15,75 дБ. Значение усиления применяется к выборке аудиоданных декодированного текущего кадра.

Конкретно, во время понижающего микширования до 5.1 каналов выполняется следующий процесс. То есть, когда коррекция усиления выполняется для аудиоданных каналов С, ', L', R', Ls', Rs' и LFE', полученных путем понижающего микширования, чтобы получить аудиоданные каналов Сʺ, Lʺ, Rʺ, Lsʺ, Rsʺ и LFEʺ, вычисление выполняется согласно следующему выражению (7).

Здесь, dmx_gain5 - скалярное значение и является значением усиления, которое вычисляется от "dmx_gain_5_sign" и "dmx_gain_5_idx", показанных на фиг. 15, согласно следующему выражению (8).

Подобным образом, во время понижающего микширования до 2 каналов выполняется следующий процесс. То есть, когда коррекция усиления выполняется для аудиоданных каналов L' and R', полученных путем понижающего микширования, чтобы получить аудиоданные каналов Lʺ и Rʺ, вычисление выполняется согласно следующему выражению (9).

Здесь, dmx_gain2 - скалярное значение и является значением усиления, которое вычисляется из "dmx_gain_2_sign" и "dmx_gain_2_idx", показанных на фиг. 15, согласно следующему выражению (10).

Во время понижающего микширования от 7.1 каналов до 2 каналов, после того, как 7.1 каналов понижаются до 5.1 каналов, и 5.1 каналов понижаются до 2 каналов, для полученного сигнала (данных) может быть выполнена корректировка усиления. В этом случае, значение усиления dmx_gain_7to2, применяемое к аудиоданным, может быть получено, объединяя dmx_gain5 и dmx_gain2, как описано в следующем выражении (11).

Понижающее микширование от 6.1 каналов до 2 каналов выполняется аналогично понижающему микшированию от 7.1 каналов до 2 каналов.

Например, во время понижающего микширования от 7.1 каналов до 2 каналов, когда коррекция усиления выполняется на двух этапах согласно выражению (7) или выражению (9), возможно получить аудиоданные 5.1 каналов и аудиоданные 2 каналов.

Режим представления DRC

Кроме того, выражение "drc_presentation_mode", содержащееся в "bs_info()", показанном на фиг. 7, является таким, как показано на фиг. 20. То есть на фиг. 20 показан синтаксис "drc_presentation_mode".

Когда выражение "drc_presentation_mode" равно "01", режим является режимом представления DRC 1 ("DRC presentation mode 1"). Когда "drc_presentation_mode" равно "10", режим является режимом представления DRC 2 ("DRC presentation mode 2"). В "DRC presentation mode 1" и "DRC presentation mode 2" управление усилением выполняется как показано на фиг. 21.

Пример структуры устройства кодирования

Далее будут описаны конкретные варианты осуществления, к которым применяется настоящая технология.

На фиг. 22 представлен пример структуры устройства кодирования, соответствующего варианту осуществления, к которому применяется настоящая технология. Устройство 11 кодирования содержит блок 21 ввода, блок 22 кодирования и блок 23 упаковки.

Блок 21 ввода получает аудиоданные и информацию об аудиоданных извне и предоставляет аудиоданные и информацию блоку 22 кодирования. Например, информацию о расположении (высоте расположения) громкоговорителей получают как информацию об аудиоданных.

Блок 22 кодирования кодирует аудиоданные и информацию об аудиоданных, предоставленные от блока 21 ввода, и подает кодированные аудиоданные и информацию на блок 23 упаковки. Блок 23 упаковки упаковывает аудиоданные и информацию об аудиоданных, предоставленные от блока 22 ввода, чтобы сформировать кодированный битовый поток, показанный на фиг. 3, и выводит кодированный битовый поток.

Описание процесса кодирования

Далее процесс кодирования устройством 11 кодирования будет описан со ссылкой на блок-схему последовательности выполнения операций, показанную на фиг. 23.

На этапе S11 блок 21 ввода получает аудиоданные и информацию