Устройство декодирования, способ декодирования, устройство кодирования, способ кодирования и программа
Иллюстрации
Показать всеИзобретение относится к декодированию и кодированию информации. Технический результат изобретения заключается в возможности получения высококачественного реалистического звука. Устройство декодирования содержит блок обнаружения идентификационной информации, выполненный с возможностью считывания идентификационной информации для идентификации, хранится ли заданная информация, относящаяся к аудиоданным, в области комментария поля конфигурационного элемента программы (PCE) кодированного битового потока кадра передового аудиокодирования (AAC) в соответствии со стандартом AAC; блок считывания для считывания заданной информации из области комментария на основе множества элементов упомянутой идентификационной информации; блок декодирования для декодирования аудиоданных на основе заданной информации; блок вывода для вывода декодированных аудиоданных. 6 н. и 10 з.п. ф-лы, 40 ил.
Реферат
Область техники, к которой относится изобретение
Настоящая технология относится к устройству декодирования, способу декодирования, устройству кодирования, способу кодирования и программе и, более конкретно, к устройству декодирования, способу декодирования, устройству кодирования, способу кодирования и программе, которые могут получать высококачественный реалистический звук.
Уровень техники
В последние годы, все страны в мире внедрили службу распространения кинофильмов, широковещательное цифровое телевидение и архивирование следующего поколения. В дополнение к стереофоническому радиовещанию, соответствующему существующему уровню техники, начало внедряться звуковое радиовещание, соответствующее многочисленным каналам, такое как 5.1 каналов.
Чтобы дополнительно улучшить качество изображения, было изучено следующее поколение телевидения высокой четкости с повышенным количеством пикселей. При изучении следующего поколения телевидения высокой четкости ожидалось, что каналы должны быть расширены на многочисленные каналы, большие чем 5.1 каналов в горизонтальном направлении и вертикальном направлении в области обработки звука, чтобы достигнуть реалистического звука.
В качестве технологии, относящейся к кодированию аудиоданных, была предложена технология, которая группирует окна из разных каналов в некие мозаичные элементы, чтобы улучшить эффективность кодирования (смотрите, например, патентный документ 1).
Перечень литературы
Патентные документы
Патентный документ 1: JP 2010-217900 A
Раскрытие изобретения
Проблемы, решаемые изобретением
Однако, в упомянутой выше технологии трудно получить высококачественный реалистический звук.
Например, при многоканальном кодировании, основанном на стандарте Moving Picture Experts Group-2 Advanced Audio Coding (MPEG-2AAC) и стандарте MPEG-4AAC, являющихся международными стандартами, определены только расположение громкоговорителей в горизонтальном направлении и информация о понижающем микшировании от 5.1 каналов до стереоканалов. Поэтому, трудно удовлетворительно отреагировать на расширение каналов в плоскости и в вертикальном направлении.
Настоящая технология была разработана с точки зрения упомянутых выше проблем и позволяет получить высококачественный реалистический звук.
Решения проблем
Устройство декодирования, соответствующее первому варианту настоящей технологии, содержит блок обнаружения идентификационной информации, который считывает идентификационную информацию для идентификации, представлена ли заданная информация, из области, в которой могут храниться произвольные данные кодированного битового потока и блок считывания, который считывает заданную информацию из упомянутой области, в которой могут храниться произвольные данные, на основе множества элементов идентификационной информации.
Первая заданная идентификационная информация и вторая идентификационная информация, которая вычисляется на основе заданной информации, могут сохраняться как идентификационная информация в области, в которой могут храниться произвольные данные.
Блок считывания может определить, что заданная информация является действительной информацией, когда первая идентификационная информация, содержащаяся в области, в которой могут храниться произвольные данные, является заданной определенной информацией, и вторая идентификационная информация, считанная из области, в которой могут храниться произвольные данные, идентична второй идентификационной информации, вычисленной на основе считанной заданной информации.
Когда считанная первая идентификационная информация является заданной определенной информацией, блок считывания может начать считывание заданной информации, размещенной после первой идентификационной информацией в области, в которой могут храниться произвольные данные.
Вторая идентификационная информация может быть вычислена на основе информации, полученной при выполнении выравнивания байтов для информации, содержащей заданную информацию.
В области, в которой могут храниться произвольные данные, может содержаться произвольное число элементов заданной информации в заданном диапазоне. Блок считывания может определить, что заданная информация является недействительной информацией, когда информация, полученная посредством выравнивания байтов, не имеет заданного размера.
Заданная информация может быть информацией, относящейся к аудиоданным. Устройство декодирования может дополнительно содержать блок декодирования, который декодирует аудиоданные, содержащиеся в кодированном битовом потоке.
Способ декодирования или программа, соответствующие первому варианту настоящей технологии, содержит этап считывания идентификационной информации для идентификации, представлена ли заданная информация из области, в которой могут храниться произвольные данные кодированного битового потока, и этап считывания заданной информации из области, в которой могут храниться произвольные данные, на основе множества элементов идентификационной информации.
В первом варианте настоящей технологии идентификационная информация для идентификации, представлена ли заданная информация, считывается из области, в которой могут храниться произвольные данные кодированного битового потока, и заданная информация считывается из области, в которой могут храниться произвольные данные, на основе множества элементов идентификационной информации.
Устройство кодирования, соответствующее второму варианту настоящей технологии, содержит блок кодирования, который кодирует множество элементов идентификационной информации для идентификации наличия заданной информации и заданную информацию, и блок упаковки, который хранит кодированную заданную информацию и кодированную идентификационную информацию в области, в которой могут храниться произвольные данные, и формирует кодированный битовый поток.
Первая заданная идентификационная информация и вторая идентификационная информация, которая вычисляется на основе заданной информации, могут сохраняться как идентификационная информация в области, в которой могут храниться произвольные данные.
Заданная информация может определяться как действительная информация, когда первая идентификационная информация, содержащаяся в области, в которой могут храниться произвольные данные, является заданной определенной информацией, а вторая идентификационная информация, считанная из области, в которой могут храниться произвольные данные, идентична второй идентификационной информации, вычисленной на основе считанной заданной информации.
Заданная информация может располагаться после первой идентификационной информацией в области, в которой могут храниться произвольные данные. Когда считанная идентификационная информация является заданной определенной информацией, может начаться считывание заданной информации.
Информация для подачи команд на выполнение выравнивания байтов для информации, содержащей заданную информацию, и информация для подачи команды сравнения между второй идентификационной информацией, вычисленной на основе информации, полученной посредством выравнивания байтов, и второй идентификационной информацией, хранящейся в области, в которой могут храниться произвольные данные, может дополнительно сохраняться в области, в которой могут храниться произвольные данные.
В области, в которой могут храниться произвольные данные, может храниться произвольное число элементов заданной информации в заданном диапазоне. Когда информация, полученная выравниванием байтов, не имеет заданного размера, заданная информация может определяться как недействительная.
Заданная информация может быть информацией, относящейся к аудиоданным. Блок кодирования может кодировать аудиоданные, а блок упаковки может хранить кодированные аудиоданные в кодированном битовом потоке.
Способ кодирования или программа, соответствующие второму варианту настоящей технологии, содержат этап кодирования множества элементов идентификационной информации для идентификации наличия заданной информации, и заданная информация и этап хранения кодированной заданной информации и кодированной идентификационной информации в области, в которой могут храниться произвольные данные, и формирования кодированного битового потока.
Во втором варианте настоящей технологии кодируется множество элементов идентификационной информации для идентификации наличия заданной информации, и заданная информация. Кодированная заданная информация и кодированная идентификационная информация сохраняются в области, в которой могут храниться произвольные данные, и формируется кодированный битовый поток.
Результаты изобретения
В соответствии с первым и вторым вариантами настоящей технологии возможно получить высококачественный реалистический звук.
Краткое описание чертежей
Фиг. 1 - расположение громкоговорителей.
Фиг. 2 - пример карты громкоговорителей.
Фиг. 3 - кодированный битовый поток.
Фиг. 4 - синтаксис height_extension_element.
Фиг. 5 - расположение громкоговорителей по высоте.
Фиг. 6 - синтаксис вспомогательных данных MPEG4.
Фиг. 7 - синтаксис bs_info().
Фиг. 8 - синтаксис ancillary_data_status().
Фиг. 9 - синтаксис downmixing_levels_MPEG4().
Фиг. 10 - синтаксис audio_coding_mode().
Фиг. 11 - синтаксис MPEG4_ext_ancillary_data().
Фиг. 12 - синтаксис ext_ancillary_data_status().
Фиг. 13 - синтаксис ext_downmixing_levels().
Фиг. 14 - цели, к которым применяется каждый коэффициент.
Фиг. 15 - синтаксис ext_downmixing_global_gains().
Фиг. 16 - синтаксис ext_downmixing_lfe_level().
Фиг. 17 - понижающее микширование.
Фиг. 18 -коэффициент, определяемый для dmix_lfe_idx.
Фиг. 19 -коэффициенты, определяемые для dmix_a_idx и dmix_b_idx.
Фиг. 20 - синтаксис drc_presentation_mode.
Фиг. 21 - синтаксис drc_presentation_mode.
Фиг. 22 - пример структуры устройства кодирования.
Фиг. 23 - блок-схема последовательности выполнения операций процесса кодирования.
Фиг. 24 - пример структуры устройства декодирования.
Фиг. 25 - блок-схема последовательности выполнения операций процесса декодирования.
Фиг. 26 - пример структуры устройства кодирования.
Фиг. 27 - блок-схема последовательности выполнения операций процесса кодирования.
Фиг. 28 - пример устройства декодирования.
Фиг. 29 - пример структуры блока процесса понижающего микширования.
Фиг. 30 - пример структуры блока понижающего микширования.
Фиг. 31 - пример структуры блока понижающего микширования.
Фиг. 32 - пример структуры блока понижающего микширования.
Фиг. 33 - пример структуры блока понижающего микширования.
Фиг. 34 - пример структуры блока понижающего микширования.
Фиг. 35 - пример структуры блока понижающего микширования.
Фиг. 36 - блок-схема последовательности выполнения операций процесса декодирования.
Фиг. 37 - блок-схема последовательности выполнения операций процесса перегруппировки.
Фиг. 38 - блок-схема последовательности выполнения операций процесса перегруппировки.
Фиг. 39 - блок-схема последовательности выполнения операций процесса понижающего микширования.
Фиг. 40 - пример структуры компьютера.
Осуществление изобретения
Здесь далее со ссылкой на чертежи будут описаны варианты осуществления, к которым применяется настоящая технология.
Первый вариант осуществления Общие сведения о настоящей технологии
Сначала будут описаны общие сведения о настоящей технологии.
Настоящая технология относится к кодированию и декодированию аудиоданных. Например, при многоканальном кодировании на основе стандарта MPEG-2AAC или MPEG-4AAC трудно получить информацию для расширения каналов в горизонтальной плоскости и в вертикальном направлении.
При многоканальном кодировании не существует информации о понижающем микшировании содержания расширенного канала и соответствующее отношение микширования каналов неизвестно. Поэтому для переносной аппаратуры с мальм количеством каналов воспроизведения трудно воспроизводить звук.
Настоящая технология может получать высококачественный реалистический звук, используя следующие характеристики (1)-(4).
(1) Информация о расположении громкоговорителей в вертикальном направлении записывается в области комментария в PCE (Program_config_element), определенном существующим стандартом AAC.
(2) В случае характеристики (1), чтобы различать публичные комментарии от информации о расположении громкоговорителей в вертикальном направлении, устройство кодирования кодирует два элемента идентификационной информации, а именно, синхронное слово и контрольный код CRC, и устройство декодирования сравнивает два элемента идентификационной информации. Когда два элемента идентификационной информации идентичны друг другу, устройство декодирования получает информацию о расположении громкоговорителей.
(3) Информация о понижающем микшировании записывается в области вспомогательных данных (DSE (data_stream_element)).
(4) Понижающее микширование от 6.1 каналов или 7.1 каналов до 2 каналов является двухэтапным процессом, содержащим понижающее микширование от 6.1 каналов или 7.1 каналов до 5.1 каналов и понижающее микширование от 5.1 каналов до 2 каналов.
По существу, использование информации о расположении громкоговорителей в вертикальном направлении делает возможным воспроизводить звуковую картину в вертикальном направлении, в дополнение к плоскости, и воспроизводить более реалистический звук, чем планарные многочисленные каналы в соответствии с предшествующим уровнем техники.
Кроме того, когда передается информация о понижающем микшировании от 6.1 каналов или 7.1 каналов до 5.1 каналов или 2 каналов, использование одного элемента данных кодирования возможно, чтобы воспроизводить звук с помощью количества каналов, наиболее пригодного для каждой среды воспроизведения. В устройстве декодирования, соответствующем предшествующему уровню техники, который не соответствует настоящей технологии, информация в вертикальном направлении игнорируется как публичные комментарии и аудиоданные декодируются. Следовательно совместимость не ухудшается.
Расположение громкоговорителей
Далее будет описано расположение громкоговорителей при воспроизведении аудиоданных.
Например, предположим, что, как показано на фиг. 1, пользователь видит экран дисплея TVS устройства отображения, такого как телевизионный приемник, в передней стороны. То есть, предполагается, что пользователь расположен перед экраном дисплея TVS на фиг. 1.
В этом случае предполагается, что 13 громкоговорителей Lvh, Rvh, Lrs, Ls, L, Lc, C, Rc, R, Rs, Rrs, Cs и LFE расположены так, чтобы окружать пользователя.
Здесь далее каналы аудиоданных (звуки), воспроизводимые громкоговорителями Lvh, Rvh, Lrs, Ls, L, Lc, C, Rc, R, Rs, Rrs, Cs и LFE, упоминаются как Lvh, Rvh, Lrs, Ls, L, Lc, C, Rc, R, Rs, Rrs, Cs и LFE, соответственно.
Как показано на фиг. 2, канал L является "передним левым", канал R является "передним правым" и канал С является "передним центральным".
Кроме того, канал Ls является "левым окружающим", канал Rs является "правым окружающим", канал Lrs является "левым задним", канал Rrs является "кравым задним" и канал Cs является "центральным задним".
Канал Lvh является "левым верхним передним", канал Rvh является "правым верхним передним" и канал LFE является каналом "эффекта нижних частот".
Возвращаясь к фиг. 1, громкоговоритель Lvh и громкоговоритель Rvh устанавливаются спереди сверху слева и с правой сторон от пользователя. Уровень, на котором расположены громкоговорители Rvh и Lvh, является верхним уровнем.
Громкоговорители L, С и R устанавливаются слева, в центре и справа от пользователя. Громкоговорители Lc и Rc устанавливаются между громкоговорителями L и С и между громкоговорителями R и С, соответственно. Кроме того, громкоговорители Ls и Rs устанавливаются с левой и правой стороны от пользователя, соответственно, и громкоговорители Lrs, Rrs и Cs устанавливаются сзади слева, сзади справа и сзади пользователя, соответственно.
Громкоговорители Lrs, Ls, L, Lc, С, Rc, R, Rs, Rrs и Cs устанавливаются в плоскости, которая располагается, по существу, на высоте ушей пользователя, так чтобы окружать пользователя. Уровень, на котором устанавливаются громкоговорителя, является "средним уровнем".
Громкоговоритель LFE устанавливается спереди внизу от пользователя и уровень, на котором устанавливается громкоговоритель LFE называется "уровнем LFE".
Кодированный битовый поток
Когда, например, кодируются аудиоданные каждого канала, получается кодированный битовый поток, показанный на фиг. 3. То есть, на фиг. 3 показан синтаксис кодированного битового потока кадра AAC.
Кодированный битовый поток, показанный на фиг. 3, содержит "Header/sideinfo", "РСЕ", "SCE", "CPE", "LFE", "DSE", "FIL(DRC)" и "FIL(END)". В этом примере кодированный битовый поток содержит три "СРЕ".
Например, "РСЕ" содержит информацию о каждом канале аудиоданных. В этом примере "РСЕ" содержит "Matrix-mixdown", которая является информацией о понижающем микшировании аудиоданных, и "Height Infomation", которая является информацией о расположении громкоговорителей. Кроме того, "РСЕ" содержит "comment_field_data", которая является областью комментария (полем комментария), в котором могут храниться свободные комментарии, и данные "comment_field_data" содержат элемент "height_extension_element", который является расширенной областью. В области комментария могут храниться произвольные данные, такие как публичные комментарии. Элемент "height_extension_element" содержит информацию "Height Infomation", которая является информацией о высоте расположения громкоговорителей.
"SCE" содержит аудиоданные одиночного канала, "СРЕ" содержит аудиоданные канальной пары, то есть, двух каналов, и "LFE" содержит аудиоданные, например, канала LFE. Например, "SCE" хранит аудиоданные канала С или Cs и "СРЕ" содержит аудиоданные канала L или R или канала Lvh или Rvh.
Кроме того, "DSE" является областью вспомогательных данных. В "DSE" хранятся данные. В этом примере "DSE" в качестве информации о понижающем микшировании аудиоданных содержит "Downmix 5.1 ch to 2 ch", "Dynamic Range Control", "DRC Presentation Mode", "Downmix 6.1 ch and 7.1 ch to 5.1 ch", "global gain downmixing" и "LFE downmixing".
Кроме того, "FIL(DRC)" содержит информацию об управлении динамическим диапазоном звука. Например, "FIL(DRC)" содержит "Program Reference Level" и "Dynamic Range Control".
Поле комментария
Как описано выше, данные "comment_field_data" для "РСЕ" содержат элемент "height_extension_element". Следовательно, мультиканальное воспроизведение достигается информацией о расположении громкоговорителей в вертикальном направлении. То есть, высококачественный реалистический звук воспроизводится громкоговорителями, расположенными на уровне, каждый из которых имеет свою высоту, такую как "Top layer" (верхний уровень) или "Middle layer" (средний уровень).
Например, как показано на фиг. 4, элемент "height_extension_element" содержит синхронное слово для отличия от других публичных комментариев. То есть, на фиг. 4 показан синтаксис элемента "height_extension_element".
На фиг. 4 "PCE_HEIGHT_EXTENSION_SYNC" указывает синхронное слово.
Кроме того, "front_element_height_info[i]”, "side_element_height_info[i]" и "back_element_height_info[i]” указывают высоту громкоговорителей, располагающихся спереди, сбоку и сзади от зрителя, то есть, уровни.
Дополнительно, "byte_alignment()" указывает выравнивание байтов и "height_info_crc_check" указывает контрольный код CRC, используемый в качестве идентификационной информации. Кроме того, контрольный код CRC вычисляется на основе информации, которая считывается между "PCE_HEIGHT_EXTENSION_SYNC" и "byte_alignment()", то есть, в синхронном слове, информации о расположении каждого громкоговорителя (информация о каждом канале) и выравнивании байтов. Затем определяется, идентичен ли вычисленный контрольный код CRC контрольному коду CRC, указанному в "height_info_crc_check". Когда контрольные коды CRC идентичны друг другу, принимается решение, что информация о расположении каждого громкоговорителя считана правильно. Кроме того, "crc_cal()!=height_info_crc_check" указывает сравнение между контрольными кодами CRC.
Например, "front_element_height_info[i]", “side_element_height_info[i]” и "back_element_height_info[i]”, которые являются информацией о положении источников звука, то есть, о расположении (высоте) громкоговорителей, устанавливаются, как показано на фиг. 5.
То есть, когда информация о "front_element_height_info[i]”, "side_element_height_info[i]" и "back_element_height_info[i]" равна "О", "1" и "2", высота громкоговорителей является "Normal height" (нормальная высота), "Top speaker" (верхний громкоговоритель) и "Bottom Speaker" (нижний громкоговоритель, соответственно. То есть, уровнями, на которых установлены громкоговорители, являются "Middle layer" (средний уровень), "Top layer" (верхний уровень) и "LFE layer" (уровень LFE).
DSE
Далее будут описаны данные "MPEG4 ancillary data", которые являются областью вспомогательных данных, содержащихся в "DSE", то есть, "data_stream_byte[]" для "'data_stream_element()". Управление DRC при понижающем микшировании для аудиоданных от 6.1 каналов или 7.1 каналов к 5.1 каналам или 2 каналам может выполняться посредством данных "MPEG4 ancillary data".
На фиг.6 показан данных "MPEG4 ancillary data". Данные "MPEG4 ancillary data" содержат "bs_info()", "ancillary_data_status()", "dovvTimixing_levels_MPEG4()", "audio_coding_mode()", "Compression_value" и "MPEG4_ext_ancillary_data()".
Здесь, значение "Compression_value" соответствует "Dynamic Range Control", показанному на фиг. 3. Кроме того, синтаксис "bs_info()", "ancillary_data_status()", "downmixing_levels_MPEG4()”, "audio_coding_mode()” и "MPEG4_ext_ancillary_data()" таков, как показано на фиг. 7-11, соответственно.
Например, как показано на фиг. 7, "bs_info()" содержит "mpeg_audio_type", "dolby_surround_mode", "drc_presentation_mode" и "pseudo_surround_enable".
Кроме того, "drc_presentation_mode" соответствует режиму "DRC Presentation Mode", показанному на фиг. 3. Дополнительно, "pseudo_surround_enable" содержит информацию, указывающую процедуру понижающего микширования от 5.1 каналов к 2 каналам, то есть, информацию, указывающую один из множества способов понижающего микширования, который должен использоваться для понижающего микширования.
Например, процесс варьируется в зависимости от того, равен ли 0 или 1 статус "ancillary_data_extension_status", содержащийся в статусе "ancillary_data_status()", показанном на фиг. 8. Когда статус "ancillary_data_extension_status" равен 1, выполняется доступ к "MPEG4_ext_ancillary_data()" в данных "MPEG4 ancillary data", показанных на фиг. 6, и управление DRC понижающим микшированием выполняется. С другой стороны, когда статус "ancillary_data_extension_status" равен 0, выполняется процесс, соответствующий предшествующему уровню техники. Таким образом, возможно гарантировать совместимость с существующим стандартом.
Кроме того, статус "downmixing_levels_MPEG4_status", содержащийся в "ancillary_data_status()", показанном на фиг. 8, является информацией для назначения коэффициента (отношения микширования, используемого при понижающем микшировании с 5.1 каналов до 2 каналов. То есть, когда "downmixing_levels_MPEG4_status" равен 1, для понижающего микширования используется коэффициент, определяемый информацией, хранящейся в "downmixing_levels_MPEG4()", показанной на фиг. 9.
Дополнительно, "downmixing_levels_MPEG4()", показанный на фиг. 9, содержит "center_mix_level_value" и "surround_mix_level_value" в качестве информации для указания коэффициента понижающего микширования. Например, значения коэффициентов, соответствующие "center_mix_level_value" и "surround_mix_level_value", определяются таблицей, показанной на фиг. 19, которая будет описана ниже.
Кроме того, "downmixing_levels_MPEG4()", показанный на фиг. 9, соответствует "Downmix 5.1 ch to 2 ch", показанному на фиг. 3.
Дополнительно, "MPEG4_ext_ancillary_data()", показанный на фиг. 11, содержит "ext_ancillary_data_status()", "ext_downmixing_levels()", "ext_downmixing_global_gains()" и "ext_do wnmixing_lfe_le vel()".
Информация, требующаяся для расширения количества каналов, так чтобы аудиоданные 5.1 каналов расширялись до 7.1 каналов или 6.1 каналов, хранится в "MPEG4_ext_ancillary_data()".
Конкретно, "ext_ancillary_data_status()" содержит информацию (флаг), указывающую, выполняется ли понижающее микширование каналов, больших, чем 5.1 каналов, до 5.1 каналов, информацию, указывающую, выполнять ли управление усилением во время понижающего микширования, и информацию, указывающую использовать ли канал LFE во время понижающего микширования.
Информация для указания коэффициента (отношения микширования), используемого во время понижающего микширования, хранится в "ext_downmixing_levels()", а информация, относящаяся к усилению во время регулировки усиления, содержится в "ext_downmixing_global_gains()”. Кроме того, информация для указания коэффициента (отношения микширования) канала LEF, используемая во время понижающего микширования, хранится в "ext_downmixing_lfe_level()".
Конкретно, например, синтаксис "ext_ancillary_data_status()" является таким, как показано на фиг. 12. В "ext_ancillary_data_status()", "ext_downmixing_levels_status" указывает, должно ли выполняться понижающее микширование 6.1 каналов или 7.1 каналов до 5.1 каналов. То есть, "ext_downmimixing_levels_status” указывает, присутствует ли "ext_downmixing_levels()”. "ext_downmixing_levels_status" соответствует "Downmix 6.1 ch and 7.1 ch to 5.1 ch", показанному на фиг. 3.
Кроме того, "ext_downmixing_global_gains_status" указывает, выполнять ли глобальное управление усилением, и соответствует "global gain downmixing", показанному на фиг. 3. То ecTb,"ext_downmixing_global_gains_status" указывает, присутствует ли "ext_downmixing_global_gains()". Кроме того, "ext_downmixing_lfe_level_status" указывает, используется ли канал LFE, когда для 5.1 каналов выполняется понижающее микширование до 2 каналов, и соответствует "LFE downmixing", показанному на фиг. 3.
Синтаксис "ext_downmixing_levels()" в "MPEG4_ext_ancillary_data()", показанном на фиг. 11, является таким, как показано на фиг. 13, и "dmix_a_idx" and "dmix_b_idx", показанное на фиг. 13, является информацией, указывающей отношение (коэффициент) микширования во время понижающего микширования.
На фиг. 14 показано соответствие между "dmix_a_idx" и "dmix_b_idx", определенными "ext_downmixing_levels()", и компонентами, к которым применяются "dmix_a_idx" и "dmix_b_idx", когда выполняется понижающее микширование аудиоданных 7.1 каналов.
Синтаксис "ext_downmixing_global_gains()" и "ext_downmixing_lfe_level()" в "MPEG4_ext_ancillary_data()", показанном на фиг. 11, является таким, как показано на фиг. 15 и 16.
Например, "ext_downmixing_global_gains()”, показанное на фиг. 15, указывает "dmx_gain_5_sign", которое указывает знак усиления по время понижающего микширования до 5.1 каналов, усиление "dmx_gain_5_idx", "dmx_gain_2_sign", которое указывает знак усиления во время понижающего микширования до 2 каналов и усиление "dmx_gain_2_idx".
Кроме того, "ext_downmixing_lfe_level()", показанное на фиг. 16, содержит "dmix_lfe_idx", и "dmix_lfe_idx" является информацией, указывающей. отношение (коэффициент) микширования канала LFE во время понижающего микширования.
Понижающее микширование
Кроме того, "pseudo_surround_enable" в синтаксисе "bs_info()", показанного на фиг. 7, указывает процедуру процесса понижающего микширования и процедура процесса является такой, как показано на фиг. 17. Здесь, на фиг. 17 показаны две процедуры, когда "pseudo_surround_enable" равно 0 и когда "pseudo_surround_enable" равно 1.
Далее будет описан процесс понижающего микширования аудиоданных.
Сначала будет описано понижающее микширование с 5.1 каналов до 2 каналов. В этом случае, когда канал L и канал R после понижающего микширования являются каналом L' и каналом R', соответственно, выполняется следующий процесс.
То есть, когда "pseudo_surround_enable" равно 0, аудиоданные канала L' и канала R' вычисляются следующим выражением (1).
Когда "pseudo_surround_enable" равно 1, аудиоданные канала L' и канала R' вычисляются следующим выражением (2).
В выражении (1) и выражении (2), L, R, С, Ls, Rs и LFE являются каналами, образующими каналы 5.1, и указывают на каналы L, R, С, Ls, Rs и LFE, которые были описаны со ссылкой на фиг. 1 и 2, соответственно.
В выражении (1) и выражении (2), "с" является константой, которая определяется значением "dmix_lfe_idx", содержащимся в "ext_downmixing_lfe_level()”, показанным на фиг. 16. Например, значение константы с, соответствующее каждому значению "dmix_lfe_idx", является таким, как показано на фиг. 18. Конкретно, когда "ext_downmixing_lfe_level_status" в "ext_ancillary_data_starus()", показанном на фиг. 12, равно 0, канал LFE не используется при вычислении, использующем выражение (1) и выражение (2). Когда "ext_downmixing_lfe_level_status" равно 1, значение константы с, умноженное на канал LFE, определяется на основе таблицы, показанной на фиг. 18.
В выражении (1) и выражении (2), "a" и "b" являются константами, которые определяется значениями "dmix_a_idx" и "dmix_b_idx", содержащимися в "ext_dovvnmixing_lfe_level)", показанном на фиг. 13. В выражении (1) и выражении (2), "a" и "b" могут быть константами, которые определяется значениями "center_mix_level_value" и "surround_mix_level_value" в "downmixing_levels_MPEG4()", показанном на фиг. 9.
Например, значения констант a и b относительно значений "dmix_a_idx" и "dmix_b_idx" или значений "center_mix_level_value" и "surround_mix_level_value" являются такими, как показано на фиг. 19. В этом примере, поскольку ссыпка делается на одну и ту же таблица посредством "dmix_a_idx" и "dmix_b_idx", и "center_mix_level_value" и "surround_mix_level_value", константы (коэффициенты) a и b для понижающего микширования имеют одно и то же значение.
Далее будет описано понижающее микширование с каналов 7.1 или каналов 6.1 до каналов 5.1.
Когда аудиоданные каналов С, L, R, Ls, Rs, Lrs, Rrs и LFE, содержащих каналы громкоговорителей Lrs и Rrs, которые располагаются сзади пользователя, преобразуются в аудиоданные каналов 5.1, содержащих каналы С, L', R', Ls', Rs' и LFE', вычисление выполняется согласно следующему выражению (3). Здесь, каналы С, L', R', Ls', Rs' и LFE' указывают каналы С, L, R, Ls, Rs и LFE после понижающего микширования, соответственно. Кроме того, в выражении (3), С, L, R, Ls, Rs, Lrs, Rrs и LFE указывают аудиоданные каналов С, L, R, Ls, Rs, Lrs, Rrs и LFE.
В выражении (3) d1 и d2 являются константами. Например, константы d1 и d2 определяются для значений "dmix_a_idx" и "dmix_b_idx", показанных на фиг. 19.
Когда аудиоданные каналов С, L, R, Lc, Rc, Ls, Rs и LFE, содержащих каналы громкоговорителей Lc и Rc, которые располагаются спереди пользователя, преобразуются в аудиоданные каналов 5.1, содержащих каналы С, L', R', Ls', Rs' и LFE', вычисление выполняется согласно следующему выражению (4). Здесь, каналы С, L', R', Ls', Rs' и LFE' указывают каналы С, L, R, Ls, Rs и LFE после понижающего микширования, соответственно. В выражении (4), С, L, R, Lc, Rc, Ls, Rs и LFE указывают аудиоданные каналов С, L, R, Lc, Rc, Ls, Rs и LFE.
В выражении (4), e1 and e2 являются константами. Например, константы e1 и e2 определяются для значений "dmix_a_idx" и "dmix_b_idx", показанных на фиг. 19.
Когда аудиоданные каналов С, L, R, Lvh, Rvh, Ls, Rs и LFE, содержащих каналы громкоговорителей Rvh и Lvh, которые располагаются спереди пользователя, преобразуются в аудиоданные каналов 5.1, содержащих каналы С, L', R', Ls', Rs' и LFE', вычисление выполняется согласно следующему выражению (5). Здесь, каналы С, L', R', Ls', Rs' и LFE' указывают каналы С, L, R, Ls, Rs и LFE после понижающего микширования, соответственно. В выражении (5), С, L, R, Lvh, Rvh, Ls, Rs и LFE указывают аудиоданные каналов С, L, R, Lvh, Rvh, Ls, Rs и LFE.
В выражении (5) f1 и f2 являются константами. Например, константы f1 и f2 определяются для значений "dmix_a_idx" и "dmix_b_idx", показанных на фиг. 19.
При выполнении понижающего микширования с каналов 6.1 до каналов 5.1 выполняется следующий процесс. То есть, когда аудиоданные каналов С, L, R, Ls, Rs, Cs и LFE преобразуются в аудиоданные каналов 5.1, содержащих каналы С, L', R', Ls', Rs' и LFE', вычисление выполняется согласно следующему выражению (6). Здесь, каналы С, L', R', Ls', Rs' и LFE' указывают каналы С, L, R, Ls, Rs и LFE после понижающего микширования, соответственно. В выражении (6) С, L, R, Ls, Rs, Cs и LFE указывают аудиоданные каналов С, L, R, Ls, Rs, Cs и LFE.
В выражении (6) g1 и g2 являются константами. Например, константы g1 и g2 определяются для значений "dmix_a_idx" и "dmix_b_idx", показанных на фиг. 19.
Далее будет описано глобальное усиление для коррекции громкости во время понижающего микширования.
Глобальное усиление при понижающей микшировании используется для коррекции громкости звука, которая увеличивается или уменьшается при понижающем. микшировании. Здесь, dmx_gain5 указывает значение коррекции для понижающего микширования от каналов 7.1 или каналов 6.1 до каналов 5.1, и dmx_gain2 указывает значение коррекции для понижающего микширования от каналов 5.1 до 2 каналов. Кроме того, dmx_gain2 поддерживает устройство декодирования или битовый поток, которые не соответствуют каналам 7.1.
Применение и порядок их действия этого подобны сильному сжатию DRC. Кроме того, устройство декодирования может соответственно выполнять выборочную оценку для периода, в котором аудиокадр является долгим, или для периода, в котором котором аудиокадр слишком короткий, чтобы определить глобальное усиление при понижающем микшировании.
Во время понижающего микширования от каналов 7.1 до 2 каналов применяется объединенное усиление, то есть, (dmx_gain5 + dmx_gain2). Например, 6-битовое целое число без знака используется в качестве dmx_gain5 и dmx_gain2 и dmx_gain5 и dmx_gain2 квантуются в интервале 0,25 дБ.
Поэтому, когда dmx_gain5 и dmx_gain2 объединяются друг с другом, объединенное усиление находится в диапазоне ±15,75 дБ. Значение усиления применяется к выборке аудиоданных декодированного текущего кадра.
Конкретно, во время понижающего микширования до 5.1 каналов выполняется следующий процесс. То есть, когда коррекция усиления выполняется для аудиоданных каналов С, L', R', Ls', Rs' и LFE', полученных путем понижающего микширования, чтобы получить аудиоданные каналов С'', L'', R'', Ls'', Rs'' и LFE'', вычисление выполняется согласно следующему выражению (7).
Здесь, dmx_gain5 - скалярное значение и является значением усиления, которое вычисляется из "dmx_gain_5_sign" и "dmx_gain_5_idx", показанных на фиг. 15, согласно следующему выражению (8).
Подобным образом, во время понижающего микширования до 2 каналов выполняется следующий процесс. То есть, когда коррекция усиления выполняется для аудиоданных каналов L' and R', полученных путем понижающего микширования, чтобы получить аудиоданные каналов L'' и R'', вычисление выполняется согласно следующему выражению (9).
Здесь, dmx_gain2 - скалярное значение и является значением усиления, которое вычисляется от "dmx_gain_2_sign" и "dmx_gain_2_idx", показанных на фиг. 15, согласно следующему выражению (10).
Во время понижающего микширования от 7.1 каналов до 2 каналов, после того, как 7.1 каналов понижаются до 5.1 каналов, и 5.1 каналов понижаются до 2 каналов, для полученного сигнала (данных) может быть выполнена корректировка усиления. В этом случае, значение усиления dmx_gain_7to2, применяемое к аудиоданным, может быть получено, объединяя dmx_gain5 и dmx_gain2, как описано в следующем выражении (11).
Понижающее микширование от 6.1 каналов до 2 каналов выполняется аналогично понижающему микшированию от 7.1 каналов до 2 каналов.
Например, во время понижающего микширования от 7.1 каналов до 2 каналов, когда коррекция усиления выполняется на двух этапах согласно выражению (7) или выражению (9), возможно вывести аудиоданные 5.1 каналов и аудиоданные 2 каналов.
Режим представления DRC
Кроме того, "drc_presentation_mode", содержащееся в "bs_info()", показанном на фиг. 7, является таким, как показано на фиг. 20. То есть, на фиг. 20 показан синтаксис "drc_presentation_mode".
Когда "drc_presentation_mode" равно "01", режим является режимом 1 представления DRC ("DRC presentation mode 1"). Когда "drc_presentation_mode" равно "10", режим является режимом 2 представления DRC ("DRC presentation mode 2"). В "DRC presentation mode 1" и "DRC presentation mode 2" управление усилением выполняется как показано на фиг. 21.
Пример структуры устройства кодирования
Далее будут описаны конкретные варианты осуществления, к которым применяется настоящая технология.
На фиг. 22 представлен пример структуры устройства кодирования, соответствующего варианту осуществления, к которому применяется настоящая технология. Устройство 11 кодирования содержит блок 21 ввода, блок 22 кодирования и блок 23 упаковки.
Блок 21 ввода получает аудиоданные и информацию об аудиоданных извне и предоставляет аудиоданные и информацию блоку 22 кодирования. Например, информацию о расположении (высота расположения) громкоговорителей получают как информацию об аудиоданных.
Блок 22 кодирования кодирует аудиоданные и информацию об аудиоданных, предоставленные от блока 21 ввода, и подает кодированные аудиоданные и информацию на блок 23 упаковки. Блок 23 упаковки упаковывает аудиоданные и информацию об аудиоданных, предоставленные от блока 22 ввода, чтобы сформировать кодированный битовый поток, показанный на фиг. 3, и выводит кодированный битовый поток.
Описание процесса кодирования
Далее процесс кодирования устройством 11 кодирования будет описан со ссылкой на блок-схему последовательности выполнения опер