2581782 - Гибридное кодирование многоканального звука

Гибридное кодирование многоканального звука

Иллюстрации

Показать все

Изобретение относится к средствам кодирования и декодирования многоканального звукового сигнала. Технический результат заключается в повышении качества кодированного сигнала. Способ кодирования многоканального входного звукового сигнала включает этапы формирования понижающего микширования низкочастотных составляющих подмножества каналов входного сигнала, кодирования формы сигнала каждого канала понижающего микширования, формируя тем самым подвергнутые понижающему микшированию данные с кодированной формой сигнала, выполнения параметрического кодирования по меньшей мере некоторых верхних частотных составляющих каждого канала входного сигнала, формируя тем самым параметрически кодированные данные, и формирования кодированного звукового сигнала (например, кодированного сигнала в формате E-AC-3), указывающего на подвергнутые понижающему микшированию данные с кодированной формой сигнала и параметрически кодированные данные. Другие аспекты представляют собой способы декодирования такого кодированного сигнала и системы, выполненные с возможностью выполнения любого варианта осуществления способа согласно изобретению. 4 н. и 26 з.п. ф-лы, 4 ил., 1 табл.

Реферат

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИ

Это заявка испрашивает приоритет согласно предварительной заявке на патент США № 61/817729, поданной 30 апреля 2013, которая в полном объеме включена в данную заявку посредством ссылки.

ПРЕДПОСЫЛКИ СОЗДАНИЯ ИЗОБРЕТЕНИЯ

1. ОБЛАСТЬ ТЕХНИКИ

Изобретение относится к обработке звуковых сигналов, а более конкретно к кодированию многоканального звука (например, кодированию данных, указывающих на многоканальный звуковой сигнал) и декодированию. В типовых вариантах осуществления понижающее микширование низкочастотных составляющих отдельных каналов многоканального входного звукового сигнала подвергается кодированию формы сигнала, а другие частотные составляющие (с более высокой частотой) входного звукового сигнала подвергаются параметрическому кодированию. Некоторые варианты осуществления кодируют многоканальные аудиоданные в соответствии с одним из форматов, известных как AC-3 и Е-AC-3 (Enhanced AC-3), или в соответствии с другим форматом кодирования.

2. ПРЕДПОСЫЛКИ СОЗДАНИЯ ИЗОБРЕТЕНИЯ

Dolby Laboratories предлагает запатентованные воплощения АС-3 и E-AC-3, известные как Dolby Digital и Dolby Digital Plus соответственно. Dolby, Dolby Digital и Dolby Digital Plus являются торговыми марками Dolby Laboratories Licensing Corporation.

Несмотря на то что изобретение не ограничивается использованием для кодирования аудиоданных в соответствии с форматом E-AC-3 (или AC-3), для удобства оно будет описано в вариантах осуществления, в которых оно кодирует звуковой битовый поток в соответствии с форматом Е-AC-3.

Кодированный битовый поток в формате AC-3 или Е-AC-3 содержит метаданные и может содержать от одного до шести каналов звукового содержимого. Звуковое содержимое - это аудиоданные, которые были сжаты с использованием перцепционного звукового кодирования. Подробная информация об AC-3 кодировании хорошо известна и изложена во многих опубликованных источниках, включая следующие:

ATSC Standard A52/A: Digital Audio Compression Standard (AC-3), Revision A, Advanced Television Systems Committee, 20 августа 2001;

Патенты США № 5583962; 5632005; 5633981; 5727119 и 6021386.

Подробная информация о кодировании Dolby Digital Plus (E-AC-3) изложена, например, в "Introduction to Dolby Digital Plus, an Enhancement to the Dolby Digital Coding System," AES Convention Paper 6196, 117th AES Convention, 28 октября 2004.

Каждый фрейм кодированного звукового битового потока формата AC-3 содержит звуковое содержимое и метаданные для 1536 сэмплов цифровой звукозаписи. Это представляет 32 миллисекунды цифровой звукозаписи или скорость звукозаписи 31,25 фреймов в секунду для частоты выборки 48 кГц.

Каждый фрейм кодированного звукового битового потока формата E-AC-3 содержит звуковое содержимое и метаданные для 256, 512, 768 или 1536 сэмплов цифровой звукозаписи в зависимости от того, содержит ли фрейм один, два, три или шесть блоков аудиоданных соответственно.

Кодирование звукового содержимого, осуществляемое посредством типовых реализаций Е-AC-3 кодирования, включает кодирование формы сигнала и параметрическое кодирование.

Кодирование формы входного звукового сигнала (как правило, выполняется для сжатия сигнала таким образом, чтобы кодированный сигнал содержал меньше битов, чем входной сигнал) кодирует входной сигнал таким образом, что он, насколько это возможно, сохраняет форму входного сигнала при выполнении наложенных ограничений (например, таким образом, чтобы форма кодированного сигнала совпадала с формой входного сигнала, насколько это возможно). Например, при общепринятом E-AC-3 кодировании кодирование формы сигнала выполняется на низкочастотных составляющих (обычно до 3,5 кГц или 4,6 кГц) каждого канала многоканального входного сигнала для сжатия такого низкочастотного содержимого входного сигнала посредством формирования (в частотной области) разбитого на подгруппы представления (разбитых на подгруппы мантиссы и порядка) каждого сэмпла (который является частотной составляющей) каждого низкочастотного диапазона каждого канала входного сигнала.

Более конкретно, типовые реализации E-AC-3 кодеров (и некоторых других общепринятых аудиокодеров) реализуют психоакустическую модель для анализа данных в частотной области, указывающих на входной сигнал на основе группирования (т.е., как правило, 50 неоднородных диапазонов, аппроксимирующих частотные диапазоны хорошо известной психоакустической шкалы, известной как барк-шкала), чтобы определить оптимальное распределение битов для каждой мантиссы. Чтобы выполнить кодирование формы сигнала на низкочастотных составляющих входного сигнала, данные мантиссы (указывающие на низкочастотное содержимое) разбиваются на подгруппы с числом битов, соответствующих определенному распределению битов. Разбитые на подгруппы данные мантиссы (и соответствующие данные порядка, а также, как правило, соответствующие метаданные) затем форматируются в кодированный выходной битовый поток.

Параметрическое кодирование, другой известный тип кодирования звукового сигнала, извлекает и кодирует отличительные параметры входного звукового сигнала, в результате чего восстановленный сигнал (после кодирования и последующего декодирования) имеет как можно большую разборчивость (в зависимости от наложенных ограничений), но при этом форма кодированного сигнала может сильно отличаться от формы входного сигнала.

Например, в публикации международной заявки PCT № WO 03/083834 A1, опубликованной 9 октября 2003 года, и публикации международной заявки PCT № WO 2004/102532 A1, опубликованной 25 ноября 2004 года, описывают тип параметрического кодирования, известный как кодирование спектрального расширения. При кодировании спектрального расширения частотные составляющие входного звукового сигнала всего диапазона частот кодируются в виде последовательности частотных составляющих сигнала с ограниченным диапазоном частот (сигнала основной полосы частот), а также соответствующей последовательности кодирующих параметров (указывающих на разностный сигнал), которые определяют (с сигналом основной полосы частот) приближенную версию входного сигнала во всем диапазоне частот.

Другим хорошо известным типом параметрического кодирования является кодирование взаимосвязи каналов. При кодировании взаимосвязи каналов проводится монофоническое понижающее микширование каналов входного звукового сигнала. Входной сигнал кодируется как понижающее микширование (последовательности частотных составляющих) и соответствующая последовательность параметров взаимосвязи. Параметры взаимосвязи представляют собой параметры уровня, которые определяют (с понижающим микшированием) приближенную версию каждого из каналов входного сигнала. Параметры взаимосвязи представляют собой метаданные, сгруппированные по частотам, которые согласовывают энергию монофонического понижающего микширования с энергией каждого канала входного сигнала.

Например, общепринятое E-AC-3 кодирование 5.1-канального входного сигнала (с доступной битовой скоростью передачи данных 192 кбит/с для передачи кодированного сигнала), как правило, реализует кодирование взаимосвязи каналов для кодирования промежуточных частотных составляющих (в диапазоне F1 < f ≤ F2, где F1, как правило, равна 3,5 кГц или 4,6 кГц, а F2, как правило, равна 10 кГц или 10,2 кГц) каждого канала входного сигнала, и кодирование спектрального расширения для кодирования высокочастотных составляющих (в диапазоне F2 < f ≤ F3, где F2, как правило, равна 10 кГц или 10,2 кГц, а F3, как правило, равна 14,8 кГц или 16 кГц) каждого канала входного сигнала. Монофоническое понижающее микширование, определяемое во время выполнения кодирования взаимосвязи каналов, является понижающим микшированием с кодированной формой сигнала, и понижающее микширование с кодированной формой сигнала передается (в кодированном выходном сигнале) вместе с параметрами взаимосвязи. Понижающее микширование, определяемое при выполнении кодирования взаимосвязи каналов, используется в качестве сигнала основной полосы частот для кодирования спектрального расширения. Кодирование спектрального расширения определяет (из сигнала основной полосы частот и высокочастотных составляющих каждого канала входного сигнала) другое множество кодирующих параметров (SPX параметров). SPX параметры включены в и передаются с кодированным выходным сигналом.

В другом типе параметрического кодирования, иногда называемом кодированием пространственного звучания, формируется понижающее микширование (например, монофоническое или стереофоническое понижающее микширование) каналов многоканального входного звукового сигнала. Входной сигнал кодируется в виде выходного сигнала, включая такое понижающее микширование (последовательность частотных составляющих) и соответствующую последовательность пространственных параметров (или в виде версии с кодированной формой сигнала каждого канала понижающего микширования с соответствующей последовательностью пространственных параметров). Пространственные параметры обеспечивают возможность восстановления как огибающей амплитуды каждого канала входного звукового сигнала, так и межканальных корреляций между каналами входного звукового сигнала из понижающего микширования входного сигнала. Данный тип параметрического кодирования может выполняться на всех частотных составляющих входного сигнала (т.е. во всем диапазоне частот входного сигнала), а не только на частотных составляющих в поддиапазоне всего диапазона частот входного сигнала (т.е. таким образом, что кодированная версия входного сигнала включает понижающее микширование и пространственные параметры для всех частот полного диапазона частот входного сигнала, а не только для их подмножества).

При E-AC-3 или AC-3 кодировании звуковой битовый поток, блоки сэмплов входного звукового сигнала, которые должны кодироваться, подвергаются преобразованию из временной области в частотную, в результате чего блоки данных в частотной области, обычно называемые коэффициентами преобразования (или частотными коэффициентами, или частотными составляющими), располагаются в равномерно разнесенных элементах разрешения по частоте. Затем частотный коэффициент в каждом элементе разрешения преобразуется (например, в звене 7 BFPE системы на фиг. 1) в формат с плавающей запятой, содержащий порядок и мантиссу.

Как правило, присваивание битов мантиссы основывается на разности между детальным спектром сигнала (представленным значением спектральной плотности мощности ("PSD") для каждого элемента разрешения по частоте) и грубой кривой маскировки (представленной значением маскировки для каждого диапазона частот).

На фиг. 1 приведен кодер, выполненный с возможностью осуществления общепринятого E-AC-3 кодирования входных аудиоданных 1 во временной области. Набор 2 анализирующих фильтров кодера преобразует входные аудиоданные 1 во временной области в аудиоданные 3 в частотной области, и звено 7 блочного кодирования c плавающей запятой (BFPE) формирует представление с плавающей запятой каждой частотной составляющей данных 3, содержащее порядок и мантиссу для каждого элемента разрешения по частоте. Выходные данные в частотной области звена 7 иногда также будут упоминаться в данной заявке как аудиоданные 3 в частотной области. Затем выходные аудиоданные в частотной области звена 7 кодируются, в том числе путем выполнения кодирования формы сигнала (в элементах 4, 6, 10 и 11 системы на фиг. 1) на низкочастотных составляющих (с частотой, которая меньше или равна "F1", где F1, как правило, равна 3,5 кГц или 4,6 кГц) выходных данных в частотной области звена 7, и путем выполнения параметрического кодирования (в звене 12 параметрического кодирования) на других частотных составляющих (тех, которые имеют частоту выше чем F1) выходных данных в частотной области звена 7.

Кодирование формы сигнала включает разбиение на подгруппы мантисс (низкочастотных составляющих, выводимых из звена 7) в квантователе 6, включение порядков (низкочастотных составляющих, выводимых из звена 7) в звене 10 включения и кодирование (в звене 11 кодирования порядка) включенных порядков, формируемых в звене 10. Форматер 8 формирует кодированный битовый поток 9 в формате E-AC-3 в ответ на разбитые на подгруппы данные, выводимые из квантователя 6, кодированные данные дифференциального порядка, выводимые из звена 11, и параметрически кодированные данные, выводимые из звена 12.

Квантователь 6 выполняет распределение битов и разбиение на подгруппы на основе данных управления (в том числе данных маскировки), формируемых контроллером 4. Данные маскировки (определяемые кривой маскировки) формируются из данных 3 в частотной области на основе психоакустической модели (реализуемой контроллером 4) человеческого слуха и слухового восприятия. Психоакустическое моделирование учитывает частотно-зависимые пороги человеческого слуха и психоакустическое явление, называемое маскировкой, в соответствии с которым сильная частотная составляющая, близкая к одной или нескольким более слабым частотным составляющим, имеет свойство маскировать более слабые составляющие, что делает их неслышимыми для человека. Это дает возможность исключить более слабые частотные составляющие при кодировании аудиоданных и тем самым достичь более высокой степени сжатия без отрицательного влияния на воспринимаемое качество кодированных аудиоданных (битового потока 9). Данные маскировки содержат значение кривой маскировки для каждого частотного диапазона аудиоданных 3 в частотной области. Эти значения кривой маскировки представляют уровень сигнала, маскируемого человеческим ухом в каждом частотном диапазоне. Квантователь 6 использует эту информацию, чтобы решить, как наилучшим образом использовать доступное число битов данных для представления данных в частотной области каждого частотного диапазона входного звукового сигнала.

Известно, что при общепринятом E-AC-3 кодировании кодируются дифференциальные порядки (т.е. разница между последовательными порядками) вместо абсолютных порядков. Дифференциальные порядки могут принимать только одно из пяти значений: 2, 1, 0, -1 и -2. Если отыскивается дифференциальный порядок за пределами этого диапазона, то один из порядков, будучи вычитаемым, модифицируется таким образом, что дифференциальный порядок (после модификации) находится в пределах известного диапазона (этот общепринятый способ известен как "включение порядков" или "включение"). Звено 10 включения кодера на фиг. 1 формирует включенные порядки в ответ на необработанные порядки, заявленные ему, выполняя такую операцию включения.

В типовом варианте осуществления E-AC-3 кодирования 5- или 5.1-канальный звуковой сигнал кодируется с битовой скоростью передачи данных в диапазоне от приблизительно 96 кбит/с до приблизительно 192 кбит/с. В настоящее время при 192 кбит/с типовой E-AC-3 кодер кодирует 5-канальный (или 5.1-канальный) входной сигнал, используя комбинацию дискретного кодирования формы сигнала для нижних частотных составляющих (например, до 3,5 кГц или 4,6 кГц) каждого канала сигнала, взаимосвязи каналов для промежуточных частотных составляющих (например, от 3,5 кГц до приблизительно 10 кГц или от 4.6 кГц до приблизительно 10 кГц) каждого канала сигнала и спектрального расширения для верхних частотных составляющих (например, от приблизительно 10 кГц до 16 кГц или от приблизительно 10 кГц до 14,8 кГц) каждого канала сигнала. Хотя это дает приемлемое качество, но в силу того, что максимальная битовая скорость передачи данных, доступная для передачи кодированного выходного сигнала, снижается ниже 192 кбит/с, качество (декодированной версии кодированного выходного сигнала) быстро ухудшается. Например, при использовании формата E-AC-3 для кодирования 5.1-канального звукового сигнала для потоковой передачи ограничения ширины полосы пропускания временных данных могут потребовать скорости передачи данных ниже чем 192 кбит/с (например, 64 кбит/с). Тем не менее, применение формата E- AC-3 для кодирования 5.1-канального сигнала для передачи при битовой скорости передачи данных ниже 192 кбит/с не производит "вещательного качества" кодированного звукового сигнала. Для того чтобы кодировать сигнал (с помощью E-AC-3 кодирования) для передачи при битовой скорости передачи данных существенно ниже 192 кбит/с (например, 96 кбит/с, или 128 кбит/с, или 160 кбит/с), должно быть найдено лучшее доступное оптимальное соотношение между шириной полосы звуковых частот (доступной для передачи кодированного звукового сигнала), искажениями кодирования и пространственным сворачиванием. В целом, авторы признали, что должно быть найдено лучшее оптимальное соотношение между шириной полосы звуковых частот, искажениями кодирования и пространственным свертыванием, чтобы иным образом кодировать многоканальный входной звуковой сигнал для передачи при низких (или меньших, чем обычно) битовых скоростях передачи данных.

Одно простое решение состоит в том, чтобы посредством понижающего микширования многоканального входного звукового сигнала получить числа каналов, которое может быть получено в надлежащем качестве (например, в "вещательном качестве", если это минимально адекватное качество) для доступной битовой скорости передачи данных, а затем выполнить общепринятую кодировку каждого канала понижающего микширования. Например, можно выполнить понижающее микширование пятиканального входного сигнала до трехканального понижающего микширования (где доступная битовая скорость передачи данных составляет 128 кбит/с) или двухканального понижающего микширования (где доступная битовая скорость передачи данных составляет 96 кбит/с). Тем не менее это решение сохраняет качество кодирования и ширину полосы пропускания звуковых частот за счет неблагоприятного пространственного сворачивания.

Другое простое решение состоит в том, чтобы избежать понижающего микширования (например, для получения полного 5.1-канального кодированного выходного сигнала в ответ на 5.1-канальный входной сигнал), и вместо этого привести кодек к его пределу. Тем не менее это решение будет вносить больше искажений кодирования и уменьшать ширину полосы пропускания звуковых частот, несмотря на то, что могло сохранить по возможности как можно больше пространственности.

КРАТКОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

В типовых вариантах осуществления настоящее изобретение относится к способу гибридного кодирования многоканального входного звукового сигнала (например, к способу кодирования, совместимому со стандартом Е-AC-3). Способ включает этапы формирования понижающего микширования низкочастотных составляющих (например, имеющих частоты до максимального значения в диапазоне от приблизительно 1,2 кГц до приблизительно 4,6 кГц или от приблизительно 3,5 кГц до приблизительно 4,6 кГц) отдельных каналов входного сигнала, выполнения кодирования формы сигнала каждого канала понижающего микширования, а также выполнения параметрического кодирования других частотных составляющих (по меньшей мере некоторых промежуточных частотных и/или высокочастотных составляющих) каждого канала входного сигнала (без выполнения предварительного понижающего микширования других частотных составляющих любого из каналов входного сигнала).

В типичных вариантах осуществления в способе кодирования согласно изобретению входной сигнал сжимают так, что кодированный выходной сигнал содержит меньше битов, чем входной сигнал, и так, что кодированный сигнал может быть передан с хорошим качеством при низкой битовой скорости передачи данных (например, в диапазоне от приблизительно 96 кбит/с до приблизительно 160 кбит/с для варианта осуществления, совместимого с E-AC-3 стандартом, где "кбит/с" означает килобит в секунду). В данном случае передающая битовая скорость передачи данных является "низкой" в том смысле, что она существенно ниже, чем обычно предусмотренная скорость для передачи стандартно кодированного звукового сигнала (например, типичной битовой скорости передачи данных 192 кбит/с для стандартно кодированного звукового сигнала в формате E-AC-3), но больше, чем минимальная битовая скорость передачи данных, ниже которой будет необходимо полное параметрическое кодирование входного сигнала для достижения адекватного качества (декодированной версии передаваемого кодированного сигнала). С целью обеспечения адекватного качества (декодированной версии кодированного сигнала после передачи кодированного сигнала, например, при низкой битовой скорости передачи данных) многоканальный входной сигнал кодируется как комбинация понижающего микширования с кодированной формой сигнала низкочастотного содержимого исходных каналов входного сигнала и параметрически кодированной версии высокочастотного (выше, чем низкочастотный) содержимого каждого исходного канала входного сигнала. Значительная экономия битовой скорости передачи данных достигается посредством понижающего микширования с кодированием формы сигнала низкочастотного содержимого по сравнению с дискретным кодированием формы сигнала низкочастотного содержимого каждого исходного входного канала. Поскольку количество данных, необходимых (для включения в кодированный сигнал) для параметрического кодирования высоких частот каждого входного канала, относительно мало, то можно параметрически кодировать верхние частоты каждого входного канала без существенного увеличения битовой скорости передачи данных, при которой кодированный сигнал может передаваться, что приводит к повышению пространственной образности при относительно низких затратах "битовой скорости передачи данных". Типовые варианты осуществления способа гибридного (формы сигнала и параметрического) кодирования согласно изобретению обеспечивают возможность для большего управления балансом между искажениями, возникающими в результате сворачивания пространственного образа (из-за понижающего микширования), и шумом кодирования, что обычно приводит к общему улучшению воспринимаемого качества (декодированной версии кодированного сигнала) по отношению к тому, которое может достигаться посредством общепринятых способов.

В некоторых вариантах осуществления изобретение представляет собой способ E-AC-3 кодирования или систему, в которых формируется кодированный звуковой сигнал специально для передачи потокового содержимого в средах с чрезвычайно ограниченной шириной полосы. В других вариантах осуществления в соответствии со способом кодирования и системой согласно изобретению формируется кодированный звуковой сигнал для передачи с более высокой битовой скоростью передачи данных для более общих применений.

В классе вариантов осуществления понижающее микширование только низкочастотных диапазонов каждого канала входного многоканального звука (с последующим кодированием формы сигнала полученного понижающего микширования низкочастотных составляющих) позволяет экономить большое количество битов (то есть уменьшает число битов кодированного выходного сигнала) посредством устранения необходимости включения (в кодированный выходной сигнал) кодированных битов формы сигнала для низкочастотных диапазонов звукового содержимого, а также сводит к минимуму (или уменьшает) пространственное сворачивание при представлении декодированной версии переданного кодированного сигнала в результате включения (в кодированный сигнал) параметрически кодированного содержимого (например, содержимого с взаимосвязью каналов и спектральным расширением) всех каналов исходного входного звукового сигнала. Кодированный сигнал, формируемый в таких вариантах осуществления, имеет более сбалансированное соотношение пространственных, связанных с шириной полосы и кодированием искажений, чем если бы он был сформирован посредством общепринятого способа кодирования (например, одного из вышеперечисленных простых способов кодирования).

В некоторых вариантах осуществления изобретение представляет собой способ кодирования многоканального входного звукового сигнала, включающий этапы: формирования понижающего микширования низкочастотных составляющих по меньшей мере некоторых каналов входного сигнала; кодирования формы сигнала каждого канала понижающего микширования, тем самым формируя данные с кодированной формой сигнала и понижающим микшированием, указывающие на звуковое содержимое понижающего микширования; выполнения параметрического кодирования по меньшей мере некоторых верхних частотных составляющих (например, промежуточных частотных составляющих и/или высокочастотных составляющих) каждого канала входного сигнала (например, выполнение кодирования взаимосвязи каналов промежуточных частотных составляющих и кодирования спектрального расширения высокочастотных составляющих), тем самым формируя параметрически кодированные данные, указывающие на указанные по меньшей мере некоторые верхние частотные составляющие указанного каждого канала входного сигнала; и формирования кодированного звукового сигнала, указывающего на данные с кодированной формой сигнала и понижающим микшированием и параметрически кодированные данные. В некоторых таких вариантах осуществления кодированный звуковой сигнал представляет собой кодированный звуковой сигнал в формате E-AC-3.

Другим аспектом изобретения является способ декодирования кодированных аудиоданных, включающий этапы приема сигнала, указывающего на кодированные аудиоданные, где кодированные аудиоданные были получены посредством кодирования аудиоданных в соответствии с любым из вариантов осуществления способа кодирования согласно изобретению, и декодирования кодированных аудиоданных для формирования сигнала, указывающего на аудиоданные.

Например, в некоторых вариантах осуществления изобретение представляет собой способ декодирования кодированного звукового сигнала, указывающего на данные с кодированной формой сигнала и параметрически кодированные данные, где кодированный звуковой сигнал сформирован посредством формирования понижающего микширования низкочастотных составляющих по меньшей мере некоторых каналов многоканального входного звукового сигнала, кодирования формы сигнала каждого канала понижающего микширования, тем самым формируя данные с кодированной формой сигнала таким образом, что указанные данные с кодированной формой сигнала указывают на звуковое содержимое понижающего микширования, выполнения параметрического кодирования по меньшей мере некоторых верхних частотных составляющих каждого канала входного сигнала, тем самым формируя параметрически кодированные данные таким образом, что указанные параметрически кодированные данные указывают на указанные по меньшей мере некоторые верхние частотные составляющие указанного каждого канала входного сигнала, и формирования кодированного звукового сигнала в ответ на данные с кодированной формой сигнала и параметрически кодированные данные. Способ декодирования включает этапы: извлечения данных с кодированной формой сигнала и параметрически кодированных данных из кодированного звукового сигнала; выполнения декодирования формы сигнала извлеченных данных с кодированной формой сигнала для формирования первого множества восстановленных частотных составляющих, указывающих на низкочастотное звуковое содержимое каждого канала понижающего микширования; и выполнения параметрического декодирования извлеченных параметрически кодированных данных для формирования второго множества восстановленных частотных составляющих, указывающих на верхнюю частоту (например, промежуточную частоту и высокую частоту) звукового содержимого каждого канала многоканального входного звукового сигнала. В некоторых таких вариантах осуществления многоканальный входной звуковой сигнал содержит N каналов, где N - целое число, и способ декодирования также включает этап формирования N каналов декодированных данных в частотной области, включающих посредством комбинирования указанного первого множества восстановленных частотных составляющих и указанного второго множества восстановленных частотных составляющих таким образом, что каждый канал декодированных данных в частотной области указывает на промежуточно-частотное и высокочастотное звуковое содержимое одного отличающегося канала из других каналов многоканального входного звукового сигнала, и каждый из по меньшей мере подмножества каналов декодированных данных в частотной области указывает на низкочастотное звуковое содержимое многоканального входного звукового сигнала.

Другой аспект настоящего изобретения представляет собой систему, содержащую кодер, выполненный с возможностью (например, запрограммированный) выполнения любого варианта осуществления способа кодирования согласно изобретению для формования кодированных аудиоданных в ответ на аудиоданные, и декодер, выполненный с возможностью декодирования кодированных аудиоданных для восстановления аудиоданных.

В других аспектах настоящего изобретения предложена система или устройство (например, кодер, декодер или процессор), выполненные с возможностью (например, запрограммированные) выполнения любого варианта осуществления способа согласно изобретению, и машиночитаемый носитель (например, диск), который хранит код для реализации любого варианта осуществления способа согласно изобретению или его этапов. Например, система согласно изобретению может представлять собой или содержать программируемый процессор общего назначения, цифровой сигнальный процессор или микропроцессор, запрограммированный с помощью программных средств или аппаратно-программных средств и/или иным образом настроенный для выполнения любой из множества операций с данными, включая вариант осуществления способа согласно изобретению или его этапы. Такой процессор общего назначения может представлять собой или содержать компьютерную систему, содержащую устройства ввода, запоминающее устройство и схему обработки, запрограммированную (и/или иным способом настроенную) для выполнения варианта осуществления способа (или его этапов) согласно изобретению в ответ на заявленные данные.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

На фиг. 1 приведена структурная схема общепринятой системы кодирования.

На фиг. 2 приведена структурная схема системы кодирования, выполненная с возможностью выполнения варианта осуществления способа кодирования согласно изобретению.

На фиг. 3 приведена структурная схема системы декодирования, выполненная с возможностью выполнения варианта осуществления способа декодирования согласно изобретению.

На фиг. 4 приведена структурная схема системы, содержащей кодер, выполненный с возможностью выполнения любого варианта осуществления способа кодирования согласно изобретению для формирования кодированных аудиоданных в ответ на аудиоданные, и декодер, выполненный с возможностью декодирования кодированных аудиоданных для восстановления аудиоданных.

ПОДРОБНОЕ ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ

Вариант осуществления способа кодирования согласно изобретению и системы, выполненной с возможностью реализации способа, будет описан со ссылкой на фиг. 2. Система на фиг. 2 представляет собой Е-АС-3 кодер, который выполнен с возможностью формирования кодированного в формате E-AC-3 звукового битового потока (31) в ответ на многоканальный входной звуковой сигнал (21). Сигнал 21 может быть сигналом "5.0-канальным" сигналом во временной области, содержащим пять полнодиапазонных каналов звукового содержимого.

Система на фиг. 2 также выполнена с возможностью формирования кодированного в формате E-AC-3 звукового битового потока 31 в ответ на 5.1-канальный входной звуковой сигнал 21, содержащий пять полнодиапазонных каналов и один канал низкочастотных эффектов (LFE). Элементы, показанные на фиг. 2, в состоянии кодировать пять полнодиапазонных входных каналов, а также предусматривать биты, указывающие на кодированные полнодиапазонные каналы для звена 30 форматирования для включения в выходной битовый поток 31. Общепринятые элементы системы кодирования канала LFE (общепринятым способом) и предусмотрения битов, указывающих на кодированный канал LFE для звена 30 форматирования для включения в выходной битовый поток 31, не показаны на фиг. 2.

Звено 22 преобразования временной области в частотную область на фиг. 2 выполнено с возможностью преобразования каждого канала входного сигнала 21 во временной области в канал аудиоданных в частотной области. Ввиду того, что система на фиг. 2 представляет собой Е-AC-3 кодер, частотные составляющие каждого канала группируются по частотам в 50 неоднородных диапазонов, аппроксимирующих частотные диапазоны хорошо известной психоакустической шкалы, известной как барк-шкала. В разновидностях варианта осуществления на фиг. 2 (например, в котором кодированный выходной звуковой сигнал 31 не имеет E-AC-3 совместимого формата) частотные составляющие каждого канала входного сигнала группируются по частотам другим способом (т.е. на основании любого множества однородных или неоднородных диапазонов частот).

Низкочастотные составляющие всех или некоторых каналов, выходящих из звена 22, подвергаются понижающему микшированию в звене 23 понижающего микширования. Низкочастотные составляющие имеют частоты, которые меньше или равны максимальной частоте "F1", где F находится, как правило, в диапазоне от приблизительно 1,2 кГц до приблизительно 4,6 кГц.

Среднечастотные составляющие всех каналов, выходящих из звена 22, подвергаются кодированию взаимосвязи каналов в звене 26. Среднечастотные составляющие имеют частоты f в диапазоне F1<f≤ F2, где F находится, как правило, в диапазоне от приблизительно 1,2 кГц до приблизительно 4,6 кГц, а F2 находится, как правило, в диапазоне от приблизительно 8 кГц до приблизительно 12,5 кГц (например, F2 равна 8 кГц, или 10 кГц, или 10,2 кГц).

Высокочастотные составляющие всех каналов, выходящих из звена 22, подвергаются кодированию спектрального расширения в звене 28. Высокочастотные составляющие имеют частоты f в диапазоне F2 <f≤ F3, где F2 находится, как правило, в диапазоне от приблизительно 8 кГц до приблизительно 12,5 кГц, а F3 находится, как правило, в диапазоне от приблизительно 10,2 кГц до приблизительно 18 кГц.

Авторы определили, что понижающее микширование с кодированием формы сигнала (например, трехканальное понижающее микширование входного сигнала, имеющего пять полнодиапазонных каналов) низкочастотных составляющих звукового содержимого некоторых или всех каналов многоканального входного сигнала (вместо дискретного кодирования формы сигнала низкочастотных составляющих звукового содержимого всех пяти полнодиапазонных входных каналов и параметрическое кодирование других частотных составляющих каждого канала входного сигнала) дает в результате кодированный выходной сигнал, имеющий улучшенное качество по сравнению с полученным с использованием стандартного E-AC-3 кодирования с пониженной битовой скоростью передачи данных, и позволяет избежать нежелательного пространственного сворачивания. Система на фиг. 2 выполнена с возможностью выполнения такого варианта осуществления способа кодирования согласно изобретению. Например, система на фиг. 2 может выполнять такой вариант осуществления способа согласно изобретению для формирования кодированного выходного сигнала 31 с улучшенным качеством (таким образом не допуская нежелательного пространственного сворачивания) в случае, когда многоканальный входной сигнал 21 имеет пять полнодиапазонных каналов (т.е. является 5- или 5.1-канальным звуковым сигналом) и кодируется со сниженной битовой скоростью передачи данных (например, 160 кбит/с или другой битовой скоростью передачи данных, которая больше чем приблизительно 96 кбит/с и существенно меньше чем 192 кбит/с, где "кбит/с" обозначает килобит в секунду), где "сниженная" битовая скорость передачи данных означает, что битовая скорость передачи данных ниже битовой скорости передачи данных, при которой обычно работает стандартный E-AC-3 кодер при кодировании такого же входного сигнала. Несмотря на то что как в указанном варианте осуществления способа согласно изобретению, так и общепринятом способе E-AC-3 кодирования кодируют промежуточные и верхние частотные составляющие звукового содержимого входного сигнала, используя параметрические методы (то есть кодир

Гибридное кодирование многоканального звука

Патент 2581782