2526746 - Микширование аудиопотока с нормализацией диалогового уровня

Микширование аудиопотока с нормализацией диалогового уровня

Иллюстрации

Показать все

Изобретение относится к средствам микширования звуковых сигналов. Технический результат заключается в создании возможности регулирования пользователем микширования входных звуковых сигналов. Принимают основной входной звуковой сигнал. Принимают связанный входной звуковой сигнал. Соединяют связанный входной звуковой сигнал с основным входным звуковым сигналом. Принимают метаданные микширования, которые содержат информацию масштабирования, предназначенную для масштабирования основного входного звукового сигнала и которые определяют каким образом должны быть микшированы основной входной звуковой сигнал и связанный входной звуковой сигнал, для того чтобы генерировать сведенный звуковой сигнал на воспринимаемом уровне звука. Принимают входной сигнал баланса микширования, который указывает регулируемый баланс между основным входным звуковым сигналом и связанным входным звуковым сигналом. Идентифицируют преобладающий сигнал или как основной входной звуковой сигнал, или как связанный входной звуковой сигнал из информации масштабирования, предоставляемой метаданными микширования, и из входного сигнала баланса микширования, где соответствующий второй входной сигнал тогда идентифицируют как непреобладающий сигнал; и где преобладающий сигнал идентифицируют посредством сравнения входного сигнала баланса микширования с масштабным коэффициентом метаданных для основного входного звукового сигнала. Масштабируют непреобладающий сигнал относительно преобладающего сигнала. Объединяют масштабированный непреобладающий сигнал с преобладающим сигналом для выработки сведенного звукового сигнала. 5 н.з. и 33 з.п. ф-лы, 12 ил., 1 табл.

Реферат

Перекрестная ссылка на родственные заявки

Данная заявка заявляет приоритет предварительной заявки на патент США №61/385428, поданной 22 сентября 2010 г., которая ссылкой полностью включается в настоящий документ.

Область технического применения

Данная заявка относится к области звуковых сигналов. В частности, она относится к микшированию звуковых сигналов.

Предпосылки

Включение метаданных наряду со звуковыми сигналами позволило внести значительные улучшения во впечатления пользователя от прослушивания. Для благоприятных впечатлений пользователя, в общем, желательно, чтобы общий уровень звука в различных программах являлся согласованным. Однако звуковые сигналы различных программ обычно происходят из разных источников, подвергаются мастерингу разными изготовителями и могут содержать разнообразное информационное содержимое в диапазоне от речевого диалога до музыки с низкочастотными эффектами для звуковых дорожек кинокартин. Возможность изменения уровня звука делает сложным поддержание одинакового общего уровня звука для всех указанных программ в ходе воспроизведения. На практике нежелательно, чтобы слушатель ощущал потребность в регулировке громкости воспроизведения при переключении от одной программы к другой с целью регулировки одной из программ так, чтобы она была громче или тише по отношению к другой программе по причине разностей в воспринимаемом уровне звука для различных программ. Способы изменения звуковых сигналов с целью поддержания согласованного уровня звука между программами, в общем, известны как регулировка уровня сигнала. В контексте диалоговых звуковых дорожек количественный показатель, относящийся к воспринимаемому уровню звука, известен как диалоговый уровень, который основывается на средневзвешенном уровне звукового сигнала. Диалоговый уровень часто задается с использованием параметра dialnorm, который указывает уровень в децибелах (дБ) по отношению к полной цифровой шкале.

В прошлом вещательные компании, работающие со звуковыми сигналами, сталкивались с особенно большими трудностями в случае звуковых сигналов, таких как звуковые дорожки, уровни звука которых ощущались выше или ниже, чем в других программах, в особенности, для таких звуковых сигналов, как диалоги, которые могут значительно изменяться во времени. С развитием цифрового звука, многоканального звука и, в особенности, возможности включения метаданных наряду со звуковым сигналом изготовители и звукорежиссеры теперь имеют широкий выбор возможностей задания установок, который могут внедряться в сигнал в качестве метаданных с целью точного определения уровней воспроизведения для различных систем воспроизведения. Эти установки даже могут создаваться на этапе компоновки, и, таким образом, вещательные компании могут доставлять в высшей степени согласованный звуковой сигнал и гарантировать то, что наиболее важные элементы звукового сигнала будут сообщены конечному пользователю.

Аналогично, при микшировании звуковых сигналов для благоприятных впечатлений пользователя также желательно поддерживать одинаковый воспринимаемый уровень звука при микшировании входных звуковых сигналов в единый сигнал. Одним из способов достижения этой цели для входных сигналов является включение метаданных микширования, которые определяют то, каким образом сигнал должен подвергаться масштабированию при микшировании.

Многие современные звуковые стандарты позволяют изготовителям информационного содержимого включать связанные звуковые сигналы, которые связаны с основным звуковым сигналом и включают изменяющиеся во времени метаданные наряду со связанными звуковыми сигналами. Например, изготовитель информационного содержимого может предусматривать дорожку с комментариями режиссера в указанном связанном звуковом сигнале. Метаданные, сопровождающие связанный сигнал, точно определяют то, каким образом изготовитель информационного содержимого желает, чтобы звуковой сигнал основной дорожки подвергался регулировке в ходе микширования для совместного воспроизведения. Например, двумя примерами стандартов, которые предусматривают указанные метаданные микширования, являются E-AC-3 (Dolby Digital Plus) и высокоэффективное перспективное звуковое кодирование (HE-AAC). Подробности см. в документе "ETSI TS 102 366 vl.2.1 (2008-08): Digital Audio Compression (AC-3, Enhanced-AC-3) Standard", который описывает E-AC-3 (Dolby Digital Plus); или см. документ "ETSI TS 101 154 Vl.9.1 (2009-09): Digital Video Broadcasting (DVB); Specification for the use of Video and Audio Coding in Broadcasting Applications based on the MPEG-2 Transport Stream", который описывает высокоэффективное перспективное звуковое кодирование (HE-AAC). Оба эти документа ссылкой полностью включаются в настоящий документ.

Однако пользователь может изъявить желание отклониться от предусмотренных изготовителем установок, которые диктуются метаданными, передаваемыми наряду со связанным сигналом. Например, пользователь, который активирует комментарии режиссера при просмотре кинокартины в некоторой точке в ходе воспроизведения, принимает решение о том, что он больше хочет слышать оригинальный диалог, который изготовитель указал в метаданных как подлежащий ослаблению при микшировании для того, чтобы он не преобладал над комментариями режиссера.

Поэтому существует потребность в создании регулировки, которая позволяла бы пользователю регулировать микширование входных звуковых сигналов и, в то же время, обеспечивала бы благоприятные впечатления пользователя путем сохранения воспринимаемого уровня звука в сведенном сигнале. Кроме того, также существует потребность в создании регулировки микширования входных звуковых сигналов и, в то же время, сохранения согласованного уровня звука для сведенного сигнала даже тогда, когда информация масштабирования из метаданных и внешний входной сигнал от пользователя могут быть изменяющимися во времени так, чтобы не было необходимости в выполнении дополнительной регулировки уровня сведенного сигнала.

Краткое описание изобретения

Использование метаданных микширования позволяет изготовителю информационного содержимого точно управлять и определять то, каким образом сигналы должны сочетаться в ходе воспроизведения. Таким образом, уровень звука или диалоговый уровень входных звуковых сигналов может быть перед микшированием нормализован посредством информации масштабирования, предусматриваемой метаданными, с тем, чтобы каждый входной сигнал в микшер был надлежащим образом масштабирован для достижения согласованного воспринимаемого уровня звука. Таким образом, в ходе микширования относительный уровень каждого входного сигнала, вносящего вклад в сведенный сигнал, управляется при помощи информации масштабирования, содержащейся в метаданных, которые доставляются с сигналом. На практике этот способ обычно включает идентификацию одного основного сигнала и одного или нескольких связанных с ним сигналов, подлежащих микшированию. Как предполагают наименования, основной сигнал - это стандартный сигнал, а связанный сигнал - это сигнал, каким-то образом относящийся к соответствующему ему основному сигналу. Соответственно, тогда метаданные доставляют информацию масштабирования для основного сигнала относительно связанного сигнала при их микшировании.

Например, часто в качестве специальной функции изготовитель может включить в качестве связанного сигнала наряду с кинокартиной дополнительную голосовую дорожку с «комментарием режиссера», где пользователь может слышать комментарий режиссера, накладывающийся в реальном времени поверх кинокартины. Таким образом, пользователь может одновременно смотреть кинокартину с ее оригинальным звуком и с комментарием режиссера. В ходе воспроизведения указанный связанный сигнал предназначается для микширования с основным звуковым сигналом оригинальной кинокартины, например, на таком оборудовании конечного пользователя, как телевизионная приставка. Однако другие диалоги, эффекты и музыка основного звукового сигнала кинокартины могут быть очень громкими и поэтому могут маскировать связанный звуковой сигнал. Таким образом, в некоторые моменты времени основной звуковой сигнал кинокартины желательно, в целом, понизить или ослабить, с тем, чтобы можно было надлежащим образом понять комментарий режиссера поверх основного звукового сигнала. Указанное ослабление основного сигнала может выполняться, например, путем предоставления метаданных, сопровождающих дополнительный связанный звуковой сигнал, где метаданные точно определяют, каким образом и насколько должен ослабляться основной сигнал.

Кроме того, может потребоваться, чтобы указанное ослабление было изменяющимся во времени. Например, в кинобоевике при микшировании сигналов может оказаться необходимым, чтобы основной звуковой сигнал сильно ослаблялся в ходе слишком громких сцен, которые могут включать такие особенности, как езда автомобилей с недозволенной скоростью на визжащих шинах или взрывы самолетов и ракет, за которыми конечному пользователю будет трудно достаточно хорошо расслышать комментарии режиссера из связанного сигнала. Например, режиссер может иметь желание объяснить, как совершается главный взрыв в боевой сцене, включая направляющие провода и специальные удаленные камеры, и то, как синхронизировались эти особенности, и все это в то время как в фоне происходит сама сцена. В этом случае, изготовитель информационного содержимого даже может изъявить желание еще сильнее ослабить низкочастотные эффекты и, в то же время, по-прежнему поддерживать нормальный уровень звука для диалога. Иными словами, высокие уровни звука некоторых типов основного звукового сигнала могут в некоторые моменты времени блокировать комментарии режиссера. В другие моменты времени, такие как тихая интимная сцена в кинокартине, режиссер может захотеть сохранить полный уровень звука в кинокартине, например, так, чтобы конечный пользователь могут точно расслышать передачу шепотом важного сообщения в ключевой сцене кинокартины.

Однако пользователь может изъявить желание иметь возможность регулировки установок, поставляемых изготовителем информационного содержимого. Например, пользователь, который просматривает кинокартину с активированными комментариями режиссера, может в некоторый момент в ходе воспроизведения решить, что он, скорее, считает более важным прослушивание оригинального диалога, музыки, звуков и эффектов, чем комментарии режиссера. Однако, поскольку установки метаданных от изготовителя могут указывать, что основной сигнал должен сильно ослабляться при микшировании с тем, чтобы он не перекрывал комментарии режиссера, у пользователя нет прямого способа модифицировать установки микширования, предусмотренные изготовителем информационного содержимого (разумеется, для того, чтобы лучше слышать ослабленные звуки, пользователь может увеличить громкость, но с нежелательным эффектом того, что другие, неослабленные звуки также будут громче). Таким образом, существует потребность в создании способа модификации микширования входных звуковых сигналов в соответствии с требованиями пользователя.

Для выполнения указанной функции пользователя можно снабдить устройством ввода, предназначенным для регулировки баланса между основным и связанными сигналами. Однако, поскольку микширование явным образом оказывает влияние на уровень звука, без дополнительных мер уровень звука в процессе может легко разлаживаться, что будет приводить к скачку громкости при переключении от программы со сведенным сигналом, отрегулированным пользователем при помощи устройства ввода, к программе с несведенным звуковым сигналом. Кроме того, поскольку метаданные и данные, вводимые пользователем, могут быть изменяющимися во времени, без аккуратной обработки воспринимаемый уровень звука сведенного сигнала также может быть изменяющимся во времени. Поэтому существует дополнительная потребность в масштабировании основного и связанного входных сигналов в ходе микширования так, чтобы воспринимаемый уровень звука сведенного сигнала программы оставался постоянным.

Согласно одной из особенностей раскрывается способ, который позволяет поддерживать совместимый воспринимаемый уровень звука для сведенного сигнала путем поддержания постоянного уровня звука преобладающего сигнала в сведенном сигнале и регулировки уровня звука непреобладающего сигнала относительно преобладающего сигнала. Способ также включает прием входного сигнала баланса микширования, который указывает регулируемый баланс между основным и связанными сигналами. Способ также включает идентификацию преобладающего сигнала на основе входного сигнала баланса микширования и метаданных микширования. Способ также может включать определение подходящего масштабного коэффициента для непреобладающего сигнала непосредственно из информации масштабирования без необходимости в каком-либо анализе или измерении звуковых сигналов, подлежащих микшированию. Так как указанные способы не требуют какого-либо анализа или измерения звуковых сигналов, аппаратное обеспечение, необходимое для реализации этих способов, может быть намного проще по сравнению с аппаратными системами, которые должны дискретизировать сигнал или выполнять расчеты с большим объемом вычислений. Аналогично, микширование в реальном времени может выполняться с относительной легкостью, поскольку все данные уже являются доступными, без необходимости в дискретизации или анализе больших объемов данных на лету.

Согласно первой особенности предусматривается способ микширования двух входных звуковых сигналов в единый, сведенный звуковой сигнал с согласованным воспринимаемым уровнем звука. Первые этапы указанного способа микширования включают прием основного входного звукового сигнала, прием связанного входного звукового сигнала, прием метаданных микширования, которые содержат информацию масштабирования, и прием входного сигнала баланса микширования, который указывает регулируемый баланс между основным и связанным сигналами. Исходя из указанных входных сигналов, на основе информации масштабирования, доставляемой посредством метаданных микширования, и входного сигнала баланса микширования идентифицируется преобладающий сигнал. Затем непреобладающий сигнал подвергается масштабированию относительно преобладающего сигнала. В конечном итоге, масштабированный непреобладающий сигнал объединяется с преобладающим сигналом в сведенный сигнал. Таким образом, путем использования входного сигнала баланса микширования, способ делает возможным для пользователя оказание влияния на микширование, позволяя пользователю выбирать преобладающий сигнал, а также уровень масштабирования непреобладающего сигнала относительно преобладающего сигнала, в то время как воспринимаемый уровень звука сведенного сигнала поддерживается постоянным путем масштабирования непреобладающего сигнала относительно преобладающего сигнала.

Согласно другой особенности уровень звука может быть представлен средневзвешенным уровнем сигналов. Уровень звука также может быть выражен как диалоговый уровень сигнала. Таким образом, способ может относиться к микшированию двух входных звуковых сигналов в единый, сведенный звуковой сигнал с согласованным воспринимаемым диалоговым уровнем. Кроме того, диалоговый уровень может количественно выражаться величиной dialnorm, связанной с каждым сигналом. Параметр dialnorm часто предусматривается как параметр метаданных, предназначенный для управления коэффициентом усиления декодера. Согласно документу стандарта ETSI TS 102 366 v1.2.1, параметр метаданных «dialnorm» представляет собой 5-битный код со значениями в интервале от 1 до 31 (значение 0 является зарезервированным). Этот код следует интерпретировать как уровень со значениями в интервале от -1 дБ до -31 дБ относительно полной шкалы. Исходя из параметра метаданных dialnorm, можно определить масштабный коэффициент. Масштабный коэффициент эквивалентен (31-dialnorm) дБ. Таким образом, значение dialnorm, равное 31, указывает масштабный коэффициент, равный 0 дБ, в то время как значение dialnorm, равное 1, указывает масштабный коэффициент, равный -30 дБ. Вкратце, dialnorm представляет собой целочисленную величину со значениями от 31 до 1, где значение 31 указывает коэффициент усиления декодера, остающийся равным единице, и значение 1 указывает коэффициент усиления декодера, подлежащий уменьшению на 30 дБ.

При условии, что уровень звука преобладающего сигнала остается согласованным, любые изменения в уровнях непреобладающих сигналов будут менее заметными, и воспринимаемый уровень звука, а также воспринимаемый диалоговый уровень сведенного сигнала должен оставаться совместимым. Предпочтительно, входные сигналы должны быть соответствующим образом нормализованы. Кроме того, следует уделить внимание тому, чтобы параметр dialnorm информационного содержимого входных сигналов при микшировании поддерживался на совместимом воспринимаемом диалоговом уровне. Для наилучших результатов, параметр dialnorm информационного содержимого для входных сигналов должен быть задан соответствующим образом, обычно со значением dialnorm, равным 31, что указывает на коэффициент усиления, равный единице. Однако параметр dialnorm необязательно всегда должен задаваться значением 31, но, предпочтительно, на обоих входных сигналах уже должна быть применена диалоговая нормализация. В ходе микширования преобладающий сигнал, как правило, не подвергается масштабированию, в то время как непреобладающий входной сигнал подвергается масштабированию посредством определяемого масштабного коэффициента. Поэтому после микширования диалогового звукового сигнала в соответствии с описываемыми способами диалоговый уровень преобладающего сигнала будет оставаться совместимым, в то время как диалоговый уровень непреобладающего сигнала относительно преобладающего сигнала будет соответствовать данной информации масштабирования из метаданных микширования и входному сигналу баланса микширования.

Согласно другой особенности входной сигнал баланса микширования также может включать внешний входной сигнал от пользователя, предусматривающий значение в интервале от очень больших отрицательных значений до очень больших положительных значений, посредством чего в ходе процесса микширования допускается отдание предпочтения или связанному сигналу, или основному сигналу на желаемую величину. В общем, входной сигнал баланса микширования может представлять собой положительное или отрицательное действительное число. Указанный входной сигнал баланса микширования позволяет пользователю при микшировании двух входных сигналов по желанию регулировать желаемый сигнал в фокусе. Кроме того, входной сигнал баланса микширования позволяет пользователю точно определять в процессе микширования ослабление непреобладающего сигнала относительно преобладающего сигнала, что, как правило, позволяет пользователю выбирать из полного диапазона от отсутствия ослабления до полного ослабления. Применение способов, описываемых в данном документе, позволяет пользователю плавно переключать микширование от полного ослабления основного сигнала до полного ослабления связанного сигнала.

Согласно одной из особенностей способ также может включать этап определения масштабного коэффициента, посредством которого подвергается масштабированию непреобладающий сигнал, где масштабный коэффициент определяется непосредственно из информации масштабирования, содержащейся в метаданных микширования, и из входного сигнала баланса микширования. Тогда способ также может включать масштабирование непреобладающего сигнала с использованием определяемого масштабного коэффициента. Кроме того, метаданные микширования могут включать масштабный коэффициент метаданных для основного сигнала, обозначающий масштабный коэффициент, предназначенный для масштабирования основного сигнала относительно связанного сигнала, и метаданные микширования, необязательно, могут включать масштабный коэффициент метаданных для связанного сигнала, обозначающий масштабный коэффициент, предназначенный для масштабирования связанного сигнала относительно основного сигнала. Указанные масштабные коэффициенты также могут включать значения в дБ. Поскольку номинальный уровень звука для сигналов обычно определяется путем присвоения параметру dialnorm значения 31, для наилучших результатов входные сигналы также должны иметь установки значения параметра dialnorm, равные 31.

Способ также может включать этап идентификации преобладающего сигнала путем выполнения следующего сравнения при условии, что масштабный коэффициент для связанного сигнала отсутствует: в случае, если значение входного сигнала баланса микширования больше, чем масштабный коэффициент метаданных для основного сигнала из метаданных микширования, связанный сигнал определяется как являющийся преобладающим сигналом; иначе, как являющийся преобладающим сигналом определяется основной сигнал. Если в качестве преобладающего сигнала идентифицируется связанный сигнал, способ также может включать определение масштабного коэффициента для основного сигнала, который вычисляется как разность между масштабным коэффициентом метаданных для основного сигнала из метаданных микширования и входным сигналом баланса микширования. В альтернативном варианте, если в качестве преобладающего сигнала идентифицируется основной сигнал, способ также может включать определение масштабного коэффициента для связанного сигнала, который вычисляется как разность между входным сигналом баланса микширования и масштабным коэффициентом метаданных из метаданных микширования для основного сигнала.

В случае, когда имеется в наличии также и масштабный коэффициент метаданных для связанного сигнала, способ также может включать этап идентификации преобладающего сигнала путем выполнения следующего сравнения. Масштабный коэффициент метаданных для основного сигнала из метаданных микширования может корректироваться посредством масштабного коэффициента метаданных для связанного сигнала из метаданных микширования путем вычитания масштабного коэффициента метаданных для связанного сигнала из масштабного коэффициента метаданных для основного сигнала. В случае, когда значение входного сигнала баланса микширования больше, чем скорректированный масштабный коэффициент, связанный сигнал идентифицируется как являющийся преобладающим сигналом; иначе, как являющийся преобладающим сигналом идентифицируется основной сигнал. Если в качестве преобладающего сигнала идентифицирован связанный сигнал, способ также может включать определение масштабного коэффициента для основного сигнала, который вычисляется как разность между скорректированным масштабным коэффициентом и входным сигналом баланса микширования. В альтернативном варианте, если в качестве преобладающего сигнала идентифицируется основной сигнал, способ также может включать определение масштабного коэффициента для связанного сигнала, который вычисляется как разность между входным сигналом баланса микширования и скорректированным масштабным коэффициентом.

Путем определения масштабного коэффициента для непреобладающего сигнала и микширования входных сигналов, на основе чего сигнал определяется как являющийся преобладающим сигналом, воспринимаемый уровень звука сведенного сигнала может поддерживаться постоянным, несмотря на то, что по-прежнему допускается как регулировка сигнала в фокусе, так и соответствующее масштабирование непреобладающего сигнала. Иными словами, по меньшей мере, один из сигналов всегда является преобладающим сигналом, который представляет собой сигнал в фокусе. Так как преобладающий сигнал, как правило, не является масштабированным, уровень звука сведенного сигнала относительно других программ сохраняется независимо от того, насколько сильно ослабляется непреобладающий сигнал относительно преобладающего сигнала на основе сочетания входного сигнала баланса микширования и масштабных коэффициентов микширования, предусматриваемых метаданными.

В некоторых случаях, входные сигналы могут состоять из нескольких каналов аудиоданных. В одном из альтернативных вариантов осуществления изобретения, для каждого канала основного входного сигнала могут определяться отдельные масштабные коэффициенты. Тогда в ходе микширования каждый канал непреобладающего сигнала может подвергаться масштабированию посредством его соответствующим образом определенного масштабного коэффициента и, как и в предыдущем варианте осуществления изобретения, преобладающий сигнал остается неограниченным. Поэтому сигналы также могут включать несколько каналов, где метаданные микширования тогда могут также включать первичный масштабный коэффициент метаданных для основного сигнала относительно связанного сигнала и масштабные коэффициенты метаданных для каждого из каналов основного сигнала относительно связанного сигнала.

Несколько каналов в сигналах могут включать окружающие каналы с левым, правым, центральным, левым окружающим, правым окружающим каналами и каналом низкочастотных эффектов (LFE). Несколько каналов могут, например, включать многоканальные сигналы 5.1, многоканальные сигналы 3.1, многоканальные сигналы 13.1 или другие многоканальные сигналы.

Для многоканальных сигналов, включающих канал низкочастотных эффектов (LFE) способ также может включать вычисление масштабного коэффициента для канала LFE как минимального масштабного коэффициента метаданных LFE и максимального из масштабных коэффициентов метаданных других каналов основного сигнала. Эта характерная особенность предназначена для предотвращения слишком сильного преобладания канала LFE в сведенном сигнале.

Что особенно полезно для входных сигналов, включающих несколько каналов, способ также может включать следующую ниже идентификацию преобладающего сигнала исходя из входного сигнала баланса микширования и масштабных коэффициентов метаданных для основного сигнала и масштабного коэффициента метаданных для связанного сигнала. Данный способ использует определение максимального вторичного масштабного коэффициента метаданных как максимального среди всех масштабных коэффициентов метаданных для всех каналов основного сигнала за исключением канала низкочастотных эффектов (LFE). Таким образом, канал LFE, в случае его присутствия, не используется при определении максимального вторичного масштабного коэффициента метаданных. Способ также включает вычисление суммы указанного максимального вторичного масштабного коэффициента метаданных и первичного масштабного коэффициента метаданных для основного сигнала. Тогда, если значение входного сигнала баланса микширования больше, чем указанная сумма, то связанный сигнал определяется как являющийся преобладающим сигналом; иначе, как являющийся преобладающим сигналом определяется основной сигнал. В альтернативном варианте, в случае, когда также присутствует масштабный коэффициент метаданных для связанного сигнала, приведенное выше определение преобладающего сигнала определяется путем сравнения того, больше ли значение входного сигнала баланса микширования, чем указанная сумма, и меньше ли оно, чем масштабный коэффициент метаданных для связанного сигнала.

Кроме того, в случае, когда связанный сигнал определяется как являющийся преобладающим, способ также может включать вычисление масштабных коэффициентов для каждого из каналов основного сигнала, которые вычисляются как первичный масштабный коэффициент метаданных для основного сигнала плюс масштабный коэффициент метаданных для соответствующего основного канала минус входной сигнал баланса микширования.

В случае, когда основной сигнал определяется как являющийся преобладающим и масштабный коэффициент метаданных для связанного сигнала отсутствует, способ также может включать определение масштабного коэффициента для связанного сигнала, который вычисляется как значение входного сигнала баланса микширования минус сумма первичного масштабного коэффициента метаданных для основного сигнала и максимального вторичного масштабного коэффициента метаданных, который представляет собой максимальный среди всех масштабных коэффициентов метаданных для всех каналов основного сигнала за исключением канала низкочастотных эффектов (LFE), если он присутствует.

В случае, когда основной сигнал определяется как являющийся преобладающим сигналом и присутствует масштабный коэффициент метаданных для связанного сигнала, способ также может включать определение масштабного коэффициента для связанного сигнала, который вычисляется как значение входного сигнала баланса микширования плюс масштабный коэффициент метаданных для связанного сигнала минус сумма первичного масштабного коэффициента метаданных для основного сигнала и максимального вторичного масштабного коэффициента метаданных, который представляет собой максимальный среди всех масштабных коэффициентов метаданных для всех каналов основного сигнала за исключением канала низкочастотных эффектов (LFE), если он присутствует.

Данный способ также может включать определение масштабного коэффициента для каждого канала основного сигнала, который вычисляется как первичный масштабный коэффициент для основного канала плюс масштабный коэффициент для основного канала минус сумма первичного основного масштабного коэффициента и максимального вторичного основного масштабного коэффициента, представляющего собой максимальный среди всех масштабных коэффициентов для всех каналов основного сигнала за исключением канала низкочастотных эффектов (LFE), если он присутствует.

Согласно следующей особенности сигналы могут включать сигналы Dolby Digital Plus (DD+) или Dolby Pulse. Аналогично, сигналы могут кодироваться как звуковые сигналы E-AC-3, MPEG-4 HE-AAC, aacPlus, AC-3, M PEG-1 Layer 2, MPEG-4 AAC, любые производные от MPEG-4 звуковые сигналы или звуковые сигналы в других сходных форматах. Поэтому метаданные могут включать метаданные микширования уровня ES (элементарных потоков), предназначенные для микширования сигналов DD+, например, метаданные микширования согласно стандарту ETSI TS 102 366 V1.2.1 Ch. E.1.2.2. Указанные метаданные микширования уровня ES также могут включать масштабные коэффициенты для каналов многоканального сигнала: extpgmscl, extpgmlscl, extpgmrscl, extpgmcscl, extpgmlsscl, extpgmrsscl, extpgmlfescl, соответствующие первичному масштабному коэффициенту и масштабным коэффициентам для левого канала, правого канала, центрального канала, левого окружающего канала, правого окружающего канала и канала низкочастотных звуковых эффектов (LFE). Метаданные уровня ES также могут, необязательно, включать величину panmean. Метаданные уровня ES также могут, необязательно, включать величину pgmscl, соответствующую масштабному коэффициенту для связанного сигнала. Во многих случаях сигналов, относящихся к DD+, метаданные микширования могут кодироваться вместе со связанным сигналом или внедряться в связанный сигнал, хотя различные стандарты метаданных и реализации различаются. Например, в MPEG-4 HE-AAC метаданные микширования перемещаются наряду с аудиоданными, но не прямо в аудиоданных. Соответственно, применение описанных выше способов не следует ограничивать только теми случаями, в которых метаданные содержатся в связанном сигнале.

Согласно другой особенности метаданные могут включать метаданные микширования уровня PES (элементарных пакетизированных потоков), предназначенные для микширования сигналов Pulse/HE-AAC, а также звуковых сигналов E-AC-3, MPEG-4 H E-AAC, aacPlus, AC-3, MPEG-1 Layer 2, MPEG-4 AAC или любых производных MPEG-4, например, метаданные микширования согласно стандарту ETSI TS 101 154 V1.9.1 Annex E2. Указанные метаданные уровня PES также могут включать масштабные коэффициенты для каналов многоканального сигнала: AD_fade_byte, AD_gain_byte_center, AD_gain_byte_front, AD_gain_byte_surround или AD_pan_byte, соответствующие первичному масштабному коэффициенту и масштабным коэффициентам для центра, фронта, окружения и панорамирования. Во многих случаях, включающих сигналы Pulse, метаданные микширования могут быть непосредственно связаны со связанным сигналом. Например, метаданные микширования и связанный сигнал могут передаваться совместно в одном и том же потоке или в связанных потоках. Однако применение способов, описываемых в настоящем описании, не следует никоим образом ограничивать указанными случаями, и описанные способы требуют только приема метаданных микширования, которые доставляют информацию микширования для основного сигнала относительно связанного сигнала.

Согласно другой особенности способ также может включать ограничение, которое заключается в том, что связанный сигнал не должен содержать каналы, которые отсутствуют в основном сигнале, если связанный сигнал не является монофоническим. Монофонический сигнал может указываться, например, значением параметра «режим звукового кодирования», или acmod, равным 1, что указывает на то, что сигнал содержит только центральный канал. Тем не менее, связанный сигнал также может включать монофонический канал и канал LFE, где канал LFE связанного сигнала микшируется с каналом LFE основного сигнала, а монофонический канал связанного сигнала панорамируется на основные каналы основного сигнала, где панорамирование включает разделение или распределение сигнала на несколько каналов в соответствии с величиной, определяющей, каким образом следует распределять сигнал, например, в соответствии со значением ключа "panmean".

Согласно другой особенности в случае, когда основной канал не является монофоническим и, таким образом, содержит левый и правый каналы, а связанный сигнал является монофоническим (т.е. не содержит стереофонических, окружающих или левых-правых составляющих), метаданные для связанного сигнала также могут включать информацию метаданных панорамирования. Например, указанная информация метаданных панорамирования может предусматриваться в метаданных микширования ключом метаданных "panmean". Тогда способ включает использование величины панорамирования для панорамирования монофонического связанного сигнала на соответствующие левый и правый каналы сведенного сигнала, где значение panmean определяет направление, из которого должны рассчитываться масштабные коэффициенты для каждого канала. Раздел "E.4.3.5 Panning" стандарта ETSI TS 102 366 v1.2.1 предоставляет дальнейшие подробности применения значения panmean. Согласно данным техническим условиям panmean определяет эффективный угол, под которым монофонический связанный сигнал проявляется в пространстве декодированного основного сигнала, где 0 градусов представляет собой центр, +/-90 указывает полное панорамирование влево или вправо. Панорамирование может применяться к различным многоканальным сигналам, таким как 3.1, 5.1 и 13.1. Точный интервал значений panmean составляет 0-239, что представляет 0-358,5 градусов с шагом 1,5 градусов, где 0 градусов - это направление центрального громкоговорителя. Например, значение panmean, равное 121, может применяться со следующими масштабными коэффициентами на пяти не относящихся к каналу LFE каналах многоканального сигнала 5.1: левый - 0,078, центральный - 0,997, правый - 0 , левый окружающий - 0,734, правый окружающий - 0,679.

В еще одном альтернативном варианте осуществления изобретения, к преобладающему сигналу может применяться дополнительный масштабный коэффициент. Этот масштабный коэффициент может определяться исходя из метаданных, из дополнительного входного управляющего сигнала или из фиксированного значения в микширующем устройстве. Однако этот масштабный коэффициент также может определяться из анализа входных сигналов в реальном времени для того, чтобы еще больше улучшить поддержание постоянного воспринимаемого уровня звука. Другой альтернативой является то, что дополнительный масштабный коэффициент может быть получен из метаданных битового потока, например, с использованием параметра dialnorm. В некоторых случаях, масштабный коэффициент является равным единице, что делает сведенный выходной сигнал из данного варианта осуществления изобретения идентичным выходному сигналу предыдущих вариантов осуществлени

Микширование аудиопотока с нормализацией диалогового уровня

Патент 2526746