Устройство и способ модификации входного аудиосигнала
Иллюстрации
Показать всеИзобретение относится к средствам модификации входного аудиосигнала. Технический результат заключается в повышении эффективности модификации аудиосигнала при сохранении низкого уровня вычислительной сложности данной модификации. Устройство для модификации входного аудиосигнала содержит определитель возбуждения, запоминающее устройство и модификатор сигнала. Определитель возбуждения определяет значение параметра возбуждения субполосы из множества субполос входного аудиосигнала на основании энергосодержания субполосы. Кроме того, запоминающее устройство хранит таблицу поиска, которая содержит множество коэффициентов спектрального взвешивания. Коэффициент спектрального взвешивания из множества коэффициентов спектрального взвешивания связан с предварительно определенным значением параметра возбуждения и субполосой из множества субполос. Запоминающее устройство предоставляет коэффициент спектрального взвешивания, соответствующий определенному значению параметра возбуждения и соответствующий субполосе, для которой определено значение параметра возбуждения. 3 н. и 17 з.п. ф-лы, 7 ил.
Реферат
Варианты осуществления, согласно настоящему изобретению, относятся к обработке аудиосигнала и, в частности, к устройству и способу модификации входного аудиосигнала.
Было предпринято много попыток, чтобы разработать удовлетворительный и объективный способ измерения громкости. В 1933 году Флетчер (Fletcher) и Мансон (Munson) установили, что человеческий слух менее чувствителен на низких и высоких частотах, чем на средних (или голосовых) частотах. Они также обнаружили, что относительное изменение чувствительности уменьшалось по мере того, как уровень звука увеличивался. Ранний измеритель громкости состоял из микрофона, усилителя, измерителя и комбинации фильтров, сконструированных так, чтобы грубо имитировать частотную характеристику слуха на низких, средних и высоких уровнях звука.
Хотя такие устройства и обеспечивали измерения громкости одиночного изолированного тона постоянного уровня, измерения более сложных звуков не очень хорошо соответствовали субъективным ощущениям громкости. Измерители уровня звука этого типа были стандартизированы, но использовались только для специфических задач, таких как мониторинг и контроль за промышленными шумами.
В начале 1950-х Цвикер (Zwicker) и Стивенс (Stevens), среди прочего, продолжили работу Флетчера и Мансона по разработке более реалистичной модели процесса восприятия громкости. Стивенс опубликовал способ "Вычисления громкости смешанного шума" ("Calculation of the Loudness of Complex Noise") в журнале Акустического общества Америки в 1956 году, а Цвикер опубликовал свою статью "Психологические и методические основы звука" ("Psychological and Methodical Basis of Loudness") в журнале "Акустика" в 1958 году. В 1959 году Цвикер опубликовал графическую процедуру расчета громкости, а также несколько подобных статей вскоре после этого. Способы Стивенса и Цвикера были стандартизированы в качестве ISO 532, части А и В (соответственно). Оба способа заключали в себе сходные этапы.
Прежде всего, изменяющееся во времени распределение энергии вдоль базилярной мембраны внутреннего уха, которое называется возбуждением, имитируется прохождением звукового сигнала через блок полосовых слуховых фильтров с центральными частотами, равномерно разнесенными по ступенчатой шкале критических полос. Каждый слуховой фильтр предназначен для имитации частотной характеристики в конкретном местоположении вдоль базилярной мембраны внутреннего уха, с центральной частотой фильтра, соответствующей этому местоположению. Ширина критической полосы определена как ширина полосы пропускания одного такого фильтра. Измеряемая в единицах Герц, ширина критической полосы этих слуховых фильтров увеличивается с увеличением центральной частоты. Поэтому полезно определять шкалу с неравномерным частотным разрешением из условия, чтобы ширина критической полосы для всех слуховых фильтров, измеренная по этой криволинейной шкале, была постоянной. Такая шкала с неравномерным частотным разрешением называется ступенчатой шкалой критических полос и очень полезна для понимания и имитации широкого диапазона физиологических явлений. Например, см. "Psychoacoustics - Facts and Models by E. Zwicker and H. Fastl, Springer-Verlag, Berlin, 1990". Способы Стивенса и Цвикера используют ступенчатую шкалу критических полос, которая называется шкалой Барка, и при этом ширина критической полосы является постоянной ниже 500 Гц и увеличивается выше 500 Гц. Позднее, Мур (Moore) и Гласберг (Glasberg) определили ступенчатую шкалу критических полос, которую они назвали шкалой эквивалентной прямоугольной полосы пропускания (ERB) (B. C. J. Moore, B. Glasberg, T. Baer "A Model for the Prediction of Thresholds, Loudness, and Partial Loudness", Journal of the Audio Engineering Society, Vol. 45, No. 4, April 1997, pp. 224-240 (Б. С. Дж. Мур, Б. Гласберг и Т. Баер, "Модель предсказания пороговых значений, громкости и громкости частичных тонов", Журнал общества звукотехники, том 45, № 4, апрель, 1997, с. 224-240)). Благодаря психоакустическим экспериментам с использованием маскеров шума с узкополосным провалом в спектре, Мур и Гласберг продемонстрировали, что ширина критической полосы продолжает уменьшаться ниже 500 Гц, в противоположность шкале Барка, где ширина критической полосы остается постоянной.
Термин "критическая полоса" относится к работе Харви Флетчера (Harvey Fletcher), опубликованной в 1938 году, по маскированию звукоощущения сигналами звукового сопровождения ("J. B. Allen, "A short history of telephone psychophysics", Audio Eng. Soc. Convention, 1997" (Дж. Б. Аллен, "Краткая история телефонной психофизики", Конференция общества звукотехники, 1997)). Критические полосы можно изобразить, используя шкалу Барка, предложенную Цвикером в 1961 году, то есть каждая критическая полоса имеет ширину одного Барка (единица, названная в честь Генриха Баркгаузена (Heinrich Barkhausen). Помимо блоков фильтров, имитирующих слуховое восприятие человека, существует, например, шкала эквивалентной прямоугольной полосы пропускания (ERB) ("B. C. J. Moore, B. R. Glasberg and T. Baer "A model for the prediction of thresholds, loudness, and partial loudness", J. Audio Eng. Soc, 1997").
Термин "специфическая громкость" описывает ощущение громкости, вызванное сигналом в определенной области базилярной мембраны в определенной полосе частот, измеренной в критических полосах. Она измеряется в единицах сон/барк (Sone/Bark). Термин "критическая полоса" относится к частотным полосам блока слуховых фильтров, который содержит блоки неравномерных полосовых фильтров, выполненных для имитации частотного разрешения человеческого слуха. Общая громкость звука равна сумме/интегралу специфической громкости во всех критических полосах.
Способ обработки аудиосигнала был описан в патенте US 2009/0097676, A. J. Seefeldt, "Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal", 2009. Этот способ нацелен на управление специфической громкостью аудиосигнала, с приложениями для управления громкостью, управления динамическим диапазоном, динамической коррекцией амплитудно-частотной характеристики и компенсации фонового шума. В этом документе входной аудиосигнал (обычно в частотной области) модифицируется таким образом, чтобы его специфическая громкость соответствовала целевой специфической громкости.
Для иллюстрации преимущества обработки, представленной в патенте US 2009/0097676, A. J. Seefeldt, "Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal", следует рассмотреть управление громкостью аудиосигнала. Изменение уровня аудиосигнала при воспроизведении звука обычно нацелено на изменение его воспринимаемой громкости. Иначе говоря, управление громкостью традиционно осуществляется как управление уровнем звука. Однако наш повседневный опыт и знание психоакустики показывает, что это не оптимально.
Чувствительность человеческого слуха изменяется как в зависимости от частоты, так и от уровня, поэтому уменьшение уровня интенсивности звука ослабляет ощущение низких и высоких частот (например, приблизительно 100 Гц и 10000 Гц соответственно) больше, чем ощущение средних частот (например, в пределах 2000 и 4000 Гц). При уменьшении уровня воспроизведения от уровня "комфортного звучания" (например, 75-80 дБА) до низкого уровня, например на 18 дБ, воспринимаемое спектральное выравнивание аудиосигнала изменяется. Это иллюстрируется хорошо известными кривыми равной громкости, которые часто называются кривыми Флетчера-Мансона (в честь исследователей, которые первыми в 1933 году измерили кривые равной громкости). Кривые равной громкости показывают уровень давления звука (SPL) во всем частотном спектре, для которого слушатель воспринимает постоянную громкость в случае, когда ему воспроизводят чистые тона постоянного уровня.
Например, кривые равной громкости описаны в работе B. C. J. Moore, B. R. Glasberg and T. Baer, "A model for the prediction of thresholds, loudness, and partial loudness", J. Audio Eng. Soc., 1997, на стр.232, фиг.13. Откорректированное измерение было стандартизировано в качестве ISO 226:2003 в 2003 году.
Следовательно, традиционное управление громкостью не только изменяет громкость, но также и тембр. Влияние этого эффекта зависит от SPL (это менее ощутимо при изменении SPL, например, от 86 дБА до 68 дБА по сравнению с изменением от 76 дБА до 58 дБА), но нежелательно во всех классах.
Это компенсируется обработкой, которая описана в патенте US 2009/0097676, A. J. Seefeldt, "Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal", 2009.
На фиг.7 показана блок-схема алгоритма способа 700, описанного в патенте US 2009/0097676, A. J. Seefeldt, "Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal", 2009.
Выходной сигнал обрабатывается путем вычисления 710 сигнала возбуждения, вычисления 720 специфической громкости, вычисления 730 целевой специфической громкости, вычисления 740 целевого сигнала возбуждения, вычисления 750 спектральных весов и применения 760 спектральных весов к входному сигналу и повторного синтезирования выходного сигнала.
Спектральные веса Н представляют собой взвешивания частотных полос, которые зависят от специфической громкости входного сигнала и от целевой специфической громкости. Их вычисления, как описано в патенте US 2009/0097676, A. J. Seefeldt, "Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal", содержат вычисление специфической громкости и обратный процесс вычисления специфической громкости, который применяется к целевой специфической громкости.
Оба этапа обработки несут в себе высокую вычислительную нагрузку. Способы вычисления специфической нагрузки были представлены в "E. Zwicker, H. Fastl, U. Widmann, K. Kurakata, S. Kuwano and S. Namba, "Program for calculating loudness according to DIN 45631 (ISO 532 B)", J. Acoust. Soc. Jpn. (E), vol. 12, 1991" and "B. C. J. Moore, B. R. Glasberg and T. Baer "A model for the prediction of thresholds, loudness, and partial loudness", J. Audio Eng. Soc, 1997" (Е. Цвикер, Х. Фастл, Ю. Уидмэн, К. Кураката, С. Кувано и С. Намба, "Программа вычисления громкости по стандарту DIN 45631 (ISO 532 B)", Журнал общества звукотехники Японии (E), т.12, 1991, и Б. С. Дж. Мур, Б. Р. Гласберг и Т. Баер, "Модель предсказания пороговых значений, громкости и громкости частичных тонов", Журнал общества звукотехники, 1997).
Задача настоящего изобретения заключается в том, чтобы предоставить усовершенствованную концепцию модификации аудиосигналов для обеспечения возможности эффективной реализации с низкой вычислительной сложностью.
Эта задача решается с помощью устройства по п.1 формулы изобретения или способа по п.20 формулы изобретения.
Вариант осуществления настоящего изобретения предоставляет устройство для модификации входного аудиосигнала, содержащее определитель возбуждения, запоминающее устройство и модификатор сигнала. Определитель возбуждения сконфигурирован для определения значения параметра возбуждения субполосы из множества субполос входного аудиосигнала на основании энергосодержания сигнала субполосы. Запоминающее устройство сконфигурировано для хранения таблицы поиска, содержащей множество коэффициентов спектрального взвешивания, причем коэффициент спектрального взвешивания из множества коэффициентов спектрального взвешивания связан с предварительно определенным значением параметра возбуждения и субполосой из множества субполос. Кроме того, запоминающее устройство сконфигурировано для предоставления коэффициента спектрального взвешивания, соответствующего определенному значению параметра возбуждения и соответствующего субполосе, для которой определено значение параметра возбуждения. Модификатор сигнала сконфигурирован для модификации содержимого субполосы входного аудиосигнала, для которой определен параметр возбуждения, на основании предоставленного коэффициента спектрального взвешивания для предоставления модифицированной субполосы.
Варианты осуществления, согласно настоящему изобретению, основаны на главной идее, состоящей в том, что субполосы аудиосигнала можно легко модифицировать с использованием таблицы поиска, содержащей коэффициенты спектрального взвешивания, которые можно выбрать в зависимости от соответствующей субполосы и параметра возбуждения субполосы. Для этого таблица поиска содержит коэффициенты спектрального взвешивания для множества предварительно определенных значений параметра возбуждения, по меньшей мере, для одной предварительно определенной субполосы из множества субполос. Используя таблицу поиска, можно значительно уменьшить вычислительную сложность, поскольку вычисление в явном виде коэффициентов спектрального взвешивания (которое включает в себя вычисление громкости, его модификации и обратный процесс вычисления громкости) является необязательным. Поэтому эффективная реализация является возможной.
В некоторых вариантах осуществления, согласно настоящему изобретению, определитель возбуждения определяет значение параметра возбуждения не для всех субполос из множества субполос. Кроме того, таблица поиска содержит только коэффициенты спектрального взвешивания, связанные с субполосами, для которых определено значение параметра возбуждения. Таким образом, можно уменьшить требуемую область памяти таблицы поиска и затраты на вычисления для определителя возбуждения.
Некоторые варианты осуществления, согласно настоящему изобретению, относятся к таблице поиска, содержащей точно три измерения, которые связаны с предварительно определенными значениями параметра возбуждения, с субполосами из множества субполос и с предварительно определенными значениями внешнего параметра модификации.
Некоторые другие варианты осуществления, согласно настоящему изобретению, относятся к таблице поиска, содержащей точно четыре измерения, которые связаны с предварительно определенными значениями параметра возбуждения, с субполосами из множества субполос, с предварительно определенными значениями внешнего параметра модификации и с предварительно определенными значениями параметра фонового шума.
Ниже приведено подробное описание вариантов осуществления, согласно настоящему изобретению, со ссылкой на прилагаемые чертежи, на которых:
фиг.1 - блок-схема устройства для модификации входного аудиосигнала;
фиг.2 - схематичная иллюстрация кривых равной громкости;
фиг.3 - схематичная иллюстрация кривых равной громкости, нормализованных с помощью пропускающих фильтров;
фиг.4 - блок-схема устройства для модификации входного аудиосигнала;
фиг.5 - блок-схема алгоритма способа модификации входного аудиосигнала;
фиг.6 - блок-схема алгоритма способа модификации входного аудиосигнала; и
фиг.7 - блок-схема алгоритма известного способа модификации входного аудиосигнала.
В приведенном ниже описании подобные ссылочные позиции частично используются для объектов и функциональных блоков, имеющих подобные или похожие функциональные свойства, и их описание по отношению к фигуре будет применяться также к другим фигурам для того, чтобы уменьшить избыточность при описании вариантов осуществления.
На фиг.1 показана блок-схема устройства 100 для модификации входного аудиосигнала 102 субполосы, согласно варианту осуществления настоящего изобретения. Устройство 100 содержит определитель 110 возбуждения, запоминающее устройство 120 и модификатор 130 сигнала. Определитель 110 возбуждения подсоединен к запоминающему устройству 120, и запоминающее устройство 120 подсоединено к модификатору 130 сигнала. Определитель 110 возбуждения определяет значение 112 параметра возбуждения субполосы 102 из множества субполос входного аудиосигнала 102, основываясь на энергосодержании субполосы 102. Запоминающее устройство 120 сохраняет таблицу поиска, содержащую множество коэффициентов спектрального взвешивания, причем коэффициент 124 спектрального взвешивания из множества коэффициентов спектрального взвешивания связан с предварительно определенным значением параметра возбуждения и субполосой из множества субполос. Кроме того, запоминающее устройство 120 предоставляет коэффициент 124 спектрального взвешивания, соответствующий определенному значению 112 параметра возбуждения и соответствующий субполосе 102, для которой определено значение 112 параметра возбуждения. Модификатор 130 сигнала модифицирует содержимое субполосы 102 входного аудиосигнала, для которой определено значение 112 параметра возбуждения, основываясь на предоставленном коэффициенте 124 спектрального взвешивания для получения и обеспечения модифицированной субполосы 132.
Используя таблицу поиска, которая предоставляет коэффициенты 124 спектрального взвешивания для модификации входного аудиосигнала, можно значительно уменьшить вычислительную сложность по сравнению с известными концепциями.
Определитель 110 возбуждения определяет значение 112 параметра возбуждения, основываясь на энергосодержании субполосы 102. Это можно выполнить, например, путем измерения энергосодержания субполосы 102 для того, чтобы определить значение 112 параметра возбуждения для субполосы 102. Таким образом, параметр возбуждения может представлять собой единицу измерения для мощности для каждой субполосы или энергию за короткий период времени в специфической субполосе, поскольку энергосодержание может изменяться от времени и/или между различными субполосами. Альтернативно значение параметра возбуждения можно определить, основываясь на (уникальной, инъективной, биективной) функции энергии за короткий период времени субполосы (например, экспоненциальной функции, логарифмической функции или линейной функции). Например, можно использовать функцию квантования. В этом примере определитель 110 возбуждения позволяет измерять энергосодержание субполосы и позволяет квантовать измеренное энергосодержание субполосы для получения значения параметра возбуждения таким образом, чтобы значение параметра возбуждения было равно предварительно определенному значению параметра возбуждения. Другими словами, измеренное значение энергии можно присвоить предварительно определенному значению параметра возбуждения (например, наиболее близкое предварительно определенное значение параметра возбуждения). Альтернативно, значение параметра возбуждения указывает непосредственно измеренное энергосодержание, и запоминающее устройство 120 может присвоить определенное значение параметра возбуждения предварительно определенному значению параметра возбуждения.
Субполосы входного аудиосигнала могут представлять собой различные частотные полосы входного аудиосигнала. С учетом перцептуального распределения частотных полос, субполосы можно распределить, например, согласно шкале ERB, или шкале Барка или другому частотному интервалу, который имитирует частотное разрешение человеческого уха. Другими словами, субполосы из множества субполос входного аудиосигнала можно подвергнуть разделению по шкале ERB или шкале Барка.
Запоминающее устройство 120 содержит вход для параметра возбуждения (сигнала возбуждения) и для индекса субполосы, указывающего субполосу 102, для которой определено значение 112 параметра возбуждения. Альтернативно, запоминающее устройство содержит один или более дополнительных входов для дополнительных параметров.
Запоминающее устройство 120 может представлять собой цифровой запоминающий носитель, такой как постоянное запоминающее устройство (ROM), жесткий диск, CD, DVD, или энергонезависимую память любого другого типа, или оперативное запоминающее устройство (RAM).
Таблица поиска представляет собой, по меньшей мере, двухмерную матрицу, содержащую множество коэффициентов спектрального взвешивания. Коэффициент 124 спектрального взвешивания, который содержится в таблице поиска, однозначно связан с предварительно определенным значением параметра возбуждения и субполосой из множества субполос. Другими словами, каждый коэффициент спектрального взвешивания, который содержится в таблицах поиска, может быть связан с предварительно определенным значением параметра возбуждения и субполосой из множества субполос. Запоминающее устройство 120 может предоставлять коэффициент 124 спектрального взвешивания, связанный с предварительно определенным значением параметра возбуждения, наиболее близкого к определенному значению 112 параметра возбуждения. Альтернативно, например, запоминающее устройство 120 может линейно или логарифмически интерполировать два коэффициента спектрального взвешивания, которые связаны с двумя предварительно определенными значениями параметра возбуждения, наиболее близкого к определенному значению 112 параметра возбуждения.
Предварительно определенные значения параметра возбуждения могут быть линейно или логарифмически распределены.
Например, модификатор 130 сигнала может усиливать или ослаблять содержимое субполосы 102, для которой определено значение 112 параметра возбуждения, с помощью предоставленного коэффициента 124 спектрального взвешивания.
Используя описанную концепцию, например, можно легко компенсировать изменение ослабления ощущения человеческого слуха на низких, средних и высоких частотах, вызванное увеличением или уменьшением уровня интенсивности звука аудиосигнала. Например, при уменьшении уровня воспроизведения от одного уровня до другого уровня воспринимаемый спектральный баланс аудиосигнала изменяется. Это изображено на фиг.2 и фиг.3, на которых представлены кривые равной громкости. Особенно в низкочастотной области линии различной равной громкости не параллельны друг другу. Усиление или ослабление в низкочастотных полосах, которые отличаются от средних и/или высокочастотных полос, могут быть равны на изгибах кривых равной громкости, поэтому они могут быть параллельными или параллельными для большего количества линий, чем раньше. Таким образом, изменение воспринимаемого спектрального баланса можно компенсировать или почти компенсировать с использованием описанной концепции.
Различие между кривыми равной громкости, показанными на фиг.2, и кривыми равной громкости, показанными на фиг.3, представляют собой нормализацию, выполняемую с помощью пропускающего фильтра. Этот пропускающий фильтр позволяет моделировать эффект фильтрации пропускания аудио через внешнее и внутреннее ухо. По мере необходимости такой пропускающий фильтр можно реализовать в виде устройства, показанного на фиг.1, для фильтрации входного аудиосигнала перед получением его в определителе 110 возбуждения.
Для более длительной модификации входного аудиосигнала определитель 110 возбуждения может определить значение 112 параметра возбуждения более чем для одной субполосы из множества субполос. Затем, запоминающее устройство 120 может предоставить коэффициент 124 спектрального взвешивания для каждой субполосы 102, для которой определено значение 112 параметра возбуждения, и модификатор 130 сигнала может модифицировать содержимое каждой субполосы 102, для которой определено значение 112 параметра возбуждения, основываясь на соответствующем предоставленном коэффициенте 124 спектрального взвешивания.
Множество субполос входного аудиосигнала можно выполнить с помощью блока памяти или можно выработать с помощью блока фильтров анализа.
Параметр возбуждения можно определить для одной субполосы, для более чем одной субполосы или для всех субполос из множества субполос. С этой целью устройство 100 может содержать только один определитель 110 возбуждения, определяющий одно, более чем одно или все значения параметров возбуждения, или может содержать определитель 110 возбуждения для каждой субполосы 102, для которой определено значение 112 параметра возбуждения. Кроме того, устройство 100 может содержать один или более модификаторов 130 сигналов для одной или более субполос, для которых определяется параметр возбуждения. Однако достаточно использовать одну таблицу просмотра (и запоминающее устройство) для всех субполос 102, для которых определено значение 112 параметра возбуждения.
Определитель 110 возбуждения, запоминающее устройство 120 и модификатор сигнала могут быть независимыми аппаратными блоками, частью компьютера, микроконтроллером или процессором цифровых сигналов, а также компьютерной программой или продуктом программного обеспечения, сконфигурированным для исполнения на компьютере, микроконтроллере и процессоре цифровых сигналов.
На фиг.4 показана блок-схема устройства 400 для модификации входного аудиосигнала, согласно варианту осуществления настоящего изобретения. Устройство 400 подобно устройству, показанному на фиг.1, но дополнительно содержит блок 410 фильтров анализа и блок 420 фильтров синтеза. Блок 410 фильтров анализа разделяет входной аудиосигнал на множество субполос. Затем определитель 110 возбуждения определяет значение параметра возбуждения (вычисляет характерное значение) для одной или более субполос из множества субполос. После этого запоминающее устройство 120 предоставляет соответствующие один или более коэффициентов спектрального взвешивания в один или более модификаторов 130 сигналов. И, наконец, блок 420 фильтров синтеза объединяет множество субполос, содержащих, по меньшей мере, одну модифицированную субполосу, для получения и предоставления модифицированного аудиосигнала (или выходного аудиосигнала).
Пример, показанный на фиг.4, может представлять собой применение предложенного способа для обобщенного случая. Обработку, которая показана для n-го сигнала субполосы (n-й субполосы), можно применить для всех других сигналов субполосы (или только для всех субполос, для которых определено значение параметра возбуждения) тем же самым способом.
При необходимости коэффициент спектрального взвешивания, который содержится в таблице поиска, дополнительно связан с предварительно определенным значением внешнего параметра модификации, который указан пунктирной линией на фиг.4 (но который также применим к устройству, показанному на фиг.1). Внешний параметр модификации (или просто параметр модификации) может представлять собой, например, входное значение пользовательского интерфейса (например, установки громкости и/или акустического окружения). Поэтому, в этом случае, запоминающее устройство 120 может предоставить коэффициент спектрального взвешивания, соответствующий значению внешнего параметра модификации. Например, если пользователь увеличивает или уменьшает установку громкости, значение внешнего параметра модификации изменяется, и запоминающее устройство 120 может предоставить соответствующий другой коэффициент спектрального взвешивания. В итоге, запоминающее устройство 120 позволяет предоставить коэффициент спектрального взвешивания, соответствующий определенному значению параметра возбуждения субполосы, соответствующий субполосе, для которой определено значение параметра возбуждения, и соответствующий значению внешнего параметра модификации.
В этом примере таблица поиска может содержать точно три измерения, связанные с предварительно определенными значениями параметра возбуждения, связанные с субполосами множества субполос и связанные с предварительно определенными значениями внешнего параметра модификации. Это означает, что каждый коэффициент спектрального взвешивания, который содержится в таблице поиска, связан со специфическим предварительно определенным значением параметра возбуждения, с субполосой из множества субполос и со специфическим предварительно определенным значением внешнего параметра модификации. Другими словами, таблица поиска содержит для каждой комбинации заданного значения параметра возбуждения субполосу и предварительно определенное значение одного коэффициента спектрального взвешивания внешнего параметра модификации. Предварительно определенные значения внешнего параметра модификации можно распределить, например, линейным или логарифмическим образом на весь возможный диапазон внешнего параметра модификации.
Кроме того, в некоторых вариантах осуществления коэффициент спектрального взвешивания, который содержится в таблице поиска, также связан с предварительно определенным значением параметра фонового шума. Параметр фонового шума может представлять собой уровень фонового шума входного аудиосигнала. Таким образом, например, можно реализовать компенсацию эффекта частичного маскирования аудиосигнала при наличии фонового шума. В этом случае запоминающее устройство может предоставить коэффициент спектрального взвешивания, соответствующий значению параметра фонового шума. Это можно выполнить, дополнительно или альтернативно, по отношению к вышеупомянутому рассмотрению внешнего параметра модификации. Если рассматривать оба случая, запоминающее устройство может предоставить коэффициент спектрального взвешивания, соответствующий определенному значению параметра возбуждения субполосы, соответствующий субполосе, для которой определен параметр возбуждения, соответствующий значению внешнего параметра модификации и соответствующий значению параметра фонового шума. В этом случае таблица поиска может содержать точно четыре измерения, которые связаны с предварительно определенными значениями параметра возбуждения, связаны с субполосами из множества субполос, связаны с предварительно определенными значениями внешнего параметра модификации и связаны с предварительно определенными значениями параметра фонового шума. Предварительно определенные значения параметра фонового шума могут быть распределены, например, линейно или логарифмически на весь возможный диапазон параметра фонового шума.
Значение параметра фонового шума можно определить с помощью детектора фонового шума. Это можно выполнить для всего входного аудиосигнала перед разделением на субполосы или на уровне субполосы для одной полосы, для более чем одной субполосы или для всех субполос по отдельности. Альтернативно, если множество субполос входного аудиосигнала сохранено и предоставлено блоком памяти, значение параметра фонового шума может быть также предоставлено блоком памяти.
В любом случае запоминающее устройство не содержит входа для специфического параметра громкости или целевого специфического параметра громкости, хотя коэффициенты спектрального взвешивания, которые содержит таблица поиска, можно вычислить на основании специфического параметра громкости или целевого специфического параметра громкости. Вычисление коэффициентов спектрального взвешивания можно выполнить внешним образом, и после этого их можно сохранить с помощью запоминающего устройства. Поэтому вычислительную сложность устройства, реализованного согласно описанной концепции, можно значительно уменьшить по сравнению с известными устройствами, поскольку вычисление в явном виде коэффициента спектрального взвешивания не является обязательным.
Коэффициенты спектрального взвешивания можно вычислить с возможностью сохранения их в запоминающем устройстве, например, следующим образом.
Обработку аудио можно выполнить в цифровой области. Соответственно, входной сигнал аудио можно обозначить с помощью дискретной временной последовательности x[n], которая была выбрана из аудиоисточника с некоторой частотой fc дискретизации. Можно предположить, что последовательность x[n] была соответствующим образом масштабирована с тем, чтобы средняя квадратичная мощность x[n] в децибелах, которая имеет вид
,
находилась на уровне звукового давления в единицах дБ, на котором слушатель воспринимает аудио на слух. К тому же, для упрощения описания можно предположить, что аудиосигнал будет монофоническим.
Входной сигнал аудио используется в блоке фильтров анализа или в функции блока фильтров ("Analysis Filterbank" (блок фильтров анализа)). Каждый фильтр в блоке фильтров анализа предназначен для моделирования амплитудно-частотной характеристики в конкретном местоположении вдоль базилярной мембраны во внутреннем ухе. Блок фильтров может включать в себя набор линейных фильтров, чья полоса пропускания и интервал между ними являются постоянными на шкале частот эквивалентной прямоугольной полосы пропускания (ERB), как установлено в вышеупомянутой работе B. C. J. Moore, B. Glasberg, T. Baer, "A Model for the Prediction of Thresholds, Loudness, and Partial Loudness".
Хотя шкала частот ERB наиболее точно соответствует восприятию человека и показывает повышенные характеристики при проведении объективных измерений громкости, что совпадает с субъективными результатами громкости, шкалу частот Барка можно использовать с пониженными характеристиками.
Для центральной частоты f, выраженной в Герцах, ширину одной полосы ERB в Герцах можно аппроксимировать следующим образом:
ERB(f)=24,7(4,37f/1000+1) | (1). |
Из этой зависимости шкала с неравномерным частотным разрешением определяется таким образом, чтобы в любой точке вдоль шкалы с неравномерным частотным разрешением соответствующая ERB в единицах шкалы с неравномерным частотным разрешением равнялась единице. Функция для преобразования из линейной частоты, выраженной в Герцах, в эту шкалу частот ERB получается путем интегрирования выражения, обратного уравнению 1:
(2а). |
Полезно также выполнить преобразование шкалы ERB обратно в линейную шкалу частот путем решения уравнения 2а для f:
2(b), |
где е представлено в единицах шкалы ERB.
Блок фильтров анализа может включать в себя В слуховых фильтров, которые называются субполосами, с центральными частотами fc[1]...fc[B], расположенными на равных интервалах друг от друга вдоль шкалы ERB. Более точно,
(3a) |
для b=2...B
(3b), |
(3c), |
где Δ - требуемый интервал ERB блока фильтров анализа, и fmin и fmax - требуемые минимальная и максимальная центральные частоты соответственно. Можно выбрать Δ=1 и принять во внимание частотную полосу, выше которой человеческое ухо является восприимчивым, можно установить fmin=50 Гц и fmax=20000 Гц. При таких параметрах, например, применение уравнений 3а-с дает результат для слуховых фильтров В=40.
Амплитудно-частотную характеристику каждого слухового фильтра можно характеризовать с помощью сглаженной экспоненциальной функции, которая предложена Муром и Гласбергом. В частности, амплитудную характеристику фильтра с центральной частотой f[b] можно вычислить в виде:
(4a), |
где
(4b), | |
(4c). |
Операции фильтрации блока фильтров анализа можно удовлетворительно аппроксимировать с использованием дискретного преобразования Фурье с ограниченной длиной временного окна, которое обычно называется кратковременным дискретным преобразованием Фурье (STDFT), так как предполагается, что реализация, приводящая в действие фильтры на частоте дискретизации аудиосигнала, которая называется реализацией с полной скоростью, обеспечивает временное разрешение больше, чем это необходимо для точных измерений громкости.
STDFT входного аудиосигнала x[n] можно определить в виде:
(5a), |
где k - индекс частоты, t - индекс временного блока, N - размер DFT, Т - размер скачка, и w[n] - окно длиной N, нормализованное следующим образом:
(5b). |
Следует отметить, что переменная t в уравнении 5(а) представляет собой дискретный индекс, представляющий временной блок STDFT, в отличие от единицы измерения времени в секундах. Каждое приращение в t представляет собой скачок Т выборок вдоль сигнала x[n]. Последующие ссылки на индекс t допускают это определение. Хотя различные установки параметров и формы окна можно использовать в зависимости от деталей реализации, для fs=44100 Гц, выбор N=2048, T=1024 и наличие w[n], которое будет представлять собой окно Ханна (Hann), обеспечивает адекватный баланс разрешения по времени и частоте. STDFT, описанное выше, можно реализовать более эффективно с использованием быстрого преобразования Фурье (FFT).
Вместо STDFT