Устройство и способ для определения показателя для воспринимаемого уровня реверберации, аудио процессор и способ для обработки сигнала
Иллюстрации
Показать всеИзобретение относится к обработке аудиосигналов и может быть применено в искусственных ревербераторах. Технический результат - улучшение характеристик воспринимаемого звука. Для этого устройство для определения показателя воспринимаемого уровня реверберации в смешанном сигнале, состоящем из прямой компоненты сигнала и реверберационной компоненты сигнала, содержит процессор модели громкости, содержащий каскад перцепционного фильтра для фильтрации «сухой» компоненты сигнала, реверберационной компоненты сигнала или смешанного сигнала, причем каскад перцепционного фильтра выполнен с возможностью моделирования механизма слухового восприятия объекта для получения фильтрованного прямого сигнала, фильтрованного реверберационного сигнала или фильтрованного смешанного сигнала, блок оценки громкости для оценки первого показателя громкости с использованием фильтрованного прямого сигнала и для оценки второго показателя громкости с использованием фильтрованного реверберационного сигнала или фильтрованного смешанного сигнала, где фильтрованный смешанный сигнал получен из суперпозиции прямой компоненты сигнала и реверберационной компоненты сигнала, блок объединения для объединения первого и второго показателей громкости. 6 н. и 10 з.п. ф-лы, 17 ил., 3 табл.
Реферат
Настоящая заявка относится к обработке аудиосигналов и, в частности, к обработке аудиосигналов, применимой в искусственных ревербераторах.
Определение показателя для воспринимаемого уровня реверберации, например, желаемого для применений, где работает процессор искусственной реверберации в автоматическом режиме и нуждается в адаптации его параметров к входному сигналу так, чтобы воспринимаемый уровень реверберации соответствовал целевому значению. Следует отметить, что пока термин реверберация, упоминаемый в этой же теме, по-видимому, не имеет общепринятого определения, что делает его трудным для использования в качестве количественного показателя теста прослушивания и сценария предсказания.
Процессоры искусственной реверберации часто реализованы как линейные инвариантные по времени системы и работают в пути отправки - возвращения сигнала, как показано на фиг.6, с предварительной задержкой d, импульсной характеристикой реверберации (ИХР) и коэффициентом масштабирования g для управления отношением прямого сигнала к реверберационному сигналу (ОПР). При реализации, в качестве параметрических процессоров реверберации, они характеризуются различными параметрами, например, для управления формой и плотностью ИХР, и межканальной когерентностью (МКК) ИХР для многоканальных процессоров в одной или нескольких полосах частот.
Фиг.6 показывает прямой сигнал х[k], входящий на входе 600, и этот сигнал передается на сумматор 602 для добавления этого сигнала к реверберационной компоненте r[k] сигнала, выходящей из блока весовой обработки 604, который получает на своем первом входе сигнал, выведенный фильтром 606 реверберации, и который получает на своем втором входе, коэффициент g усиления. Фильтр 606 реверберации может иметь дополнительный каскад 608 задержки, подключенный перед фильтром 606 реверберации, но из-за того, что фильтр 606 реверберации будет включать в себя некоторую задержку сам по себе, задержка в блоке 608 может быть включена в фильтр 606 реверберации так, что верхняя ветвь на фиг.6, может включать в себя только единственный фильтр, включающий в себя задержку и реверберацию, или только включающий в себя реверберацию без какой-либо дополнительной задержки. Реверберационная компонента сигнала выводится фильтром 606, и эта реверберационная компонента сигнала может быть изменена умножителем 606 в ответ на коэффициент g усиления для того, чтобы получить обработанную реверберационную компоненту r[k] сигнала, которую затем объединяют с прямой компонентой сигнала, введенной на 600 для того, чтобы окончательно получить смешанный сигнал m[k] на выходе сумматора 602. Следует отметить, что термин «фильтр реверберации» относится к общим реализациям искусственных ревербераций (или в виде свертки, которая эквивалентна КИХ-фильтрации, или в виде реализаций, использующих рекурсивные структуры, такие как сети задержки обратной связи или сети всепропускающих фильтров и гребенчатые фильтры обратной связи или другие рекурсивные фильтры), но означает общую обработку, которая производит реверберирующий сигнал. Такие обработки могут включать в себя нелинейные процессы или изменяющиеся во времени процессы, такие как низкочастотные модуляции амплитуд сигналов или продолжительности задержки. В этих случаях термин «фильтр реверберации» не будет применяться в строгом техническом смысле линейной инвариантной по времени (ЛИВ) системы. Фактически, «фильтр реверберации» относится к обработке, которая выдает реверберирующий сигнал, возможно, включая в себя механизм для считывания рассчитанного или записанного реверберирующего сигнала из памяти.
Эти параметры оказывают влияние на полученный аудиосигнал, исходя из воспринимаемого уровня, расстояния, размера помещения, окраски и качества звука. Кроме того, воспринимаемые характеристики реверберации зависят от временных и спектральных характеристик входного сигнала [1]. Сосредоточимся на очень важном ощущении, а именно громкости, может наблюдаться, что громкость воспринимаемой реверберации монотонно связана с нестационарностью входного сигнала. Интуитивно говоря, аудиосигнал при больших колебаниях в своей огибающей возбуждает реверберацию на высоких уровнях и позволяет ей стать слышимее на более низких уровнях. В типичном сценарии, где долгосрочное ОПР, выраженное в децибелах, является положительным, прямой сигнал может маскировать реверберационный сигнал почти полностью в моменты времени, когда его энергетическая огибающая увеличивается. С другой стороны, когда сигнал прекращается, ранее возбужденный хвост реверберации проявляется в интервалах, превышающих минимальную продолжительность, определенную наклоном последующей маскировки (на максимум 200 мс) и временем интегрирования слуховой системы (при максимуме 200 мс для средних уровней).
Чтобы проиллюстрировать это, фиг.4а показывает огибающие сигнала-времени синтезированного аудиосигнала и искусственно сгенерированного реверберационного сигнала, и фиг.4b показывает функции предсказанной громкости и частичной громкости, вычисленные с вычислительной моделью громкости. Здесь используется ИХР с короткой предварительной задержкой в 50 мс, за исключением ранних отражений и синтезирования поздней части реверберации с экспоненциальным затуханием белого шума [2]. Входной сигнал был сформирован из гармонического широкополосного сигнала и огибающей функции так, что воспринимаются одна волна с коротким затуханием и вторая волна с длинным затуханием. Хотя длинная волна производит больше общей энергии реверберации, становится не удивительно, что это короткий звук, который воспринимается как более реверберирующий. Где затухающий наклон более длинной волны маскирует реверберацию, короткий звук уже исчез перед созданной реверберацией и тем самым открывается интервал, в котором воспринимается реверберация. Пожалуйста, обратите внимание, что определение маскировки, использованное здесь, включает в себя как полные, так и частичные маскировки [3].
Хотя такие наблюдения были сделаны много раз [4, 5, 6], по-прежнему стоит подчеркнуть их, потому что они качественно иллюстрируют, почему модели частичной громкости могут применяться в контексте этой работы. Фактически, было указано на то, что восприятие реверберации возникает из поточных сегрегационных процессов в слуховой системе [4, 5, 6] и находится под влиянием частичного маскирования реверберации за счет прямого звука.
Приведенные выше соображения мотивируют использование моделей громкости. Похожие исследования проводились Lee et al. и фокусировались на предсказании субъективного снижения скорости ИХР при их непосредственном прослушивании [7] и на влиянии уровня воспроизведения на реверберацию [8]. Блок предсказания для реверберации, использующий основанные на громкости ранние времена затухания, предложен в [9]. В отличие от этой работы, способы предсказания, предлагаемые здесь, обрабатывают прямой сигнал и реверберационный сигнал с вычислительной моделью частичной громкости (и с ее упрощенными вариантами в поисках реализаций низкой сложности) и тем самым учитывают влияние входного (прямого) сигнала на восприятие. Недавно Tsilfidis и Mourjopoulus [10] исследовали использование модели громкости для подавления поздней реверберации в одноканальных записях. Оценка прямого сигнала вычислена из реверберирующего входного сигнала с использованием метода спектрального вычитания, и индекс маскировки реверберации извлекается посредством вычислительной модели слухового маскирования, которая управляет обработкой реверберации.
Это характеристика многоканальных синтезаторов и других устройств для добавления реверберации для того, чтобы сделать звук лучше с точки зрения восприятия. С другой стороны, сгенерированная реверберация представляет собой искусственный сигнал, который при добавлении к сигналу на низком уровне, едва слышен и при добавлении на высоком уровне приводит к неестественному и неприятному звучанию конечного смешанного сигнала. Что делает вещи еще хуже того, как обсуждалось в контексте фиг.4a и 4b, что воспринимаемый уровень реверберации сильно зависит от сигнала и, следовательно, некий фильтр реверберации может работать очень хорошо для одного вида сигналов, но может не иметь звукового эффекта или, что еще хуже, может генерировать серьезные звуковые артефакты для других видов сигналов.
Еще одна проблема связана с реверберацией в том, что реверберированный сигнал предназначен для слуха объекта или индивидуума, такого как человек, и конечной целью генерации смешанного сигнала, имеющего прямую компоненту сигнала и реверберационную компоненту сигнала, является то, что субъект воспринимает этот смешанный сигнал или "реверберированный сигнал", как хорошее звучание или как естественное звучание. Однако механизм слухового восприятия или механизм, как звук на самом деле воспринимается индивидуумом, сильно нелинеен, не только по отношению к полосам частот, в которых работает человеческий слух, но также и по отношению к обработке сигналов в полосах частот. Кроме того, известно, что человеческое восприятие звука не столько направлено на уровень звукового давления, который может быть вычислен, например, возведением в квадрат цифровых выборок, но восприятие более контролируемо путем ощущения громкости. Кроме того, для смешанных сигналов, которые включают в себя прямую компоненту и реверберационную компоненту сигнала, ощущение громкости реверберационной компоненты зависит не только от вида прямой компоненты сигнала, но также и от уровня или громкости прямой компоненты сигнала.
Таким образом, существует необходимость в определении показателя для воспринимаемого уровня реверберации в сигнале, состоящем из прямой компоненты сигнала и реверберационной компоненты сигнала для того, чтобы справится с вышеуказанными проблемами, связанными с механизмом слухового восприятия объекта.
Задачей настоящего изобретения является, таким образом, обеспечение устройства и способа для определения показателя для воспринимаемого уровня реверберации или обеспечение аудио процессора или способа обработки аудиосигнала с улучшенными характеристиками.
Эта задача достигается устройством для определения показателя воспринимаемого уровня реверберации в соответствии с п.1, способом определения показателя воспринимаемого уровня реверберации в соответствии с п.10, аудио процессором в соответствии с п.11, способом обработки аудиосигнала в соответствии с п.14 или компьютерной программой в соответствии с п.15.
Настоящее изобретение основано на обнаружении того, что показатель для воспринимаемого уровня реверберации сигнала определяется процессором модели громкости, содержащим каскад перцепционного фильтра для фильтрации прямой компоненты сигнала, реверберационной компоненты сигнала или смешанной компоненты сигнала с использованием перцепционного фильтра для моделирования механизмов слухового восприятия объекта. На основе перцепционно фильтрованных сигналов, блок оценки громкости оценивает первый показатель громкости, используя фильтрованный прямой сигнал и второй показатель громкости, используя фильтрованный реверберационный сигнал или фильтрованный смешанный сигнал. Затем блок объединения объединяет первый показатель и второй показатель, чтобы получить показатель для воспринимаемого уровня реверберации. В частности, путем объединения двух различных показателей громкости, предпочтительно, вычислением разницы, дающим количественное значение или показатель насколько сильно ощущение реверберации по сравнению с ощущением прямого сигнала или смешанного сигнала.
Для вычисления показателей громкости могут быть использованы показатели абсолютной громкости и, в частности, показатели абсолютной громкости прямого сигнала, смешанного сигнала или реверберационного сигнала. Кроме того, частичная громкость также может быть вычислена, где первый показатель громкости определяется использованием прямого сигнала в качестве возбуждающего сигнала и реверберационного сигнала в качестве шума в модели громкости, а второй показатель громкости вычисляется использованием реверберационного сигнала в качестве возбуждающего сигнала и прямого сигнала в качестве шума. В частности, объединением этих двух показателей в блоке объединения, получается пригодный показатель для воспринимаемого уровня реверберации. Авторами было обнаружено, что такой пригодный показатель не может быть определен только генерацией одного показателя громкости, например, использованием отдельно прямого сигнала или отдельно смешанного сигнала или отдельно реверберационного сигнала. Вместо этого, из-за взаимозависимости человеческого слуха, объединяя показатели, которые получены отдельно из каждого из этих трех сигналов, воспринимаемый уровень реверберации в сигнале может быть определен или смоделирован с высокой степенью точности.
Предпочтительно процессор модели громкости обеспечивает частотно-временное преобразование и подтверждает передаточную функцию уха совместно с моделью возбуждения, фактически происходящей в человеческом слухе, моделируемой слуховыми моделями.
В предпочтительном варианте осуществления показатель для воспринимаемого уровня реверберации направляется в блок предсказания, который фактически обеспечивает воспринимаемый уровень реверберации в пригодном масштабе, таком как сон-масштаб. Этот блок предсказания предпочтительно обучен данными теста прослушивания, и параметры блока предсказания для предпочтительно линейного блока предсказания содержат свободный член и коэффициент масштабирования. Свободный член предпочтительно зависит от характеристики фактически используемого фильтра реверберации, и в одном из вариантов осуществления фильтра реверберации характеристический параметр Τ60, который может быть предоставлен для простых хорошо известных фильтров реверберации, использован в искусственных ревербераторах. Даже если, однако, эта характеристика не известна, например, когда реверберационная компонента сигнала отдельно не доступна, но была отделена от смешанного сигнала до обработки в устройстве по настоящему изобретению, оценка для свободного члена может быть получена.
Далее предпочтительные варианты осуществления настоящего изобретения описаны со ссылками на прилагаемые чертежи, на которых:
Фиг.1 является блок-схемой устройства или способа для определения показателя для воспринимаемого уровня реверберации;
Фиг.2а является иллюстрацией предпочтительного варианта осуществления процессора модели громкости;
Фиг.2b иллюстрирует другой предпочтительный вариант осуществления процессора модели громкости;
Фиг.3 иллюстрирует другой предпочтительный вариант осуществления процессора модели громкости;
Фиг.4a,b иллюстрируют примеры огибающих сигнала-времени и соответствующей громкости и частичной громкости;
Фиг.5a,b иллюстрируют информацию экспериментальных данных для обучения блока предсказания;
Фиг.6 иллюстрирует блок-схему процессора искусственной реверберации;
Фиг.7 иллюстрирует три таблицы для индикации параметров оценки для вариантов осуществления изобретения;
Фиг.8 иллюстрирует процессор аудиосигнала, реализованный для использования показателя воспринимаемого уровня реверберации с целью искусственной реверберации;
Фиг.9 иллюстрирует предпочтительный вариант осуществления блока предсказания, основанный на усредненных по времени воспринимаемых уровнях реверберации; и
Фиг.10 иллюстрирует уравнения из Moore Glasberg, Baer публикации 1997 года, используемые в предпочтительном варианте осуществления для расчета удельной громкости.
Воспринимаемый уровень реверберации зависит как от входного звукового сигнала, так и от импульсной характеристики. Варианты осуществления настоящего изобретения направлены на определение значений этих результатов наблюдения и предсказание воспринимаемого уровня поздней реверберации на основе отдельных сигнальных трактов прямого и реверберирующего сигналов, как они проявляются в цифровых аудио эффектах. Подход к проблеме разработан и впоследствии расширен с учетом влияния времени реверберации на предсказание результата. Это приводит к линейной регрессионной модели с двумя входными переменными, которая способна предсказать воспринимаемый уровень с высокой точностью, как показано на экспериментальных данных, полученных из тестов прослушивания. Вариации этой модели с различными степенью сложности и вычислительной сложностью сравниваются относительно их точности. Применения включают в себя управление цифровыми аудио эффектами для автоматического смешивания аудиосигналов.
Варианты осуществления настоящего изобретения не только пригодны для предсказания воспринимаемого уровня реверберации в речи и музыке, когда прямой сигнал и импульсная характеристика реверберации (ИХР) доступны отдельно. В других вариантах осуществления, в которых возникает реверберированный сигнал, настоящее изобретение может быть применено также. В этом случае, однако, прямой/пространственный или прямой/реверберационный сепаратор будет включен для отделения прямой компоненты сигнала и реверберационной компоненты сигнала из смешанного сигнала. Такой аудио процессор затем будет полезен для изменения соотношения прямой/реверберационный в этом сигнале для того, чтобы генерировать лучшее звучание реверберационного сигнала или лучшее звучание смешанного сигнала.
Фиг.1 иллюстрирует устройство для определения показателя воспринимаемого уровня реверберации в смешанном сигнале, содержащем прямую компоненту сигнала или «сухую» компоненту 100 сигнала и реверберационную компоненту 102 сигнала. «Сухая» компонента 100 сигнала и реверберационная компонента 102 сигнала вводятся в процессор 104 модели громкости. Процессор модели громкости сконфигурирован для получения прямой компоненты 100 сигнала и реверберационной компоненты 102 сигнала и включает в себя, кроме того, каскад 104а перцепционного фильтра и подключенный затем вычислитель 104b громкости, как проиллюстрировано на фиг.2a. Процессор модели громкости генерирует на своем выходе первый показатель 106 громкости и второй показатель 108 громкости. Оба показателя громкости вводятся в блок 110 объединения для объединения первого показателя 106 громкости и второго показателя 108 громкости чтобы, наконец, получить показатель 112 для воспринимаемого уровня реверберации. В зависимости от реализации, показатель для воспринимаемого уровня 112 может быть введен в блок 114 предсказания для предсказания воспринимаемого уровня реверберации на основе среднего значения по меньшей мере двух показателей для воспринимаемой громкости для разных сигналов, как будет описано в контексте фиг.9. Тем не менее, блок 114 предсказания на фиг.1 необязателен и фактически превращает параметр воспринимаемого уровня в некоторый диапазон значений или диапазон единиц, такой как диапазон сон-единиц, который является пригодным для предоставления количественных значений, связанных с громкостью. Тем не менее, другие коэффициенты для показателя для воспринимаемого уровня 112, которые не обрабатываются блоком 114 предсказания могут также использоваться, например, в аудио процессоре по фиг.8, который не обязательно должен опираться на выходные значения блока 114 предсказания, но который также может непосредственно обрабатывать параметр воспринимаемого уровня 112, либо в прямой форме либо предпочтительно в виде сглаженной формы, где сглаживание с течением времени является предпочтительным для того, чтобы не иметь сильно изменяющиеся коррекции уровня реверберированного сигнала или, как обсуждается позже, коэффициента g усиления, проиллюстрированного на фиг.6 или проиллюстрированного на фиг.8.
В частности, каскад перцепционного фильтра сконфигурирован для фильтрации прямой компоненты сигнала, реверберационной компоненты сигнала или смешанной компоненты сигнала, при этом каскад перцепционного фильтра сконфигурирован для моделирования механизма слухового восприятия объекта, такого как человек, чтобы получить фильтрованный прямой сигнал, фильтрованный реверберационный сигнал или фильтрованный смешанный сигнал. В зависимости от реализации, каскад перцепционного фильтра может включать в себя два фильтра, работающих параллельно или может включать в себя запоминающее устройство и один фильтр, так как один и тот же фильтр действительно может быть использован для фильтрации каждого из трех сигналов, т.е. реверберационного сигнала, смешанного сигнала и прямого сигнала. При этом, однако, следует отметить, что, несмотря на то, что фиг.2a иллюстрирует n фильтров моделирования механизма слухового восприятия, на самом деле двух фильтров будет достаточно, или одного фильтра фильтрующего два сигнала из группы, содержащей реверберационную компоненту сигнала, смешанную компоненту сигнала и прямую компоненту сигнала.
Вычислитель 104b громкости или блок оценки громкости сконфигурирован для оценки первого связанного с громкостью показателя с использованием фильтрованного прямого сигнала и для оценки второго показателя громкости с использованием фильтрованного реверберационного сигнала или фильтрованного смешанного сигнала, где смешанный сигнал получают из суперпозиции прямой компоненты сигнала и реверберационной компоненты сигнала.
Фиг.2с иллюстрирует четыре предпочтительных режима вычисления показателя для воспринимаемого уровня реверберации. Вариант осуществления 1 опирается на частичную громкость, где обе, прямая компонента x сигнала и реверберационная компонента r сигнала, используются в процессоре модели громкости, но где в целях определения первого показателя EST1 реверберационный сигнал используется в качестве сигнала возбуждения, а прямой сигнал используется в качестве шума. Для определения второго показателя EST2 громкости, ситуация изменилась, и прямая компонента сигнала используется в качестве сигнала возбуждения, а реверберационная компонента сигнала используется в качестве шума. Итак, показатель для воспринимаемого уровня коррекции, сгенерированный блоком объединения, является разностью между первым показателем EST1 громкости и вторым показателем EST2 громкости.
Однако, кроме того имеются другие вычислительно эффективные варианты осуществления, которые показаны в строках 2, 3 и 4 на фиг.2с. Эти более вычислительно эффективные показатели полагаются на вычисление общей громкости трех сигналов, включающих в себя смешанный сигнал m, прямой сигнал x и реверберационный сигнал n. Зависимость от требуемых вычислений, выполняемых блоком объединения, указана в последнем столбце фиг.2c, первым показателем EST1 громкости является общая громкость смешанного сигнала или реверберационного сигнала, а вторым показателем EST2 громкости является общая громкость прямой компоненты x сигнала или смешанной компоненты m сигнала, где фактические объединения проиллюстрированы на фиг.2с.
В дополнительном варианте осуществления процессор модели громкости 104 функционирует в частотной области, как обсуждается более подробно на фиг.3. В такой ситуации, процессор модели громкости и, в частности, вычислитель 104b громкости обеспечивает первый показатель и второй показатель для каждой полосы частот. Эти первые показатели по всем n полосам частот потом суммируют или объединяют вместе в сумматоре 104с для первой ветви и 104d для второй ветви для того, чтобы в конце концов получить первый показатель для широкополосного сигнала и второй показатель для широкополосного сигнала.
Фиг.3 иллюстрирует предпочтительный вариант осуществления процессора модели громкости, который уже обсуждался в некоторых аспектах по отношению к фиг.1, 2a, 2b, 2c. В частности, каскад 104a перцепционного фильтра включает в себя частотно-временной преобразователь 300 для каждой ветви, где, в варианте осуществления по фиг.3, x[k] означает сигнал возбуждения, а n[k] означает шум. Сигнал, преобразованный по времени/частоте, передается в блок 302 передаточной функции уха (Обратите внимание, что передаточная функция уха альтернативно может быть вычислена до частотно-временного преобразователя с аналогичными результатами, но более высокой вычислительной нагрузкой) и выходной сигнал этого блока 302 является входным сигналом в блок 304 вычисления модели возбуждения и идущего следом блока 306 временной интеграции. Затем, в блоке 308 в данном варианте осуществления вычисляется удельная громкость, где блок 308 соответствует блоку 104b вычисления громкости на фиг.2a. Далее, выполняется интегрирование по частоте в блоке 310, где блок 310 соответствует сумматору, уже описанному как 104c и 104d на фиг.2b. Следует отметить, что блок 310 генерирует первый показатель для первого комплекта возбуждающего сигнала и шума, и второй показатель для второго комплекта возбуждающего сигнала и шума. В частности, когда рассматривается фиг.2b, сигналом возбуждения для вычисления первого показателя является реверберационный сигнал, а шумом является прямой сигнал, в то время как для вычисления второго показателя, ситуация изменилась, и сигналом возбуждения является прямая компонента сигнала, а шумом - реверберационная компонента сигнала. Таким образом, для генерации двух различных параметров громкости, процедуры, проиллюстрированные на фиг.3 были выполнены дважды. Однако изменения в вычислении происходят только в блоке 308, который работает по-разному, как обсуждалось, кроме того, в контексте фиг.10, так что этапы, проиллюстрированные блоками 300 до 306, должны быть выполнены только один раз, и результат временной интеграции блока 306 может быть сохранен для того, чтобы вычислить первую оцененную громкость и вторую оцененную громкость для варианта осуществления 1 на фиг.2с. Следует отметить, что в других вариантах осуществления 2, 3, 4 на фиг.2c, блок 308 заменен отдельным блоком «вычисления общей громкости» для каждой ветви, где, в данном варианте осуществления это безразлично, будь то один сигнал, рассмотренный как возбуждающий сигнал или как шум.
Далее более подробно обсуждается модель громкости, проиллюстрированная на фиг.3.
Реализация модели громкости на фиг.3 следует описаниям в [11, 12] с модификациями, детализированными позже. Обучение и проверка предсказания используют данные из тестов прослушивания, описанных в [13] и кратко резюмированных позже. Применение модели громкости для предсказания воспринимаемого уровня поздней реверберации также описано позже. Экспериментальные результаты следуют ниже.
В этом разделе описывается реализация модели частичной громкости, данные теста прослушивания, которые был использованы в качестве экспериментальных данных для вычислительного предсказания воспринимаемого уровня реверберации, и предлагаемый способ предсказания, который основан на модели частичной громкости.
Модель громкости вычисляет частичную громкость Nx,n[k] сигнала x[k], который представлен вместе с маскирующим сигналом n[k]
Хотя ранние модели имели дело с восприятием громкости в установившемся фоновом шуме, существуют некоторые работы по восприятию громкости в фонах совместно модулированных случайных шумов [14], комплексных внешних звуков [12], и музыкальных сигналов [15]. Фиг.4b иллюстрирует общую громкость и частичную громкость компонент примерного сигнала, показанного на фиг.4а, вычисленных с моделью громкости, используемой здесь.
Модель, используемая в этой работе, аналогична модели в [11, 12], которая сама выведена в более раннем исследовании Fletcher, Munson, Stevens, и Zwicker, с некоторыми изменениями, как описано ниже. Блок-схема модели громкости показана на фиг.3. Входные сигналы обрабатываются в частотной области с использованием кратковременного преобразования Фурье (КВПФ). В [12], 6 ДПФ (дискретное преобразование Фурье) различной длины используются для того, чтобы получить хорошее совпадение для разрешения по частоте и временного разрешения с разрешением по частоте и временным разрешением человеческой слуховой системы на всех частотах. В этой работе используется только ДПФ одной длины ради вычислительной эффективности, с длиной кадра 21 мс при частоте дискретизации 48 кГц, 50% перекрытием и функцией окна Ханна. Передача через наружное и среднее ухо моделируется с фиксированным фильтром. Функция возбуждения вычисляется для 40 полос частот слухового фильтра расположенных на шкале эквивалентного прямоугольного диапазона частот (ЭПДЧ) с использованием модели зависимости от уровня возбуждения. В дополнение к временной интеграции из-за обработки методом окна КВПФ, рекурсивная интеграция реализуется с постоянной времени 25 мс, которая активна только в то время, когда затухает сигнал возбуждения.
Удельная частичная громкость, т.е. частичная громкость, вызванная в каждой полосе частот слухового фильтра, вычисляется из уровней возбуждения от важного сигнала (возбуждающего сигнала) и звуковых помех в соответствии с уравнениями (17)-(20) в [11], проиллюстрированных на фиг.10. Эти уравнения охватывают четыре случая, где сигнал выше порога слышимости в шуме или нет, и где возбуждение смешанного сигнала меньше 100 дБ или нет. Если никакой сигнал помехи не подается в модель, т.е. n[k]=0, результат равен общей громкости Nx[k] сигнала возбуждения x[k].
В частности, фиг.10 иллюстрирует уравнения 17, 18, 19, 20 публикации "A Model for the Prediction of Thresholds, Loudness and Partial Loudness", B.C.J. Moore, B.R. Glasberg, T. Baer, J. Audio Eng. Soc, изд. 45, No. 4, апрель 1997. Эта ссылка описывает случай сигнала, представленного вместе с фоновым звуком. Несмотря на то, что фон может быть любым типом звука, он упоминается как "шум" в этой ссылке, чтобы отличить его от сигнала, громкость которого оценивается. Наличие шума уменьшает громкость сигнала, эффект называется частичной маскировкой. Громкость сигнала растет очень быстро, когда его уровень увеличивается от порогового значения до значения 20-30 дБ выше порога. В публикации предполагается, что частичная громкость сигнала, представленная в шуме, может быть вычислена путем суммирования удельных частичных громкостей сигнала по частоте (на ЭПДЧ-шкале). Уравнения, полученные для вычисления удельной частичной громкости, рассматривают четыре предельных случаях. ESIG обозначает возбуждение вызванное сигналом, а ENOISE обозначает возбуждение, вызванное шумом. Предполагается, что ESIG>ETHRQ и ESIG плюс ENOISE<1010. Общая удельная громкость N'TOT определяется следующим образом:
Предполагается, что слушатель может разделить удельную громкость при заданной центральной частоте между удельной громкостью сигнала и удельной громкостью шума, но таким образом, что предпочитает общую удельную громкость.
Это предположение согласуется, так как в большинстве экспериментов по измерению частичного маскирования, слушатель слышит первым один только шум и затем шум плюс сигнал. Удельная громкость только для шума при условии, что он находится выше порога, будет
Таким образом, если удельная громкость сигнала была получена только зависимостью удельной громкости шума от общей удельной громкости, результатом будет
На практике, способ, удельная громкость которого распределена между сигналом и шумом, по-видимому меняется в зависимости от относительного возбуждения сигнала и шума.
Рассмотренные четыре ситуации показывают как удельная громкость определяется на разных уровнях сигнала. Пусть ETHRN обозначает пиковое возбуждение, вызванное синусоидальным сигналом, когда он является маскирующим порогом в фоновом шуме. Когда ESIG значительно ниже ETHRN, вся удельная громкость присвоена шуму, а частичная удельная громкость сигнала приближается к нулю. Во-вторых, когда ENOISE значительно ниже ETHRQ, частичная удельная громкость приближается к значению, которое она будет иметь для сигнала в тишине. В-третьих, когда сигнал находится на его маскирующем пороге, при возбуждении ETHRN, предполагается, что частичная удельная громкость будет равна значению, которое возникнет для сигнала на абсолютном пороге. Наконец, когда сигнал находится в центре узкополосного шума значительно выше его маскирующего порога, громкость сигнала приближается к своему демаскирующему значению. Поэтому частичная удельная громкость сигнала также приближается к своему демаскирующему значению.
Рассмотрим последствия этих различных граничных условий. На маскирующем пороге, удельная громкость равна той, что для сигнала на пороге в тишине. Эта удельная громкость меньше, чем можно было бы предсказать из приведенного выше уравнения, по-видимому, потому что некоторая удельная громкость сигнала приписывается к шуму. Для того, чтобы получить правильную удельную громкость для сигнала, предполагается, что удельная громкость, приписанная к шуму, увеличивается фактором B, где
Применение этого фактора ко второму члену в вышеизложенном уравнении для N'SIG дает
Предполагается, что, когда сигнал на маскирующем пороге, его пиковое возбуждение ETHRN равно KENOISE+ETHRQ, где K отношение сигнал-шум на выходе слухового фильтра, требующегося для порога на более высоких уровнях маскирования. Недавние оценки K, полученные для маскировки экспериментов, использующих шум с узкополосным провалом в спектре, предполагают, что K заметно возрастает на очень низких частотах, становится больше единицы. В этой ссылке значение К оценивается как функция частоты. Значение уменьшается от высоких уровней на низких частотах к неизменным низким уровням на более высоких частотах. К сожалению, нет оценки для K для центральных частот ниже 100 Гц, поэтому значения от 50 до 100 Гц заменяют ETHRN в вышеприведенных результатах уравнения в:
Когда ESIG=ETHRN это уравнение устанавливает пиковую удельную громкость для сигнала на абсолютном пороге в тишине.
Когда сигнал намного выше его маскирующего порога, то есть, когда ESIG>>ETHRN, удельная громкость сигнала приближается к значению, которое она будет иметь, когда не присутствуют фоновые шумы. Это означает, что удельная громкость, приписанная к шуму, становится исчезающе малой. Чтобы обеспечить это, вышеприведенное уравнение модифицировано путем введения дополнительного члена, который зависит от отношения ETHRN/ESIG. Этот член уменьшается, как только ESIG повысится выше значения, соответствующего маскирующему порогу. Таким образом, вышеприведенное уравнение становится уравнением 17 на фиг.10.
Это окончательное уравнение для N'SIG в случае, когда ESIG>ETHRN и ESIG+EN0ISE≤1010. Показатель 0,3 в конечном члене был выбран эмпирически так, чтобы получить хорошее соответствие данных громкости тона в шуме в зависимости от отношения сигнал-шум.
Потом рассматривается ситуация, где ESIG<ETHRN. В предельном случае, когда ESIG чуть ниже ETHRN, удельная громкость приблизилась бы к значению, указанному в уравнении 17 на фиг.10. Когда ESIG снижается до значения значительно ниже ETHRN, удельная громкость должна быстро стать очень малой. Это достигается уравнением 18 на фиг.10. Первый член в скобках определяет скорость, с которой уменьшается удельная громкость ESIG, снижается ниже ETHRN. Это описывает зависимость между удельной громкостью и возбуждением для сигнала в тишине, когда ESIG<ETHRQ, исключая что ETHRN была заменена в уравнении 18. Первый член в фигурных скобках обеспечивает приближение удельной громкости к значению, определяемому уравнением 17 фиг.10, как ESIG приближающуюся к ETHRN.
Описанные уравнения для частичной громкости до сих пор применяются, когда ESIG+ENOISE<1010. Применением тех же рассуждений, которые использовались для вывода уравнения (17) на фи