2426180 - Расчет и регулировка воспринимаемой громкости и/или воспринимаемого спектрального баланса звукового сигнала

Расчет и регулировка воспринимаемой громкости и/или воспринимаемого спектрального баланса звукового сигнала

Иллюстрации

Показать все

Изобретение относится к обработке звуковых сигналов, относящейся к измерению и регулированию воспринимаемой громкости звука и/или воспринимаемого спектрального баланса звукового сигнала. Обработка звуковых сигналов полезна, например, в одном или более из: регулировки уровня громкости с компенсацией громкости, автоматической регулировки усиления, регулировки динамического диапазона (в том числе, например, ограничителях, компрессорах, расширителях динамического диапазона и т.п.), динамической коррекции и компенсации шумовых фоновых помех в средах воспроизведения аудио. В различных вариантах осуществления параметры модификации получаются для модифицирования звукового сигнала, для того чтобы уменьшать разность между его удельной громкостью и целевой удельной громкостью. Технический результат - повышение разборчивости звукового сигнала. 4 н. и 22 з.п. ф-лы, 19 ил.

Реферат

ОБЛАСТЬ ТЕХНИКИ

Изобретение относится к обработке звуковых сигналов. Более точно, изобретение относится к измерению и регулировке воспринимаемой громкости звука и/или воспринимаемого спектрального баланса звукового сигнала. Изобретение, например, полезно в одном или более из: регулировки уровня громкости с компенсацией громкости, автоматической регулировки усиления, регулировки динамического диапазона (в том числе, например, ограничителях, компрессорах, расширителях динамического диапазона и т.п.), динамической коррекции и компенсации шумовых фоновых помех в средах воспроизведения аудио. Изобретение включает в себя не только способы, но также и соответствующие компьютерные программы и устройство.

УРОВЕНЬ ТЕХНИКИ

Было много попыток разработать удовлетворительный объективный способ измерения громкости. Флетчер и Мунсон определили в 1933 году, что человеческий слух менее чувствителен на низких и высоких частотах, чем на средних (или голосовых) частотах. Они также обнаружили, что относительное изменение чувствительности уменьшалось по мере того, как уровень звука увеличивался. Предыдущий измеритель громкости состоял из микрофона, усилителя, измерителя и соединения фильтров, сконструированных, чтобы грубо копировать частотную характеристику слуха на низких, средних и высоких уровнях звука.

Даже если такие устройства обеспечивали измерения громкости одиночного изолированного тона постоянного уровня, измерения более сложных звуков не очень хорошо соответствовали субъективным ощущениям громкости. Измерители уровня звука этого типа были стандартизованы, но использовались только для специфических задач, таких как дозиметрический контроль и надзор за промышленными шумами.

В начале 1950-х Звикер и Стивенс, среди прочего, продолжили работу Флетчера и Мунсона по разработке более реалистичной модели процесса восприятия громкости. Стивенс опубликовал способ для «Расчета громкости смешанного шума» в журнале Акустического общества Америки в 1956 году, а Звикер опубликовал свою статью «Psychological and Methodical Basis of Loudness» («Психологическая и методическая основа громкости») в Acoustica в 1958 году. В 1959 году Звикер опубликовал графический метод для расчета громкости, а также несколько подобных статей вскоре после этого. Способы Стивенса и Звикера были стандартизованы в качестве ISO 532, частей A и B (соответственно). Оба способа заключали в себе сходные этапы.

Прежде всего, зависящее от времени распределение энергии вдоль базилярной мембраны внутреннего уха, указываемое ссылкой как накачка, имитируется прохождением звукового сигнала через гребенку полосовых слуховых фильтров с центральными частотами, равномерно разнесенными по ступенчатой шкале критических полос. Каждый слуховой фильтр предназначен для имитации частотной характеристики в конкретном местоположении вдоль базилярной мембраны внутреннего уха, с центральной частотой фильтра, соответствующей этому местоположению. Ширина критической полосы определена как ширина полосы пропускания одного такого фильтра. Измеряемая в единицах Герц, ширина критической полосы этих слуховых фильтров увеличивается с увеличением центральной частоты. Поэтому полезно определять криволинейную шкалу частот из условия, чтобы ширина критической полосы для всех слуховых фильтров, измеренная по этой криволинейной шкале, была постоянной. Такая криволинейная шкала указывается ссылкой как ступенчатая шкала критических полос и очень полезна в понимании и имитации широкого диапазона физиологических феноменов. Например, смотрите Psychoacoustics - Facts and Models by E. Zwicker and H. Fasti, Springer-Verlag, Berlin, 1990 (Психоакустика - факты и модели по Е. Звикеру и Х.Фасти, Спрингер-Верлаг, Берлин, 1990 год). Способы Стивенса и Звикера используют ступенчатую шкалу критических полос, указываемую ссылкой как шкала Барка, в которой ширина критической полосы является постоянной ниже 500 Гц и увеличивается выше 500 Гц. Позднее, Мур и Глазберг определили ступенчатую шкалу критических полос, которую они назвали шкалой, эквивалентной прямоугольной полосы пропускания (ERB) (B. C. J. Moore, B. Glasberg, T. Baer, «A Model for the Prediction of Thresholds, Loudness, and Partial Loudness», Journal of the Audio Engineering Society, Vol. 45, No. 4, April 1997, pp. 224-240 (Б. Ц. Дж. Мур, Б. Глазберг, Т. Баер, «Модель для предсказания пороговых значений, громкости и громкости частичных тонов», Журнал сообщества звукотехники, том 45, № 4, Апрель 1997 г., стр. 224-240)). Благодаря психоакустическим экспериментам с использованием маскеров шума с узкополосным провалом в спектре Мур и Глазберг продемонстрировали, что ширина критической полосы продолжает уменьшаться ниже 500 Гц, в противоположность шкале Барка, где ширина критической полосы остается постоянной.

Последующее вычисление накачки является функцией нелинейного сжатия, которая формирует параметр указываемый ссылкой как «удельная громкость». Удельная громкость является мерой громкости восприятия в качестве функции частоты и времени и может измеряться в единицах громкости восприятия на единичную частоту по ступенчатой шкале критических полос, такой как шкала Барка или ERB, обсужденная выше. Умозрительно, удельная громкость представляет непрерывное распределение громкости в качестве функции частоты и времени, а зависящая от времени «полная громкость» вычисляется интегрированием этого распределения по частоте. На практике точное восприятие удельной громкости получается дискретизацией этого распределения равномерно по ступенчатой шкале критических полос, например, посредством использования слуховых фильтров, упомянутых выше. В этом случае полная громкость может вычисляться простым суммированием удельной громкости из каждого фильтра. Для уменьшения сложности некоторые приложения могут вычислять грубое приближение для удельной громкости за счет незначительных неточностей в оценке и модификации воспринимаемой громкости. Такие приближения позже будут обсуждены более подробно.

Громкость может измеряться в единицах фонов. Громкостью заданного в фонах звука является уровень звукового давления (SPL) тона в 1 кГц, имеющий субъективную громкость, равную таковой у звука. Традиционно началом отсчета 0 дБ для SPL является среднеквадратическое давление 2×10^-5 Паскалей и поэтому это также является началом отсчета 0 фонов. Используя это определение при сравнении громкости тонов на частотах, иных чем 1 кГц, с громкостью на 1 КГц, может быть определена кривая равной громкости для заданного в фонах уровня. Фиг.11 показывает кривые равной громкости для частот между 20 Гц и 12,5 кГц, и для уровней в фонах между 4,2 фона (считается порогом слышимости) и 120 фонами (ISO226: 1087 (E), «Acoustics - Normal equal loudness level contours» («Акустика - нормальные кривые равного уровня громкости»)). Измерение в фонах учитывает меняющуюся чувствительность человеческого слуха в зависимости от частоты, но результаты не предоставляют возможности оценки относительных субъективных громкостей звука при переменных уровнях, так как нет попытки ввести поправку на нелинейность увеличения громкости в зависимости от SPL, то есть на то обстоятельство, что интервал кривых меняется.

Громкость также может измеряться в единицах «сонов». Есть однозначное соответствие между единицами фонов и единицам сонов, которое указано на фиг.11. Один сон определен в качестве громкости немодулированной гармонической волны 1 кГц при 40 дБ (SPL) и равен 40 фонам. Единицы сонов являются такими, что двойное увеличение в сонах соответствует удвоению воспринимаемой громкости. Например, 4 сона воспринимаются как громкость, вдвое большая той, что в 2 сона. Таким образом, выражение уровней громкости в сонах является более информативным. При условии определения удельной громкости как показателя громкости восприятия в качестве функции частоты и времени удельная громкость может измеряться в единицах сонов на единичную частоту. Таким образом, при использовании шкалы Барка удельная громкость обладает единицами сонов на Барк и, подобным образом, с использованием шкалы ERB единицами являются соны на ERB.

Как упомянуто выше, чувствительность человеческого уха изменяется как в зависимости от частоты, так и от уровня, обстоятельство, хорошо документированное в литературе по психоакустике. Одно из следствий состоит в том, что воспринимаемый спектр или тембр данного звука меняется в зависимости от акустического уровня, при котором звук прослушивается. Например, для звука, содержащего низкие, средние и высокие частоты, воспринимаемые относительные пропорции таких частотных составляющих изменяются с общей громкостью звука; когда она тихая, низкие и высокие частотные составляющие звучат тише относительно средних частот, чем они звучат, когда она громкая. Это явление общеизвестно, и было уменьшено в оборудовании воспроизведения звука посредством так называемых тонкомпенсированных регуляторов громкости. Тонкомпенсированный регулятор громкости является регулятором уровня громкости, который применяет низкочастотный, а иногда также и высокочастотный подъем по мере того как уровень громкости убавляется. Таким образом, меньшая чувствительность уха на крайних значениях частот компенсируется искусственным подъемом таких частот. Такие регуляторы являются полностью пассивными; степень применяемой компенсации является функцией настройки регулятора громкости или некоторого другого управляемого пользователем регулятора, не в качестве функции контента звуковых сигналов.

На практике изменения воспринимаемого относительного спектрального баланса между низкими, средними и высокими частотами зависят от сигнала, в частности от его действующего спектра и от того, предназначено ли ему быть громким или тихим. Рассмотрим запись симфонического оркестра. Воспроизводимый на одном и том же уровне, который слышал бы член публики в концертном зале, баланс по ширине спектра может быть правильным, громко или тихо играет оркестр. Если музыка воспроизводится, например, тише на 10 дБ, воспринимаемый баланс по ширине спектра изменяется одним образом для громких пассажей и изменяется другим образом для тихих пассажей. Традиционный пассивный тонкомпенсированный регулятор громкости не применяет разные компенсации в качестве функции музыки.

В международной патентной заявке № PCT/US 2004/016964, зарегистрированной 27 мая 2004 года, опубликованной 23 декабря 2004 года в качестве WO 2004/111994 A2, Шифельдт и другие раскрывают, среди прочего, систему для измерения и настройки воспринимаемой громкости звукового сигнала. Упомянутая заявка PCT, которая указывает Соединенные Штаты, настоящим включена в состав посредством ссылки во всей своей полноте. В упомянутой заявке психоакустическая модель рассчитывает громкость звукового сигнала в единицах восприятия. В дополнение заявка учреждает технологию для вычисления широкополосного мультипликативного коэффициента усиления, который, когда применяется к аудио, дает в результате громкость модифицированного по коэффициенту усиления аудио, по существу, являющуюся такой же, как эталонная громкость. Однако применение такого широкополосного усиления изменяет воспринимаемый спектральный баланс аудио.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

В одном из аспектов изобретение предусматривает извлечение информации, используемой для регулирования удельной громкости звукового сигнала модифицированием звукового сигнала, для того чтобы уменьшить разницу между его удельной громкостью и целевой удельной громкостью. Удельная громкость является мерой громкости восприятия в качестве функции частоты и времени. В практических реализациях удельная громкость модифицированного звукового сигнала может делаться приближающейся к целевой удельной громкости. Приближение может находиться под влиянием не только соображений обычной сигнальной обработки, но также и временного и/или частотного сглаживания, которое может применяться при модифицировании, как описано ниже.

Так как удельная громкость является мерой громкости восприятия звукового сигнала как функции частоты и времени, для того чтобы уменьшить разность между удельной громкостью звукового сигнала и целевой удельной громкостью, модифицирование может модифицировать звуковой сигнал в качестве функции частоты. Хотя в некоторых случаях целевая удельная громкость может быть не зависящей от времени, и сам звуковой сигнал может быть установившимся не зависящим от времени сигналом, типично модифицирование также может модифицировать звуковой сигнал в качестве функции времени.

Аспекты настоящего изобретения также могут применяться для компенсации фонового шума, вмешивающегося в среду воспроизведения аудио. Когда аудио прослушивается в присутствии фонового шума, шум может частично или полностью маскировать аудио некоторым образом, зависимым как от уровня и спектра аудио, так и от уровня и спектра шума. Результатом является перестройка воспринимаемого спектра аудио. В соответствии с психоакустическим учением (например, смотрите Moore, Glasberg, and Baer, «A Model for the Prediction of Thresholds, Loudness, and Partial Loudness», J. Audio Eng. Soc, Vol. 45, No. 4, April 1997 (Мур, Глазберг и Баер, «Модель для предсказания пороговых значений, громкости и громкости частичных тонов», журнал сообщества звукотехники, том 45, №4, апрель 1997 г.)), можно определять «удельную громкость частичных тонов» аудио как громкость восприятия аудио в присутствии вторичного мешающего звукового сигнала, такого как шум.

Таким образом, в еще одном аспекте изобретение предусматривает извлечение информации, используемой для регулирования удельной громкости звукового сигнала, модифицированием звукового сигнала, для того чтобы уменьшить разницу между его удельной громкостью частичных тонов и целевой удельной громкостью. Выполнение этого смягчает влияния шума точным по ощущениям образом. В этом и других аспектах изобретения, которые учитывают мешающий шумовой сигнал, предполагается, что есть доступ отдельно к звуковому сигналу и отдельно к вторичному мешающему сигналу.

В еще одном аспекте изобретение предусматривает регулирование удельной громкости звукового сигнала модифицированием звукового сигнала, для того чтобы уменьшать разницу между его удельной громкостью и целевой удельной громкостью.

В еще одном аспекте изобретение предусматривает регулирование удельной громкости частичных тонов звукового сигнала модифицированием звукового сигнала, для того чтобы уменьшать разницу между его удельной громкостью и целевой удельной громкостью.

Когда целевая удельная громкость не является функцией звукового сигнала, она может быть хранимой и принимаемой целевой удельной громкостью. Когда целевая удельная громкость не является функцией звукового сигнала, модифицирование или получение может явно или неявно рассчитывать удельную громкость или удельную громкость частичных тонов. Примеры неявного расчета включают в себя справочную таблицу или «отражающее ряд решений» математическое выражение, в котором удельная громкость и/или удельная громкость частичных тонов определяется по своей природе (термин, отражающий ряд решений, упомянут для описания математического выражения, которое может быть точно представлено с использованием конечного количества стандартных математических операций и функций, таких как возведение в степень и косинус). К тому же, когда целевая удельная громкость не является функцией звукового сигнала, целевая удельная громкость может быть независящей как от времени, так и от частоты, или она может быть независящей только от времени.

В еще одном другом аспекте изобретение предусматривает обработку звукового сигнала посредством обработки звукового сигнала или показателя звукового сигнала в соответствии с одной или более последовательностей операций или одним или более параметрами управления последовательностью операций для формирования целевой удельной громкости. Хотя целевая удельная громкость может быть независящей от времени («неизменной»), целевая удельная громкость преимущественно может быть функцией удельной громкости звукового сигнала. Хотя она может быть статическим, независящим от частоты и времени сигналом, типично сам звуковой сигнал является зависящим от частоты и времени, таким образом заставляя целевую удельную громкость быть зависящей от частоты и времени, когда она является функцией звукового сигнала.

Аудио и целевая удельная громкость или представление целевой удельной громкости могут приниматься из передаваемых данных или воспроизводиться с запоминающего носителя.

Представление целевой удельной громкости может быть одним или более масштабными коэффициентами, которые масштабируют звуковой сигнал или показатель звукового сигнала.

Целевая удельная громкость любого из вышеприведенных аспектов изобретения может быть функцией звукового сигнала или показателя звукового сигнала. Одним из подходящих показателей звукового сигнала является удельная громкость звукового сигнала. Функция звукового сигнала или показателя звукового сигнала может быть масштабированием звукового сигнала или показателя звукового сигнала. Например, масштабирование может быть одним или комбинацией из масштабирований:

(a) зависящего от времени и частоты масштабного коэффициента Ξ[b, t], масштабирующего удельную громкость, как в зависимости

(b) зависящего от времени, независящего от частоты масштабного коэффициента Φ[t], масштабирующего удельную громкость, как в зависимости

(c) независящего от времени, зависящего от частоты масштабного коэффициента Θ[b], масштабирующего удельную громкость, как в зависимости

(d) независящего от времени, независящего от частоты масштабного коэффициента α, масштабирующего удельную громкость звукового сигнала, как в зависимости

в которых [b, t] - целевая удельная громкость, N[b, t] - удельная громкость звукового сигнала, b - показатель частоты, а t - показатель времени.

В случае (a) зависящего от времени и частоты масштабного коэффициента масштабирование может определяться по меньшей мере частично отношением требуемой многополосной громкости и многополосной громкости звукового сигнала. Такое масштабирование может быть используемым в качестве регулятора динамического диапазона. Дополнительные подробности аспектов применения изобретения в качестве регулятора динамического диапазона изложены ниже.

К тому же в случае (a) зависящего от времени и частоты масштабного коэффициента удельная громкость может масштабироваться отношением показателя требуемой спектральной формы к показателю спектральной формы звукового сигнала. Такое масштабирование может применяться для преобразования воспринимаемого спектра звукового сигнала из зависящего от времени воспринимаемого спектра в по существу независящий от времени воспринимаемый спектр. Когда удельная громкость масштабируется отношением показателя требуемой спектральной формы к показателю спектральной формы звукового сигнала, такое масштабирование может быть используемым в качестве динамического эквалайзера. Дополнительные подробности аспектов применения изобретения в качестве динамического эквалайзера изложены ниже.

В случае (b) зависящего от времени, независящего от частоты масштабного коэффициента, масштабирование может определяться по меньшей мере частично отношением требуемой широкополосной громкости и широкополосной громкости звукового сигнала. Такое масштабирование может быть используемым в качестве автоматического регулятора усиления или регулятора динамического диапазона. Дополнительные подробности аспектов применения изобретения в качестве автоматического регулятора усиления и регулятора динамического диапазона изложены ниже.

В случае (a) (зависящего от времени и частоты масштабного коэффициента) или случая (b) (зависящего от времени, независящего от частоты масштабного коэффициента) масштабный коэффициент может быть функцией звукового сигнала или показателем звукового сигнала.

В обоих, случае (c) независящего от времени, зависящего от частоты масштабного коэффициента или случае (d) зависящего от времени, независящего от частоты масштабного коэффициента, модифицирование или получение может включать в себя хранение масштабного коэффициента, или масштабный коэффициент может приниматься из внешнего источника.

В любом из случаев (c) и (d) масштабный коэффициент может не быть функцией звукового сигнала или показателя звукового сигнала.

В любом из различных аспектов изобретения и его вариантов модифицирование, получение или формирование могут по-разному явно или неявно рассчитывать (1) удельную громкость и/или (2) удельную громкость частичных тонов, и/или (3) целевую удельную громкость. Неявные расчеты, например, могут заключать в себе справочную таблицу или отражающее ряд решений математическое выражение.

Параметры модификации могут быть сглаженными во времени. Параметрами модификации, например, могут быть (1) множество коэффициентов масштабирования амплитуды, относящихся к полосам частот звукового сигнала, или (2) множество коэффициентов фильтра для управления одним или более фильтрами, такими как многоотводный (с конечной импульсной характеристикой, FIR) КИХ-фильтр или многополюсный (с бесконечной импульсной характеристикой, IIR) БИХ-фильтр. Коэффициенты масштабирования или коэффициенты фильтра (и фильтры, к которым они применяются) могут быть зависящими от времени.

При расчете функции удельной громкости звукового сигнала, которая определяет целевую удельную громкость, или инверсии такой функции, последовательность операций или последовательности операций, выполняющие такие расчеты, работают в том, что может быть охарактеризовано как область (психоакустической) громкости восприятия - входными данными и выходными данными расчета являются удельные громкости. В противоположность при применении коэффициентов масштабирования амплитуды к полосам частот звукового сигнала или применении коэффициентов фильтра к регулируемой фильтрации звукового сигнала параметры модификации действуют для модифицирования звукового сигнала вне области (психоакустической) громкости восприятия, в том, что может характеризоваться как область электрических сигналов. Хотя модификации в отношении звукового сигнала могут производиться в отношении звукового сигнала в области электрических сигналов, такие изменения в области электрических сигналов получаются из расчетов в области (психоакустической) громкости восприятия, из условия, чтобы модифицированный звуковой сигнал имел удельную громкость, которая приближается к требуемой целевой удельной громкости.

Получением параметров модификации из расчетов в области громкости может достигаться больший контроль над громкостью восприятия и спектральным балансом восприятия, чем если бы такие параметры модификации получались в области электрических сигналов. В дополнение использование психоакустической гребенки фильтров имитации базилярной мембраны или ее эквивалентов при выполнении расчетов в области громкости может обеспечивать более детальное регулирование воспринимаемого спектра, чем в компоновках, которые получают параметры модификации в области электрических сигналов.

Каждое из модифицирования, получения и формирования может быть зависимым от одного или более из показателя мешающего звукового сигнала, целевой удельной громкости, оценки удельной громкости немодифицированного звукового сигнала, полученной из удельной громкости или удельной громкости частичных тонов модифицированного звукового сигнала, удельной громкости немодифицированного звукового сигнала и приближения к целевой удельной громкости, полученного из удельной громкости или удельной громкости частичных тонов модифицированного звукового сигнала.

Модифицирование или получение могут получать параметры модификации по меньшей мере частично из одного или более из показателя мешающего звукового сигнала, целевой удельной громкости, оценки удельной громкости немодифицированного звукового сигнала, полученной из удельной громкости или удельной громкости частичных тонов модифицированного звукового сигнала, удельной громкости немодифицированного звукового сигнала и приближения к целевой удельной громкости, полученного из удельной громкости или удельной громкости частичных тонов модифицированного звукового сигнала.

Более точно, модифицирование или получение могут получать параметры модификации по меньшей мере частично из

(1) одного из

целевой удельной громкости, и

оценки удельной громкости немодифицированного звукового сигнала, полученной из удельной громкости модифицированного звукового сигнала, и

(2) одного из

удельной громкости немодифицированного звукового сигнала, и

приближения к целевой удельной громкости, полученного из удельной громкости модифицированного звукового сигнала,

или, когда должен учитываться мешающий звуковой сигнал, модифицирование или получение могут получать параметры модификации по меньшей мере частично из

(1) показателя мешающего звукового сигнала,

(2) одного из

целевой удельной громкости, и

оценки удельной громкости немодифицированного звукового сигнала, полученной из удельной громкости частичных тонов модифицированного звукового сигнала, и

(3) одного из

удельной громкости немодифицированного звукового сигнала, и

приближения к целевой удельной громкости, полученного из удельной громкости частичных тонов модифицированного звукового сигнала.

Может применяться компоновка с прямой связью, в которой удельная громкость получается из звукового сигнала и в которой целевая удельная громкость принимается из источника, внешнего по отношению к способу, или из хранения, когда модифицирование или получение включает в себя хранение целевой удельной громкости. В качестве альтернативы может применяться компоновка со смешанной прямой связью/обратной связью, в которой приближение к целевой удельной громкости получается из модифицированного звукового сигнала, и в которой целевая удельная громкость принимается из источника, внешнего по отношению к способу, или из хранения, когда модифицирование или получение включает в себя хранение целевой удельной громкости.

Модифицирование или получение могут включать в себя одну или более последовательностей операций для получения, явно или неявно, целевой удельной громкости, таковая или таковые из которых рассчитывают, явно или неявно, функцию звукового сигнала или показателя звукового сигнала. В одном из альтернативных вариантов может применяться компоновка с прямой связью, в которой удельная громкость и целевая удельная громкость получаются из звукового сигнала, получение целевой удельной громкости применяет функцию звукового сигнала или показателя звукового сигнала. В одном из альтернативных вариантов, может применяться компоновка со смешанной прямой связью/обратной связью, в которой приближение целевой удельной громкости получается из модифицированного звукового сигнала, а целевая удельная громкость получается из звукового сигнала, получение целевой удельной громкости применяет функцию звукового сигнала или показателя звукового сигнала.

Модифицирование или получение могут включать в себя одну или более последовательностей операций для получении, явно или неявно, оценки удельной громкости немодифицированного звукового сигнала в ответ на модифицированный звуковой сигнал, таковая или таковые из которых рассчитывают, явно или неявно, инверсию функции звукового сигнала или показателя звукового сигнала. В одном из альтернативных вариантов применяется компоновка с обратной связью, в которой оценка удельной громкости немодифицированного звукового сигнала и приближение к целевой удельной громкости получаются из модифицированного звукового сигнала, оценка удельной громкости рассчитывается с использованием инверсии функции звукового сигнала или показателя звукового сигнала. В еще одном альтернативном варианте применяется компоновка со смешанной прямой связью/обратной связью, в которой удельная громкость получается из звукового сигнала, а оценка удельной громкости немодифицированного звукового сигнала получается из модифицированного звукового сигнала, получение оценки рассчитывается с использованием инверсии упомянутой функции звукового сигнала или показателя звукового сигнала.

Параметры модификации могут применяться к звуковому сигналу для формирования модифицированного звукового сигнала.

Еще один аспект изобретения состоит в том, что может быть временное и/или пространственное разделение последовательностей операций или устройств, так что, в действительности, есть кодировщик или кодирование, а также декодер или декодирование. Например, может быть система кодирования/декодирования, в которой модифицирование или получение может передавать и принимать или хранить, а также воспроизводить звуковой сигнал и либо (1) параметры модификации либо (2) целевую удельную громкость или представление целевой удельной громкости. В качестве альтернативы, в действительности, может быть только кодировщик или кодирование, в котором есть передача или хранение звукового сигнала и (1) параметров модификации, либо (2) целевой удельной громкости или представления целевой удельной громкости. В качестве альтернативы, как упомянуто выше, в действительности, может быть только декодер или декодирование, в котором есть прием или воспроизведение звукового сигнала и (1) параметров модификации либо (2) целевой удельной громкости или представления целевой удельной громкости.

ОПИСАНИЕ ЧЕРТЕЖЕЙ

Фиг.1 - функциональная структурная схема, иллюстрирующая пример реализации с прямой связью согласно аспектам изобретения.

Фиг.2 - функциональная структурная схема, иллюстрирующая пример реализации с обратной связью согласно аспектам изобретения.

Фиг.3 - функциональная структурная схема, иллюстрирующая пример реализации со смешанной прямой связью/обратной связью согласно аспектам изобретения.

Фиг.4 - функциональная структурная схема, иллюстрирующая пример еще одной реализации со смешанной прямой связью/обратной связью согласно аспектам изобретения.

Фиг.5 - функциональная структурная схема, иллюстрирующая образ действий, которым немодифицированный звуковой сигнал и параметры модификации, которые определены любой одной из компоновок с прямой связью, обратной связью или со смешанной прямой связью/обратной связью, могут храниться или передаваться для использования, например, в разделенных временным и пространственным образом устройстве или последовательности операций.

Фиг.6 - функциональная структурная схема, иллюстрирующая образ действий, которым немодифицированный звуковой сигнал и целевая удельная громкость или ее представление, которые определены любой одной из компоновок с прямой связью, обратной связью или со смешанной прямой связью/обратной связью, могут храниться или передаваться для использования, например, в разделенных временным и пространственным образом устройстве или последовательности операций.

Фиг.7 - схематическая функциональная структурная схема или схематическая блок-схема последовательности операций способа, показывающая общее представление аспекта настоящего изобретения.

Фиг.8 - идеализированная типовая характеристика линейного фильтра P(z), пригодного в качестве фильтра передачи в варианте осуществления настоящего изобретения, в котором вертикальной осью является затухание в децибелах (дБ), а горизонтальной осью является логарифмическая, по основанию 10, частота в Герцах (Гц).

Фиг.9 показывает зависимость между шкалой частот ERB (вертикальная ось) и частотой в Герцах (горизонтальная ось).

Фиг.10 показывает набор идеализированных типовых характеристик слухового фильтра, которые аппроксимируют определение критической полосы по шкале ERB. Горизонтальной шкалой является частота в Герцах, а вертикальной шкалой является уровень в децибелах.

Фиг.11 показывает кривые равной громкости по ISO 226. Горизонтальной шкалой является частота в Герцах (логарифмическая, по основанию 10, шкала), а вертикальной шкалой является уровень звукового давления в децибелах.

Фиг.12 показывает кривые равной громкости по ISO 226, нормализованные фильтром P(z) передачи. Горизонтальной шкалой является частота в Герцах (логарифмическая, по основанию 10, шкала), а вертикальной шкалой является уровень звукового давления в децибелах.

Фиг.13a - идеализированный график, показывающий широкополосные и многополосные коэффициенты усиления для масштабирования громкости в 0,25 на сегменте женской речи. Горизонтальной шкалой являются полосы ERB, а вертикальной шкалой является относительный коэффициент усиления в децибелах (dB).

Фиг.13b - идеализированный график, показывающий удельную громкость соответственно исходного сигнала, модифицированного широкополосным коэффициентом усиления сигнала, и модифицированного многополосным коэффициентом усиления сигнала. Горизонтальной шкалой являются полосы ERB, а вертикальной шкалой является удельная громкость (сон/ERB).

Фиг.14a - идеализированный график, показывающий: L _o[t] в качестве функции L _i[t] для типичной АРУ. Горизонтальной шкалой является log(L _i[t]), а вертикальной шкалой является log(L _o[t]).

Фиг.14b - идеализированный график, показывающий: L _o[t] в качестве функции L _i[t] для типичной DRC. Горизонтальной шкалой является log(L _i[t]), а вертикальной шкалой является log(L _o[t]).

Фиг.15 - идеализированный график, показывающий типичную функцию сглаживания полос для многополосной DRC. Горизонтальной шкалой является номер полосы, а вертикальной шкалой является выход коэффициента усиления для полосы b.

Фиг.16 - схематическая функциональная структурная схема или схематическая блок-схема последовательности операций способа, показывающая общее представление аспекта настоящего изобретения.

Фиг.17 - схематическая функциональная структурная схема или схематическая блок-схема последовательности операций способа, подобные фиг.1, которая к тому же включает в себя компенсацию шума в среде воспроизведения.

НАИЛУЧШИЙ ВАРИАНТ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ

Фиг.с 1 по 4 показывают функциональные структурные схемы, иллюстрирующие возможные примеры реализаций с прямой связью обратной связью и два варианта со смешанной прямой связью/обратной связью, согласно аспектам изобретения.

Со ссылкой на пример топологии с прямой связью на фиг.1 звуковой сигнал подается в два тракта: (1) сигнальный тракт, содержащий последовательность операций, или устройство 2 («Модифицировать звуковой сигнал»), способные к модификации аудио в ответ на параметры модификации, (2) тракт управления, содержащий последовательность управления, или устройство 4 («Сформировать параметры модификации»), способные к формированию таких параметров модификации. Модифицировать звуковой сигнал 2 в примере топологии с прямой связью фиг.1 и в каждом из примеров фиг.2-4 можно устройством или последовательностью операций, которые модифицируют звуковой сигнал, например его амплитуду, зависящий от частоты и/или времени образом в соответствии с параметрами M модификации, принятыми из Сформировать параметры модификации, 4, (или из эквивалентных последовательностей операций или устройств 4', 4" и 4''', в каждом из примеров фиг.2-4 соответственно). Сформировать параметры модификации, 4, и его эквиваленты на фиг.2-4 каждый работают по меньше мере частично в области громкости восприятия. Модифицировать звуковой сигнал, 2, работает в области электрических сигналов и формирует модифицированный звуковой сигнал в каждом из примеров фиг.1-4. К тому же в каждом из примеров фиг.1-4, Модифицировать звуковой сигнал, 2, и Сформировать параметры модифи

Расчет и регулировка воспринимаемой громкости и/или воспринимаемого спектрального баланса звукового сигнала

Патент 2426180