Регулировка усиления звука с использованием основанного на конкретной громкости обнаружения акустических событий
Иллюстрации
Показать всеИзобретение относится к регулировке динамического диапазона звука. Техническим результатом является регулировка ключевых параметров динамической обработки звукового сигнала с использованием результатов анализа акустических сцен. Результат достигается тем, что в одном раскрытом аспекте изменения динамического усиления применяют к звуковому сигналу, по меньшей мере, частично в ответ на акустические события и/или степень изменения характеристик сигнала, связанных с границами акустического события. В другом аспекте звуковой сигнал делят на акустические события, сравнивая разницу между конкретными громкостями между последовательными блоками времени звукового сигнала. 3 н. и 10 з.п. ф-лы, 11 ил.
Реферат
Область техники, к которой относится изобретение
Изобретение относится к способам регулировки динамического диапазона звука и аппаратуре, в которой устройство обработки звука анализирует звуковой сигнал и изменяет уровень, коэффициент усиления или динамический диапазон звука, и все или некоторые параметры усиления звука и динамической обработки генерируются в виде функции акустических событий. Изобретение также относится к компьютерным программам для осуществления на практике таких способов или управления такой аппаратурой.
Настоящее изобретение также относится к способам и аппаратуре, использующим основанное на конкретной громкости обнаружение акустических событий. Изобретение также относится к компьютерным программам для осуществления на практике таких способов или управления такой аппаратурой.
ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИ ИЗОБРЕТЕНИЯ
Динамическая обработка звука
Технологии автоматической регулировки усиления (AGC) и регулировки динамического диапазона (DRC) хорошо известны и являются обычным элементом многих путей звукового сигнала. В абстрактном смысле обе технологии неким образом измеряют уровень звукового сигнала и затем изменяют коэффициент усиления сигнала на величину, которая является функцией измеренного уровня. В линейной динамической системе со степенью компрессии (сжатия) 1:1 входной сигнал не обрабатывается, и выходной сигнал идеально совпадает с входным звуковым сигналом. Дополнительно, если имеет место динамическая система обработки звука, которая автоматически измеряет характеристики входного сигнала и использует это измерение для регулировки выходного сигнала, если уровень входного сигнала увеличивается на 6 дБ, а выходной сигнал обрабатывается таким образом, что его уровень увеличивается только на 3 дБ, степень компрессии для выходного сигнала составляет 2:1 по отношению к входному сигналу. Международная публикация под номером WO 2006/047600 A1 (“Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal”, Alan Jeffrey Seefeldt (“Вычисление и настройка воспринимаемой громкости и/или воспринимаемый спектральный баланс звукового сигнала”, Алан Джеффри Сифелдт)) обеспечивает подробный обзор пяти основных типов динамической обработки звука: компрессия, ограничение, автоматическая регулировка усиления (AGC), расширение и пропускание.
АКУСТИЧЕСКИЕ СОБЫТИЯ И ОБНАРУЖЕНИЕ АКУСТИЧЕСКИХ СОБЫТИЙ
Разделение звуков на блоки или сегменты, которые воспринимаются как отдельные и различные, иногда называют “анализом акустических событий” или “анализом акустических сцен” (ASA), и сегменты иногда называются “акустическими событиями” или “звуковыми событиями”. Подробное обсуждение анализа акустических сцен изложено Альбертом С. Брегманом в его книге Auditory Scene Analysis-The Perceptual Organization of Sound (Анализ акустических сцен - воспринимаемая организация звука), Институт технологии Массачусетса, 1991, четвертая печать, 2001, второе издание в бумажном переплете MIT Press. Дополнительно патент США №6002776, выданный Bhadkamkar (Бхадкамкар) и др. 14 декабря 1999, ссылается на публикации, относящиеся к 1976, как на “работу предшествующего уровня техники, относящуюся к выделению звука посредством анализа акустических сцен”. Тем не менее, патент Бхадкамкар и др. не одобряет практического использования анализа акустических сцен, заключая, что “технологии, включающие анализ акустических сцен, хотя и интересны с научной точки зрения в качестве моделей обработки человеческого слуха, в настоящее время требуют слишком много вычислений и могут рассматриваться как практические технологии для выделения звука до достижения фундаментального прогресса”.
Полезный способ идентификации акустических событий изложен Crockett и Crocket и др. (Крокетт и Крокет и др.) в различных патентных заявках и статьях, перечисленных ниже под заголовком “Включение посредством ссылки”. Согласно этим документам звуковой сигнал делится на акустические события, каждое из которых стремится к тому, что оно воспринимается как отдельное и отличное от других событие, посредством обнаружения изменений спектрального состава (амплитуды как функции частоты) со временем. Это можно сделать, например, вычисляя спектральный состав последовательных временных блоков звукового сигнала и идентифицируя границу акустического события как границу между последовательными временными блоками, если разница в спектральном составе между такими последовательными временными блоками превышает пороговую величину. Альтернативно вместо изменений спектрального состава со временем или дополнительно к ним могут быть вычислены изменения амплитуды со временем.
При реализации, требующей минимальных вычислений, процесс делит звуковой сигнал на временные сегменты, анализируя всю полосу частот (полную полосу пропускания звукового сигнала) или, по существу, целую полосу частот (в конкретных реализациях часто используется фильтр ограничения полосы частот на концах спектра) и придавая набольшее значение самым громким компонентам звукового сигнала. Этот подход использует преимущество явления, относящегося к психологии слухового восприятия, при котором при меньшей шкале времени (20 миллисекунд (мсек) и меньше) ухо может иметь склонность к фокусировке на одном акустическом событии за заданное время. Это подразумевает, что хотя одновременно может происходить несколько событий, одна компонента стремится к большему выделению при восприятии и может быть обработана индивидуально, как если бы она была единственным событием, которое имело место. Использование преимущества этого эффекта также допускает обнаружение акустического события, сопоставимое со сложностью обработанного звукового сигнала. Например, если обработанным входным звуковым сигналом является звук сольного инструмента, идентифицированными акустическими событиями вероятнее всего будут отдельные сыгранные ноты. Подобным образом, для входного речевого сигнала скорее всего будут идентифицированы отдельные компоненты речи, гласные звуки и согласные звуки в качестве отдельных звуковых элементов. С увеличением сложности звукового сигнала, например музыки с барабанным боем или несколькими инструментами и голосом, обнаружение акустического события идентифицирует “самый выделяющийся” (т.е. самый громкий) звуковой элемент в любой заданный момент.
За счет большей вычислительной сложности процесс может также учесть изменения спектрального состава со временем в дискретных частотных поддиапазонах (постоянных или динамически определенных поддиапазонах или постоянных и динамически определенных поддиапазонах), а не на полной полосе пропускания. Этот альтернативный подход учитывает более одного звукового потока в разных частотных поддиапазонах, а не предполагает, что только один поток может быть воспринят в конкретный момент времени.
Обнаружение акустического события может быть реализовано разделением звукового сигнала временной области на временные интервалы или блоки и затем преобразованием данных из каждого блока в частотную область, используя либо гребенку фильтров, либо частотно-временное преобразование, например FFT. Амплитуда спектральных составляющих каждого блока может быть нормирована для исключения или уменьшения эффекта амплитудных изменений. Каждое результирующее представление частотной области обеспечивает индикацию спектрального состава звука в конкретном блоке. Спектральный состав последовательных блоков сравнивается, и изменения, которые превышают пороговое значение, могут быть взяты для индикации временного начала или временного конца акустического события.
Предпочтительно данные частотной области нормируются, как описано ниже. Степень, до которой данные частотной области должны быть нормированы, дает индикацию амплитуды. Следовательно, если изменение в этой степени превышает заранее заданное пороговое значение, это также может быть принято за индикацию границ события. Начальные и конечные точки события, которые являются результатом спектральных изменений и амплитудных изменений, могут быть логически сложены вместе, чтобы границы события, полученные в результате изменений обоих типов, были идентифицированы.
Хотя технологии, описанные в упомянутых публикациях и статьях Крокетт и Крокет и др., являются, в частности, полезными вместе с аспектами настоящего изобретения, другие технологии для идентификации акустических событий и границ события могут быть использованы в аспектах настоящего изобретения.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
Традиционная динамическая обработка звукового сигнала предшествующего уровня техники задействует умножение звукового сигнала на зависящий от времени управляющий сигнал, который настраивает усиление звукового сигнала, получая требуемый результат. “Усилением” является масштабный коэффициент, который изменяет масштаб амплитуды звукового сигнала. Этот управляющий сигнал может генерироваться на постоянной основе или из блоков звуковых данных, но обычно его производит некоторая форма измерения обработанного звукового сигнала, и скорость его изменения определяют сглаживающие фильтры, иногда с постоянными характеристиками, а иногда с характеристиками, которые изменяются с динамикой звукового сигнала. Например, время отклика можно настроить в соответствии с изменениями магнитуды или мощности звукового сигнала. Способы предшествующего уровня техники, такие как автоматическая регулировка усиления (AGC) и компрессия динамического диапазона (DRC), не определяют каким-либо относящимся к психологии слухового восприятия способом временные интервалы, в течение которых изменения усиления могут быть восприняты как ухудшение и когда они могут быть применены без передачи слышимых артефактов. Следовательно, традиционные звуковые динамические процессы могут часто вносить слышимые артефакты, т.е. эффекты динамической обработки могут внести нежелательные воспринимаемые изменения в звуковой сигнал.
Анализ акустических сцен идентифицирует воспринимаемые дискретные акустические события, причем каждое событие происходит между двумя последовательными границами акустических событий. Акустические ухудшения, вызванные изменением усиления, могут быть значительно уменьшены обеспечением того, что в пределах акустического события усиление остается почти постоянным, и ограничением большей части изменения по соседству с границей события. В контексте компрессоров (средств сжатия) и расширителей (средств расширения) отклик на увеличение уровня звукового сигнала (часто называемое атакой) может быть быстрым, сравнимым с минимальной продолжительностью акустических событий или короче, но отклик на уменьшение (отпускание или возврат) может быть медленнее, так что звуки, которые должны казаться постоянными или должны постепенно ослабляться, могут быть явно нарушены. При таких обстоятельствах очень выгодно задержать возврат усиления до следующей границы или замедлить скорость изменения усиления во время события. Для приложений автоматической регулировки усиления, когда уровень громкости звука с продолжительностью от средней до длительной нормируется и оба времени атаки и возврата могут, следовательно, быть длительными по сравнению с минимальной продолжительностью акустического события, выгодно во время событий задержать изменения или замедлить скорости изменения усиления до границы следующего события для увеличивающего усиления и для уменьшающего усиления.
Согласно одному аспекту настоящего изобретения система обработки звукового сигнала принимает звуковой сигнал и анализирует, и изменяет характеристики усиления и/или динамического диапазона звукового сигнала. Изменением динамического диапазона звукового сигнала часто управляют параметры динамической системы обработки (время атаки и возврата, степень компрессии и т.д.), которые значительно влияют на воспринимаемые артефакты, вносимые динамической обработкой. Изменения характеристик сигнала со временем в звуковом сигнале обнаруживаются и идентифицируются как границы акустического события, так что звуковой сегмент между последовательными границами составляет акустическое событие в звуковом сигнале. Представляющие интерес характеристики акустических событий могут включать в себя такие характеристики событий, как сила и продолжительность восприятия. Некоторые из упомянутых одного или более параметров динамической обработки генерируются, по меньшей мере, частично в ответ на акустические события и/или степень изменения характеристик сигнала, связанных с упомянутыми границами акустического события.
Обычно акустическим событием является сегмент звукового сигнала, который имеет склонность к тому, что он воспринимается как отдельный и отличный от других сегмент. Одно используемое измерение характеристик сигнала включает в себя измерение спектрального состава звукового сигнала, например, как описано в упомянутых документах Крокетт и Крокет и др. Все или некоторые из одного или более параметров динамической обработки звукового сигнала могут генерироваться, по меньшей мере, частично в ответ на наличие или отсутствие и характеристики одного или более акустического события. Граница акустического события может быть идентифицирована как изменение характеристик сигнала со временем, которое превышает пороговое значение. Альтернативно все или некоторые из одного или более параметров могут генерироваться, по меньшей мере, частично в ответ на продолжающееся измерение степени изменения характеристик сигнала, связанных с упомянутыми границами акустического события. Хотя в принципе аспекты изобретения могут быть реализованы в аналоговых и/или цифровых областях, практические реализации вероятнее всего должны быть реализованы в цифровой области, в которой каждый из звуковых сигналов представлен отдельными выборками или выборками в пределах блоков данных. В этом случае характеристиками сигнала может быть спектральный состав звукового сигнала в пределах блока, обнаружением изменений в характеристиках сигнала со временем может быть обнаружение изменений спектрального состава звукового сигнала от блока к блоку, и начальная и конечная границы акустического события, каждая, совпадает с границами блока данных. Следует заметить, что для более традиционного случая выполнения динамических изменений усиления на основе выборок описанный анализ акустических сцен может быть выполнен на основе блока и результирующей информации об акустическом событии, используемой для выполнения динамических изменений усиления, которые были применены к выборкам.
Регулируя ключевые параметры динамической обработки звукового сигнала с использованием результатов анализа акустических сцен, можно получить внезапное уменьшение слышимых артефактов, вносимых динамической обработкой.
Настоящее изобретение представляет два способа выполнения анализа акустических сцен. Первый способ выполняет спектральный анализ и идентифицирует положение воспринимаемых звуковых событий, которые используются для регулировки параметров динамического усиления, идентифицируя изменения в спектральном составе. Второй способ преобразует звуковой сигнал в область воспринимаемой громкости (которая может обеспечить более релевантную, относящуюся к психологии слухового восприятия, информацию, чем первый способ) и идентифицирует положение акустических событий, которые потом используются для регулировки параметров динамического усиления. Следует заметить, что второй способ требует, чтобы обработка звукового сигнала знала об уровнях абсолютного воспроизведения звука, которые могут быть невозможны при некоторых реализациях. Представление обоих способов анализа акустических сцен допускает реализации изменения динамического усиления, регулируемого на основе ASA, с использованием процессов или устройств, которые могут или не могут быть откалиброваны для учета уровней абсолютного воспроизведения.
Аспекты настоящего изобретения описаны здесь в условиях динамической обработки звукового сигнала, которая включает аспекты других изобретений. Такие другие изобретения описаны в различных рассматриваемых патентных заявках США и международных патентных заявках Dolby Laboratories Licensing Corporation владельцем настоящей заявки, причем эти заявки установлены здесь.
ПЕРЕЧЕНЬ ЧЕРТЕЖЕЙ
Фиг.1 является логической блок-схемой, показывающей пример этапов обработки для выполнения анализа акустических сцен.
Фиг.2 показывает пример обработки блока, применения окна и выполнения DFT в отношении звукового сигнала во время выполнения анализа акустических сцен.
Фиг.3 является в своем роде логической блок-схемой или функциональной блок-схемой, показывающей параллельную обработку, при которой звуковой сигнал используют для идентификации акустических событий и для идентификации характеристик акустических событий из условия, чтобы события и их характеристики были использованы для изменения параметров динамической обработки.
Фиг.4 является в своем роде логической блок-схемой или функциональной блок-схемой, показывающей обработку, при которой звуковой сигнал используют только для идентификации акустических событий, а характеристики события определяют из обнаружения акустического события из условия, чтобы события и их характеристики были использованы для изменения параметров динамической обработки.
Фиг.5 является в своем роде логической блок-схемой или функциональной блок-схемой, показывающей обработку, при которой звуковой сигнал используют только для идентификации акустических событий, а характеристики события определяют из обнаружения акустического события из условия, чтобы только характеристики акустических событий были использованы для изменения параметров динамической обработки.
Фиг.6 показывает набор идеализированных характеристических характеристик звукового фильтра, который аппроксимирует критическую полосность шкалы ERB. По горизонтальной шкале отмечена частота в герцах, а по вертикальной шкале - уровень в децибелах.
Фиг.7 показывает контуры одинаковой громкости ISO 226. По горизонтальной шкале отмечена частота в герцах (шкала десятичных логарифмов), а по вертикальной шкале отмечен уровень звукового давления в децибелах.
Фиг.8,а-с показывают идеализированные входные/выходные характеристики и входные характеристики усиления компрессора динамического диапазона звука.
Фиг.9,a-f показывают пример использования акустических событий для регулировки времени возврата при цифровой реализации традиционного контроллера динамического диапазона (DRC), при которой регулировку усиления извлекают из среднеквадратического (RMS) значения мощности сигнала.
Фиг.10,a-f показывают пример использования акустических событий для регулировки времени возврата при цифровой реализации традиционного контроллера динамического диапазона (DRC), при которой регулировку усиления извлекают из среднеквадратического (RMS) значения мощности сигнала для сигнала, альтернативного используемому на Фиг.9 сигналу.
Фиг.11 изображает соответствующий набор идеализированных кривых AGC и DRC для применения AGC, за которой следует DRC, в системе динамической обработки области громкости. Задачей комбинации является получение приблизительно одинаковой воспринимаемой громкости для всех обработанных звуковых сигналов, сохраняя при этом, по меньшей мере, некоторые из исходных динамических характеристик звукового сигнала.
ЛУЧШИЙ РЕЖИМ ДЛЯ ВЫПОЛНЕНИЯ ИЗОБРЕТЕНИЯ
АНАЛИЗ АКУСТИЧЕСКИХ СЦЕН (ПЕРВОНАЧАЛЬНЫЙ СПОСОБ, ПРИ КОТОРОМ ОТСУТСТВУЕТ ОБЛАСТЬ ГРОМКОСТИ)
Согласно воплощению одного аспекта настоящего изобретения анализ акустических сцен может состоять из четырех общих этапов обработки, как показано на участке Фиг.1. На первом этапе 1-1 (“Выполнить спектральный анализ”) берут звуковой сигнал временной области, делят его на блоки и вычисляют спектральный профиль или спектральный состав для каждого из блоков. Спектральным анализом преобразуют звуковой сигнал в короткопериодную частотную область. Это можно выполнить, используя любую гребенку фильтров, основанную либо на преобразованиях, либо на блоках полосовых фильтров, и либо в линейном, либо искаженном частотном пространстве (например, шкале Барка (Bark) или критической полосе, которые лучше аппроксимируют характеристики человеческого уха). При наличии любой гребенки фильтров имеет место компромисс между временем и частотой. Большее разрешение по времени и, следовательно, более короткие интервалы времени приводят к меньшему разрешению по частоте. Большее разрешение по частоте и, следовательно, более узкие поддиапазоны приводят к более длительным интервалам времени.
На первом этапе, проиллюстрированном по существу на Фиг.1, вычисляют спектральный состав последовательных сегментов времени звукового сигнала. В практическом воплощении размер блока ASA может состоять из любого числа выборок входного звукового сигнала, хотя 512 выборок обеспечивают хороший компромисс между разрешениями по времени и частоте. На втором этапе 1-2 определяют разницу между спектральными составами от блока к блоку («Выполнить измерения разницы спектральных профилей»). Таким образом, на втором этапе вычисляют разницу спектральных составов между последовательными сегментами времени звукового сигнала. Как обсуждалось выше, изменение спектрального состава считается эффективным индикатором начала или конца воспринятого акустического события. На третьем этапе 1-3 ("Идентифицировать положение границ акустического события"), когда разница спектральных составов между одним блоком спектрального профиля и следующим превышает пороговую величину, за границу акустического события принимают границу блока. Звуковой сегмент между последовательными границами составляет акустическое событие. Таким образом, на третьем этапе устанавливают границы акустического события между последовательными сегментами времени, когда разница спектральных профилей между такими последовательными сегментами времени превышает пороговую величину, определяя, таким образом, акустические события. В этом воплощении границы акустического события определяют акустические события, имеющие длину, которая является целым кратным длине блоков спектрального профиля при минимальной длине одного блока спектрального профиля (512 выборок в данном примере). В принципе границы события необязательно должны быть так ограничены. В качестве альтернативы обсужденным здесь практическим воплощениям размер входного блока может меняться, например, чтобы быть равным, по существу, размеру акустического события.
После идентификации границ события определяют ключевые характеристики акустического события, как показано на этапе 1-4.
Перекрывающиеся или неперекрывающиеся сегменты звукового сигнала могут быть реализованы посредством применения окна и использованы для вычисления спектральных профилей входящего звукового сигнала. Перекрытие приводит к более хорошему разрешению в отношении положения акустических событий и уменьшает вероятность пропуска события, такого как короткий одиночный импульс. Тем не менее, перекрытие также увеличивает вычислительную сложность. Таким образом, перекрытие можно исключить. Фиг.2 показывает принципиальное представление неперекрывающихся N блоков выборок, реализованных посредством применения окна и преобразованных в частотную область посредством дискретного преобразования Фурье (DFT). Каждый блок может быть реализован посредством применения окна и преобразован в частотную область, например посредством DFT, предпочтительно реализованным как быстрое преобразование Фурье (FFT) для скорости.
Следующие переменные могут быть использованы для вычисления спектрального профиля входного блока:
М = число выборок, охватываемых окном, в блоке, используемом для вычисления спектрального профиля;
Р = число перекрывающихся выборок при спектральном вычислении.
В общем для вышеупомянутых переменных могут быть использованы любые целые числа. Тем не менее, реализация будет более эффективной, если установить М, равным степени числа 2, чтобы можно было использовать стандартные преобразования FFT для вычислений спектрального профиля. В практическом воплощении процесса анализа акустических сцен перечисленные параметры можно установить равными:
М = 512 выборок (или 11,6 мсек при 44,1 кГц);
Р = 0 выборок (без перекрытия).
Вышеперечисленные значения были определены экспериментально и было обнаружено, что они с достаточной точностью идентифицируют положение и продолжительность акустических событий. Тем не менее, было обнаружено, что установка значения Р, равного 256 выборкам (50% перекрытия), а не нулю выборок (без перекрытия), полезна при идентификации некоторых труднообнаруживаемых событий. Хотя для минимизации спектральных артефактов вследствие применений окон могут быть использованы многие различные типы окон, используемым при вычислениях спектрального профиля окном является окно типа M-точечное Hanning, Kaiser-Bessel или другое подходящее, предпочтительно, непрямоугольное окно. Вышеуказанные значения и окно типа Hanning были выбраны после продолжительного анализа экспериментов, так как было показано, что они обеспечивают превосходные результаты для широкого диапазона звуковых материалов. Применение непрямоугольных окон предпочтительно для обработки звуковых сигналов с преимущественно низкочастотным содержанием. Применение прямоугольных окон производит спектральные артефакты, которые могут стать причиной некорректного обнаружения событий. В отличие от определенных кодирующих/декодирующих приложений (кодеков), где процесс полного перекрытия/суммирования должен обеспечивать постоянный уровень, такое ограничение неприменимо здесь, и окно может быть выбрано из-за его характеристик, таких как разрешение по времени/частоте и подавление с помощью полосы задерживания.
На этапе 1-1 (Фиг.1) спектр каждого блока М-выборки может быть вычислен получением данных посредством применения окна, такого как M-точечное Hanning, Kaiser-Bessel или другого подходящего окна, преобразованием в частотную область, используя M-точечное быстрое преобразование Фурье, и вычислением величины комплексных коэффициентов FFT. Результирующие данные нормируют, принимая наибольшую величину за единицу, и нормированный массив из М чисел преобразуют в логарифмическую область. Данные могут быть также нормированы на некоторые другие показатели, такие как значение средней величины или значение средней мощности данных. Преобразование массива в логарифмическую область необязательно, но оно упрощает вычисление значения разницы на этапе 1-2. Кроме того, логарифмическая область ближе соответствует природе человеческой зрительной системы. Значения результирующей логарифмической области имеют диапазон от минус бесконечности до нуля. В практическом воплощении на диапазон значений может накладываться нижний предел; ограничение может быть постоянным, например -60 дБ, или может зависеть от частоты для отражения более низкой слышимости тихих звуков при низких и очень высоких частотах. (Заметим, что можно было бы уменьшить размер массива до M/2 по той причине, что FFT представляет отрицательные, так же как и положительные частоты).
На этапе 1-2 вычисляют меру разницы между спектрами соседних блоков. Для каждого блока каждый из М (логарифмических) спектральных коэффициентов, вычисленных на этапе 1-1, вычитают из соответствующего коэффициента для предшествующего блока, и вычисляют значение разницы (не учитывая знак). Эти М разницы затем складывают в одно число. Эту меру значение разницы можно также выразить как среднюю разницу, приходящуюся на спектральный коэффициент, делением меры разницы на количество спектральных коэффициентов, используемых в сложении (в данном случае - М коэффициентов).
На этапе 1-3 идентифицируют положение границ акустических событий применением пороговой величины к массиву мер разницы, вычисленных на этапе 1-2. Когда мера разницы превышает пороговую величину, изменение спектра считают достаточным для сигнализации о новом событии, и номер блока с изменением регистрируют как границу события. Для значений М и Р, данных выше, и для значений логарифмической области (полученных на этапе 1-1), выраженных в единицах дБ, пороговая величина может быть установлена равной 2500, если сравнивается вся величина FFT (включая отрицательную часть), или 1250, если сравнивается половина FFT (как отмечено выше, FFT представляет отрицательные, так же как и положительные частоты, для величины FFT одна частота является зеркальным отображением другой). Это значение может быть выбрано экспериментально, и оно обеспечивает хорошее обнаружение границ акустического события. Это значение параметра может быть изменено для уменьшения (увеличив пороговую величину) или увеличения (уменьшив пороговую величину) обнаружения событий.
Процесс на Фиг.1 может быть представлен в более обычном виде эквивалентными выполнениями, представленными на Фиг.3-5. На Фиг.3 к звуковому сигналу параллельно применяют функцию “Идентифицировать акустические события” или этап 3-1, который делит звуковой сигнал на акустические события, каждое из которых стремится к тому, чтобы оно воспринималось как отдельное и отличное от других событие, и необязательную функцию “Идентифицировать характеристики акустических событий” или этап 3-2. Процесс по Фиг.1 может быть использован для разделения звукового сигнала на акустические события и идентификации их характеристик или может быть использован некоторый другой процесс. Информацию об акустическом событии, которой может быть идентификация границ акустического события, определяемая функцией или этапом 3-1, затем используют для изменения параметров динамической обработки звукового сигнала (таких как, атака, возврат, степень и т.д.), как требуется, с помощью функции “Изменить динамические параметры” или этапа 3-3. Необязательная функция “Идентифицировать характеристики” или этап 3-3 также принимает информацию об акустическом событии. Функция “Идентифицировать характеристики” или этап 3-3 может характеризовать некоторые или все акустические события одной или более характеристиками. Такие характеристики могут включать идентификацию преобладающего поддиапазона акустического события, как описано в связи с процессом на Фиг.1. Характеристики могут также включать одну или более звуковых характеристик, включая, например, величину мощности акустического события, величину амплитуды акустического события, величину спектральной неравномерности акустического события и информацию о том, является ли акустическое событие, по существу, бесшумным, или другие характеристики, которые помогают изменить динамические параметры, чтобы уменьшить или удалить слышимые артефакты обработки. Характеристики могут также включать другие характеристики, например информацию о том, включает ли акустическое событие короткий одиночный импульс.
Альтернативы выполнению по Фиг.3 показаны на Фиг.4 и 5. На Фиг.4 к входному звуковому сигналу не применяют непосредственно функцию “Идентифицировать характеристики” или этап 4-3, но он принимает информацию от функции “Идентифицировать акустические события” или этапа 4-1. Выполнение по Фиг.1 является конкретным примером такого выполнения. На Фиг.5 функции или этапы 5-1, 5-2 и 5-3 выполнены последовательно.
Детали этого конкретного воплощения не являются критическими. Могут быть использованы другие способы вычисления спектрального состава последовательных сегментов времени звукового сигнала, вычисления разницы между последовательными сегментами времени и установки границ акустического события на соответствующих границах между последовательными сегментами времени, когда разница спектральных профилей между такими последовательными сегментами времени превышает пороговую величину.
АНАЛИЗ АКУСТИЧЕСКИХ СЦЕН (НОВЫЙ СПОСОБ С ОБЛАСТЬЮ ГРОМКОСТИ)
Международная заявка согласно Договору о патентной кооперации с номером PCT/US2005/038579, поданная 25 октября 2005, опубликованная как Международная публикация под номером WO 2006/047600 A1, озаглавленная “Вычисление и настройка воспринимаемой громкости и/или воспринимаемый спектральный баланс звукового сигнала”, Алан Джеффри Сифелдт, раскрывает помимо всего прочего объективную меру воспринимаемой громкости, основанной на модели, относящейся к психологии слухового восприятия. Упомянутая заявка посредством ссылки включена в настоящую заявку во всей полноте. Как описано в упомянутой заявке, из звукового сигнала x[n] вычисляют сигнал E[b,t] возбуждения, который аппроксимирует распределение энергии вдоль базилярной мембраны внутреннего уха в критической полосе b в течение временного блока t. Это возбуждение может быть вычислено из кратковременного дискретного преобразования Фурье (STDFT) звукового сигнала следующим образом:
где X[k,t] представляет STDFT сигнала x[n] во временном блоке t и элементе дискретизации k. Заметим, что в уравнении 1 t представляет время в дискретных единицах блоков преобразования в отличие от непрерывной меры, такой как секунды. T[k] представляет частотную характеристику фильтра, имитирующего передачу звукового сигнала через внешнее и среднее ухо, и Cb[k] представляет частотную характеристику базилярной мембраны в положении, соответствующем критической полосе b. Фиг.6 изображает соответствующий набор характеристик фильтра критической полосы, в котором 40 полос равномерно разнесены вдоль шкалы эквивалентных прямоугольных полос частот (ERB), определенной Moor и Glasberg (Муром и Глазбергом). Форма каждого фильтра описывается закругленной экспоненциальной функцией, и полосы распределены с использованием расстояния 1 ERB. Наконец, сглаживающая временная константа λb в уравнении 1 может быть предпочтительно выбрана пропорциональной времени интегрирования человеческого восприятия громкости в пределах полосы b.
Используя контуры одинаковой громкости, такие как контуры, изображенные на Фиг.7, возбуждение каждой полосы преобразуется в уровень возбуждения, который генерировал бы такую же воспринимаемую громкость при 1 кГц. Конкретную громкость, меру воспринимаемой громкости, распределенной по частоте и времени, затем вычисляют из преобразованного возбуждения E1kHz[b,t] посредством компрессионной нелинейности. Одна такая подходящая функция для вычисления конкретной громкости N[b,t] задается следующим образом:
где TQ1kHz является пороговой величиной в тишине при 1 кГц, а константы β и α выбирают для соответствия росту данных о громкости, накапливаемых при экспериментах по прослушиванию. В абстрактном смысле это преобразование из возбуждения в конкретную громкость может быть представлено функцией Ψ {}, такой как:
В результате общую громкость L[t], представленную в сонах, вычисляют суммированием конкретной громкости по полосам:
Конкретная громкость N[b,t] является спектральным представлением, предназначенным для имитации способа восприятия человеком звукового сигнала как функции частоты и времени. Она улавливает изменения чувствительности к различным частотам, изменения чувствительности к уровню и изменения разрешения по частоте. По этой причине она является спектральным представлением, хорошо соответствующим обнаружению акустических событий. Сравнение разницы N[b,t] по полосам между последовательными блоками времени может во многих случаях привести к более точно воспринимаемому обнаружению акустических событий по сравнению с описанным выше непосредственным использованием последовательных спектров FFT, хотя оно более сложно для вычисления.
В упомянутой патентной заявке раскрыто несколько вариантов применения для изменения звукового сигнала на основе этой модели громкости, относящейся к психологии слухового восприятия (психоакустической модели). Среди этих применений