Устройство и способ определения множества локальных частотных центров тяжести в спектре аудиосигнала

Иллюстрации

Показать все

Изобретение относится к области цифровой обработки звука. Технический результат заключается в усовершенствовании способа определения множества частот локальных центров тяжести спектра звукового сигнала с целью снижения его вычислительной трудоемкости. Такой результат достигается за счет того, что устройство включает в себя: определитель частоты смещения для каждой частоты старта итерации из множества стартовых частот итерации на основании спектра звукового сигнала, характеризующийся тем, что число дискретных значений спектра превышает количество частот начала итерации; определитель частоты, определяющий новое множество стартовых частот итерации, увеличивая или уменьшая каждую частоту старта итерации из множества стартовых частот итерации на соответствующую вычисленную частоту смещения; и контроллер итерации, пересылающий новое множество стартовых частот итерации на определитель смещения для дальнейшего итерирования или формирующий совокупность частот локального центра тяжести, если выполнено заданное условие останова итерации, при этом совокупность частот локального центра тяжести равна новому множеству стартовых частот итерации. 6 н. и 16 з.п. ф-лы, 23 ил.

Реферат

Варианты технических решений предлагаемого изобретения относятся к системе обработки аудиосигнала, точнее, к устройству и способу определения множества частот локального центра тяжести в спектре аудиосигнала.

В области цифровой обработки звука растет потребность в технических средствах, отвечающих самьм критическим требованиям введения в новый музыкальный контекст ранее записанных аудиосигналов, хранящихся, например, в базе данных. При решении подобной задачи требуется адаптация акустических свойств сигнала верхних семантических уровней, таких как высота тона, тональность, звукоряд. Общей целью всех манипуляций в этом направлении является радикальное преобразование акустических параметров исходного музыкального материала при сохранении, по возможности, наилучшего субъективно воспринимаемого качества звучания. Другими словами, требуется, чтобы при коренном изменении звучания таких музыкальных фрагментов внедренный семпл воспринимался на слух естественно. Теоретически для этого требуются универсальные технологии обработки звука, применимые к сигналам различного типа, в том числе - к музыкальному контенту с неоднородной полифонической текстурой.

Для решения этой задачи недавно был предложен метод, заключающийся в анализе, преобразовании и синтезе аудиосигналов на базе элементов многополосной модуляции [(см. S.Disch and В.Edier, "An amplitude- and frequency modulation vocoder for audio signal processing." („Вокодер АЧМ для обработки аудиосигналов") Proc.of the Int. Conf. on Digital Audio Effects (DAFx). 2008; S.Disch and B.Edier, "Multiband perceptual modulation analysis, processing and synthesis of audio signals" (Анализ, обработка и синтез аудиосигналов на основе многополосной перцептуалъной модуляции) Proc.of the IEEE-ICASSP, 2009).] Главное в предлагаемом подходе - декомпозиция многоголосия на составляющие, воспринимаемые как целостные звуковые сегменты, и последующая обработка всех элементов сигнала, содержащихся в каждом сегменте. Одновременно предложен способ синтеза, благодаря которому после любых радикальных преобразований сигнала на выходе обеспечивается перцептуально сбалансированное и благозвучное воспроизведение. Если составляющие не подвергаются никаким изменениям, предлагаемый способ предусматривает транспарентность или частичную транспарентность воспринимаемого качества звучания многих тест-сигналов (см. S.Disch and В.Edier, "An amplitude- and frequency modulation vocoder for audio signal processing", Proc.of the Int. Conf. on Digital Audio Effects (DAFx), 2008).

Важным этапом обработки полифонической музыки блочным способом, к примеру, частью процедуры декомпозиции при многополосной модуляции, является оценивание локальных центров тяжести (COG) [(см. J. Anantharaman, A. Krishnamurthy, and L. Feth, "Intensity-weighted average of instantaneous frequency as a model for frequency discrimination" ("Средневзвешенный показатель интенсивности мгновенной частоты как модель частотной дискриминации") J. Acoust. Soc. Am., vol. 94, p.723-729, 1993; Q. Xu, L.L. Feth, J.N. Anantharaman, and A.K. Krishnamurthy, "Bandwidth of spectral resolution for the "c-o-g" effect in vowel-like complex sounds" ("Ширина полосы спектрального разрешения при определении "центра тяжести" в вокализованных сложных звуках") Acoustical Society of America Journal, vol. 101, p.3149-+, May 1997)] в последовательных во времени спектрах. В этой публикации представлен итеративный алгоритм, применимый для адаптивной спектральной декомпозиции сигнала, согласованной с локальными центрами тяжести (COG) сигнала.

Подход с использованием COG напоминает классическое частотно-временное перераспределение. Шире ознакомиться с этим методом можно, обратившись к [см. А. Fulop and K. Fitz, "Algorithms for computing the time-corrected instantaneous frequency (reassigned) spectrogram, with applications" (Алгоритмы расчета спектрограммы мгновенной частоты, скорректированной по времени, (перераспределенной) и их применение). Journal of the Acoustical Society of America, vol. 119, p.360-371, 2006]. По существу, при время-частотном перераспределении обычная частотно-временная сетка стандартного кратковременного (оконного) преобразования Фурье (ОПФ) смещается на спектрограмме в сторону скорректированной по времени мгновенной частоты, обнаруживая временные и спектральные уплотнения энергии, которые локализуются в данном случае лучше, чем на спектрограмме ОПФ с компромиссным частотно-временным разрешением. Часто параметры перераспределения используют как оптимизированные входные данные для последующего парциального мониторинга [см. K. Fitz and L. Haken, "On the use of time-frequency reassignment in additive sound modeling" ("О применении время-частотного перераспределения в аддитивном звуковом моделировании"), Journal of the Audio Engineering Society, vol. 50(11), p.879-893, 2002].

Другие публикации по данной тематике ставят задачу оценивания кратных опорных частот путем группирования гармонически связанных спектральных пиков в обособленные источники [см. A Klapuri, "Signal Processing Methods For the Automatic Transcription of Music" ("Методы обработки сигналов для автоматического музыкального транскрибирования"), Ph.D. thesis, Tampere University of Technology, 2004; Chunghsin Yeh, "Multiple fundamental frequency estimation of polyphonic recordings" ("Оценивание кратных опорных частот в полифонических фонограммах"), Ph.D. thesis, Ecole doctorale edite, Universite de Paris, 2008)]. Однако для сложных музыкальных фонограмм, скомпилированных из множества источников, такой подход не может быть применен.

В некоторых случаях в обработке сигналов могут быть задействованы вокодеры. Один из подклассов устройств кодирования речевой информации составляют фазовые вокодеры. По фазовым вокодерам вышло в свет пособие: "The Phase Vocoder: A tutorial" ("Фазовый вокодер: руководство"). Mark Dolson, Computer Music Journal, Volume 10, No.4, pages 14 to 27, 1986. Еще одно тематическое издание - это "New phase vocoder techniques for pitch-shifting, harmonizing and other exotic effects" ("Новые технологии фазового вокодера для изменения основного тона, гармонизации и других экзотических эффектов") L. Laroche and M. Dolson, proceedings 1999, IEEE workshop on applications of signal processing to audio and acoustics. New Paltz, New York, October 17 to 20, 1999, pages 91 to 94.

Фиг.17 и 18 иллюстрируют варианты конструктивных решений и приложений фазового вокодера известного уровня техники.

На фиг.17 показана схема реализации банка фильтров фазового вокодера 1700, где на вход 500 подается исходный аудиосигнал, а на выход 510 поступает синтезированный аудиосигнал. В частности, каждый канал банка фильтров на фиг.17 имеет в своем составе полосовой фильтр 501 и последовательно соединенный с ним осциллятор 502. Выходные сигналы всех осцилляторов 502 по всем каналам суммируются с помощью сумматора 503. Сумматор 503 формирует и выдает выходной сигнал 510.

Каждый фильтр 501 генерирует, во-первых, сигнал с амплитудным кодированием A(t), и, во-вторых, сигнал с частотным кодированием f(t). Как амплитудный, так и частотный сигналы представлены во временной области. Сигнал с амплитудным кодированием отображает поведение во времени амплитуды в пределах полосы пропускания фильтра, а сигнал с частотным кодированием отражает изменение во времени частоты сигнала на выходе фильтра.

На фиг.18 показана принципиальная схема фильтра 501. Входной сигнал делится на два параллельных тракта. Сигнал одного из трактов умножается на синусоиду с амплитудой 1,0 и с частотой, равной средней частоте полосового фильтра, что отражено элементом 551, Сигнал второго тракта умножается на косинусоиду с такой же амплитудой и частотой, что также отражено элементом 551. Таким образом, два параллельных тракта идентичны друг другу, за исключением фазы множительной волны. Затем, произведение от умножения по каждому тракту вводится в фильтры низких частот 553. Сама операция умножения известна также как простая кольцевая модуляция. Умножение любого сигнала на синусоидальную или косинусоидальную волну постоянной частоты приводит к одновременному смещению всех частотных составляющих исходного сигнала в сторону как плюса, так и минуса значения частоты гармоники. Если полученный результат пропустить через соответствующий низкочастотный фильтр, сохранится только низкочастотная компонента. Такая последовательность действий известна еще как гетеродинирование. Гетеродинирование осуществляется по каждому из обоих параллельных трактов, но, поскольку по одному тракту генерируются синусоидальные колебания, а по второму - косинусоидальные, результирующие гетеродинированные сигналы по двум этим трактам расходятся по фазе на 90°. Следовательно, верхний [на схеме] фильтр низких частот 553 генерирует прямоугольный сигнал 554, а нижний фильтр 553 формирует синфазный сигнал [555]. Эти два сигнала, именуемые также сигналами I и Q, передаются в преобразователь координат 556, который трансформирует ортогональное представление в амплитудно-фазовое представление.

Сигнал с амплитудным кодированием, соответствующий A(t) на фиг.17, поступает на выход 557. Фазовый сигнал вводится в блок развертывания фазы 558. На выходе блока 558 фазовое значение находится не в диапазоне от 0 до 360°, а линейно возрастает. Это "развернутое" фазовое значение вводится в фазочастотный преобразователь 559, который может быть реализован, например, в виде вычислителя разности фаз, который вычитает из фазы текущего момента времени фазу предшествующего момента времени с получением показателя частоты в текущий момент времени.

Это значение частоты складывается с постоянным значением частоты f; канала фильтра i для получения меняющегося во времени значения частоты на выходе 560.

Частота на выходе 560 имеет постоянную составляющую F; и переменную, называемую "флуктуацией частоты", отображающей отклонения текущей частоты сигнала в канале фильтра от среднего значения частоты Fi.

Таким образом, как показано на фиг.5 и 6, фазовый вокодер разделяет спектральные и временные данные. Данные спектра содержатся в специальном канале банка фильтров и в показателе частоты fi, а данные времени включены в показатели флуктуации частоты и амплитуды во времени.

По-другому фазовый вокодер может быть интерпретирован через преобразование Фурье. Такая трактовка включает в себя ряд последовательно перекрывающих преобразований Фурье, выполняемых с использованием окон с конечной продолжительностью. При разложении по Фурье внимание фокусируется на значениях амплитуды и фазы для всех полос пропускания фильтра или шагов частотного разрешения в отдельно взятый момент времени. Если в варианте с банком фильтров ресинтез представляет собой классический пример аддитивного синтеза с подстройкой варьируемых во времени амплитуды и частоты по каждому гетеродину, то синтез по Фурье выполняется через реконструкцию реально-виртуальной формы с суммированием и наложением последовательных обратных преобразований Фурье. При разложении Фурье количество полос пропускания фильтра фазового вокодера совпадает с числом точек в преобразовании Фурье. Подобно этому, равномерная разбивка по частоте каждого фильтра может быть принята как основная особенность преобразования Фурье. Вместе с тем, конфигурация полос пропускания фильтров, то есть крутизна срезов их границ, определяется формой оконной функции, приложенной перед оцифровкой. Если брать форму представляющего параметра, например оконной функции Хэмминга, крутизна спада частотной характеристики фильтра возрастает прямо пропорционально длительности окна.

Следует обратить внимание на то, что два разных вида анализа фазового вокодера применены только при реализации банка полосовых фильтров. Выходные параметры этих фильтров выражены в виде варьирующихся во времени амплитуд и частот с помощью одной и той же операции для обоих технических решений. Главная цель фазового вокодера - сепарировать временную и спектральную информацию. Оперативная задача состоит в разделении сигнала на ряд полос спектра и в описании характеристик изменяющегося во времени сигнала в каждой полосе.

Решающее значение здесь имеют две основные операции: масштабирование времени и транспонирование основного тона. Записанную фонограмму всегда просто воспроизвести в замедленном темпе за счет считывания ее с пониженной частотой дискретизации. Это похоже на проигрывание магнитной записи на замедленной скорости. Однако при столь примитивном способе продления времени звучания основной тон понижается в том же соотношении, в каком увеличивается время. Замедление эволюции звука без изменения частоты основного тона требует четкого разграничения временной и спектральной информации. Как уже отмечалось выше, это - именно то, на что направлено действие фазового вокодера. Удлинение меняющихся во времени сигналов с амплитудным и частотным кодированием A(t) и f(t), как показано на фиг.5а, никак не влияет на частоту индивидуальных осцилляторов, замедляя при этом извлечение сложного по составу звука. Результатом является продленное звучание с исходным основным тоном. Согласно преобразованию Фурье процедура масштабирования времени такова, что при необходимости продления времени звучания инверсные БПФ просто могут быть разнесены дальше, чем БПФ анализа. В итоге в данной реализации спектральные изменения в синтезируемом звуке происходят медленнее, чем в оригинальном, а перемасштабирование фазы выполняется ровно с тем же коэффициентом, с каким продлен звук.

Другим приложением является транспонирование основного тона. Поскольку фазовый вокодер может изменять продолжительность звукового сигнала, не меняя частоту его основного тона, выполнимо и противоположное преобразование, а именно изменение основного тона при сохранении длительности звучания. Высота тона модифицируется путем применения требуемого коэффициента в пределах взятой шкалы времени с последующим воспроизведением полученного звукового сигнала с частотой дискретизации, умноженной на тот же коэффициент. Например, чтобы поднять основной тон на одну октаву, необходимо сначала увеличить продолжительность звукового сигнала, применив коэффициент 2, после чего воспроизвести его с частотой дискретизации, вдвое превышающей первоначальную.

Применение вокодеров для обработки аудиосигналов показано, например, в: Sascha Disch, Bemd Edier: "An Amplitude-and-Frequency-Modulation Vocoder for Audio Signal Processing" ("Применение амплитудной и частотной модуляции в вокодере для обработки аудиосигнала"). Proceedings of the 11th International Conference on Digital Audio Effects (DAFx-08), Espoo, Finland, September 1-4, 2008. В этой публикации предлагается оценивать кандидатные (candidate) локальные центры тяжести путем нахождения положительно-отрицательных переходов в функции позиции центра тяжести. Для этого функцию позиции центра тяжести вычисляют для каждой величины спектра (например, для каждой амплитуды или каждого значения плотности мощности) для каждого временного блока аудиосигнала. В данном контексте речь идет о блоках величиной N=214 точек при частоте дискретизации 48 кГц. Вследствие этого вычислительная трудоемкость оценивания кандидатных локальных центров тяжести очень высока.

Кроме того, необходима процедура постселекции, обеспечивающая примерную равноудаленность позиций оцененных центров тяжести на перцептуальной шкале.

Целью настоящего изобретения является усовершенствование способа определения множества частот локальных центров тяжести спектра звукового сигнала с целью снижения его вычислительной трудоемкости.

Поставленная задача решается с помощью устройства по п.1 и способа по п.20 формулы изобретения.

Конструктивное решение данного изобретения представляет собой устройство для определения множества частот локальных центров тяжести спектра звукового сигнала. Устройство имеет в своем составе определитель смещения (/сдвига), определитель частоты и контроллер итерации. Определитель смещения устанавливает частоту смещения для каждой частоты старта итерации из множества стартовых частот итерации в спектре аудиосигнала, где количество дискретных значений спектра превышает количество показателей начала итерации. Определитель частоты выбирает новое множество стартовых частот итерации путем повышения или понижения каждой частоты старта итерации из множества частот старта итерации на соответствующую установленную частоту смещения. Далее, контроллер итерации пересылает новый набор частот начала итерации на определитель смещения для последующей итерации или в том случае, если выполнено заданное условие конца итерирования, представляет совокупность частот локального центра тяжести, эквивалентную новому множеству частот начала итерации.

В основе предлагаемых конструктивных решений лежит главная идея изобретения, в соответствии с которой частоты смещения устанавливают как набор частот начала итерации, а затем начальные частоты итерации корректируют с помощью выделенных среди них частот смещения. Это повторяется многократно до тех пор, пока не будет выполнено заданное условие конца процедуры. В силу того, что количество частот начала итерации меньше количества отсчетов спектра, вычислительная сложность значительно снижается в сравнении с другими известными подходами.

Скажем, число частот начала итерации может быть между 10 и 100. Это значительно меньше числа дискретов N=214, упомянутого выше. В приведенном примере вычислительная трудоемкость может быть сокращена более чем в 100 раз.

Дополнительно, может быть легко приведено в соответствие спектральное разрешение путем варьирования количества стартовых частот итерации и/или подбором параметров вычисления частоты смещения.

В ряде реализации изобретения применимо совмещение частот с использованием совместителя частот. Совместитель частот объединяет две смежные частоты из множества частот начала итерации, если интервал между ними меньше минимального шага по частоте.

Некоторые варианты конструкции изобретения включают в себя дополнитель частоты. Дополнитель частоты вводит в набор инициирующих частот итерации дополнительную частоту старта итерации, если интервал между двумя соседними частотами начала итерации превышает максимальный частотный шаг. В частности, это может быть применено в случае, когда инициализация выполняется по оценке предыдущего (по времени) блока.

Многие конструктивные решения по данному изобретению относятся к предлагаемому здесь же способу определения совокупности частот локального центра тяжести спектра аудиосигнала. Способ заключается в определении частоты смещения для каждой стартовой частоты итерации из множества частот инициализации итерации, в определении нового множества стартовых частот итерации и обеспечении новой совокупности стартовых частот итерации для выполнения следующего итеративного вычисления или в предоставлении набора частот локального центра тяжести. Частота смещения для каждой частоты из множества частот старта итерации определяется на базе спектра аудиосигналов, где количество дискретных значений спектра превышает количество частот запуска итерации. Новая совокупность стартовых частот итерации определяется путем повышения или понижения каждой из множества частот старта итерации на установленную частоту смещения. При удовлетворении заданным условиям совокупность частот локального центра тяжести предусматривает занесение ее в память, дальнейшую передачу или последующую обработку. Для этого множество частот локального центра тяжести должен быть равен новому множеству частот инициализации итерации.

В некоторых осуществлениях совокупность частот локального центра тяжести, определенных для предшествующего временного блока аудиосигнала, используют в качестве частот старта первой итерации следующего временного блока аудиосигнала. В таких случаях большие интервалы между стартовыми частотами итерации может заполнять дополнитель частот.

Далее варианты технических решений в рамках предлагаемого изобретения представлены более детально в форме описания прилагаемых фигур, где:

фиг.1 представляет собой принципиальную блок схему определителя совокупности частот локального центра тяжести;

фиг.2 представляет собой принципиальную блок схему определителя совокупности частот локального центра тяжести;

фиг.3 представляет собой принципиальную блок схему определителя совокупности частот локального центра тяжести с предварительной обработкой;

фиг.3а представляет собой диаграмму полного спектра в сопоставлении со сглаженным линейным спектром;

фиг.4 схематически отображает оценки локальных центров тяжести фрагмента спектра двух отдельных тонов;

фиг.5 схематически отображает оценки локальных центров тяжести фрагмента спектра двух ритмических тональных сигналов;

фиг.6 схематически отображает оценки локальных центров тяжести фрагмента спектра звучания перебора струн;

фиг.7 схематически отображает оценки локальных центров тяжести фрагмента спектра звучания оркестра;

фиг.8 представляет собой блок-схему адаптивного банка фильтров;

фиг.9 схематически отображает сегментацию полосы пропускания по локальным центрам тяжести фрагмента спектра мощности звучания перебора струн;

фиг.10 схематически отображает сегментацию полосы пропускания по локальным центрам тяжести фрагмента спектра мощности звучания оркестра;

фиг.11 представляет собой принципиальную схему преобразователя аудиосигнала в параметрическое представление;

фиг.12 представляет собой принципиальную схему преобразователя аудиосигнала в параметрическое представление;

фиг.12а представляет собой принципиальную схему преобразователя аудиосигнала в параметрическое представление;

фиг.13а представляет собой принципиальную схему блока синтеза;

фиг.13b отображает схему для изменения тональности полифонического звучания;

фиг.13с отображает схему квинтового круга;

фиг.14 представляет собой блок-схему способа определения множества частот локального центра тяжести;

фиг.15 представляет собой блок-схему способа определения множества частот локального центра тяжести;

фиг.15а отображает схему итерации при оценивании центра тяжести;

фиг.16 представляет собой блок-схему алгоритма добавления стартовой частоты итерации;

фиг.17 отображает схему устройства синтезирующее - анализирующего вокодера известного уровня техники; и

фиг.18 отображает схему устройства фильтра, входящего в конструкцию на фиг.17, на известном уровне техники.

Далее, для объектов и функциональных блоков, одинаковых или схожих по своим функциональным свойствам, и для их описания на разных фигурах во избежание избыточности вспомогательной информации будут частично использоваться одинаковые номера ссылок.

На фиг.1 представлена принципиальная блок схема устройства 100 для определения множества частот локального центра тяжести 132 спектра 102 аудиосигнала в соответствии с предлагаемым изобретением. В конструкцию устройства 100 введены определитель смещения 110, определитель частоты 120 и контроллер итерации 130. Определитель смещения 110 соединен с определителем частоты 120, определитель частоты 120 соединен с контроллером итерации 130, и контроллер итерации 130 соединен с определителем смещения 110. Определитель смещения 110 выделяет в спектре 102 аудиосигнала частоту смещения 112 для каждой из множества частот старта итерации. Спектр 102 представлен дискретными значениями, количество которых больше количества частот начала итерации. Определитель частоты 120 задает новую совокупность стартовых частот итерации 122, повышая или понижая каждую из множества частот начала итерации на соответствующую установленную частоту смещения 112. Затем контроллер итерации 130 пересылает новый набор частот старта итерации 122 на определитель смещения 110 для обеспечения дальнейшего итерирования.

И альтернативно или дополнительно, если выполнено введенное условие останова итерации, формируется множество частот локального центра тяжести 132, равное или заданное равным новому множеству частот старта итерации 122.

Так как количество частот, инициирующих итерацию, меньше количества дискретных отсчетов спектра, вычислительная трудоемкость определения множества частот локального центра тяжести 132 снижается по сравнению с методами установления частот локального центра тяжести на основе функций, вычисляемых для каждого дискретного значения спектра.

Разрешающая способность и/или точность определения частоты локального центра тяжести может быть адаптирована к каждому конкретному случаю путем варьирования количества частот начала итерации и/или параметров вычисления частоты смещения. За счет этого меняется также вычислительная трудоемкость, но, в силу того, что количество стартовых частот итерации чаще всего не превышает число дискретов спектра, может быть гарантирована низкая вычислительная сложность.

Дискретными величинами спектра 102 могут быть, скажем, амплитудно-частотные характеристики спектра, значения спектральной плотности мощности или другие показатели, полученные преобразованием аудиосигнала по Фурье. Число отсчетов спектра 102 во фрейме аудиосигнала может находиться, например, между 1000 и 100000 или между 29 and 220. В противоположность этому, количество стартовых частот итерации может лежать, допустим, между 5 и 500. Благодаря значительной количественной разнице между дискретными значениями спектра 102 и частотами инициации итерирования существенно снижается вычислительная стоимость в сравнении с другими известными подходами.

Частота локального центра тяжести 132 может представлять собой частоту, где спектр 102 аудиосигнала может содержать, например, максимальную амплитуду или скопление амплитуд или наибольшую плотность мощности или верхний экстремум другого значения, выведенного в результате Фурье-преобразования аудиосигнала.

Например, для выполнения первой итерации множество стартовых частот итерации может быть распределено по спектру 102 или равномерно, или согласно заданной функции распределения, или в произвольном порядке. Используя спектр 102 и частоты инициации итерирования, определитель смещения 110 находит частоты смещения 112, которые могут служить показателем удаленности частоты старта итерации от локального центра тяжести. На основании полученных данных определитель частоты 120 компенсирует расстояние между локальным центром тяжести и частотой старта итерации, повышая или понижая (в зависимости от положительного или отрицательного значения частоты смещения) частоту начала итерации на соответствующие вычисленные частоты смещения. Затем обновленный набор стартовых частот итерации 122 передается на определитель смещения 110 для дальнейшего итерирования или, если достигнут заданный предел итерации, используется для определения совокупности частот локального центра тяжести 132.

Устройство 100 способно определять множество частот локального центра тяжести 132 для каждого из множества временных блоков аудиосигнала. Другими словами, аудиосигнал может обрабатываться временными блоками. Для каждого временного блока с помощью преобразования Фурье может быть сгенерирован спектр 102 и определена совокупность частот локального центра тяжести 132.

Вводимыми критериями останова итерации могут быть, например, каждая частота смещения, ниже максимальной частоты смещения, сумма всех частот смещения, меньшая максимальной суммы частот смещения, или сумма частоты смещения, заданной для текущего блока времени, и частоты смещения, заданной для предыдущего блока времени, меньшая порогового показателя смещения.

Спектр 102, поступающий на определитель смещения 110, может иметь как линейное, так и логарифмическое представление. Например, множество частот начала итерации может быть распределено эквидистантно по логарифмическому спектру 102 для выполнения первой итерации и задания закономерности определения множеств частот локальных центров тяжести 132 таким образом, чтобы они распределялись в перцептуальном масштабе.

Определитель смещения 110, определитель частоты 120 и контроллер итерации 130 могут быть реализованы как обособленные единицы аппаратного обеспечения, как элементы устройства цифровой обработки сигналов, микроконтроллера или компьютера или в виде компьютерной программы или программного обеспечения, предназначенных для выполнения с использованием микроконтроллера или компьютера.

На фиг.2 представлена принципиальная модульная схема реализации устройства 200 для определения множества частот локальных центров тяжести 132 спектра 102 аудиосигнала в соответствии с настоящим изобретением. Устройство 200 аналогично устройству [100] на фиг.1, кроме того, что оно расширено дополнителем частот 210, совместителем частот 220 и компенсатором частот 230. В этом примере определитель частоты 120 соединен с компенсатором частот 230, компенсатор частот 230 соединен с контроллером итерации 130, контроллер итерации 130 соединен с дополнителем частот 210, дополнитель частот 210 соединен с совместителем частот 220, и совместитель частот 220 соединен с определителем смещения 110. Как вариант, позиции дополнителя частот 210 и совместителя частот 220 могут быть изменены, и/или компенсатор частоты 230 может быть размещен между контроллером итерации 130 и дополнителем частот 210, между дополнителем частот 210 и совместителем частот 220 или между уплотнителем частот 220 и определителем смещения 110.

Дополнитель частот 210 вводит в новое множество стартовых частот итерации 122 дополнительную частоту старта итерации, если интервал между двумя смежными частотами начала итерации в данном новом множестве стартовых частот итерации 122 больше максимального интервала между частотами. При этом интервал между частотами и максимальный интервал между частотами могут измеряться по линейной или по логарифмической шкале.

Иначе говоря, дополнитель частот 210 вводит добавочную частоту начала итерации, если промежуток между двумя соседними стартовыми частотами итерации слишком большой. Особый интерес может представлять, например, ситуация, когда множество частот локального центра тяжести 132, определенное для текущего блока времени, передается на определитель смещения 110 для использования в качестве совокупности стартовых частот итерации для первой итерации следующего временного блока. Однако и в ходе итерирования одного временного блока также может быть добавлена частота старта итерации.

Совокупность частот локального центра тяжести может использоваться как база для генерации нового множества частот пуска итерирования.

Стартовые частоты набора первой итерации временного блока могут быть распределены, например, равномерно относительно друг друга, как описано выше, или частоты совокупности локального центра тяжести 132, определенные для предшествующего временного блока аудиосигнала, могут использоваться в качестве стартовых частот первой итерации текущего временного блока.

Совместитель частот 220 объединяет две смежные частоты начала итерации из нового набора стартовых частот итерации 122, если интервал между этими двумя частотами меньше минимального шага частот. Повторим, что интервал между частотами и минимальный шаг частот могут быть представлены в линейном или в логарифмическом масштабе.

Иными словами, совместитель частот 220 может заместить две соседние стартовые частоты итерации одной частотой старта итерации, если расстояние между ними ниже установленного предела.

Компенсатор частот 230 удаляет из нового набора стартовых частот итерации 132 частоту старта итерации, если данная частота превышает заданный верхний экстремум частоты спектра 102 аудиосигнала, или если эта частота старта итерации ниже заданного нижнего экстремума частоты спектра 102 аудиосигнала. Например, задаваемой максимальной частотой может быть самая высокая частота в составе спектра 102, а задаваемой минимальной частотой может быть самая низкая частота в спектре 102.

Говоря иначе, компенсатор частот 230 удаляет частоты пуска итерации из нового множества стартовых частот итерации 122, если они расположены за пределами частотного диапазона спектра 102 аудиосигнала.

Дополнитель частот 210 и компенсатор частот 230 являются факультативными компонентами устройства 200.

Дополнитель частот 210, совместитель частот 220 и компенсатор частот 230 могут быть реализованы как модульные аппаратные средства или интегрированы, как упомянутые выше определитель смещения 110, определитель частоты 120 и контроллер итерации 130.

На фиг.3 показана принципиальная модульная схема устройства 300 для определения совокупности частот локального центра тяжести 132 спектра 102 аудиосигнала 302 согласно данному изобретению. Устройство 300 аналогично устройству на фиг.1, кроме того, что в него дополнительно введен препроцессор 310. Препроцессор 310 соединен с определителем смещения 110. Препроцессор 310 генерирует частотный спектр Фурье для временного блока аудиосигнала 302 и на базе частотного спектра Фурье временного блока генерирует сглаженный спектр. Затем, препроцессор 310 генерирует спектр 102 аудиосигнала 302 для передачи на определитель смещения 110 выполняя деление частотного спектра Фурье на сглаженный спектр. После этого препроцессор 310 преобразует спектр в логарифмическое представление и передает логарифмический спектр 102 на определитель смещения 110. И наоборот, препроцессор 310 может преобразовывать частотный спектр Фурье в логарифмический масштаб перед генерацией сглаженного спектра и перед выполнением деления частотного спектра Фурье на сглаженный спектр.

В ряде конструктивных решений для каждого (временного) блока сигнала спектральную плотность мощности (psd) оценивают, вычисляя спектральную энергию ДПФ [дискретного преобразования Фурье]. В дальнейшем для устранения глобального тренда спектральную плотность мощности (psd/спм) нормализуют по сглаженной спм, вычисленной, например, путем подстановки полинома низкого порядка с выполнением кепстрального сглаживания или путем фильтрации в частотном направлении. Перед выполнением деления обе величины также могут быть временно сглажены, например, с помощью БИХ-фильтра первого порядка с постоянной времени, скажем, 200 мс. Затем спм предварительно переносят на перцептуальную (логарифмическую) шкалу для упрощения фрагментации спектра на неравномерные частотные полосы, соответствующие слуховому восприятию, и для нахождения их центров тяжести (COG). За счет этого задача сводится к приведению ряда примерно одинаковых сегментов в соответствие с позициями оцененных локальных центров тяжести сигнала. В качестве перцептуальной шкалы может быть применена шкала ЭППП, обеспечивающая лучшее спектральное разрешение низких частот, чем, скажем, шкала БАРКов (см. В.С.J. Moore and В.R. Glasberg "A revision of Zwicker's loudness model" ["Пересмотр модели громкости Цвикера"] Acta Acustica, vol. 82, p.335-345, 1996"). При этом также может использоваться шкала барков. Преобразованный спектр может быть построен интерполяцией равномерно дискретизированного спектра в направлении спектральных отсчетов, имеющих шаг, соответствующий шкале ЭППП (ERB) (см. уравнение 2).

ERB(f) = 21 .4log 10 (0 .00437f + 1)   (2)

Альтернативно оценку спектральной плотности мощности (спм/psd) для каждого блока сигнала получают вычислением спектральной энергии ДПФ. Далее, спм предварительно переносят на перцептуальную шкалу для упрощения сегментации спектра на перцептуально адаптированные неравномерные частотные полосы с заданными центров тяжести (COG). Благодаря этому проблема упрощается до упорядочения ряда приблизительно одинаковых сегментов в соответствии с позициями оцененных локальных центров тяжести сигнала. В качестве перцептуальной шкалы может быть применена шкала ЭППП, что обеспечивает лучшее спектральное разрешение низких частот, чем, например, шкала БАРКов. Картированный спектр рассчитывают с применением интерполяции равномерно дискретизированного спектра в направлении спектральных отсчетов, имеющих период, соответствующий шкале ЭППП (ERB) (см. уравнение 2).

Впоследствии для устранения глобального тренда, характерного для спектров реальных звуков, картированную спм нормализуют в соответствии с основной тенденцией, которую рассчитывают линейной регрессией, минимизируя критерий наименьших квадратов. Перед делением обе величины временно сглаживают с помощью, например, БИХ-фильтров первого порядка H(z), каждый из которых имеет константу времени, например, τ=200 мс, как определено уравнениями 2а, где Т - период отсчетов подполосы ДПФ, полученный умножением входного периода дискретизации на шаг по времени ДПФ.

H (