Устройство и способ преобразования звукового сигнала в параметрическое представление, устройство и способ модификации параметрического представления, устройство и способ синтеза параметрического представления звукового сигнала
Иллюстрации
Показать всеИзобретение относится к алгоритмам параметрического кодирования звуковых сигналов. Технический результат изобретения заключается в улучшении концепции параметризации звукового сигнала за счет эффективности использования низкой разрешающей способности слуха человека. Устройство преобразования звукового сигнала в параметрическое представление, включающее в себя анализатор сигналов (102), предназначенный для разложения сегмента звукового сигнала с получением результатов анализа; оцениватель полос пропускания (106) для расчета данных о множестве полосовых фильтров на основании результатов анализа; оцениватель модуляции (110) для оценивания амплитудной модуляции (112), или частотной модуляции (114), или фазовой модуляции для каждой полосы пропускания множества полосовых фильтров для сегмента звукового сигнала с использованием данных о множестве полосовых фильтров; выходной интерфейс (116), предназначенный для передачи, хранения или преобразования информации относительно амплитудной модуляции, частотной модуляции или фазовой модуляции или информации относительно множества полосовых фильтров для сегмента звукового сигнала. 14 н. и 9 з.п. ф-лы, 25 ил.
Реферат
Представляемое изобретение относится к кодированию звука и, в частности, к алгоритмам параметрического кодирования акустических сигналов, применяемых в вокодерах.
Фазовые вокодеры представляют собой один из классов устройств кодирования речевой информации. Руководством по фазовым вокодерам является публикация: "The Phase Vocoder: A tutorial" [„ Фазовый вокодер: руководство"], Mark Dolson, Computer Music Journal, Volume 10, No.4, pages 14 to 27, 1986. Еще одно издание: „New phase vocoder techniques for pitch-shifting, harmonizing and other exotic effects" [„ Новые методики смещения основного тона, гармонизации и других звуковых спецэффектов в фазовом вокодере "], L.Laroche and M.Dolson, proceedings 1999, IEEE workshop on applications of signal processing to audio and acoustics [Институт инженеров-электриков и электронщиков, секция применения обработки сигналов в аудио- и акустических сисетмах]. New Paltz, New York, October 17 to 20, 1999, pages 91 to 94.
Фиг.5-6 иллюстрируют варианты конструктивных решений и приложений фазового вокодера известного уровня техники. На фиг.5 показана схема реализации банка фильтров фазового вокодера, где на вход 500 подается исходный звуковой сигнал, а на выход 510 поступает синтезированный звуковой сигнал. В частности, каждый канал банка фильтров на фиг.5 имеет в своем составе полосовой фильтр 501 и последовательно соединенный с ним гетеродин 502. Выходные сигналы всех гетеродинов 502 по всем каналам суммируются с помощью сумматора 503. Сумматор 503 генерирует выходной сигнал 510.
Каждый фильтр 501 обеспечивает, во-первых, сигнал с амплитудным кодированием A(t) и, во-вторых, сигнал с частотным кодированием f(t). Как амплитудный, так и частотный сигналы представлены во временной области. Сигнал с амплитудным кодированием отображает поведение во времени амплитуды в пределах полосы пропускания фильтра, а сигнал с частотным кодированием отражает изменение во времени частоты сигнала на выходе фильтра.
На фиг.6 показана принципиальная схема фильтра 501. Входной сигнал делится на два параллельных тракта. Сигнал одного из трактов умножается на синусоиду с амплитудой 1,0 и с частотой, равной средней частоте полосового фильтра, что отражено элементом 551. Сигнал второго тракта умножается на косинусоиду с такой же амплитудой и частотой, что также отражено элементом 551. Таким образом, два параллельных тракта идентичны друг другу, за исключением фазы множительной волны. Затем произведение от умножения по каждому тракту вводится в фильтры низких частот 553. Сама операция умножения известна так же как простая кольцевая модуляция. Умножение любого сигнала на синусоидальную или косинусоидальную волну постоянной частоты приводит к одновременному смещению всех частотных составляющих исходного сигнала в сторону как плюса, так и минуса значения частоты гармоники. Если полученный результат пропустить через соответствующий низкочастотный фильтр, сохранится только низкочастотная компонента. Такая последовательность действий известна еще как гетеродинирование. Гетеродинирование осуществляется по каждому из обоих параллельных трактов, но, поскольку по одному тракту генерируются синусоидальные колебания, а по второму - косинусоидальные, результирующие гетеродинированные сигналы по двум этим трактам расходятся по фазе на 90°. Следовательно, верхний [на схеме] фильтр низких частот 553 генерирует прямоугольный сигнал 554, а нижний фильтр 553 формирует синфазный сигнал [555]. Эти два сигнала, именуемые также сигналами I и Q, передаются в преобразователь координат 556, который трансформирует ортогональное представление в амплитудно-фазовое представление.
Сигнал с амплитудным кодированием, соответствующий A(t) на фиг.5, поступает на выход 557. Фазовый сигнал вводится в блок развертывания фазы 558. На выходе блока 558 фазовое значение находится не в диапазоне от 0 до 360°, а линейно возрастает. Это „развернутое" фазовое значение вводится в фазочастотный преобразователь 559, который может быть реализован, например, в виде вычислителя разности фаз, который вычитает из фазы текущего момента времени фазу предшествующего момента времени с получением показателя частоты в текущий момент времени.
Это значение частоты складывается с постоянным значением частоты fi канала фильтра i для получения меняющегося во времени значения частоты на выходе 560.
Частота на выходе 560 имеет постоянную составляющую fi и переменную, называемую „флуктуацией частоты", отображающей отклонения текущей частоты сигнала в канале фильтра от среднего значения частоты fi.
Таким образом, как показано на фиг.5 и 6, фазовый вокодер разделяет спектральные и временные данные. Информация о спектре содержится в специальном канале банка фильтров и в показателе частоты fi, а данные времени включены в показатели флуктуации частоты и амплитуды во времени.
По-другому фазовый вокодер может быть интерпретирован через преобразование Фурье. Такая трактовка включает в себя ряд последовательно перекрывающих преобразований Фурье, выполняемых с использованием окон с конечной продолжительностью. При разложении по Фурье внимание фокусируется на значениях амплитуды и фазы для всех полос пропускания фильтра или шагов частотного разрешения в отдельно взятый момент времени. Если в варианте с банком фильтров ресинтез представляет собой классический пример аддитивного синтеза с подстройкой варьируемых во времени амплитуды и частоты по каждому гетеродину, то синтез по Фурье выполняется через реконструкцию реально-виртуальной формы с суммированием и наложением последовательных обратных преобразований Фурье. При разложении Фурье количество полос пропускания фильтра фазового вокодера совпадает с числом частотных позиций в преобразовании Фурье. Подобно этому, равномерная разбивка по частоте каждого фильтра может быть принята как основная особенность преобразования Фурье. Вместе с тем, конфигурация полос пропускания фильтров, то есть крутизна срезов их границ, определяется формой оконной функции, приложенной перед оцифровкой. Если брать форму представляющего параметра, например, оконной функции Хэмминга, крутизна спада частотной характеристики фильтра возрастает прямо пропорционально длительности окна.
Следует обратить внимание на то, что два разных вида анализа фазового вокодера применены только при реализации банка полосовых фильтров. Выходные параметры этих фильтров выражены в виде варьирующихся во времени амплитуд и частот с помощью одной и той же операции для обоих технических решений. Главная цель фазового вокодера - сепарировать временную и спектральную информацию. Оперативная задача состоит в разделении сигнала на ряд полос спектра и в описании характеристик изменяющегося во времени сигнала в каждой полосе.
Решающее значение здесь имеют две основные операции: масштабирование времени и транспонирование основного тона. Записанную фонограмму всегда легко воспроизвести в замедленном темпе за счет считывания ее с пониженной частотой дискретизации. Это похоже на проигрывание магнитной записи на замедленной скорости. Однако при столь примитивном способе продления времени звучания основной тон понижается в том же соотношении, в каком увеличивается время. Замедление эволюции звука без изменения частоты основного тона требует четкого разграничения временной и спектральной информации. Как уже отмечалось выше, это именно то, на что направлено действие фазового вокодера. Удлинение меняющихся во времени сигналов с амплитудным и частотным кодированием A(t) и f(t), как показано на фиг.5, никак не влияет на частоту индивидуальных осцилляторов, замедляя при этом извлечение сложного по составу звука. Результатом является продленное звучание с исходным основным тоном. Согласно преобразованию Фурье процедура масштабирования времени такова, что при необходимости продления времени звучания инверсные БПФ просто могут быть разнесены дальше, чем БПФ анализа. В итоге, в данной реализации спектральные изменения в синтезируемом звуке происходят медленнее, чем в оригинальном, а перемасштабирование фазы выполняется ровно с тем же коэффициентом, с каким продлен звук.
Другим приложением является транспонирование основного тона. Поскольку фазовый вокодер может изменять продолжительность звукового сигнала, не меняя частоту его основного тона, выполнимо и противоположное преобразование, а именно изменение основного тона при сохранении длительности звучания. Это выполняется или во временном масштабе с использованием требуемого коэффициента изменения основного тона с последующим воспроизведением полученного звукового сигнала с искаженной частотой дискретизации, или путем дискретизации с понижением на необходимый коэффициент и воспроизведения с неизмененной скоростью. Например, чтобы поднять основной тон на одну октаву, необходимо сначала увеличить продолжительность звукового сигнала, применив коэффициент 2, после чего воспроизвести его с частотой дискретизации, вдвое превышающей первоначальную.
Вокодер (или „ВОДЕР") был изобретен Дадли как управляемый вручную синтезатор человеческой речи [2]. Значительно позже принцип его действия был усовершенствован до так называемого фазового вокодера [3] [4]. Фазовый вокодер действует по принципу перекрывания кратковременных ДПФ-спектров и, следовательно, основан на наборе подполосовых фильтров с фиксированными центральными частотами. Вокодер нашел широкое применение как принцип, лежащий в основе обработки звуковых файлов. Например, такие акустические эффекты, как временное растягивание и транспонирование высоты тона, легко выполняются вокодером [5]. С тех пор в свет вышло много публикаций о модификациях и усовершенствованиях в этой технологии. В частности, были преодолены ограничения, связанные с наличием фильтров анализа с фиксированной частотой, путем добавления картирования на основе частоты основной гармоники (′f0′), к примеру, в ′ПРЯМОМ′ (′STRAIGHT′) вокодере [6]. Однако преобладающим случаем применения оставалось кодирование/обработка речи.
Другой сферой интересов сообщества, занимающегося обработкой звука, было разложение голосовых сигналов на модулированные составляющие. Каждая компонента состоит из несущей, амплитудной модуляции (AM) и частотной модуляции (ЧМ) в той или иной форме. Сигнал-адаптивный подход к такой декомпозиции был опубликован, в частности, в [7], где предлагался набор адаптивных к сигналу полосовых фильтров. В [8] предложена технология, использующая данные AM в сочетании с параметрическим кодером ′синусоиды плюс шум′. Другой метод декомпозиции был обнародован в [9], где используется так называемая стратегия ′FAME′: при которой голосовые сигналы с помощью полосовых фильтров разлагают на четыре полосы для последующего выделения их AM и ЧМ содержимого. Новые публикации нацелены также на репродуцирование звуковых сигналов только из информации AM (подполосных огибающих) и предлагают итеративные способы восстановления ассоциированных фазовых характеристик, которые преимущественно включают в себя ЧМ [10].
Наш подход, представленный здесь, ставит своей целью обработку звуковых сигналов общего характера, включая музыку. Действие аналогично фазовому вокодеру, но с изменениями, позволяющими осуществлять ориентированное на сигнал перцептуально мотивированное разложение подполос в ряд подполосных несущих частот с соответствующими сигналами AM и ЧМ. Следует подчеркнуть, что такая декомпозиция перцепционно направлена, и ее элементы поддаются прямой интерпретации, позволяя выполнять все виды модулирования составляющих.
При выполнении поставленной задачи мы исходим из заключения, что существуют перцептивно сходные сигналы. Достаточно узкополосный тональный полосовой сигнал в плане восприятия хорошо представлен синусоидальной несущей в позиции ее спектрального ′центра тяжести′ (COG) и ее Гильбертовой огибающей. Это коренится в том факте, что оба сигнала вызывают приблизительно одинаковое перемещение базилярной мембраны в ухе человека [11]. Простым примером, иллюстрирующим это, является двухтональный комплекс (1) с частотами f1 и f2, близкими друг к другу настолько, что они сенсорно сливаются в одну (пере-) модулированную составляющую
s t ( t ) = sin ( 2 π f 1 t ) + sin ( 2 π f 2 t ) ( 1 )
Сигнал, содержащий синусоидальную несущую частотой, равной спектральному COG st, и имеющий такую же огибающую абсолютной амплитуды как st, согласно (2) является sm
s m ( t ) = 2 sin ( 2 π f 1 + f 2 2 t ) ⋅ | cos ( 2 π | f 1 − f 2 | 2 t ) | ( 2 )
На фиг.9b (верхний и средний графики) изображены временной сигнал и огибающая Гилберта обоих сигналов. Следует обратить внимание на скачок фазы π первого сигнала в нулях огибающей в противоположность второму сигналу.
На фиг.9а (верхний и средний графики) отображены кривые спектральной плотности мощности двух сигналов.
Хотя по своему спектральному составу эти сигналы значительно различаются, их перцепционные доминанты - „средняя" частота, представленная COG, и амплитудная огибающая - соизмеримы. Это делает их сенсорно взаимозаменяемыми относительно ограниченного по полосе спектрального участка в COG, как изображено на фиг.9а и фиг.9b (нижние графики). Этот же принцип остается вполне верным и для более сложных сигналов.
Главным образом, системы модуляционного анализа/синтеза, которые разлагают широкополосный сигнал в набор компонент, каждая из которых содержит информацию о несущей, амплитудной модуляции и частотной модуляции, имеют много степеней свободы, поскольку сама задача сформулирована некорректно. Методы модификации огибающих амплитуд подполос сложных спектров звуковых частот с последующей их рекомбинацией с их немодифицированными фазами для ресинтеза на самом деле приводят к возникновению артефактов, поскольку эти методики не принимают во внимание конечный приемник звука, то есть человеческое ухо.
Более того, использование излишне длинных БПФ, то есть слишком длинных окон, с целью достижения высокого частотного разрешения одновременно снижает разрешающую способность по времени. С другой стороны, кратковременные сигналы не требуют высокой разрешающей способности по частоте, но требуют высокой разрешающей способности по времени, поскольку в определенный момент полосовые сигналы проявляют сильную взаимную корреляцию, которая известна так же как „вертикальная когерентность". Употребляя такую терминологию, необходимо представить себе спектрограмму в масштабе времени, где по горизонтальной оси проходит переменная времени, и где по вертикальной оси дается частотная переменная. Значит преобразование кратковременных сигналов с очень высоким частотным разрешением приведет к низкому разрешению по времени, что в то же самое время означает почти полную потерю вертикальной когерентности. И вновь, при такой модели не учитывается конечное приемное устройство звука - человеческое ухо.
Публикация [22] раскрывает методологию анализа, дающего в результате точные синусоидальные характеристики акустических сигналов. Эта методика объединяет модифицированное оценивание параметров вокодера с современными алгоритмами амплитудного детектирования в синусоидальном моделировании. Система последовательно обрабатывает входной сигнал фрейм за фреймом, отыскивает пики аналогично модели синусоидального анализа, но одновременно в динамическом режиме селектирует каналы вокодера, в которых преобразуются размытые пики в области БПФ. Таким образом могут быть точно параметризированы частотные траектории синусоид меняющейся частоты внутри фрейма. На этапе спектрального синтаксического разбора распознают пики и впадины БПФ амплитуды. При локализации пика спектр за его пределами устанавливают на нуль, а его положительно- и отрицательно-частотные версии сохраняют. Затем рассчитывают преобразование Гилберта этого спектра с последующим вычислением ОБПФ исходного и преобразованного по Гилберту спектров с целью получения двух сигналов во временной области, расходящихся между собой по фазе на 90°. Эти сигналы применяют для получения аналитического сигнала, используемого при анализе в вокодере. Распознанные побочные пики могут быть позже смоделированы как шум или исключены из модели.
Опять же, перцептивные критерии, такие как переменная ширина спектрального диапазона, воспринимаемого ухом человека, то есть более узкая полоса в нижней части спектра и более широкая полоса в верхней части спектра, не учитываются. Более того, существенной особенностью человеческого слуха является, как рассматривалось в контексте фиг.9а, 9b и 9с, его способность объединять гармонические тона в пределах полосы частот, входящей в критический для человеческого слуха диапазон, так, чтобы человек не слышал два устойчивые тона, незначительно различающиеся по частоте, но воспринимал их как один тон переменной амплитуды, частота которого находится между частотами исходных тонов. Этот эффект все больше нарастает с расширением критической для слуха полосы частот.
К тому же положение критических частотных полос в спектре не постоянно, а зависит от сигнала. Исследованиями психоакустики установлено, что человеческое ухо динамически выбирает центральные частоты критических частотных полос в зависимости от спектра. Например, когда ухо человека воспринимает громкий тональный сигнал, критическая полоса частот центруется вокруг него. Когда позже громкий тон будет различен на другой частоте, то слуховые органы позиционируют критическую полосу частот вокруг этой другой частоты так, чтобы восприятие слушателя было не только адаптивно к сигналу во времени, но и имело фильтры высокого спектрального разрешения в низкочастотной области и низкого спектрального разрешения, то есть с широкой полосой пропускания, в верхней части спектра.
Цель настоящего изобретения - предложить улучшенную концепцию параметризации звукового сигнала и преобразования параметрического представления путем модификации или синтеза.
Средствами достижения поставленной цели являются преобразователь звукового сигнала в соответствии с пунктом 1 формулы изобретения, способ преобразования звукового сигнала в соответствии с пунктом 7 формулы, модификатор параметрического представления в соответствии с пунктом 8, способ модификации параметрического представления по пункту 10, синтезатор параметрического представления по пункту 11, способ синтеза параметрического представления звукового сигнала по пункту 15, параметрическое представление звукового сигнала по пункту 22, или компьютерная программа по пункту 23.
Предлагаемое изобретение основано на заключении, что переменная ширина критических частотных полос имеет ряд преимуществ. Одно из преимуществ - повышение эффективности за счет использования низкой разрешающей способности слуха человека. В данном контексте настоящее изобретение помогает избежать вычисления данных, когда в этом нет необходимости, что повышает производительность.
Другое преимущество при этом состоит в том, что там, где требуется высокая разрешающая способность, расчет необходимых данных выполняется, обеспечивая повышение качества параметризованного и вновь синтезируемого сигнала.
Главное преимущество, тем не менее, состоит в том, что этот тип разложения сигнала обеспечивает простые, интуитивные и перцептуально адаптированные средства управления сигналом, позволяя, в частности, напрямую воздействовать на такие характеристики, как резкость, высота звука и т.п.
С этой целью проводят адаптивный к звуковому сигналу анализ и на основании результатов анализа подбирают совокупность полосовых фильтров, придерживаясь принципа приспособляемости к сигналу. Так, ширина полос пропускания полосовых фильтров не постоянна, а зависит от центральной частоты полосового фильтра. В силу этого, представляемое изобретение позволяет варьировать частоту полосового фильтра и дополнительно регулировать ширину полосы пропускания полосового фильтра таким образом, чтобы для каждого перцепционно выверенного полосового сигнала могли быть реализованы амплитудная и частотная модуляция вместе с текущей центральной частотой, которая приблизительно представляет собой расчетную центральную частоту полосы пропускания. Предпочтительнее, если значение центральной частоты в полосе выражает энергетический центр тяжести (COG) внутри этой полосы, чтобы человеческий слух мог быть смоделирован в максимально точной степени. Таким образом, значение центральной частоты полосового фильтра не обязательно является выбранным для выделенного тона в полосе, однако средняя частота полосового фильтра очень вероятно может проходить через частотную характеристику там, где в спектре БПФ пик отсутствовал.
Данные частотной модуляции получают путем понижающего смешения полосового сигнала с рассчитанной центральной частотой. Таким образом, несмотря на то, что исходя из БПФ (на основании спектра) центральная частота была рассчитана с низким временным разрешением, мгновенная информация о времени сохраняется в частотной модуляция. Однако отнесение долговременных изменений к несущей частоте, а кратковременных изменений к данным частотной модуляции и амплитудной модуляции дает возможность формировать параметрическое представление по принципу вокодера, выверенное перцепционно.
Итак, преимущества представляемого изобретения состоят в том, что оно удовлетворяет таким условиям, при которых извлекаемая информация перцептуально значима и интерпретируема, когда модуляция на основе модуляционной информации дает перцептивно взвешенный результат, лишенный нежелательных артефактов, вносимых в силу ограничений, присущих модуляции непосредственно.
Еще одним преимуществом настоящего изобретения является то, что информация, извлеченная непосредственно из несущей, уже представляет собой черновую, но благозвучную и показательную „эскизную" реконструкцию акустического сигнала, и дальнейшее применение любых данных AM и ЧМ способствует совершенствованию такого представления в сторону детализации и прозрачности. Это означает, что предлагаемый в изобретении подход обеспечивает полную масштабируемость, начиная с нижнего уровня, где только на основе информации, извлеченной из несущей, может быть восстановлен „эскиз" сигнала, уже являющийся перцептивно приемлемым, вплоть до верхних уровней масштабирования, где достигается наилучшее качество за счет использования соответствующих дополнительных данных AM и ЧМ, способствующих повышению разрешающей способности по точности/времени.
Достоинство данного изобретения состоит в том, что оно полезно и будет востребовано в области разработки новых акустических эффектов, с одной стороны, и в качестве структурного элемента в сфере создания будущих эффективных алгоритмов компрессии звука, с другой стороны. Поскольку в прошлом всегда существовало различие между методами параметрического кодирования и кодированием формы сигнала, такое различие может быть преодолено в большей степени благодаря представляемому изобретению. В то время как методы кодирования формы сигнала позволяют легко достигать прозрачности при наличии необходимого битрейта, алгоритмы параметрического кодирования, такие как CELP или ACELP, ограничены базовыми моделями источников, и даже если в этих кодерах постоянно наращивать битрейт, они не могут приблизиться к транспарентности. Вместе с тем, параметрические методы обычно предлагают широкий диапазон возможностей получения и применения различных акустических эффектов, в то время как кодирование формы сигнала строго ограничено задачей наилучшего воспроизведения исходного сигнала.
Предлагаемое изобретение заполнит этот пробел, обеспечивая плавный переход между двумя подходами.
Далее будут рассмотрены варианты реализации настоящего изобретения в сопровождении прилагаемых иллюстраций, где
на фиг.1A представлена принципиальная блочная схема осуществления устройства или способа преобразования звукового сигнала;
на фиг.1B представлена принципиальная схема другого предпочтительного варианта технического решения;
на фиг.2А дана блок-схема алгоритма преобразования, представленного на фиг.1А;
на фиг.2B дана блок-схема алгоритма процесса генерации множества полосовых сигналов в предпочтительном варианте осуществления;
на фиг.2С приведен пример адаптивной к сигналу сегментации спектра на основании расчета COG и перцептуальных ограничений;
на фиг.2d дана блок-схема алгоритма преобразования, представленного на фиг.1b;
на фиг.3а отображена схема реализации концепции модификации параметрического представления;
на фиг.3b дана принципиальная схема предпочтительного технического решения концепции, представленной на фиг.3а;
на фиг.3с представлены графики, схематически поясняющие процесс декомпозиции данных AM на грубо- и тонкоструктурную информацию;
на фиг.3d дана блок-схема алгоритма процесса сжатия, графически представленного на фиг.3с;
на фиг.4а показана принципиальная блочная схема реализации синтеза;
на фиг.4b дана принципиальная схема предпочтительного варианта конструктивного решения концепции, представленной на фиг.4а;
на фиг.4с отображен процесс наложения обработанного звукового сигнала с разрешением по времени, битстрим звукового сигнала и процедура наложения/сложения при модуляционном информационном синтезе;
на фиг.4d дана блок-схема предпочтительного варианта осуществления синтеза звукового сигнала с использованием параметрического представления;
на фиг.5 отображена структура вокодера анализа/синтеза известного уровня техники;
на фиг.6 дана принципиальная схема фильтра известного уровня техники как элемента структуры на фиг.5;
на фиг.7а отображена спектрограмма отрывка оригинальной музыкальной фонограммы;
на фиг.7b отображена спектрограмма только синтезированных несущих;
на фиг.7с отображена спектрограмма несущих, „декорированных" за счет грубой AM и ЧМ;
на фиг.7d отображена спектрограмма несущих, декорированных грубой AM и ЧМ с добавлением „изящного шума";
на фиг.7е отображена спектрограмма несущих и неизмененных AM и ЧМ после синтеза;
на фиг.8 приведен результат тестирования субъективно воспринимаемого качества звучания;
на фиг.9а показаны графики спектральной плотности мощности двухтонального сигнала, многотонального сигнала и соответствующим образом ограниченного по полосе многотонального сигнала;
на фиг.9b показаны графики формы волны и огибающие двухтонального сигнала, многотонального сигнала и соответствующим образом ограниченного по полосе многотонального сигнала; и
на фиг.9с даны уравнения генерации двух перцепционно - по полосе пропускания -эквивалентных сигналов.
На фиг.1 представлен преобразователь звукового сигнала 100 в параметрическое представление 180. Устройство включает в себя анализатор сигналов 102, предназначенный для получения результата 104 разложения части звукового сигнала. Результат анализа является информацией, вводимой в оцениватель полос пропускания 106, который выполняет оценивание данных относительно множества полосовых фильтров для данной части звукового сигнала на основании результата анализа. Таким образом адаптивно к сигналу рассчитываются параметры 108 набора полосовых фильтров.
В частности, информация 108 о наборе полосовых фильтров содержит данные о форме фильтра. Форма фильтра может включать в себя показатели ширины полосы пропускания полосового фильтра и/или средней частоты полосового фильтра для данного сегмента звукового сигнала и/или параметры спектральной формы функции передачи амплитуды в параметрической форме или непараметрической форме. Важно, что полоса пропускания полосового фильтра не постоянна по всему частотному диапазону, а зависит от центральной частоты полосового фильтра. Предпочтительно, чтобы зависимость выражалась в том, что полоса пропускания расширяется с повышением средней частоты и сужается с понижением средней частоты. Еще предпочтительнее, чтобы ширина полосы пропускания полосового фильтра полностью определялась по перцептуально скорректированной шкале, такой как шкала барков, чтобы ширина полосы пропускания полосового фильтра всегда зависела от ширины полосы частот, фактически воспринимаемой слухом человека в пределах определенной адаптивной к сигналу средней частоты.
Для этого анализатор сигналов 102 анализирует спектр сегмента звукового сигнала, в особенности распределение плотности мощности в спектре, чтобы обнаружить зоны концентрации мощности, поскольку такие же зоны определяются и ухом человека при восприятии и дальнейшей обработке звука.
Кроме того, устройство, относящееся к изобретению, включает в себя оцениватель модуляции 110 для оценивания амплитудной модуляции 112 или частотной модуляции 114 для каждой полосы набора полосовых фильтров для данного сегмента звукового сигнала. Для этого оцениватель модуляции 110 использует данные о наборе полосовых фильтров 108, что будет рассмотрено позже.
Кроме того, относящееся к изобретению устройство на фиг.1а имеет интерфейс вывода данных 116 для передачи, хранения или преобразования данных амплитудной модуляции 112, частотной модуляции 114 или информации о наборе полосовых фильтров 108, которая может включать параметры формы фильтра, в частности значения центральных частот полосовых фильтров для конкретного сегмента/блока звукового сигнала, или другие данные, как рассматривалось выше. Выходные данные являются параметрическим представлением 180, как показано на фиг.1а.
Фиг.1b демонстрирует предпочтительную версию исполнения оценивателя модуляции 110 и анализатора сигналов 102 (с фиг.1а), объединенного с оценивателем полос пропускания 106 (с фиг.1а) в единый блок, обозначенный на фиг.1b как „оценивание несущей частоты". Оцениватель модуляции 110 преимущественно содержит полосовой фильтр 110а, который формирует полосовой сигнал. Сформированный полосовой сигнал вводят в аналитический преобразователь сигнала 110b. Выходные данные блока 110b используют для вычисления параметров AM и ЧМ. Для расчета показателей AM с помощью блока 110с вычисляют амплитуду аналитического сигнала. Выходной сигнал блока анализа 110b вводят в умножитель 110d, управляемый реальной несущей частотой fc полосы пропускания 110а, который одновременно через другой вход принимает сигнал гетеродина 110е. Далее, с использованием блока 110f определяют фазу выходного сигнала умножителя. Посредством блока 110g распознают мгновенную фазу для завершения формирования информации ЧМ.
Таким образом, схема на фиг.1b иллюстрирует процесс разложения сигнала на несущие и соотносящиеся с ними компоненты модуляций.
Фигура отображает прохождение сигнала с выделением одной составляющей. Остальные составляющие выделяют аналогичным способом. Выделение преимущественно выполняют на поблочной основе при размере блока N=214 с частотой дискретизации 48 кГц и наложением на ¾, что примерно соответствует интервалу времени в 340 мс с шагом в 85 мс. Следует учитывать, что могут быть взяты другие размеры блока или коэффициенты. В конструкцию устройства входит подстраиваемый по сигналу полосовой фильтр, центрованный по локальному COG [12] в спектре ДПФ сигнала. Кандидатные позиции локального COG оценивают путем нахождения переходов от положительных к отрицательным значениям в функции CogPos, определяемой согласно (3). Процедура постселекции гарантирует, что окончательно оцененные позиции COG приблизительно равноудалены на перцептуальной шкале.
C o g P o s ( k , m ) = n o m ( k , m ) d e n o m ( k , m ) n o m ( k , m ) = α ∑ i = − B ( k ) / 2 + B ( k ) / 2 ( i w ( i ) | X ( k + i , m ) | 2 ) + ( 1 − α ) n o m ( k , m − 1 ) d e n o m ( k , m ) = α ∑ i = − B ( k ) / 2 + B ( k ) / 2 ( w ( i ) | X ( k + i , m ) | 2 ) + ( 1 − α ) d e n o m ( k , m − 1 ) α = 1 τ F s ; i ∈ I ' ( 3 )
Для каждого индекса k спектрального коэффициента получаем относительное смещение в сторону локального центра тяжести на участке спектра, который перекрывается сглаженным скользящим окном w. Ширина B(k) окна соответствует перцептуальной шкале, например, шкале барков. X(k,m) - спектральный коэффициент k во временном блоке m. Кроме того, выполняется рекурсивное временное сглаживание первого порядка с константой времени τ.
Функции вычисления значений альтернативных центров тяжести могут быть итеративными или неитеративными. Неитеративная функция, к примеру, включает в себя сложение величин энергии для различных участков полосы и сравнение результатов сложения.
Локальный центр тяжести (COG) соответствует „средней" частоте, воспринимаемой слушателем, благодаря спектральным составляющим в районе этой частоты. Чтобы увидеть эту зависимость, необходимо учитывать эквивалентность COG и 'средней мгновенной частоты взвешенной интенсивности' (IWAIF), выведенную в [12]. Окно оценивания COG и ширину переходной полосы результирующего фильтра подбирают с учетом разрешающей способности слуха человека {„критических полос частот"). Здесь опытным путем определено, что ширина полосы около 0,5 барков удовлетворяем всем видам объектов испытаний (речь, музыка, окружающая среда). Более того, правильность этого выбора подтверждена в литературе [13].
В дальнейшем аналитический сигнал формируют преобразованием Гильберта для сигнала, прошедшего фильтрацию полосовым фильтром и гетеродинируемого частотой оцененного COG. В завершение сигнал далее разлагают на его амплитудную огибающую и траекторию мгновенных частот (МгнЧ), получая желаемые сигналы AM и ЧМ. Следует обратить внимание на то, что полосовые сигналы, центрованные по позициям локальных COG, соответствуют концепции „областей влияния" традиционного фазового вокодера. Оба метода сохраняют временную огибающую полосового сигнала: первый - по своей сути, а последний - обеспечивая локальную спектральную фазовую когерентность.
Следуе