Устройство и способ изменения звукового сигнала посредством формирования огибающей

Иллюстрации

Показать все

Изобретение относится к акустике, в частности к устройствам для модификации звукового сигнала, и содержит определитель формы огибающей, процессор банка фильтров, процессор сигнала, объединитель и формирователь огибающей. Определитель формы огибающей вычисляет коэффициенты формирования огибающей звукового сигнала, процессор банка фильтров обеспечивает полосовую фильтрацию, процессор сигнала корректирует сигнал с ограниченной полосой частот. Затем множество сигналов с заданными частотными поддиапазона объединяются, чтобы получить звуковой сигнал временного интервала. Формирователь огибающей генерирует огибающую звукового сигнала с учетом коэффициентов формирования огибающей. При этом определитель формы огибающей сконфигурирован, чтобы определить коэффициенты формирования огибающей на основе предсказания частоты. Преобразователь огибающей состоит из преобразователя коэффициентов и множителя. Процессор банка фильтров содержит фильтр с предсказанием, блок вычитания сигнала и банк фильтров, а формирователь огибающей вычисляет энергетическое отношение запаса энергии звукового сигнала частотной области и энергетического содержания остаточного звукового сигнала. Технический результат - улучшение качества звука. 3 н. и 11 з.п. ф-лы, 23 ил., 4 табл.

Реферат

Осуществления согласно изобретению связаны с обработкой звука и, в частности, с устройством и способом изменения (модификации) звукового сигнала.

Существует возрастающая потребность в способах цифровой обработки сигнала, которые отвечали бы необходимости в предельных манипуляциях сигналом, чтобы приспосабливать записанные заранее звуковые сигналы, например, взятые из базы данных, к новому музыкальному контексту. Чтобы сделать это, семантические свойства сигнала высокого уровня, такие как высота, музыкальная тональность и гамма должны быть адаптированы. Все эти манипуляции объединяются тем, что они стремятся к существенному изменению музыкальных свойств оригинального звукового материала, сохраняя субъективное звуковое качество, насколько возможно хорошим. Другими словами, редактирование сильно изменяет содержание звукового музыкального материала, но, тем не менее, необходимо для сохранения естественности обработанного звукового образца и, таким образом, для поддерживания правдоподобности. В идеале для этого требуются способы обработки сигнала, которые широко применимы к различным классам сигналов, включая полифонический комбинированный музыкальный контент.

Сегодня известно много концепций изменения звуковых сигналов. Некоторые из этих концепций основаны на вокодерах.

Например, в работах С. Диша и Б. Эдлера, «Вокодер амплитудной и частотной модуляции для звуковой обработки сигнала», Докум. междунар. конференции по цифровым звуковым эффектам (DAFx), 2008 г., С. Диша и Б. Эдлера, «Анализ многополосной перцепционной модуляции, обработка и синтез звуковых сигналов», Докум. IEEE-ICASSP, 2009 г., или С. Диша и Б. Эдлера, «Итерационный алгоритм сегментации для спектров звукового сигнала в зависимости от предполагаемых локальных центров тяжести», 12-ая Международная конференция по цифровым звуковым эффектам (DAFx-09), 2009 г., была представлена концепция вокодера модуляции (MODVOC), и было указано на его общую способность выполнить достоверное селективное транспонирование на полифоническом музыкальном контенте. Это делает возможными применения, которые направлены на изменение ключевой тональности заранее записанных музыкальных образцов РСМ (импульсно-кодовая модуляция) (см., например, работу С. Диша и Б. Эдлера, «Анализ многополосной перцепционной модуляции, обработка и синтез звуковых сигналов», Докум. IEEE-ICASSP, 2009 г.). Доступно также первое коммерчески пригодное программное обеспечение, которое может справляться с такой задачей полифонического манипулирования (редактор Melodyne от Celemony). Программное обеспечение реализует технологию, которая была маркирована и продана по условиям прямого доступа к ссылке (DNA). Заявка на патент ЕР 2099024, П. Нойбекер, "Способ акустического объективно-ориентированного анализа и объективно-ориентированная обработка нот при записи полифонических звуков», сентябрь 2009) была недавно опубликована, по-видимому, охватывая и, таким образом, раскрывая существенные функциональные возможности DNA. Независимо от способа, используемого для изменения звукового сигнала, желательно получить звуковой сигнал с высоким перцепционным качеством.

Задачей настоящего изобретения является представление улучшенной концепции изменения звукового сигнала, которая позволит получить улучшенное качество восприятия измененного звукового сигнала.

Это достигается посредством использования устройства по п.1, способа по п.13 или компьютерной программы по п.14.

Реализация изобретения осуществляется при помощи устройства для модификации звукового сигнала, состоящего из процессора с набором фильтров, блока определения основного тона, процессора сигналов и блока сведения. Процессор с набором фильтров предназначен для получения множества полос сигналов, выделенных из входного звукового сигнала. Далее, блок определения основного тона предназначен для выделения сигнала определенной полосы пропускания из множества сигналов для получения сигнала основного тона в полосе частот. Блок определения обертона предназначен идентифицировать сигнал определенной частоты из множества сигналов, удовлетворяющих критериям обертона по отношению к выбранному сигналу основного тона и получения сигнала обертона, связанного с выбранным сигналом основного тона. Далее, процессор сигнала предназначен изменять сигнал основного тона, основываясь на заданной модели модификации. Дополнительно, процессор сигнала предназначен для модификации (изменения) выделенного сигнала обертона, связанного с выбранным сигналом основного тона, зависящим от изменения выбранного сигнала основного тона. Далее, блок сведения предназначен для объединения множества сигналов для получения модифицированного звукового сигнала.

Идентифицируя обертоны основных частот и изменяя обертоны таким же образом, как и соответствующие основные тоны, можно избежать раздельного изменения (модификации) основных тонов и их обертонов так, чтобы тембр измененного звукового сигнала мог быть сохранен более точно по сравнению с оригинальным звуковым сигналом. Таким образом, перцепционное качество измененного звукового сигнала может быть значительно улучшено. Например, если требуется селективное транспонирование высоты (например, изменяя тональность от до мажора до до минора данного музыкального сигнала), изменение идентифицированного обертона сигнала с ограниченной полосой частот коррелируется с изменением основного сигнала с ограниченной полосой частот. Для сравнения, известные способы изменяют частотную область сигнала с ограниченной полосой частот, представляющего обертоны иначе, чем основной сигнал с ограниченной полосой частот. Другими словами, идентифицированный обертон сигнала с ограниченной полосой частот блокируется до основного сигнала с ограниченной полосой частот при использовании описанной концепции.

В некоторых осуществлениях изобретения обертон сигнала с ограниченной полосой частот может быть идентифицирован посредством сравнения частот основного сигнала с ограниченной полосой частот и сигналов с ограниченной полосой частот множества сигналов с ограниченной полосой частот посредством сравнения запаса энергии основного сигнала с ограниченной полосой частот и сигнала с ограниченной полосой частот множества сигналов с ограниченной полосой частот и/или посредством оценки корреляции временной огибающей основного сигнала с ограниченной полосой частот и временной огибающей сигнала с ограниченной полосой частот множества сигналов с ограниченной полосой частот. Таким образом, один или более критериев обертона могут быть определены для минимизации идентификации неправильных обертонов.

Некоторые осуществления согласно изобретению связаны с итеративным определением основных сигналов с ограниченной полосой частот и идентификацией обертонов сигналов с ограниченной полосой частот из множества сигналов с ограниченной полосой частот. Уже выбранные основные сигналы с ограниченной полосой частот и уже идентифицированные обертоны сигналов с ограниченной полосой частот могут быть удалены из области поиска или, другими словами, могут не рассматриваться для определения дальнейшего основного сигнала с ограниченной полосой частот или дальнейшего обертона сигнала с ограниченной полосой частот. Таким образом, каждый сигнал с ограниченной полосой частот множества сигналов с ограниченной полосой частот может быть выбран как основной сигнал с ограниченной полосой частот (и, поэтому, может быть изменен независимо от других основных сигналов с ограниченной полосой частот) или обертон сигнала с ограниченной полосой частот (и, поэтому, может быть изменен в зависимости от связанного выбранного основного сигнала с ограниченной полосой частот).

Другое осуществление изобретения обеспечивает устройство для изменения звукового сигнала, включающего определитель формы огибающей, процессор банка фильтров, процессор сигнала, объединитель и формирователь огибающей. Определитель формы огибающей сконфигурирован, чтобы определить коэффициенты формы огибающей, основываясь на звуковом сигнале частотной области, представляющем входной звуковой сигнал временного интервала. Далее, процессор банка фильтров сконфигурирован, чтобы произвести множество сигналов с ограниченной полосой частот в области поддиапазона, основываясь на звуковом сигнале частотной области. Процессор сигнала сконфигурирован, чтобы изменить сигнал с ограниченной полосой частот области поддиапазона множества сигналов с ограниченной полосой частот области поддиапазона, основываясь на предварительно определенной цели изменения (модификации). Далее, объединитель формируется, чтобы объединить, по крайней мере, подмножество множества сигналов с ограниченной полосой частот области поддиапазона, чтобы получить звуковой сигнал временного интервала. Дополнительно, формирователь огибающей сконфигурирован, чтобы сформировать огибающую звукового сигнала временного интервала, основываясь на коэффициентах формы огибающей, чтобы сформировать огибающую множества сигналов с ограниченной полосой частот области поддиапазона, содержащего измененный сигнал с ограниченной полосой частот области поддиапазона, основываясь на коэффициентах формы огибающей, или чтобы сформировать огибающую множества сигналов с ограниченной полосой частот области поддиапазона, основываясь на коэффициентах формы огибающей до того, как сигнал с ограниченной полосой частот области поддиапазона будет изменен процессором сигнала для получения сформированного звукового сигнала.

Посредством определения коэффициентов формы огибающей звукового сигнала частотной области до того, как звуковой сигнал частотной области выделяется в множестве сигналов с ограниченной полосой частот области поддиапазона, информация о спектральной когерентности звукового сигнала может быть сохранена и может использоваться для формирования огибающей звукового сигнала временного интервала после изменения одного или нескольких сигналов с ограниченной полосой частот области поддиапазона. Таким образом, спектральная когерентность измененного звукового сигнала может быть сохранена более точно, хотя изменяются только некоторые (или только один) сигналы с ограниченной полосой частот области поддиапазона или сигналы с ограниченной полосой частот области поддапазона изменяются по-другому, что может нарушить спектральную когерентность звукового сигнала. Таким образом, перцепционное качество измененного звукового сигнала может быть значительно улучшено.

Некоторые осуществления согласно изобретению, связанные с процессором сигнала, формируются, чтобы изменить второй сигнал с ограниченной полосой частот области поддиапазона множества сигналов с ограниченной полосой частот области поддиапазона, основываясь на второй предварительно определенной цели изменения. Предварительно определенная цель изменения и вторая предварительно определенная цель изменения различны. Хотя сигналы с ограниченной полосой частот изменяются по-разному, спектральная когерентность измененного звукового сигнала может быть сохранена более точно благодаря формированию огибающей после индивидуального изменения сигналов с ограниченной полосой частот.

Осуществления согласно изобретению будут, впоследствии, описаны детально со ссылкой на приложенные рисунки, где:

Фиг.1 - блок-схема устройства для изменения звукового сигнала;

Фиг.2 - блок-схема устройства для изменения звукового сигнала;

Фиг.3 - блок-схема способа изменения звукового сигнала;

Фиг.4 - блок-схема части вокодера модуляции, использующего гармоническую блокировку;

Фиг.5 - блок-схема способа изменения звукового сигнала;

Фиг.6a, 6b, 6c, 6d - блок-схемой устройства для изменения звукового сигнала;

Фиг.7 - блок-схема процессора банка фильтров;

Фиг.8 - блок-схема формирователя огибающей;

Фиг.9 - схематическая иллюстрация анализа модуляции с формированием огибающей;

Фиг.10 - схематическая иллюстрация синтеза модуляции с формированием огибающей;

Фиг.11 - блок-схема способа изменения звукового сигнала;

Фиг.12 - блок-схема устройства для изменения звукового сигнала;

Фиг.13 - схематическая иллюстрация анализа модуляции;

Фиг.14 - схематическая иллюстрация выполнения анализа модуляции;

Фиг.15 - схематическая иллюстрация синтеза модуляции;

Фиг.16 - схематическая иллюстрация селективного транспонирования на компоненте вокодера модуляции;

Фиг.17 - схематическая иллюстрация процедуры получения тестовой последовательности для оценки субъективного качества обработки вокодером модуляции для селективного транспонирования высоты (звука);

Фиг.18 - диаграмма, показывающая абсолютный счет MUSHRA и 95%-ые доверительные интервалы теста слушания, направленные населективное транспонирование высоты (звука);

Фиг.19 - диаграмма, показывающая разностный счет MUSHRA относительно состояния вокодера модуляции и 95%-ые доверительные интервалы теста слушания, направленные на селективное транспонирование высоты (звука); и

Фиг.20 - диаграмма, показывающая разностный счет MUSHRA относительно состояния DNA(прямой доступ к ссылке) и 95%-ые доверительные интервалы теста слушания, направленные на селективное транспонирование высоты (звука).

В дальнейшем, те же самые номера ссылок частично используются для объектов и функциональных единиц, имеющих те же самые или подобные функциональные свойства, и их описание относительно рисунка должно примениться также к другим рисункам, чтобы уменьшить избыточность в описании осуществлений.

Селективное изменение частотного диапазона, также называемое селективным транспонированием высоты (звука), может быть реализовано, например, вокодером или вокодером модуляции.

Многополосное разложение модуляции (см. например, работу С. Диша и Б. Эдлера, «Анализ многополосной перцепционной модуляции, обработка и синтез звуковых сигналов», Докум. IEEE-ICASSP, 2009 г.)рассекает звуковой сигнал на адаптивное множество сигналов (аналитических) сигналов с ограниченной полосой частот, каждый из которых далее разделяется на синусоидальную несущую частоту и ее амплитудную модуляцию (AM) и частотную модуляцию (FM).Множество полосовых фильтров может быть вычислено таким образом, что, с одной стороны, полнополосный спектр покрывается плавно (без резких переходов), а с другой стороны, фильтры выравниваются с общими центрами тяжести (COGs), например. Дополнительно, слуховое восприятие человека может вычисляться, посредством выбора полосы пропускания фильтров, чтобы соответствовать перцепционной шкале, например, шкала ERB (см., например, работу Б. К. Дж. Мура и Б. Р. Гласберга, «Модификация модели громкости Цвикера» Acta Acustica, издание 82, стр.335-345, 1996 г.).

Например, локальный COG соответствует средней частоте, которая воспринимается слушателем благодаря спектральным вкладам в той частотной области. Кроме того, полосы, сосредоточенные в местах локальных COG, могут соответствовать фазе блокировки, основанной на областях зависимости классических фазовых вокодеров (см., например, работу Дж. Лароша и М. Долсона, «Улучшенная модификация шкалы времени фазового вокодера звука», Труды IEEE по обработке речи и звука», издании 7, номер 3, стр.323-332, 1999 г., или работу К. Даксбери, М. Дэвиса, и М. Сандлера, «Улучшенное масштабирование времени музыкального звука, использующее фазу блокировки в переходных процессах», в 112-м Соглашении AES, 2002 г.). Представление огибающей сигнала с ограниченной полосой частот и традиционная фаза блокировки области зависимости, оба сохраняют временную огибающую сигнала с ограниченной полосой частот: или по существу или, в последнем случае, обеспечивая когерентность локальной спектральной фазы во время синтеза. Относительно синусоидальной несущей частоты, соответствующей предполагаемому локальному COG, и АМ (амплитудная модуляция) и РМ (частотная модуляция) собираются в огибающей амплитуды и гетеродинированной фазе аналитических сигналов с ограниченной полосой частот, соответственно. Специальный способ синтеза визуализирует выходной сигнал от несущих частот, AM и FM.

Блок-схема возможного выполнения 1300 разложения сигнала на сигналы несущей и связанные с ними компоненты модуляции изображена на фиг.13. На фигуре показан схематический поток сигналов для извлечения одного из многополосных компонентов (сигналы с ограниченной полосой частот). Все другие компоненты получаются подобным образом. Во-первых, широкополосный входной сигнал х подается в полосовой фильтр, который был разработан как сигнал, адаптивно производящий выходной сигнал. Затем, получается аналитический сигнал посредством преобразования Гильберта согласно уравнению (1).

x ^ ( t ) = x ~ ( t ) + j H ( x − ( t ) )           ( 1 )

АМ (амплитудно-модулированный сигнал) представлен огибающей амплитуды x ^

A M ( t ) = | x ^ ( t ) |           ( 2 )

в то время как FM (частотно модулированный сигнал) получается посредством производной фазы аналитического сигнала, гетеродированного постоянной синусоидальной несущей с угловой частотой ωс. Несущая частота должна быть оценкой локального СОС Следовательно, FM может рассматриваться как IF (мгновенная частота) вариант в несущей частоте fc.

x ` ( t ) = x ^ ( t ) ⋅ exp ( − j ω c t ) F M ( t ) = 1 2 π ⋅ d d t ∠ ( x ` ( t ) )         ( 3 )

Оценка локального COG и сигнал-адаптивная схем банка фильтров преселектора описаны, например, в специализированной публикации (см. С. Диш и Б. Эдлер, «Итерационный алгоритм сегментации для спектров звукового сигнала в зависимости от предполагаемых локальных центров тяжести», 12-ая Международная конференция по цифровым звуковым эффектам (DAFx-09), 2009 г.).

Фактически, в системе дискретного времени извлечение компонента может выполняться совместно для всех компонентов, как показано на фиг.14. Схема обработки может поддерживать вычисление в реальном времени. Обработка определенного блока времени зависит только от параметров предыдущих блоков. Следовательно, не требуется никакого предварительного просмотра, чтобы поддерживать полную задержку обработки насколько возможно низкой. Обработка вычисляется на поблочной основе, использующей, например, 75%-ое наложение блока анализа и применение дискретного преобразования Фурье (DFT) на каждом реализуемом посредством организации окна блоке сигнала. Окно может быть плоским верхним окном согласно уравнению (4). Это гарантирует то, что центрированные образцы N/2, которые передаются для последующего синтеза модуляции, использующего 50%-ое наложение, не затрагиваются границами окна анализа. Более высокая степень наложения может использоваться для повышения точности за счет увеличенной сложности вычисления.

w i n d o w ( i ) a n a l y s i s = { sin 2 ( 2 i π N ) 0 < i < N 4 1 N 4 ≤ i < 3 N 4 sin 2 ( 2 i π N ) 3 N 4 ≤ i < N               ( 4 )

При заданном спектральном представлении вычисляется следующее множество сигнал-адаптивных спектральных весовых функций полос пропускания, которые выравниваются с локальными позициями COG. После применения взвешивания полосы пропускания к спектру сигнал передается во временной интервал, и аналитический сигнал может быть получен посредством преобразования Гильберта. Эти две ступени обработки могут быть эффективно объединены посредством вычисления одностороннего IDFT(обратное дискретное преобразование Фурье) на каждом сигнале с ограниченной полосой частот. При заданном сигнале с ограниченной полосой частот дискретного времени оценка IF посредством уравнения (3) выполняется дифференцированием фазы, как определено в уравнении (5), где* обозначает комплексно сопряженное число. Это выражение удобно использовать, так как оно позволяет избежать неопределенности фазы и, следовательно, необходимости развертывания фазы.

F M ( n ) = ∠ ( x ` ( n ) x ` ( n − 1 ) * )                 ( 5 )

Сигнал синтезируется на аддитивный основе всех компонентов. Последовательные блоки смешиваются наложением - добавлением (OLA), которое контролируется связующим механизмом. Связывание компонентов гарантирует плавный переход между границами смежных блоков, даже если компоненты существенно изменены посредством обработки области модуляции. Связывание принимает во внимание только предыдущий блок, таким образом, потенциально обеспечивая обработку в режиме реального времени. Связывание, по существу, выполняет попарное выравнивание компонентов текущего блока с их предшественниками в предыдущем блоке. Дополнительно, связывание выравнивает абсолютные фазы компонентов текущего блока с абсолютными фазами компонентов предыдущего блока. Для компонентов, не имеющих соответствия по временным блокам, применяется постепенное усиление (нарастание) или замирание, соответственно.

Для одного компонента последовательность обработки показана на фиг.15. Подробно, сначала FM сигнал добавляется к постоянной несущей частоте, и получающийся сигнал передается на стадию OLA, выход которой, впоследствии, интегрируется во времени. Синусоидальный генератор (осциллятор) питается получающимся фазовым сигналом. Сигнал AM обрабатывается второй стадией OLA. Затем, выход генератора модулируется по амплитуде сигналом АМ, чтобы получить аддитивный вклад компонента в выходной сигнал. На заключительной ступени вклады всех компонентов суммируются, чтобы получить выходной сигнал у.

Другими словами, фиг.13 и 14 показывают анализатор модуляции 1300. Анализатор модуляции 1300 предпочтительно включает полосовой фильтр 1320а, который обеспечивает сигнал с ограниченной полосой частот. Это вход в аналитический преобразователь сигнала 1320b. Выход блока 1320b полезен для вычисления информации AM и информации РМ. Для вычисления информации АМ величина аналитического сигнала вычисляется блоком 1320 с. Выход блока аналитического сигнала 1320b является входом в множитель 1320d, который получает, на его другом входе, сигнал генератора от генератора 1320е, которым управляет текущая несущая частота fc 1310 полосы пропускания 1320а. Тогда, фаза выхода множителя определяется в блоке 1320f. Мгновенная фаза дифференцируется в блоке 1320 g, чтобы, наконец, получить FM информацию. Кроме того, фиг.14 показывает препроцессор 1410, генерирующий спектр DFT (дискретное преобразование Фурье) звукового сигнала.

Многополосное разложение модуляции рассекает звуковой сигнал на сигнал-адаптивное множество сигналов (аналитических) сигналов с ограниченной полосой частот, каждый из которых далее разделяется на синусоидальную несущую и ее модуляцию амплитуды (AM) и модуляцию частоты (FM). Множество полосовых фильтров рассчитывается таким образом, что, с одной стороны, полнополосный спектр покрывается равномерно и, с другой стороны, каждый фильтр выравнивается с локальными ССЮз. Дополнительно, слуховое восприятие человека отвечает за выбор полосы пропускания фильтров, чтобы соответствовать перцепционной шкале, например, ЕЯВ шкала (см. работу Б. К. Дж. Мура и Б. Р. Гласберга, «Модификация модели громкости Цвикера» Acta Acustica, издание 82, стр.335-345, 1996 г.).

Локальный COG соответствует средней частоте, которая воспринимается слушателем благодаря спектральным вкладам в ту частотную область. Кроме того, полосы, сосредоточенные в локальных позициях COG, соответствуют фазе блокировки, основанной на областях зависимости классических фазовых вокодеров (см. например, работу Дж. Лароша и М. Долсона, «Улучшенная модификация шкалы времени фазового вокодера звука», Труды IEEE по обработке речи и звука», издании 7, номер 3, стр.323-332, 1999 г., работу Ч. Даксбери, М. Дэвиса, и М. Сандлера, «Улучшенное масштабирование времени музыкального звука, использующее фазу блокировки в переходных процессах», в 112-ом Соглашении AES, 2002 г., А. Ребель, «Новый подход к обработке переходных процессов в фазовом вокодере», Докум. междунар. конференции по цифровым звуковым эффектам (DAFx), стр.344-349, 2003 г., А. Ребель, «Обнаружение и сохранение переходных процессов в фазовом вокодере», Междунар. конференция по компьютерной музыке (ICMC '03), стр.247-250, 2003 г.). Представление огибающей сигнала с ограниченной полосой частот и традиционная фаза блокировки области зависимости, сохраняют временную огибающую сигнала с ограниченной полосой частот, обеспечивая локальную спектральную последовательность фазы во время синтеза. Относительно синусоидальной несущей частоты, соответствующей предполагаемому локальному COG, и AM и FM вводятся в огибающую амплитуды и гетеродинированную фазу аналитических сигналов с ограниченной полосой частот, соответственно. Специальный способ синтеза визуализирует выходной сигнал от несущих частот, AM и FM.

Блок-схема разложения сигнала на сигналы несущей и связанные с ними компоненты модуляции изображены на фиг.12. На чертеже показан схематический поток сигнала для извлечения одного компонента. Все другие компоненты получаются аналогичным способом. Практически, извлечение выполняется совместно для всех компонентов на поблочной основе, использующей, например, размер блока N=214 при 48 кГц частоты дискретизации и 75%-ном наложении для анализа - примерно соответствующие временному интервалу в 340 миллисекунд и большому шагу в 85 миллисекунд - посредством применения дискретного преобразования Фурье (DFT) на каждом реализуемом посредством организации окна блоке сигнала. Окно может быть «плоским верхним» окном согласно уравнению (a). Это может гарантировать то, что центрированные образцы N/2, которые передаются для последующего синтеза модуляции, не затрагиваются уклонами окна анализа. Более высокая степень наложения может использоваться для повышения точности за счет увеличенной сложности вычисления.

w i n d o w ( i ) a n a l y s i s = { sin 2 ( 2 i π N ) 0 < i < N 4 1 N 4 ≤ i < 3 N 4 sin 2 ( 2 i π N ) 3 N 4 ≤ i < N               ( a )

При заданном спектральном представлении следующее множество сигнал-адаптивных спектральных функций взвешивания (имеющее полосно-пропускающую характеристику), которое выравнивается с локальными позициями COG, может быть вычислено (посредством определителя несущей частоты 1330, исходя из оценки несущей частоты или оценки кратной несущей частоты COG). После применения взвешивания полосы пропускания к спектру сигнал преобразуется во временной интервал, и аналитический сигнал получается посредством преобразования Гильберта. Эти два шага обработки могут быть эффективно объединены посредством вычисления одностороннего IDFT на каждом сигнале с ограниченной полосой частот. Впоследствии, каждый аналитический сигнал гетеродинируется посредством его предполагаемой несущей частотой. Наконец, сигнал далее разлагается на огибающую амплитуды и дорожку мгновенной частоты (IF), полученные посредством вычисления производной фазы, дающей в результате желательную АМ и РМ сигнала (см. также работу С. Диша и Б. Эдлера, «Вокодер амплитудной и частотной модуляции для звуковой обработки сигнала», Докум. междунар. конференции по цифровым звуковым эффектам (DAFx), 2008 г.)

Соответственно, фиг.15 показывает блок-схему параметризованного представления синтезатора изменения 1500 звукового сигнала. Например, преимущественное выполнение основывается на операции наложения - добавления (OLA) в области модуляции, то есть в области, до генерирования сигнала с ограниченной полосой частот временного интервала. Входной сигнал, который может быть битовым потоком, но который также может быть прямой связью с анализатором или модификатором, разделяется на АМ компонент 1502, FM компонент, 1504 и компонент несущей частоты 1506. Синтезатор AM предпочтительно включает сумматор наложения 1510 и, дополнительно, связующий компоненты контроллер 1520, который, предпочтительно включает не только блок 1510, но также блок 1530, который является сумматором наложения в пределах FM синтезатора. FM синтезатор дополнительно включает сумматор наложения частоты 1530, интегратор мгновенной частоты 1532, объединитель фазы 1534, который, снова, может быть выполнен как обычный сумматор, и фазосдвигающую схему (фазовращатель) 1536, которая управляется связывающим элементы контроллером 1520, чтобы восстановить постоянную фазу от блока к блоку так, чтобы фаза сигнала от предыдущего блока была непрерывна с фазой текущего блока. Поэтому, можно сказать, что дополнение фазы в элементах 1534, 1536 соответствует восстановлению константы, которая была потеряна во время дифференцирования в блоке 1520g нафиг.13 на стороне анализатора. Относительно перспективы потери информации в перцепционной области следует заметить, что это - единственная потеря информации, то есть, потеря постоянной части устройством дифференцирования 1320g на фиг.13. Эта потеря может быть компенсирована посредством добавления постоянной фазы, определенной связующим компоненты устройством 1520.

Наложение - добавление (OLA) применяется скорее в области значений параметра, а не на быстро синтезируемом сигнале, чтобы избежать эффектов биения между смежными блоками времени. OLA контролируется связующим компоненты механизмом, который, будучи направляемым спектральной близостью (измеренный по ERB шкале), выполняет попарное соответствие компонентов текущего блока их предшественникам в предыдущем блоке. Дополнительно, связывание выравнивает абсолютные фазы компонентов текущего блока с абсолютными фазами компонентов предыдущего блока.

Подробнее, во-первых, РМ сигнал добавляется к несущей частоте, и результат передается на стадию OLA, выход которой, впоследствии, интегрируется. Синусоидальный генератор 1540 питается получающимся фазовым сигналом. Сигнал AM обрабатывается второй стадией OLA. Наконец, выход генератора модулируется 1550 по амплитуде результирующим сигналом АМ, чтобы получить аддитивный вклад компонента в выходной сигнал 1560.

Следует подчеркнуть, что соответствующая спектральная сегментация сигнала в ходе анализа модуляции чрезвычайно важна для убедительного результата дальнейшей обработки параметров модуляции. Поэтому, здесь описывается пример подходящего алгоритма сегментации.

Соответственно, фиг.16 показывает пример 1600 применения для изменений полифонической тональности. На фигуре показано селективное транспонирование на компонентах вокодера модуляции. Несущие частоты квантуются до нот(записей) MIDI (цифровой интерфейс музыкальных инструментов), которые отображаются на подходящих соответствующих нотах MIDI. Сохранение относительной FM модуляции посредством умножения отображенных компонентов на отношение оригинальной и измененной несущей частоты.

Транспонирование звукового сигнала при сохранении оригинальной скорости воспроизведения является перспективной задачей. При использовании предложенной системы, это достигается непосредственно при умножении всех компонентов несущей на постоянный множитель. Так как временная структура входного сигнала захватывается исключительно сигналами AM, она не затрагивается растяжением спектрального интервала несущей.

Даже при высоких требованиях к эффекту, он может быть достигнут посредством селективной обработки. Тональность музыкального произведения может быть изменена, например, от минора на мажор или наоборот. Поэтому только подмножество несущих, соответствующих определенным предварительно определенным частотным интервалам, отображается на подходящих новых значениях. Чтобы достигнуть этого, несущие частоты квантуются 1670 до высот (звука) MIDI, которые, впоследствии, отображаются 1672 на соответствующих новых высотах (звука) MIDI (используя предварительное знание тональности и формы музыкального отрывка, подлежащего обработке).

Затем, отображенные ноты MIDI преобразовываются обратно 1574, чтобы получить измененные несущие частоты, которые используются для синтеза. Специальное обнаружение начальной/смещенной ноты MIDI не требуется, так как временные характеристики преобладающе представлены неизмененным AM и, таким образом, сохранены. Произвольные таблицы отображения могут быть определены, что делает возможным преобразование в и из других минорных оттенков (например, гармонический минор).

Применение в сфере звуковых эффектов - глобальное транспонирование звукового сигнала. Обработка, требуемая для этого звукового эффекта, является простым умножением несущих на постоянный коэффициент транспонирования. Также, посредством умножения FM на тот же самый коэффициент обеспечивается сохранение относительной FM глубины модуляции для каждого компонента. Так как временная структура входного сигнала захватывается, исключительно, сигналами AM, она не затрагивается обработкой. Глобальное транспонирование изменяет оригинальную тональность музыкального сигнала на целевую тональность (например, от до мажора до соль мажора), сохраняя оригинальный темп.

Однако из-за сигнал-адаптивной природы предложенного анализа модуляции вокодер модуляции имеет потенциал, выходящий за пределы этой задачи. Теперь, даже транспонирование выбранных компонентов полифонической музыки становится реальным, что делает возможными применения, которые, например, изменяют тональность (нап