Устройство и способ модификации аудио сигнала, используя захват гармоник

Иллюстрации

Показать все

Изобретение относится к акустике, в частности к средствам обработки звукового сигнала. Устройство содержит процессор с набором фильтров, блок определения основного тона, блок определения обертона, процессор сигнала, предназначенный для модификации выделенного полосового сигнала основного тона, основываясь на выбранной модели модификации и способный модифицировать выделенный полосовой сигнал обертона, связанный с выделенным полосовым сигналом основного тона, и зависящим от модификации выделенного полосового сигнала. Процессор сигнала формирует сигналы с амплитудной и частотной модуляцией для каждого полосового сигнала и может корректировать ЧМ сигналы выделенного полосового сигнала основного тона по выбранной модели модификации. Процессор сигнала также модификацирует ЧМ сигналы выделенного полосового сигнала обертона, связанного с полосовым сигналом основного тона. Устройство содержит блок сведения, предназначенный для сведения модифицированного полосового сигнала основного тона, модифицированного полосового сигнала обертона и не выделенных полосовых сигналов из множества полосовых сигналов для получения модифицированного аудио сигнала. Технический результат - повышение качества звучания. 3 н. и 10 з.п. ф-лы, 23 ил., 4 табл.

Реферат

Данное изобретение относится к обработке звука и в частности к аппаратуре и способу изменения аудио сигнала.

Существует постоянно возрастающая потребность в использовании технологии обработки цифрового сигнала, которая связана с управлением предельными значениями сигналов, чтобы использовать заранее записанные аудио сигналы, например, взятые из базы данных и внести их в новый музыкальный контекст. Чтобы иметь возможность сделать это, должны быть адаптированы семантические свойства сигналов высокого уровня такие как уровень, музыкальная тональность и звукоряд. Все эти обработки имеют общим то, что направлены на значительное изменение музыкальных свойств оригинального аудио материала, при сохранении как можно выше субъективного качества звука. Другими словами, эти редактирования сильно изменяют музыкальное содержание аудио материала, но, тем не менее, от них требуется сохранить натуральность обработанного аудио образца и таким образом поддерживать достоверность. Идеально это требует таких способов обработки, которые широко применяются к различным классам сигналов, включая смешенный полифонический музыкальный контент.

В настоящее время известны многие подходы к изменению (модификации) аудио сигналов. Некоторые из них основываются на использовании вокодеров.

Например, в работах С. Диш и Б. Элдер «Амплитудная и частотная модуляция вокодера для обработки аудио сигнала», Материалы международной конференции по цифровым аудио эффектам (DAFx), 2008, С. Диш и Б. Элдер «Многополосный перцептуальный модуляционный анализ, обработка и синтез аудио сигналов», Материалы IEEE-ICASSP, 2009 или С. Диш и Б. Элдер «Алгоритм альтернативной сегментации аудио сигналов спектра, зависящего от расчетных местных центров тяжести», 12 международная конференция по цифровым аудио эффектам (DAFx-09), 2009.”, была заявлена концепция модулируемого вокодера (MODVOC) и была показана его общая способность предавать предварительную форму значительному селективному транспонированию полифонического музыкального контента. Это делает возможным такие использования, которые направлены на изменение режима установки одновременно звучащих нот заранее записанных в кодово-импульсной модуляции музыкальных образцов (см. С. Диш и Б. Элдер «Многополосный перцептуальный модуляционный анализ, обработка и синтез аудио сигналов», Материалы IEEE-ICASSP, 2009). Также имеется первая коммерческая программа, которая делает возможным выполнение задачи такой полифонической обработки (редактор Мелодии фирмы Целемони). Программа использует технологию, которая была разработана и выпущена на рынок под термином «прямой доступ к нотам» (DNA). Была опубликована патентная заявка (ЕР 2099024, П. Нойбекер, "Способ акустического объективно-ориентированного анализа и объективно-ориентированная обработка нот при записи полифонических звуков», сентябрь 2009), раскрывающая основное функционирование принципа DNA. Данное решение направлено на получение аудио сигнала с высокой достоверностью восприятия, независимо от способа, используемого для изменения аудио сигнала.

Задачей настоящего изобретения является представление улучшенной концепции изменения аудио сигнала, которая позволит получить улучшенное качество восприятия измененного аудио сигнала.

Это достигается при помощи устройства по п.1, способа по п.14 или компьютерной программы по п.15.

Реализация изобретения осуществляется при помощи устройства для модификации аудио сигнала, состоящего из процессора с набором фильтров, блока определения основного тона, процессора сигналов и блока сведения. Процессор с набором фильтров предназначен для получения множества полос сигналов, выделенных из входного аудио сигнала. Далее, блок определения основного тона предназначен для выделения сигнала определенной полосы пропускания из множества сигналов для получения сигнала основного тона в полосе частот. Блок определения обертона предназначен идентифицировать сигнал определенной частоты из множества сигналов, удовлетворяющих критериям обертона по отношению к выбранному сигналу основного тона и получения сигнала обертона, связанного с выбранным сигналом основного тона. Далее, процессор сигнала предназначен изменять сигнал основного тона, основываясь на заданной модели модификации. Дополнительно, процессор сигнала предназначен для модификации выделенного сигнала обертона, связанного с выбранным сигналом основного тона, зависящим от изменения выбранного сигнала основного тона. Далее, блок сведения предназначен для объединения множества сигналов для получения модифицированного аудио сигнала.

Идентификация обертонов основных частот и модификация обертонов таким же образом как и соответствующих основных частот, позволяет избежать раздельной модификации обертонов и основных частот, и таким образом основа измененного аудио сигнала может быть представлена более точно по сравнению с оригинальным аудио сигналом. Таким путем, качество восприятия модифицированного аудио сигнала может быть значительно улучшено. Например, если требуется желаемая высота звука транспонирования (например, необходимо изменить режим установки одновременно звучащих нот с до мажор на до минор данного музыкального сигнала), модификация выделенного сигнала обертона коррелируется с модификацией основного сигнала. Для сравнения, известные способы модифицируют частотную область сигнала, представляя обертона отлично от основного сигнала. Другими словами, выделенный сигнал обертона связан с основным сигналом описанным способом.

В некоторых вариантах реализации изобретения, сигнал обертона может быть выделен путем сравнения частот основного тона с множеством поступающих сигналов, путем сравнения энергии основного сигнала и множества этих сигналов и/или определением корреляции временной формы кривой сигнала основного тона и временной формы множества сигналов на входе. Таким образом, один или два критерия обертонов могут быть определены для минимизации определения неправильных обертонов.

В некоторых вариантах выполнения данного изобретения, действия относятся к повторяющемуся определению сигналов основного тона и выделению сигналов обертонов из множества сигналов. Уже выделенные полосовые сигналы основного тона и уже выделенные полосовые сигналы обертонов могут быть удалены из объема поиска или, другими словами, могут не учитываться в ходе дальнейшего определения сигналов основного тона и обертонов. В этом случае каждый сигнал из множества сигналов на входе может выбираться, как сигнал основного тона (и, таким образом, может быть модифицирован независимо от других основных сигналов) или как сигнал обертона (и таким образом может быть модифицирован в зависимости от соответствующего выбранного сигнала основного тона).

Другой вариант выполнения данного изобретения касается устройства для модификации аудио сигнала, состоящего из блок определения формы кривой, процессора с набором фильтров, блока сведения и формирователя кривой. Блок определения формы кривой предназначен для определения коэффициентов формы кривой, основываясь на частотной области значений аудио сигнала, представляющих временную область значений входных аудио сигналов. Далее, процессор с набором фильтров предназначен для того, чтобы выдавать множество сигналов в поддиапазонных областях, основываясь на частоте аудио сигнала. Процессор сигнала предназначен для того, чтобы модифицировать сигнал поддиапазона частот из множества сигналов, основываясь на заданной модели. Далее блок сведения предназначен для того, чтобы свести, по крайней мере, подгруппу множества сигналов поддиапазонов для получения совокупного аудио сигнала. Дополнительно, формирователь кривой предназначен для того, чтобы сформировать кривую совокупного звукового сигнала, основываясь на коэффициентах формы кривой, сформировать форму множества сигналов поддиапазонов, содержащих модифицированные сигналы поддиапазонов, основываясь на коэффициентах формы кривой, каким были сигналы до проведения модификации сигналов процессором и получения сформированного аудио сигнала.

При определении коэффициентов формы кривой области аудио сигнала до разделения сигнала на поддиапазоны может быть собрана информация о спектральной когерентности аудио сигнала и она может быть использована при формировании временной кривой области аудио сигнала после модификации одного или более поддиапазонов. Таким образом спектральная когерентность модифицированного аудио сигнала может быть представлена более достоверно, хотя только некоторые (или только один) поддиапазоны модифицируются или поддиапазоны модифицируются по разному, что может нарушить спектральную когерентность аудио сигнала. В этом случае, качество восприятия модифицированного аудио сигнала может быть значительно улучшено.

Некоторые варианты исполнения данного изобретения относятся к процессору сигнала предназначенного для модификации второго поддиапазона полосового сигнала, базирующегося на второй выбранной модели модификации. Первая и вторая выбранные модели модификации различны. Хотя полосовые сигналы модифицируются по разному, спектральная когерентность модифицированного аудио сигнала может быть представлена более точно благодаря построению формы кривой после индивидуальной модификации полосовых сигналов.

Описание реализации данного изобретения будет детализировано с использованием ссылок на следующие чертежи и схемы, на которых:

Фиг.1 - блок схема устройства для модификации аудио сигнала;

Фиг.2 - блок схема устройства для модификации аудио сигнала;

Фиг.3 - схема программы способа модификации аудио сигнала;

Фиг.4 - блок схема части модулирующего вокодера, использующего захват гармоник;

Фиг.5 - схема программы способа модификации аудио сигнала;

Фиг.6а, 6b, 6с, 6d - блок схемы устройства для модификации аудио сигнала;

Фиг.7 - блок схема процессора с набором фильтров;

Фиг.8 - блок схема формирователя кривой;

Фиг.9 - схематическая иллюстрация модуляционного анализа с формирователем кривой;

Фиг.10 - схематическая иллюстрация модуляционного синтеза с формирователем кривой;

Фиг.11 - блок схема способа модификации аудио;

Фиг.12 - блок схема устройства для модификации аудио сигнала;

Фиг.13 - схематическая иллюстрация модуляционного анализа;

Фиг.14 - схематическая иллюстрация применения модуляционного анализа;

Фиг.15 - схематическая иллюстрация модуляционного синтеза;

Фиг.16 - схематическая иллюстрация выборочного транспонирования на компонентах модуляционного вокодера;

Фиг.17 - схематическая иллюстрация алгоритма генерирования тестового набора для вычисления субъективного качества модуляционного вокодера, используемого для задач селективного транспонирования тона;

Фиг.18 - диаграмма, показывающая абсолютные MUSHRA величины и 95% доверительные интервалы тестовых прослушиваний селективных транспонирований тона;

Фиг.19 - диаграмма, показывающая разницу между MUSHRA величинами по отношению к условиям модуляционного вокодера и 95% доверительными интервалами тестового прослушивания селективных транспонирований тона; и

Фиг.20 - диаграмма, показывающая различные MUSHRA величины по отношению к условиям DNA и 95% доверительные интервалы тестового прослушивания селективных транспонирований тона.

При описании изобретения будут использованы одинаковые цифры для объектов и функциональных узлов, имеющих одинаковые или близкие функциональные свойства, чтобы избежать многословности при описании.

Селективная частотная модификация, называемая также селективным транспонированием тона, может быть выполнена, например, при помощи вокодера или модуляционного вокодера.

Многополосное модуляционное разложение (С. Диш и Б. Элдер Многополосный модуляционный анализ восприятия, обработки и синтеза аудио сигналов, Материалы IEEE-ICASSP, 2009) аудио сигналов разлагает их на адаптивный набор полосовых (аналитических) сигналов, каждый из которых, в свою очередь разлагается на синусоидальную несущую, амплитудную модуляцию (AM) и частотную модуляцию (ЧМ). Набор полосовых фильтров может быть рассчитан таким образом, что с одной стороны полный спектр покрывается без стыков, а с другой стороны фильтры выстроены, например, с общими центрами тяжести (ОЦТ). Дополнительно, аудио восприятие человеком может приниматься во внимание при выборе ширины полосы фильтров для согласования шкалы восприятия, например ERB шкалы, (Б.С. Мур и Б.Р. Гласберг, Ревизия цвикерской модели громкости, ActaAcustica, том, 82, с.335-345, 1996).

Например, местная ОЦТ соответствует средней частоте, которая воспринимается слушателем благодаря спектральному восприятию в данном месте. Более того, волны, с центром в местном ОТЦ могут соответствовать району воздействия при захвате фаз классических фазовых вокодеров (см Дж. Ларош и М. Долсон Улучшенная временная шкала модификации звука фазовым вокодером, Труды IEEE по обработке речи и аудио, том 7, №3, стр.323-332, 1999). Образ кривой полосового сигнала и традиционная область воздействия фаз обе дают временную кривую полосового сигнала: либо по своей природе, либо, как в последнем случае, обеспечивая местную спектральную когерентность во время синтеза. С учетом синусоидальной несущей частоты, соответствующей расчетному местному ОЦТ, AM и ЧМ регистрируются в амплитудной кривой и наложенной фазе аналитического полосового сигнала, соответственно. Разработанный метод синтеза восстанавливает выходной сигнал из несущих частот, AM и ЧМ.

Блок схема возможного использования 1300 разложения сигнала на сигналы - носители и их модуляционные компоненты показана на фиг 13. Здесь показано схематическое прохождение сигнала при вычитании одного из многополосных компонентов (полосовые сигналы). Все остальные компоненты получают аналогичным способом. Сначала, широкополосный входной сигнал X поступает на полосовой фильтр, который был рассчитан для получения адаптивного сигнала на выходе. Затем, аналитический сигнал получают по преобразованию Гилберта по уравнению (1).

AM (сигнал с амплитудной модуляцией) дается по амплитудной огибающей х ^

тогда как ЧМ (частотно модулированный сигнал) получают фазовой производной аналитического сигнала, наложенного на стационарный синусоидный носитель с угловой ωc. Несущая частота определяется как расчетная местного ОТЦ. Поэтому ЧМ может быть определена как изменение МЧ (мгновенная частота) на несущей частоте ƒc.

Оценка местного ОТЦ и расчет переднего набора фильтров адаптивного сигнала описан, например, в ряде публикаций (см. С. Диш и Б. Элдер, Повторяющийся алгоритм сегментации для сигналов аудио спектра зависящих от местных центров тяжести, 12 международная конференция по цифровым аудио эффектам (DAFx-09), 2009).

Практически в дискретной временной системе, извлечение компонента может проходить одновременно для всех компонентов, как показано на фиг. 14. Схема обработки может поддерживать работу в реальном времени. Обработка определенного временного блока зависит только от параметров предыдущих блоков. Поэтому не требуется никакого заглядывания вперед и это делает задержку общей обработки очень малой. Обработка проводится по методу блок - за - блоком, используя 75% перекрытие анализа блока и используя дискретное преобразование Фурье (ДПФ) на каждом обрабатываемом блоке сигнала. Интервал может быть с плоской вершиной по уравнению (4). Это обеспечивает такое состояние, что N/2 образцы, которые прошли на следующий модуляционный синтез используя 50% перекрытие, становятся недейственными из-за нижнего края поля. Большая степень перекрытия может быть использована для повышенной точности вычисления.

В данной спектральной репрезентации вычислены весовые функции спектральной полосы адаптивного сигнала, которые совпадают с положением местного ОТЦ. После соотнесения взвешенности полосы к спектру, сигналы преобразуются во временное пространство и аналитические сигналы могут быть получены при помощи преобразования Гилберта. Эти два этапа обработки могут быть эффективно объединены вычислением односторонней IDFT полосового сигнала. При данном полосовом сигнале дискретного времени вычисление МЧ при помощи уравнения (3) производится путем дифференциации фаз как определено в уравнении (5), где * определяет комплексное сопряженное число. Это выражение успешно применяется т.к. оно позволяет избегать фазовых неопределенностей и следовательно не требует фазового развертывания.

Сигнал синтезируется на аддитивном основании всех компонентов. Последовательные блоки смешиваются путем наложения/добавления (OLA), контролируемые механизмом сборки. Компонент сборки обеспечивает плавный переход между границами соседних блоков даже если компоненты значительно изменены модуляционной обработкой. Процесс собирания не только берет во внимание предварительный блок, но и потенциально позволяет вести обработку в режиме реального времени. В ходе собирания происходит по парное согласование компонентов в текущем блоке с их предшественниками в предыдущем блоке. Процесс собирания выравнивает фазы абсолютных компонентов текущих блоков с такими же компонентами в предыдущих блоках. Для компонентов, которые не совпадают по временным блокам, применяется постепенное усиление или постепенное затухание.

Для одного компонента цепь обработки показана на фиг.15. Сначала ЧМ сигнал добавляется к постоянной несущей частоте и полученный сигнал проходит через блок смешения/наложения, а выходной сигнал с этого блока интегрируется по времени. На синусоидный генератор подается полученный фазовый сигнал. AM сигнал обрабатывается на второй стадии смешения/наложения. Затем сигнал на выходе генератора модулируется по амплитуде AM сигналом, чтобы получить аддитивное взаимодействие компонента с выходным сигналом. На финальном этапе взаимодействие всех компонентов суммируется для получения выходного сигнала y.

Другими словами, фиг.13 и 14 показывают модуляционный анализатор 1300. Он состоит из полосового фильтра 1320а, который выдает полосовой сигнал. Он является входным сигналом аналитического конвертера (преобразователя) сигнала 1320b. Выход блока 1320b используется для вычислений AM информации и ЧМ информации. Для вычисления AM информации, амплитуда аналитического сигнала вычисляется в блоке 1320с. Выход блока аналитического сигнала 1320b является входом умножителя 1320d, который получает на свой другой вход сигнал с генератора 1320е, который управляется частотой носителя fc 1310 полосы 1320а. Затем определяется фаза на выходе умножителя в блоке 1320f. Мгновенная фаза дифференцируется в блоке 1320g, чтобы в конце получить ЧМ информацию. Дополнительно фиг. 14 показывает предпроцессор 1410, генерирующий DFT спектр аудио сигнала.

Многополосное модуляционное разделение разделяет аудио сигнал на адаптивные сигнальные наборы (аналитических) полосовых сигналов, каждый из которых далее разделяется на синусоидальную несущую и амплитудную модуляцию (AM) и частотную модуляцию (ЧМ) сигнала. Набор полосовых фильтров устроен таким образом, чтобы с одной стороны полный спектр был без стыков, а с другой стороны фильтры согласовывались с местным ОТЦ каждый. Кроме того, человеческое аудио восприятие принимается во внимание при выборе ширины полосы фильтров для совпадения со шкалой восприятия, например, ERB шкалой (см. Б.С. Мур и Б.Р. Гласберг, Ревизия цвикерской модели громкости, ActaAcustica, том, 82, стр. 335-345, 1996).

Местная ОЦТ соответствует средней частоте, которая воспринимается слушателем благодаря спектральному восприятию в данном месте. Более того, волны, с центром в местном ОТЦ могут соответствовать району воздействия при захвате фаз классических фазовых вокодеров (см Дж. Ларош и М. Долсон Улучшенная временная шкала модификации звука фазовым вокодером, Труды IEEE по обработке речи и аудио, том 7, №3, стр. 323-332, 1999). Образ кривой полосового сигнала и традиционная область воздействия фаз обе дают временную кривую полосового сигнала: либо по своей природе, либо, как в последнем случае, обеспечивая местную спектральную когерентность во время синтеза. С учетом синусоидной несущей частоты, соответствующей расчетному местному ОЦТ, AM и ЧМ регистрируются в амплитудной кривой и наложенной фазе аналитического полосового сигнала, соответственно. Разработанный метод синтеза восстанавливает выходной сигнал из несущих частот, AM и ЧМ.

Блок схема разделения сигнала на сигналы несущей и связанные с ней модулирующие компоненты показана на фиг. 12. Здесь показано схематическое прохождение сигнала по извлечению одного компонента. Все другие компоненты извлекаются аналогичным способом. Практически извлечение всех компонентов выполняется одновременно по блочно, используя, например, блок размером N=214 на частоте квантования 48 kHz и 75% перекрытие анализов - грубо соответствует временному интервалу 340 ms и шагу по индексу 85 ms - при применении дискретного преобразования Фурье (DFT) в каждом сигнальном блоке. Интервал может быть с плоской вершиной по уравнению (4). Это обеспечивает такое положение, что N/2 образцы, которые прошли на следующий модуляционный синтез используя 50% перекрытие становятся недейственными из-за нижнего края поля. Большая степень перекрытия может быть использована для повышенной точности вычисления.

(а)

В данной спектральной репрезентации может быть вычислен набор весовых функций спектральной полосы, адаптивного сигнала (имеющие характеристики полосового сигнала), которые совпадают с положением местного ОТЦ (при помощи блок определения а несущей частоты 1330 через вычисление несущей частоты или вычисление умножителя несущей частоты ОТЦ). После соотнесения взвешенности полосы к спектру, сигналы преобразуются во временное пространство и аналитические сигналы могут быть могут быть получены при помощи преобразования Гилберта. Эти два этапа обработки могут быть эффективно объединены вычислением односторонней IDFT полосового сигнала.

Каждый аналитический сигнал накладывается на несущую частоту. Затем сигнал дальше разбирается на составные части, выделяя амплитудную огибающую и ее мгновенную частоту (МЧ), полученные вычислением фазовой производной, выделяя желаемый AM и ЧМ сигналы. (С. Диш и Б. Элдер. Вокодеры амплитудной и частотной модуляции для обработки аудио сигналов, Материалы конференции по цифровым аудио эффектам (DAFx), 2008).

Фиг. 15 показывает блок схему синтезатора модификаций 1500 параметрического представления аудио сигнала. Предпочтительное использование основывается на операции наложения/добавления (ОНД) в модулируемом пространстве, т.е. пространстве до генерирования временного полосового сигнала. Входной сигнал, который может быть в виде цифрового потока, но может быть и напрямую подключен к анализатору или модификатору, разделяется на AM компонент 1502, ЧМ компонент 1504 и компонент несущей частоты 1506. Синтезатор AM содержит блок наложения/добавления 1510, и контроллер сборки компонентов 1520, который не только содержит блок 1510, но и блок 1530, который является блоком наложения/добавления в ЧМ синтезаторе. ЧМ синтезатор кроме того содержит блок частотного наложения/добавления 1530, интегратор мгновенной частоты 1532, блок фазового сведения 1534, который может использоваться как блок постоянного наложения и смещения фаз 1536, управляемый контроллером сборки компонентов для восстановления постоянной фазы от блока к блоку, чтобы фаза сигнала от предыдущего блока совпадала с фазой текущего блока. Поэтому можно сказать, что фазовое добавление в элементах 1534, 1536 соответствуют восстановлению константы, потерянной в ходе отыскания производной в блоке 1520g на фиг.13 анализатора. Эта потеря может быть восстановлена путем добавления постоянной фазы, определенной в устройстве сборки компонентов 1520.

Операция наложения/добавления (ОНД) проводится с пространством параметра, а не с уже синтезированным сигналом, чтобы избежать эффекта биений между соседними временными блоками. ОНД управляется механизмом сборки компонентов, который, управляемый спектральной близостью (измеренной по шкале ERB), выполняет по парный подбор компонентов текущего блока с их предшественниками из предыдущего блока. При соединении выверяются абсолютные фазы компонентов текущего блока и компонентов предыдущего блока. Сначала ЧМ сигнал добавляется к несущей частоте и полученный сигнал передается в блок ОНД, выходной сигнал затем интегрируется. Полученный фазовый сигнал подается на синусоидальный генератор 1540. AM сигнал обрабатывается на втором блоке ОНД. В конце выход генератора модулируется в 1550 полученным AM сигналом по амплитуде, чтобы получить добавляемый компонент к выходному сигналу 1560.

Необходимо подчеркнуть, что соответствующая спектральная сегментация сигнала при модуляционном анализе является наиболее важной для получения положительного результата при дальнейшей обработке параметров модуляции. Поэтому здесь описывается пример подходящего алгоритма сегментации.

Фиг.16 показывает пример 1600 применения изменения полифонического звучания. Фиг. показывает селективное транспонирование компонентов на модуляционном вокодере. Несущие частоты квантуются по правилам MIDI, затем преобразуются в соответствующее MIDI звучание. Сохранение относительной ЧМ модуляции происходит путем мультипликации преобразованных компонентов в соотношении оригинальной и модифицированной частоты носителя.

Транспонирование аудио сигнала при сохранении оригинальной скорости воспроизведения является трудной задачей. Используя предложенную систему это достигается прямым умножением всех компонентов носителя на постоянный фактор. Временная структура входящего сигнала связана только с AM сигналами и на ее не оказывает воздействие удлинение спектрального промежутка несущей..

Еще больший эффект может быть получен при селективной обработке. Режим тональности музыкального произведения может быть изменен с мажорного на минорное и наоборот. Следовательно, только подгруппа несущих соответствующих определенным заданным частотным интервалам преобразуется в подходящие новые значения. Чтобы получит это преобразование, несущие частоты квантуются в 1670 на MIDI уровни, которые преобразуются в 1672 в новые MIDI уровни (используя знание о гармонике и тональности обрабатываемого музыкального произведения).

Затем преобразованные MIDI уровни конвертируются в 1574, чтобы получить модифицированные частоты несущих, которые используются для синтеза. Выделенный MIDI уровень детектирования появления/пропадания не требуется т.к. временные характеристики преимущественно представлены не модифицированной AM и таким образом уже представлены. Таблицы произвольного преобразования могут быть составлены при конверсии в и из других минорных оттенков (например гармонический минор).

Использование данного изобретения в области аудио эффектов является глобальное транспонирование аудио сигнала. Обработка, требуемая для этих аудио эффектов, представляет собой простое умножение несущих на постоянный фактор транспонирования. При умножении ЧМ на этот же фактор получают, что для каждого компонента сохраняется относительная глубина ЧМ модуляции. Поскольку временная структура представлена только AM сигналами, она остается неизменной при обработке. Общее транспонирование изменяет оригинальную тональность музыкального сигнала на желаемую (например с до мажор на соль минор) при сохранении оригинального темпа.

Благодаря адаптивной природе сигнала в предложенном модуляционном анализе, модуляционный вокодер может быть применен и для выполнения других задач. Теперь, когда транспонирование селективных компонентов полифонической музыки стало выполнимым благодаря приложениям меняющим тональность (например, с до мажор на соль минор) данного музыкального сигнала (см. С. Диш и Б. Эдлер, Многополосный перцептуальный модуляционный анализ, обработка и синтез аудио сигналов, Материалы IEEE-ICASSP, 2009). Это стало возможным благодаря тому, что каждая несущая компонентов близко соответствует восприятию высоты тона в его спектральной области. Если только несущая, соответствующая определенному оригинальному тону преобразуется по новой модели, то общая музыкальная характеристика, определяемая тональностью, также изменяется.

Необходимая обработка на MODVOC компонентах описана на фиг.16, как говорилось выше. В области разделения MODVOC, несущие частоты квантуются по закону MIDI, а затем преобразуются в соответствующие уровни и ноты MIDI. Для восстановления миди - уровней и нот, необходимо знание тональности и лада оригинального музыкального отрывка. AM всех компонентов не влияет вовсе, поскольку она не несет информации о высоте тона.

Несущие частоты компонентов f, которые представляют высоту тона компонентов, конвертируются в значения MIDI уровней m в соответствии с уравнением 6, где fstd обозначает стандартный уровень, который соответствует MIDI уровень 69, нота А0.

Соответственно, MIDI уровни квантуются в MIDI ноты n(f) и, дополнительно определяется смещение уровня о(f) каждой ноты. Используя таблицу преобразования MIDI нот, которая зависит от тональности, оригинального строя и желаемого строя эти MIDI ноты преобразуются в желаемые значения n′. В таблице, приведенной ниже, даны примеры преобразования ноты до из до мажор в до минор. Преобразование возможно проводить с нотами всех октав (original note - оригинальная нота; target note - преобразованная нота)

Original note Target note
C C
D D
E Eb
F F
G G
A Ab
B Bb

Преобразованные MIDI ноты, включающие смещения уровня, преобразуются назад на частоту f', чтобы получить модифицированные несущие частоты, используемые для синтеза (уравнение 7). Дополнительно, чтобы сохранить относительную глубину ЧМ модуляции, преобразованный ЧМ компонент умножается на индивидуальный фактор высоты транспонирования, который получают как соотношение оригинальной и модифицированной несущих частот. Обнаружение появления/исчезновения смещения MIDI нот может не потребоваться т.к. временные характеристики представлены неизменной AM.

Описанный модуляционный вокодер является одной из возможностей отдельно модифицировать различные частотные диапазоны (полосовые сигналы) аудио сигналов, что было показано как селективное транспонирование уровня. Концепция изобретения позволяет улучшить качество восприятия таких модифицированных аудио сигналов. Хотя некоторые воплощения концепции изобретения описаны в связи с вокодером или модулирующим вокодером, она может быть использована более широко для улучшения качества восприятия модифицированных аудио сигналов независимо от использования вокодера.

Фиг.1 показывает блок схему устройство 100 для модификации аудио сигнала 102 в соответствии с данным изобретением. УСТРОЙСТВО 100 состоит из процессора с набором фильтров 110, блок определения основного тона 120, блок определения обертона 130, процессора сигнала 140 и блока сведения 150. Процессор с фильтрами 110 подключен к блоку определения основного тона 120, блок определения обертона 130 и сигнальный процессор 140 также как блок определения основного тона 120, подключен к блок определения обертона 130 и сигнальному процессору 140. Далее блок определения обертона подключен к сигнальному процессору 140, а сигнальный процессор 140 подключен к блоку сведения 150. Процессор ПО генерирует множество полосовых сигналов 112, получаемых из аудио сигнала 102. Блок определения основного тона выбирает из множественного полосового сигнала 112 сигнал основного тона 122. Блок определения обертона выбирает из множественного полосового сигнала 112, сигнал, соответствующий критериям обертона для выбранного сигнала основного тона 122 и выделяет его как сигнал обертона 132. Далее сигнальный процессор 140 изменяет выделенный сигнал основной частоты 122 в соответствии с выбранной моделью. Дополнительно, сигнальный процессор 140 изменяет выделенный сигнал обертона 132, связанный с выделенным сигналом основного тона 122, по модели изменения сигнала основного тона 122. Блок сведения 150 сводит все множество полосовых сигналов, содержащих выделенные модифицированные сигналы основного тона и выделенные модифицированные сигналы обертонов, для получения модифицированного аудио сигнала 152.

Путем одинакового изменения полосового сигнала основного тона 122 и выделенного полосового сигнала обертона 132, связанного с сигналом 122, может быть представлено общее поведение этих гармоник, хотя другие полосовые сигналы могут меняться по другому. Таким образом, личное качество оригинального аудио сигнала 102 может быть сохранено более точно и качество восприятия модифицированного аудио сигнала может быть значительно улучшено. Например, большинство инструментов излучают гармонические сигналы состоящие из частот основного тона и его гармоник. Если требуется модифицировать частоты основного тона, тогда коррелированная модификация гармоник в соответствии с описанной концепцией может привести к появлению модифицированного аудио сигнала значительно лучшего качества восприятия. Далее, аудио сигнал может быть модифицирован в реальном времени, т.к. полная информация об аудио сигнале (полный набор полифонической музыкальной информации)может не требоваться.

Аудио сигнал 102 может быть, например, входным аудио сигналом временного пространства или аудио сигналом частотного пространства, представляющим входной аудио сигнал временного пространства.

Блок определения основного тона 120 выдает выделенный полосовой сигнал основного тона 122 на сигнальный процессор 140 для модификации или может выдавать запускающий сигнал 122 (например, индекс i∈[0…I-1] выделенного полосового сигнала основного тона, где I число полосовых сигналов во множестве полосовых сигналов) для запуска сигнального процессора 140 для модификации выделенного полосового сигнала в соответствии с выбранной моделью модификации. Соответственно, блок определения обертона 130 может выдавать выделенный с полосовой сигнал обертона 132 для модификации на сигнальном процессоре 140 или может выдавать запускающий сигнал 132 (например, индекс, обозначающий полосовой сигнал в качестве сигнала обертона) для запуска сигнального процессора 140 для модификации выделенного полосового сигнала.

Общий критерий может содержать одно или более правил для определения обертона основного тона. Может быть один или более критериев, которые необходимо выполнить для выделения полосового сигнала из множества сигналов в качестве обертона выделенного полосового сигнала основного тона 122.

Выбранная модель модификации может быть различной для полосовых сигналов, содержащих различные частотные диапазоны и может зависеть от желаемой модификации аудио сигнала 102. Например, оригинальная тональность аудио сигнала должна быть изменена на требуемую тональность. Ранее был дан пример преобразования ноты До из мажора в минор при помощи таблицы. Например, если частотный диапазон полосового сигнала соответствует оригинальной ноте До, то нота преобразованная также будет До и этот полосовой сигнал не модифицируется (за исключением, если он определен как полосовой сигнал обертона, связанный с изменяемым сигналом основного тона). В этом случае цель модификации сохранить этот полосовой сигнал неизменным. С другой стороны, полосовой сигнал, содержащий частотный диапазон, соответствующий оригинальной ноте Ля может модифицироваться и модифицированный полосовой сигнал может содержать частот