2565008 - Устройство и метод для обработки аудио сигнала, содержащего переходный сигнал

Устройство и метод для обработки аудио сигнала, содержащего переходный сигнал

Иллюстрации

Показать все

Изобретение относится к средствам обработки аудиосигнала с переходом. Технический результат заключается в увеличении качества сигнала. Обрабатывают аудиосигнал, в котором удалена первая часть, содержащая переходный сигнал, либо аудиосигнала с переходом для получения итогового обработанного сигнала. Вставляют вторую временную часть в обработанный аудиосигнал, откуда первая часть была удалена или туда, где находится переходный сигнал в обработанном аудиосигнале. При этом вторая часть содержит переходный сигнал, который не подвергался обработке в отличие от исходного сигнала, где операция вставки сигнала содержит определение длительности второй части, которая копируется из аудиосигнала с переходом. Определяют начальную точку или конечную точку второй части путем нахождения максимального количества взаимно коррелирующих параметров; таким образом, граница второй части максимально совпадает с соответствующей границей обработанного сигнала, где временная точка переходного сигнала в обработанном аудиосигнале совпадает с точкой переходного сигнала в исходном аудиосигнале или отклоняется от нее, причем отклонение является допустимым с точки зрения психоакустики после применения процедур предварительной и последующей маскировки. 3 н. и 6 з.п. ф-лы, 17 ил.

Реферат

Настоящее изобретение применяется в области обработки аудиосигналов, а именно там, где обработка аудиосигналов включает применение аудиоэффектов к сигналам, имеющим переходный сигнал.

Известно, что при подобной обработке аудиосигналов изменяется скорость воспроизведения сигнала, в то время как тон речевого сигнала остается прежним. При такой обработке используются фазовые речевые кодеры или такие методы, как метод совмещения и добавления (с синхронизацией тона) (P)SOLA, который описан в работах J.L. Flanagan and R.М. Golden, The Bell System Technical Journal, November 1966, pp.1394 to 1509; United States Patent 6549884 Laroche, J. & Dolson, M: Phase-vocoder pitch-shifting; Jean Laroche and Mark Dolson, New Phase-Vocoder Techniques for Pitch-Shifting, Harmonizing And Other Exotic Effects", Proc. 1999 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, New Paltz, New York, Oct. 17-20, 1999; and Zolzer, U: DAFX: Digital Audio Effects; Wiley & Sons; Edition: 1 (February 26, 2002); pp.201-298.

Кроме того, аудиосигналы могут передаваться с помощью таких методов, как фазовые речевые кодеры или (P)SOLA, когда передаваемый аудиосигнал имеет ту же самую длину воспроизведения/повторного воспроизведения, что и исходный сигнал до передачи, но тон сигнала при этом меняется. Это достигается при ускоренном воспроизведении удлиненного сигнала, где фактор ускорения для выполнения ускоренного воспроизведения зависит от фактора удлинения, применяемого для растягивания исходного аудиосигнала во времени. Когда сигнал имеет дискретную репрезентацию во времени, эта процедура соответствует субдискретизации удлиненного сигнала или децимации удлиненного сигнала согласно коэффициенту, равному коэффициенту удлинения, при этом частота сигнала остается неизменной.

Особую сложность при обработке аудиосигналов такого типа представляют переходные сигналы. Переходные сигналы - это составляющие сигнала, когда энергия сигнала на всей частоте или на определенной частоте резко меняется, то есть резко увеличивается или резко уменьшается. Особенностью переходных сигналов является распределение энергии сигнала в спектре. Обычно энергия аудиосигнала во время перехода распределяется по всей частотной полосе, в то время как в порциях без переходного сигнала энергия обычно концентрируется в частотах низкого диапазона аудиосигнала или других определенных частотах.

Это означает, что часть сигнала без переходной помехи, которая также называется постоянной или тональной частью сигнала, имеет неравномерный спектр. Другими словами, энергия сигнала включена в сравнительно небольшое количество спектральных линий/спектральных частот, которые значительно выделяются над уровнем помех аудиосигнала. В части перехода энергия аудиосигнала распределяется по многим частотным полосам, особенно в части высоких частот, поэтому часть аудиосигнала с переходом будет относительно равномерна по сравнению с тональной частью. Как правило, переходный сигнал представляет собой значительные изменения во времени, что означает, что сигнал будет включать более высокие гармоники, когда выполняется преобразование Фурье. Важной особенностью этого множества высоких гармоник является то, что фазы этих высоких гармоник взаимосвязаны особым образом, так что совмещение всех синусоидальных волн приводит к резкому изменению энергии сигнала. Иными словами, в данном случае существует сильная корреляция в спектре.

К особым случаям необходимо отнести «вертикальное соответствие». «Вертикальное соответствие» относится к временно-частотной репрезентации спектра сигнала, где горизонтальное направление соответствует развитию сигнала во времени, а вертикальное направление описывает взаимозависимость спектральных компонентов и частоты.

В ходе обычных стадий обработки, которые выполняются для того, чтобы растянуть или уменьшить во времени аудиосигнал, вертикальное соответствие разрушается, что означает, что переходный сигнал «размывается» во времени, когда он подвергается процедуре растягивания или уменьшения во времени. Это происходит, например, при применении фазового речевого кодера или любого другого метода, который выполняет частотно-зависимую обработку, изменяя фазу аудиосигнала, которая различна для различных частотных коэффициентов.

Когда при обработке аудиосигнала нарушается вертикальное соответствие переходного сигнала, обрабатываемый сигнал оказывается подобным исходному сигналу в той части, где отсутствует переход, то есть в стационарной части. Часть сигнала, где присутствует переход, имеет худшее качество. Неконтролируемое изменение вертикального соответствия переходного сигнала приводит к его временному рассеиванию. В связи с тем, что гармонические составляющие формируют переходный сигнал, изменение фаз всех этих составляющих в хаотичном порядке неизбежно приводит к появлению шумов.

Однако переходные части очень важны в плане динамики аудиосигнала, например музыкального сигнала или речевого сигнала, где неожиданные изменения энергии в определенные моменты влияют на субъективность аудиосигнала. Иными словами, переходы, как правило, являются «ключевыми моментами» аудиосигнала, которые определяют субъективный характер сигнала. Переходные сигналы, в которых вертикальное соответствие было устранено с помощью процедуры обработки сигнала или было уменьшено в соответствии с частью перехода исходного сигнала, после обработки оказываются искаженными, реверберирующими и неестественными для слушателя.

Современные методы позволяют растянуть время вокруг перехода. Методы временной и/или тональной обработки сигналов описаны в следующих работах и патентах: Laroche L., Dolson М.: Improved phase vocoder timescale modification of audio", IEEE Trans. Speech and Audio Processing, vol.7, №3, pp.323-332; Emmanuel Ravelli, Mark Sandler and Juan P. Bello: Fast implementation for non-linear time-scaling of stereo audio; Proc. of the 8^th Int. Conference on Digital Audio Effects (DAFx′05), Madrid, Spain, September 20-22, 2005; Duxbury, С.M. Davies, and M. Sandler (2001, December). Separation of transient information in musical audio using multiresolution analysis techniques. In Proceedings of the COST G-6 Conference on Digital Audio Effects (DAFX-01), Limerick, Ireland; and Robel, A.: A NEW APPROACH TO TRANSIENT PROCESSING IN THE PHASE VOCODER; Proc. of the 6^thInt. Conference on Digital Audio Effects (DAFx-03), London, UK, September 8-11, 2003.

В процессе растягивания аудиосигнала во времени с помощью фазового речевого кодера части сигнала с переходом «размываются» посредством рассеивания, так как нарушается так называемое вертикальное соответствие сигнала. При использовании так называемых методов пересечения-наложения, например (P)SOLA, может возникнуть искажение эхо-компонента до и после перехода. Такая проблема может возникнуть при растягивании переходного сигнала. При выполнении преобразования переходного сигнала параметры преобразования варьируются, это значит, что тон составляющих сигнала также будет изменен, поэтому сигнал будет восприниматься как искаженный.

Целью настоящего изобретения является улучшение качества при обработке аудиосигнала.

Цель достигается благодаря применению устройства для обработки аудиосигнала в соответствии с п.1, устройства для воспроизведения аудиосигнала в соответствии с п.12, метода обработки аудиосигнала в соответствии с п.13, метода получения аудиосигнала в соответствии с п.14, метода получения сигнала с переходом и служебной информацией в соответствии с п.15 или благодаря применению компьютерной программы в соответствии с п.16.

В ходе решения проблем с качеством, которые появляются в процессе нерегулируемой обработки переходной части аудиосигнала, настоящее изобретение позволяет исключить переходную часть из процесса обработки аудиосигнала, если она отрицательно сказывается на качестве сигнала, таким образом, что переходная часть удаляется до этапа обработки, а после него вставляется заново, либо переходная часть обрабатывается, но затем удаляется из аудиосигнала и заменяется необработанной переходной частью.

Предпочтительным является вариант, когда переходные части, добавляемые в обработанный сигнал, являются копиями соответствующих частей исходного аудиосигнала. Таким образом, обработанный сигнал состоит из части без перехода, которая подверглась изменениям, и части, включающей переход, которая осталась без изменений или была изменена особым образом. Например, исходная часть переходного сигнала могла быть подвергнута децимации, любому типу взвешивания или другой обработке. В качестве альтернативы часть переходного сигнала может быть заменена на синтезированный переходный сигнал, который получен таким образом, что он является подобным исходному переходу, соответствуя таким параметрам, как изменение энергии за определенный период или другим параметрам, характеризующим переходную часть. Таким образом, оказывается возможным определить параметры переходной части исходного аудиосигнала, удалить его до этапа обработки сигнала или заменить подвергшийся обработке переходный сигнал синтезированным переходным сигналом, созданным на основе параметров перехода. Более эффективным является метод копирования части оригинального сигнала до процесса обработки с последующей ее вставкой в обработанный аудиосигнал, так как эта процедура гарантирует, что переходная часть в обработанном аудиосигнале идентична переходу исходного сигнала. Эта процедура гарантирует, что особое влияние переходного сигнала на восприятие сигнала сохраняется в обработанном сигнале, если его сравнивать с исходным сигналом до этапа обработки. Таким образом, субъективное и объективное качество в отношении переходной части не ухудшается при любой обработке аудиосигнала.

Варианты настоящего изобретения представляют новый метод обработки переходной части сигнала, улучшающий восприятие, который создает временное «размывание» посредством рассеивания сигнала. Метод включает этап удаления переходной части сигнала до этапа растягивания и затем, соответственно, этап вставки неизмененной переходной части в измененный (растянутый) сигнал.

Предпочтительные формы осуществления настоящего изобретения описываются в соответствии со следующими иллюстративными схемами:

Фиг.1 иллюстрирует предпочтительную форму реализации изобретенного устройства или метода для обработки аудиосигнала с переходной частью;

Фиг.2 иллюстрирует предпочтительную форму реализации модуля удаления переходного сигнала на фиг.1;

Фиг.3а иллюстрирует предпочтительную форму реализации сигнального процессора на фиг.1;

Фиг.3b иллюстрирует следующую форму реализации сигнального процессора на фиг.1;

Фиг.4 иллюстрирует предпочтительную форму реализации модуля вставки сигнала на фиг.1;

Фиг.5а иллюстрирует общую схему применения;

Фиг.5b показывает схему реализации частей сигнального процессора на фиг.1;

Фиг.5с показывает этап растягивания аудиосигнала процессором на фиг.1;

Фиг.6 иллюстрирует трансформированную форму реализации речевого кодера, используемого сигнальным процессором на фиг.1;

Фиг.7а иллюстрирует кодер в ситуации увеличения частотной полосы;

Фиг.7b иллюстрирует декодер в ситуации увеличения частотной полосы;

Фиг.8а иллюстрирует репрезентацию энергии входящего сигнала с переходом;

Фиг.8b иллюстрирует сигнал фиг.8а, организованный с помощью метода окон;

Фиг.8с иллюстрирует сигнал без переходной части до этапа растягивания;

Фиг.8d иллюстрирует сигнал фиг.8с после этапа растягивания;

Фиг.8е иллюстрирует обработанный сигнал после вставки переходной части исходного сигнала;

Фиг.9 иллюстрирует устройство для получения служебной информации для аудиосигнала.

Фиг.1 демонстрирует предпочтительную форму реализации устройства для обработки аудиосигнала, имеющего переход. Устройство включает модуль удаления переходного сигнала 100, который на входе 101 принимает аудиосигнал с переходом. Выход 102 модуля удаления переходного сигнала соединяется с сигнальным процессором 110. Выход 111 сигнального процессора соединяется с модулем вставки сигнала 120. Выход 121 модуля вставки сигнала, где получается обработанный аудиосигнал, имеющий исходную или синтезированную переходную часть, может быть соединен со следующим устройством, таким как формирователь сигналов 130, который может выполнять дальнейшую обработку полученного сигнала, например, субдискретизацию/децимацию, проводимую в целях увеличения диапазона частот; этот этап показан далее на фиг.7а и 7b.

Однако формирователь сигналов 130 не может применяться, если обработанный аудиосигнал, полученный на выходе модуля вставки сигнала 130, используется как он есть, то есть сохраняется для дальнейшей обработки, передается в наушники или в цифровой/аналоговый конвертер, который в итоге соединяется со звукоусилительным оборудованием для воспроизводства обработанного сигнала.

В случае увеличения диапазона частот сигнал на линии 121 может оказаться сигналом высокой частоты. Сигнальный процессор генерирует сигнал высокой частоты из входящего сигнала низкой частоты, низкочастотная переходная часть удаляется из аудиосигнала 101 и вставляется в высокочастотный сигнал. Желательно, чтобы этот этап проводился в процессе обработки сигнала, не нарушая вертикальное соответствие, а именно децимацию. Этап децимации должен проводиться до этапа вставки сигнала, чтобы прошедший этап децимации переходный сигнал был вставлен в сигнал высокой частоты на выходе модуля 110.

При такой реализации настоящего изобретения формирователь сигнала может выполнять дальнейшую обработку высокочастотного сигнала, например распределение по пакетам, добавление шумов, инверсивное фильтрование, добавление гармоник и др. процедуры, которые выполняются, например, MPEG 4 Spectral Band Replication.

Модуль вставки сигнала 120, как правило, получает служебную информацию от модуля удаления переходного сигнала 100 по каналу 123 для того, чтобы выбрать для вставки в сигнал 111 необходимую часть необработанного сигнала.

В том случае, если настоящее изобретение включает устройства 100, 110, 120, 130, процесс обработки сигнала проходит этапы, показанные на фиг.8а-8е. Не всегда требуется удалять переходный сигнал до этапа обработки сигнала процессором 110. При такой реализации настоящего изобретения не требуется наличие модуля удаления 100, модуль вставки сигнала 120 определяет часть сигнала, которая должна быть вырезана из обработанного сигнала на выходе 111 и заменена частью исходного сигнала, что схематично показано линией 121, или синтезированным сигналом, показанным линией 141, где синтезированный сигнал генерируется сигнальным генератором 140. Для получения необходимого переходного сигнала модуль вставки сигнала 120 соединяется с сигнальным генератором и передает параметры переходного сигнала. Однако связь 141 между модулями 140 и 120 является двусторонней. Если устройство обработки сигнала имеет особый детектор переходного сигнала, тогда информация о переходном сигнале передается от этого детектора (не показан на фиг.1) генератору переходного сигнала 140. Генератор переходного сигнала может сразу передавать части переходного сигнала, а может сохранять переходные сигналы, взвешивать их с использованием параметров переходного сигнала, а затем генерировать/синтезировать переходный сигнал для дальнейшего его использования модулем вставки 120.

Одна из форм реализации настоящего изобретения позволяет модулю удаления переходного сигнала 100 удалять часть аудиосигнала, содержащую переходный сигнал, для получения аудиосигнала без переходной части.

Далее сигнальный процессор может обрабатывать аудиосигнал без переходного сигнала, что является предпочтительным, либо процессор обрабатывает аудиосигнал с переходной частью, на выходе получается обработанный аудиосигнал 111.

Модуль вставки сигнала 120 вставляет часть сигнала в обработанный аудиосигнал, откуда был удален переходный сигнал. Вставляемый переходный сигнал не подвергался обработке сигнальным процессором 110. Таким образом, на выходе 121 получается итоговый аудиосигнал.

Фиг.2 иллюстрирует предпочтительную реализацию модуля удаления переходного сигнала 100. Первый вариант реализации применяется для аудиосигналов, которые не имеют служебной информации/метаинформации о переходных сигналах. В этом случае модуль удаления переходного сигнала 100 включает детектор перехода 103, калькулятор (вычислитель) затухания/усиления 104 и модуль удаления переходного сигнала (модуль удаления первой части) 105. Второй вариант реализации модуля 100 предназначен для аудиосигналов, имеющих информацию о переходе, которая кодируется при помощи кодирующего устройства, что будет описано далее в соответствии с фиг.9. Модуль удаления сигнала 100 включает модуль извлечения служебной информации 106, который извлекает служебную информацию 107, присоединенную к аудиосигналу. Временная характеристика перехода, содержащаяся в служебной информации 107, может передаваться в вычислитель затухания/усиления 104. В том случае, если аудиосигнал в качестве метаинформации включает не только информацию о времени перехода, то есть точное время включения перехода, но и время начала/окончания той части аудиосигнала, которая должна быть удалена, отсутствует необходимость в применении вычислителя затухания/усиления 104. Информация о начале/окончании перехода 108 напрямую передается в модуль удаления переходного сигнала 105. Информация 108, как и другие линии, обозначенные пунктирной линией, являются факультативными.

Как показано на фиг.2, вычислитель затухания/усиления 104 имеет на выходе информацию 109. Служебная информация 109 отличается от времени начала/окончания переходного сигнала, если принимать во внимание этап обработки аудиосигнала процессором 110 на фиг.1. Далее, аудиосигнал передается на вход модуля удаления 105.

Желательно, чтобы вычислитель затухания/усиления 104 определял время начала/окончания удаляемого переходного сигнала (первой части). Это время вычисляется на основе времени перехода, поэтому не только сам переход, но и некоторые окружающие его части удаляются модулем 105. Предпочтительной является ситуация, когда часть сигнала с переходом не просто вырезается как прямоугольное временное окно, но происходит выделение по методу затухания и усиления. Для выделения части сигнала по методу затухания или усиления могут применяться различные виды окон, имеющих более плавную форму по сравнению с прямоугольным окном, например тип окон приподнятый косинус. Таким образом, при удалении части сигнала это не скажется отрицательно на частоте, как в случае применения прямоугольного окна. Однако в целом возможно применение различных типов окон. По окончании этапа обработки методом окон остается сигнал, не разделенный на окна.

В этом контексте может применяться любой метод подавления переходного сигнала, в результате применения которого получается остаточный сигнал с уменьшенным переходом или сигнал полностью без перехода. По сравнению с полным удалением перехода, когда часть сигнала определенный период времени равна нулю, подавление перехода оказывается более предпочтительным в тех случаях, когда части сигнала, равные нулю, оказывают неблагоприятное влияние на процесс дальнейшей обработки аудиосигнала, так как подобные параметры не характерны для аудиосигналов.

Естественно, все вычисления, выполняемые детектором перехода 103 и вычислителем затухания/усиления 104 могут применяться на стороне кодирования, что будет описано в соответствии с фиг.9. Это относится также к таким результатам вычислений, как время перехода и/или время начала/окончания первой части, которые передаются в сигнальный манипулятор, служебная информация или метаинформация, передаваемые вместе с аудиосигналом или отдельно от него, то есть по отдельному каналу внутри особого сигнала с метаданными.

Фиг.3а иллюстрирует предпочтительную форму реализации сигнального процессора 110 в соответствии с фиг.1. Эта реализация включает анализатор выбора частоты 112 и последовательно соединенный процессор с функцией выбора частоты 113. Модуль 113 функционирует таким образом, что он применяет негативное влияние на вертикальное соответствие исходного аудиосигнала. Примером его применения может послужить растягивание сигнала во времени или уменьшение сигнала во времени (сокращение), когда растягивание и уменьшение сигнала производится с учетом выбора частоты. Так, например, в процессе обработки в аудиосигнале происходят фазовые изменения, которые должны быть различными для разных частот. В результате на выходе из модуля 13 получают обработанный сигнал без переходного сигнала или обработанный сигнал с обработанным переходным сигналом (который заменяется необработанным переходным сигналом).

В контексте применения речевого кодера предпочтительный метод обработки показан на фиг.3b. Как правило, фазовый речевой кодер включает анализатор поддиапазонов/преобразований 114, последовательно соединенный процессор 115 для выполнения обработки с учетом частоты множества сигналов на выходе модуля 114, модуль комбинирования поддиапазонов/преобразованияй 116, который комбинирует сигналы, обработанные модулем 115 в целях получения обработанного сигнала во временной области на выходе 117, где этот обработанный сигнал снова является сигналом с полным диапазоном частот или сигналом, прошедшим через фильтр низких частот, поскольку диапазон обработанного сигнала 117 больше, чем диапазон, представленный между модулями 115 и 116, так как модуль комбинирования 116 производит комбинацию сигналов с учетом частоты.

Дальнейшее описание речевого кодера последовательно проводится на основе фиг.5а, 5b, 5с и 6.

Предпочтительная форма реализации модуля вставки сигнала 120 на фиг.1 показана на фиг.4. Модуль вставки включает вычислитель 122 для вычисления длительности добавляемой части (второй части). Для того чтобы вычислить длительность вставляемой части сигнала в случае, если переходная часть была удалена до этапа обработки сигнальным процессором 110 на фиг.1, необходимо знать длительность удаленной части и параметры временного растягивания (или сокращения). Например, длительность вставляемой части вычисляется путем умножения длительности удаленной части на коэффициент растягивания.

Информация о продолжительности вставляемой части направляется в калькулятор 123 (модуль вычисления первой и второй границ второй части аудиосигнала, например, процессор взаимной корреляции) для вычисления начальной и конечной границ вставляемой части внутри аудиосигнала. Модуль вычисления 123 производит вычисления на основе взаимной корреляции между обработанным аудиосигналом без перехода, полученного на входе 124, и аудиосигналом с переходом, который обеспечивает вставляемую часть на входе 125. Желательно, чтобы модуль вычисления 123 дополнительно контролировался входом 126 (для обеспечения выбора между положительным и отрицательным сдвигом) в связи с тем, что положительный сдвиг перехода во вставляемой части более предпочтителен, чем отрицательный сдвиг перехода, который будет описан далее.

Начальная и конечная границы вставляемой части направляются в модуль выделения (экстрактор второй части) 127. Экстрактор 127 вырезает часть сигнала, то есть ту часть исходного сигнала, которая направлена на вход 125. При вырезке используется прямоугольный фильтр в связи с применением регулятора плавности перехода 128 (модуль, выполняющий взаимное пересечение первой и второй границ с обработанным аудиосигналом). Регулятор плавности перехода 128 взвешивает начальную и конечную части вставляемого сигнала. Начальная часть взвешивается с увеличением коэффициентов от 0 до 1, конечная часть взвешивается с уменьшением коэффициентов от 1 до 0 так, что между ними образуется плавный переход и вместе они составляют необходимый сигнал. Регулятор плавности перехода 128 подобным образом обрабатывает аудиосигнал после вырезки. Плавный переход гарантирует отсутствие помех во временной области, которые могут затруднять восприятие, как это происходит в случае помех переключения, если границы обработанного сигнала без перехода не совмещаются с границей вставляемой части.

Далее в соответствии с фиг.5а, 5b, 5с и 6 показана предпочтительная форма реализации сигнального процессора 110 в контексте фазового речевого кодера.

На фиг.5 и 6 показаны реализации речевого кодера в соответствии с настоящим изобретением. На фиг.5а показан вариант фазового речевого кодера, в котором сигнал поступает на вход 500 и формируется на выходе 510. Каждый канал блока фильтров, схематично показанный на фиг.5а, включает полосовой фильтр 501 и генератор 502. Выходные сигналы с генераторов каждого канала соединяются в комбинирующем модуле, который на фиг.5 показан как сумматор 503, для получения выходного сигнала. Каждый фильтр 501 обеспечивает, с одной стороны, амплитудный сигнал и, с другой стороны, частотный сигнал. Амплитудный сигнал и частотный сигнал - это временные сигналы, которые показывают изменение амплитуды в фильтре 501 за определенный период, а частотный сигнал показывает изменение частоты сигнала, который прошел этап фильтрации фильтром 501.

Схематичное устройство фильтра 501 показано на фиг.5b. Каждый фильтр на фиг.5а может быть устроен так, как на фиг.5b, однако частоты f_i, которые направляются на вход микшера 551 и сумматора 552, варьируются от канала к каналу. Микшированные выходные сигналы проходят этап фильтрации фильтром низких частот 553, в то время как низкочастотные сигналы от них отличаются, так как они созданы местными генераторами низких частот (LO частоты), которые отклоняются от фазы на 90°. Верхний фильтр низких частот 553 обеспечивает квадратурный сигнал 554, а нижний фильтр 553 создает сфазированный сигнал 555. Эти два сигнала, I и Q, направляются в координатный преобразователь 556, который генерирует амплитудное фазовое представление из прямоугольного представления. Амплитудный сигнал на фиг.5а соответственно является сигналом на выходе 557. Фазовый сигнал направляется в фазовый преобразователь 558. На выходе модуля 558 отсутствуют фазовые значения, которые обычно представлены значениями от 0 до 360°, но представлены фазовые значения, которые линейно увеличиваются. Такое фазовое значение обрабатывается фазово-частотным конвертером 559, который может определять фазовую разницу, вычитая фазу предыдущей временной точки из фазы текущей точки, для того чтобы определить значение частоты для текущей временной точки. Это значение частоты суммируется с постоянным значением частоты f_i канала фильтрации i для определения варьирующего значения частоты на выходе 560. Значение частоты на выходе 560 имеет постоянный параметр f_i и переменный параметр - отклонение частоты, который показывает, как текущая частота сигнала в канале фильтрации отклоняется от средней частоты f_i.

Как показано на фиг.5а и 5b, фазовый речевой кодер разделяет спектральную информацию и временную информацию. Спектральная информация представлена особым каналом или частотой f_i, что означает, что каждый канал имеет определенную частоту, в то время как временная информация содержится в показателе отклонения частот или показателе амплитудного изменения за определенный период.

На фиг.5с показан процесс обработки сигнала при увеличении ширины диапазона на этапе речевого кодера, а именно в той части, которая указана пунктирными линиями на фиг.5а.

Для масштабирования по времени, например, амплитудных сигналов A(t) каждого канала или частоты сигналов f(t) для каждого сигнала может быть проведена децимация или интерполяция соответственно. Для дальнейшей передачи, что важно для настоящего изобретения, производится интерполяция, то есть временное увеличение или расширение сигналов A(t) и f(t), в результате чего получаются расширенные сигналы A′(t) и f′(t), при этом интерполяция контролируется параметром расширения частотного диапазона. При интерполяции фазового изменения, то есть значения до суммирования постоянной частоты сумматором 552, частота каждого отдельного генератора 502 на фиг.5а не изменяется. Временные изменения общего аудиосигнала замедляются в 2 раза. В результате временно расширенный тон имеет исходную высоту, то есть исходную базовую волну со своими гармониками.

При выполнении обработки сигнала, показанного на фиг.5с, производится такая обработка каждого канала с полосовым фильтром, как это показано на фиг.5а. Полученный в результате временный сигнал направляется в дециматор и подвергается децимации. Аудиосигнал уменьшается до исходной длины, в то время как частоты одновременно удваиваются. Это приводит к двукратному изменению тона аудиосигнала, однако сам сигнал становится равным по длине исходному сигналу, то есть имеет такое же количество составляющих.

В качестве альтернативы блоку фильтров, показанному на фиг.5а, может применяться вариант фазового речевого кодера с преобразованием, как показано на фиг.6. В этом случае аудиосигнал 100 в виде последовательности временных выборок передается в FFT процессор или процессор кратковременного преобразования Фурье 600. Процессор FFT 600, схематично показанный на фиг.6, выполняет оконное преобразование аудиосигнала для того, чтобы затем, с помощью кратковременного преобразования Фурье, вычислить амплитуду и фазу спектра. Вычисление выполняется для последовательности спектров, которые соотносятся с пересекающимися частями аудиосигнала.

При самой неблагоприятной ситуации вычисляется новый спектр для каждой новой выборки сигнала или, например, для каждой двадцатой выборки. Размер шага выборки a между двумя спектрами сообщается контроллером 602. Контроллер 602 далее передает информацию в IFFT процессор 604, который выполняет процедуру пересечения. А именно, IFFT процессор 604 производит одно обратное кратковременное преобразование Фурье для каждого спектра на основе амплитуды и фазы измененного спектра для того, чтобы затем выполнить процедуру суммирования и получить пересечения, в результате чего получается итоговый сигнал во временной области. Процедура суммирования и получения пересечений позволяет устранить последствия оконного преобразования.

Увеличить сигнал возможно при использовании параметра b, который указывает на расстояние между двумя спектрами, когда они обрабатываются IFFT процессором 604. Параметр b должен быть больше, чем параметр а, указывающий на расстояние между спектрами, когда они подвергаются обработке процессором FFT. Основная идея состоит в том, чтобы увеличить аудиосигнал при обратной процедуре FFT, просто располагая части сигнала дальше друг от друга, чем при процедуре FFT. В результате временные изменения в синтезированном аудиосигнале происходят более медленно, чем в исходном аудиосигнале.

Отсутствие обратного фазового масштабирования в модуле 606 приводит к появлению помех. Например, для каждой частотной выборки применяются фазовые значения, последовательно меняющиеся на 45°. Это означает, что сигнал в процессе обработки блоком фильтров, увеличивает фазовое значение на 1/8 цикла, то есть на 45° за каждый временной интервал, который является интервалом между двумя последовательными преобразованиями FFT. Теперь, если обратное преобразование FFT увеличивает расстояние между частями сигнала, это означает, что увеличение фазы на 45° случается за более долгий временной промежуток. В результате фазового сдвига появляется несоответствие в последующей процедуре пересечения-добавления, что приводит к нежелательному сокращению сигнала. Чтобы этого избежать, фазовые параметры подвергаются масштабированию с помощью тех же коэффициентов, с помощью которых аудиосигнал увеличивается во времени. Значение фазы для каждого спектрального значения FFT, таким образом, увеличивается на коэффициент b/a и несоответствие устраняется.

Фиг.5с показывает, что увеличение сигнала достигается путем интерполяции контрольных значений амплитуды/частоты сигнала на каждый сигнальный генератор в блоке фильтров на фиг.5а. Увеличение сигнала на фиг.6 достигается при помощи увеличения расстояния между двумя IFFT спектрами по сравнению с расстоянием между двумя FFT спектрами, то есть показатель b больше, чем показатель а. Во избежание появления помех проводится фазовое масштабирование с применением параметра b/а.

Детальное описание фазовых речевых кодеров приводится в следующих документах:

"The phase Vocoder: A tutorial", Mark Dolson, Computer Music Journal, vol.10, №4, pp.14--27, 1986, or "New phase Vocoder techniques for pitch-shifting, harmonizing and other exotic effects", L. Laroche und M. Dolson, Proceedings 1999 IEEE Workshop on applications of signal processing to audio and acoustics, New Paltz, New York, October 17-20, 1999, pages 91 to 94; "New approached to transient processing interphase vocoder", A. Robel, Proceeding of the 6th international conference on digital audio effects (DAFx-03), London, UK, September 8-11, 2003, pages DAFx-1 to DAFx-6; "Phase-locked Vocoder", Meller Puckette, Proceedings 1995, IEEE ASSP, Conference on applications of signal processing to audio and acoustics, or US Patent Application Number 6,549,884.

Возможно применение альтернативных методов увеличения сигнала, например метод «Синхронного тонального суммирования и наложения». Этот метод, сокращенно PSOLA, является методом синтезирования, при котором записи речевых сигналов помещаются в базу данных. Поскольку они являются временными сигналами, к ним добавляется информация о базовой частоте (тоне) и маркируется начало каждой части. На этапе соединения эти части вырезаются вместе с окружением с помощью оконной функции и добавляются к синтезируемому сигналу в нужном месте. Если необходимая частота выше или ниже частоты сигнала из базы данных, то она изменяется в соответствии с исходным сигналом. В процессе корректировки длительности сигнала, его части могут быть опущены или, наоборот, дублироваться на выходе. Этот метод называется TD-PSOLA, где TD обозначает временную область и тем самым подчеркивается, что метод применяется во временной области. Продолжением этого метода является метод Multiband Resynthesis OverLap Add, сокращенно MBROLA. При применении этого метода сегменты базы данных согласовываются по частоте в процессе предварительной обработки, а также нормализуется положение гармоник по фазе. Таким образом, на этапе синтеза переходного сигнала и обрабатываемого сигнала появляется меньшее количество помех, что приводит к улучшению качества.

В качестве альтернативы аудиосигнал может пройти этап фильтрования при помощи полосового фильтра до процедуры увеличения, таким образом, сигнал после увеличения и децимации уже будет включать необходимые части и последующий этап фильтрации полосовым фильтром окажется невостребованным. В этом случае полосовой фильтр функционирует таким образом, что часть сигнала, которая была бы отфильтрована после увеличения диапазона частот, все еще сохраняется в выходном сигнале на выходе полосового фильтра. Таким образом, полосовой фильтр включает диапазон частот, который не содержится в аудиосигнале после увеличения и децимации. Сигнал с этим диапазоном частот - это необходимый сигнал, который формирует синтезированный высокочастотный сигнал.

Сигнальный манипулятор, показанный на фиг.1, может дополнительно включать формирователь сигнала 130 для дальнейшей обработки аудиосигнала с необработанным «естественным» или синтезированным переходным сигналом, обозначенным как 121. Формирователь сигнала может представлять собой сигнальный дециматор с функцией увеличения частотного диапазона, который на выходе формирует высокочастотный сигнал. Полученный сигнал далее корректируется, чтобы максимально соответствовать параметрам исходного высокочастотного сигнала при помощи параметров высоких частот (HF), которые передаются вместе с потоком данных HFR (реконструкция высоких частот).

На фиг.7а и 7b показана схема увеличения диапазона частот, когда используется выходной сигнал формирователя сигнала кодером 720 на фиг.7b. Аудиосигнал направляется на вход модуля 700, где комбинируются фильтры низких и высоких частот. Этот модуль, с одной стороны, включает фильтры низких частот (TP), с помощью которых генерируется фильтрованный аудиосигнал 700, показанный как 703 на фиг.7а. Прошедший этап фильтрации с помощью низкочастотных фильтров аудиосигнал кодируется аудиокодером 704. В качестве кодера может выступать МРЗ кодер (MPEG 1 Layer 3) или ААС кодер, известный как кодер МР4, описанный в Стандарте MPEG4. В качестве кодера 704 могут использоваться другие аудиокодеры, которые обеспечивают прозрачное или максимально прозрачное представление аудиосигнала 703 с ограниченной полосой частот, для того чтобы получить кодированный или желательно «прозрачно» кодированный сигнал 705.

Верхняя полоса частот аудиосигнала формируется на выходе 706 после этапа обработки сигнала фильтрами высоких частот 702, ко

Устройство и метод для обработки аудио сигнала, содержащего переходный сигнал

Патент 2565008