Устройство и способ расширения полосы пропускания аудио сигнала
Иллюстрации
Показать всеИзобретение относится к обработке аудиосигнала, в частности к обработке аудиосигнала в случаях, когда доступная скорость данных довольно мала. Техническим результатом является повышение качества расширенной полосы частот при снижении вычислительной сложности обработки сигнала. Указанный результат достигается тем, что устройство для расширения полосы частот аудиосигнала включает блок расширения сигнала (102) для создания версии аудиосигнала в виде временного сигнала, расширенного по времени с коэффициентом расширения, большим 1; дециматор (105) для децимации, расширенной по времени версии (103) аудиосигнала с коэффициентом децимации, соответствующим коэффициенту расширения; фильтр (107, 109) для извлечения искаженного сигнала из децимированного аудиосигнала (106), содержащего диапазон частот, не содержащийся в аудиосигнале (100), или для извлечения сигнала из аудиосигнала до его расширения блоком расширения сигнала (102), при этом сигнал содержит частотный диапазон, не содержащийся в аудиосигнале (106) после расширения и децимации, а искаженный сигнал (108) искажается таким образом, что искаженный сигнал (108), децимированный аудиосигнал или комбинированный сигнал имеют заданную огибающую; и блок объединения (111) для объединения искаженного или неискаженного сигнала с аудиосигналом (100) для получения аудиосигнала (112), расширенного по полосе частот. 3 н. и 13 з.п. ф-лы, 12 ил.
Реферат
Настоящее изобретение относится к обработке аудиосигнала и, в частности, к обработке аудиосигнала в случаях, когда доступная скорость данных довольно мала.
Адаптивное к слуховому восприятию кодирование аудиосигналов для уменьшения избыточности данных для эффективного хранения и передача этих сигналов получили распространение во многих областях. В частности, такие алгоритмы кодирования известны как «МР3» или «МР4». Используемое для этого кодирование, в особенности при достижении очень низких скоростей передачи битов, приводит к снижению качества аудио, которое, главным образом, вызывается ограничением со стороны кодера в отношении передаваемой полосы частот аудиосигнала.
В этом случае, как известно из документа WO 9857436, способ ограничения полосы частот аудиосигнала применяют на стороне кодера и кодируют только нижнюю полосу частот аудиосигнала посредством аудиокодера с высоким качеством. При этом верхняя полоса частот описывается довольно грубо - в виде ряда параметров, воспроизводящих спектральную огибающую верхней полосы частот. В этом случае верхняя полоса частот синтезируется на стороне декодера. С этой целью предлагается осуществлять транспозицию гармоник, при которой нижняя полоса частот декодированного аудиосигнала подается в банк фильтров. Каналы банка фильтров нижней полосы частот соединяются с каналами банка фильтров верхней полосы частот, иначе говоря "вклеиваются", и каждый склеенный полосовой сигнал подвергается коррекции огибающей. В этом случае синтезирующий банк фильтров, относящийся банку фильтров для специального анализа, получает полосовые сигналы аудиосигнала в нижней полосе частот и полосовые сигналы со скорректированной огибающей нижней полосы частот, которые были гармонически вклеены в верхнюю полосу частот. Выходной сигнал синтезирующего банка фильтров является аудиосигналом с расширенной полосой частот, который передается от кодера к декодеру с довольно низкой скоростью передачи данных. Однако вычисления банка фильтров и вклеивание в области банка фильтров могут потребовать больших вычислительных затрат.
Более простые способы расширения полосы частот аудиосигналов с ограниченной полосой используют вместо этого операцию копирования частей низкочастотного (HF) сигнала в высокочастотный (HF) диапазон для сравнения потерь информации, вызванных ограничением полосы. Такие методы описаны в М.Dietz, L.Liljeryd, К.Kjörling и O.Kunz, "Spectral Band Replication, a novel approach in audio coding," Munich, May 2002; S.Meltzer, R.Böhm and F.Henn, "SBR enhanced audio codecs for digital broadcasting such as "Digital Radio Mondiale" (DRM)," 112th AES Convention, Munich, May 2002; Т.Ziegler, A.Ehret, P.Ekstrand and M.Lutzky, "Enhancing mp3 with SBR: Features and Capabilities of the new mp3PRO Algorithm," in 112th AES Convention, Munich, May 2002; International Standard ISO/IEC 14496-3:2001/FPDAM 1, "Bandwidth Extension," ISO/IEC, 2002, or "Speech bandwidth extension method and apparatus", Vasu lyengar et al. US Patent №5455888.
В этих методах транспозиции гармоник не производятся, а последовательные полосовые сигналы нижней полосы частот подаются в последовательные каналы банка фильтров верхней полосы частот. Благодаря этому достигается грубая аппроксимация верхней полосы частот аудиосигнала. Эта грубая аппроксимация сигнала на следующем этапе приближается к оригиналу посредством последующей обработки с использованием управляющей информации, синтезированной из первоначального сигнала. В этом случае, например, используются масштабирующие множители для коррекции огибающей спектра, обратное фильтрование и добавление шумовой области для адаптации тональности, а также дополнение синусоидальными участками сигнала, что также описано в стандарте MPEG-4.
Помимо этого существуют дополнительные способы, такие как так называемое "слепое расширение полосы частот", описанные в Е.Larsen, R.M.Aarts, and M.Danessis, "Efficient high-frequency bandwidth extension of music and speech". In AES 112th Convention, Munich, Germany, May 2002, в которых не используется информация о первоначальном HF диапазоне. Кроме того, существует также способ так называемого «Искусственного расширения полосы частот», который описан в K.Käyhkö, A Robust Wideband Enhancement for Narrowband Speech Signal; Research Report, Helsinki University of Technology, Laboratory of Acoustics and Audio signal Processing, 2001.
В документе J.Makinen et at.: AMR-WB+: a new audio coding standard for 3rd generation mobile audio services Broadcasts, IEEE, ICASSP'05 описан способ расширения полосы частот, в котором операция копирования для расширения полосы частот с повышающим копированием последовательных полосовых сигналов в соответствии с SBR технологией (технологией повторения полосы частот) заменена па зеркальное отображение, например увеличение количества сэмплов.
Другие технологии для расширения полосы частот описаны в следующих документах: R.M.Aarls, Е.Larsen, and О.Ouweltjes. "A unified approach to low- and high frequency bandwidth extension", AES 115th Convention. New York, USA, October 2003; Е. Larsen and R.M.Aarts, "Audio Bandwidth Extension - Application to psychoacoustics, Signal Processing and Loudspeaker Design", John Wiley & Sons, Ltd., 2004; E.Larsen, R.M.Aarts. and M.Danessis, "Efficient high-frequency bandwidth extension of music and speech", AES 112th Convention, Munich, May 2002; J. Makhoul, "Spectral Analysis of Speech by Linear Prediction", IEEE Transactions on Audio and Electroacoustics, AU-21(3), June 1973; United States Patent Application 08/951029; United States Patent No. 6895375.
Известные способы гармонического расширения полосы частот демонстрируют высокую сложность. С другой стороны, более простые способы расширения полосы частот приводят к потери качества. В частности, при низкой скорости передачи битов и в сочетании с низкополосным LF диапазоном могут возникнуть такие искажения, как грубость и тембр, неприятные для восприятия. Причиной этого является тот факт, что аппроксимированная HF часть основывается на операции копирования, которая оставляет без внимания гармонические отношения между тональными частями сигнала. Это относится как к гармоническому отношению между LF и HF, так и к гармоническому отношению непосредственно между частями HF. При использовании SBR, например, на границе между LF диапазоном и созданным HF диапазоном иногда возникают ощущения грубости звуков, учитывая что тональные части, копированные из LF диапазона в HF диапазон, как, например, изображено на фиг.4а, могут теперь в суммарном сигнале пересекаться с тональными частями из LF диапазона, поскольку они близко расположены спектрально. Таким образом, на фиг.4а показан первоначальный сигнал с максимумами в точках 401, 402, 403 и 404, в то время как тестовый сигнал показан с пиками в точках 405, 406, 407 и 408. При копировании тональных частей из LF диапазона в HF диапазон в области, где на фиг.4а граница была на частоте 4250 Гц, расстояние двух левых пиков тестового сигнала будет меньше, чем основная частота, лежащая в основе гармонического растра, что приведет к ощущению грубости.
Поскольку ширина тонально-компенсированных частотных групп увеличивается с ростом центральной частоты, как описано в Zwicker, E. and H. Fasti (1999), Psychoacoustics: Facts and models. Berlin - Springerverlag, синусоидальные части, которые в LF диапазоне лежат в различных частотных группах, после их копирования в HF диапазон могут оказаться в одной и той же частотной группе, что также приводит к слуховому ощущению грубости, как видно из фиг.4b. На данной фигуре, в частности, показано, что копирование LF диапазона в HF диапазон приводит к более плотной тональной структуре в тестовом сигнале по сравнению с первоначальным. Первоначальный сигнал в более высоком диапазоне частот распределен относительно равномерно по спектру, как, в частности, показано на позиции 410. Тестовый же сигнал 411 напротив, особенно в этом более высоком диапазоне, распределен по спектру довольно неоднородно и очевидно, вследствие этого, является более тональным, чем первоначальный сигнал 410.
Задачей настоящего изобретения является повышение качества расширения полосы частот при одновременном снижении вычислительной сложности обработки сигнала, которая, в свою очередь, может быть осуществлена с малой задержкой и без особых усилий с использованием процессоров, имеющих низкие технические требования по отношению к их скорости и требуемой памяти.
Указанная задача достигается посредством устройства для расширения полосы частот по п.1 формулы, способа расширения полосы частот по п.13 формулы или компьютерной программы по п.14 формулы изобретения.
Идея изобретения расширения полосы частот основана на временном расширении сигнала для создания версии аудиосигнала в виде временного сигнала, расширенного с коэффициентом расширения, большим 1, и последующей децимацией временного сигнала для получения транспонированного сигнала, который затем может, например, быть подвергнут фильтрованию обычным полосовым фильтром для извлечения высокочастотной части сигнала, которая, в свою очередь, также может искажаться или изменяться в отношении своей амплитуды, для получения хорошего приближения первоначальной высокочастотной части. Кроме того, для исключения попосно-пропускающего фильтрования после расширения оно может быть выполнено перед расширением сигнала таким образом, чтобы после осуществления расширения в расширенном сигнале присутствовал только желательный частотный диапазон.
С одной стороны, при гармоническом расширении полосы частот проблемы, возникающие при операциях копирования или отображения, или при обеих операциях, можно предотвратить путем гармонического продолжения и расширения спектра посредством использования блока расширения сигнала для расширения временного сигнала. С другой стороны, временное расширение и последующую децимацию гораздо проще выполнить с помощью обычных процессоров, чем посредством полного анализно/синтезного банка фильтров, как это, например, используется при транспозиции гармоник, когда дополнительно необходимо принять решения о том, каким именно образом должно осуществляться вклеивание в области банка фильтров.
Для расширения сигнала предпочтительно использовать такие фазовые вокодеры, которые при работе затрачивают минимальные усилия. Кроме того, чтобы получить полосы частот, расширенные с коэффициентами, большими 2, несколько вокодеров фазы могут работать параллельно, что является выгодным, особенно в отношении задержки расширения полосы частот, которая должна быть низкой при работе в реальном масштабе времени. Помимо этого, существуют другие способы расширения сигнала, такие как, например, метод PSOLA (метод синхронного накладывающегося окна).
В предпочтительном варианте настоящего изобретения, вначале при помощи фазового вокодера низкочастотный аудиосигнал расширяют по времени с максимальной частотой LFmax в целое число раз, кратное обычной продолжительности сигнала. После этого в последующем дециматоре проводят децимацию сигнала с коэффициентом временного расширения, что в целом приводит к расширению спектра. Эта операция аналогична внутренней транспозиции аудиосигнала. Наконец, результирующий сигнал подвергается полосно-пропускающему фильтрованию в диапазоне от значения «(коэффициент расширения - 1)·LFmax» до значения «коэффициент расширения·LFmax». Кроме того, отдельные высокочастотные сигналы, возникающие при расширении и децимации, могут быть подвергнуты полосно-пропускающему фильтрованию, после которого они дополнительно будут перекрываться по всему высокочастотному диапазону (т.е. от LFmax до k*LFmax). Это ощутимо для случая, когда по-прежнему желательна более высокая спектральная плотность гармоник.
Метод гармонического расширения полосы частот осуществляется в предпочтительном варианте настоящего изобретения параллельно для нескольких различных коэффициентов расширения. Как альтернатива параллельной обработке, может также быть использован отдельный фазовый вокодер, работающий последовательно, при этом промежуточные результаты будут буферизоваться. Таким образом, при расширении полосы частот могут быть получены любые частоты среза. Кроме того, расширение сигнала может быть реализовано непосредственно в направлении частоты, в частности, посредством двойной операции, соответствующей функциональному принципу работы фазового вокодера.
Предпочтительно, чтобы в вариантах изобретения не требовался анализ сигнала в отношении гармоничности или основной частоты.
Далее предпочтительные варианты настоящего изобретения будут раскрыты более подробно со ссылками на прилагаемые чертежи, на которых:
фиг.1 иллюстрирует блок-схему идеи изобретения расширения полосы частот аудиосигнала;
фиг.2a иллюстрирует блок-схему устройства для расширения полосы частот аудиосигнала согласно варианту осуществления настоящего изобретения;
фиг.2b иллюстрирует усовершенствование устройства на фиг.2а с переходными детекторами;
фиг.3 демонстрирует схематичную иллюстрацию обработки сигнала с использованием спектров в определенные моменты времени для заявленного расширения полосы частот;
фиг.4a иллюстрирует сопоставление между первоначальным сигналом и тестовым сигналом, который при восприятии дает грубое звуковое ощущение;
фиг.4b иллюстрирует сопоставление первоначального сигнала с тестовым сигналом, также приводящим к грубому слуховому восприятию;
фиг.5a демонстрирует схематичную иллюстрацию выполнения банка фильтров фазового вокодера;
фиг.5b демонстрирует детальную иллюстрацию фильтра, изображенного на фиг.5a;
фиг.5c демонстрирует схематичную иллюстрацию управления амплитудным сигналом и частотным сигналом в канале фильтра, изображенного на фиг.5a;
фиг.6 демонстрирует схематичную иллюстрацию выполнения преобразования в фазовом вокодере;
фиг.7a демонстрирует схематичную иллюстрацию кодера в контексте расширения полосы частот; и
фиг.7b демонстрирует схематичную иллюстрацию декодера в контексте расширения полосы частот аудиосигнала.
На фиг.1 изображена схематичная иллюстрация устройства или способа расширения полосы частот аудиосигнала. Только в качестве примера фиг.1 иллюстрирует устройство, хотя фиг.1 может в то же время быть расценена как блок-схема способа расширения полосы частот. На данной фигуре аудиосигнал, поступающий в устройство, изображен в виде входа 100. Аудиосигнал поступает в блок расширения сигнала 102, применяемый для создания версии аудиосигнала в виде временного сигнала, расширенного по времени с коэффициентом расширения, большим 1. Коэффициент расширения в варианте изобретения, изображенном на фиг.1, задается через коэффициент расширения входа 104. Расширенный временной аудиосигнал, полученный на выходе 103 блока расширения сигнала 102, поступает в дециматор 105, осуществляющий децимирование расширенного по времени временного аудиосигнала 103 с коэффициентом децимации, соответствующим коэффициенту расширения 104. Эта операция схематично показана на фиг.1 в виде коэффициента расширения входа 104, изображенного пунктирными линиями и соединенного с дециматором 105. В одном из вариантов изобретения коэффициент расширения в блоке расширения сигнала равен обратному коэффициенту децимации. Если, например, в блоке расширения сигнала 102 применяется коэффициент расширения 2.0, то децимация выполняется с коэффициентом децимации 0.5. Если ли же, с другой стороны, децимация выполняется с коэффициентом 2, т.е. каждое второе значение семпла удаляется, то в этом случае коэффициент децимации идентичен коэффициенту расширения. Дополнительные соотношения между коэффициентом расширения и коэффициентом децимации, например целочисленные или рациональные соотношения, могут также быть использованы в зависимости от варианта применения. Однако максимальное гармоническое расширение полосы частот достигается в том случае, когда коэффициент расширения равен либо коэффициенту децимации, либо обратному коэффициенту децимации.
В предпочтительном варианте настоящего изобретения дециматор 105 используется, например, для удаления каждого второго семпла (с коэффициентом расширения, равным 2), так что децимированный аудиосигнал в итоге будет иметь такую же продолжительность по времени, что и первоначальный аудиосигнал 100, Другие алгоритмы децимации, например формирование средневзвешенных величин или исследование тенденций в прошедшем или будущем, также могут быть использованы, хотя, тем не менее, обычную децимацию можно довольно легко выполнить путем удаления семплов. Децимированный временной сигнал 106, сформированный дециматором 105, подается в фильтр 107, после чего фильтр 107 извлекает полосовой сигнал из децимированного аудиосигнала 106, содержащего частотные диапазоны, которые не содержались в аудиосигнале 100 на входе устройства. В вариантах изобретения фильтр 107 может быть выполнен в виде как цифрового полосового фильтра, например, как FIR - (КИХ) или IIR - (БИХ) фильтра, а так же, как аналоговый полосовой фильтр, хотя более предпочтительно цифровое выполнение. Далее фильтр 107 извлекает верхний спектральный диапазон, созданный операциями 102 и 105, при этом нижний спектральный диапазон, который так или иначе содержится в аудиосигнале 100. подавляется наиболее сильно. В других вариантах выполнения фильтр 107 может применяться также для извлечения участков сигнала с частотами как у полосового сигнала, содержащегося в первоначальном сигнале 100, при этом извлеченный полосовой сигнал будет содержать, по крайней мере, одну частотную полосу, которая не содержалась в первоначальном аудиосигнале 100.
Полосовой сигнал 108, полученный на выходе фильтра 107, поступает в блок искажений 109, искажающий полосовые сигналы таким образом, чтобы полосовой сигнал имел заданную огибающую. Такая информация огибающей, которую можно использовать для искажения, может поступать из внешних источников и даже исходить от кодера, или может также быть синтезирована, например, слепой экстраполяцией из аудиосигнала 100, или основываться на таблицах, сохраненных на стороне декодера со ссылкой на огибающую аудиосигнала 100. Искаженный полосовой сигнал 110, выходящий из блока искажений 109, затем подается в блок объединения 111. объединяющий искаженный полосовой сигнал 110 с первоначальным аудиосигналом 100, который также мог быть искажен в зависимости от варианта изобретения (этап задержки не показан на фиг.1), для создания аудиосигнала с расширенной полосой частот на выходе 112.
В другом варианте изобретения последовательность расположения блока искажений 109 и блока объединения 111 обратна последовательности их расположения, изображенной на фиг.1. В этом случае сигнал с выхода фильтра, т.е. полосовой сигнал 108, непосредственно объединяется с аудиосигналом 100, а искажение верхней полосы комбинированного сигнала, получаемого на выходе блока объединения 111, выполняется блоком искажений 109 только после объединения. В этом варианте блок искажений искажает комбинированный сигнал таким образом, чтобы тот имел заданную огибающую. Таким образом, в этом варианте выполнения блок объединения применяется для объединения полосового сигнала 108 с аудиосигналом 100 для получения аудиосигнала, расширенного по отношению к своей полосе частот. В варианте, когда искажение производится только после объединения, предпочтительно применять блок искажений 109, который не оказывает влияния ни на аудиосигнал 100, ни на полосу частот комбинированного сигнала, обусловленную аудиосигналом 100, в то время как низкополосная часть аудиосигнала кодируется посредством высококачественного кодера и при синтезе верхней полосы на стороне декодера является, так сказать, мерой всего, и расширение полосы частот не должно оказывать на нее влияние.
Перед иллюстрацией детальных вариантов настоящего изобретения будет раскрыт сценарий расширения полосы частот со ссылкой на фиг.7a и 7b, в котором применение настоящего изобретения может быть весьма полезно. Аудиосигнал вводится и комбинацию низкочастотного/высокочастотного фильтров на входе 700. Комбинация низкочастотного/высокочастотного фильтров, с одной стороны, включает низкочастотную часть (LP) для получения версии аудиосигнала 700, пропущенного через фильтр нижних частот, который обозначен позицией 703 на фиг.7a. Этот пропущенный через фильтр нижних частот аудиосигнал кодируется посредством аудиокодера 704. Аудиокодер может быть реализован в виде, например, МР3 кодера (MPEG1 Layer 3) или ААС кодера, так же известного как МР4 кодер и описанного в стандарте MPEG4. Другие аудиокодеры, обеспечивающие прозрачное или предпочтительно психоакустически прозрачное представление ограниченного по полосе аудиосигнала 703, могут использоваться в кодере 704 для получения полностью кодированного, психоакустически кодированного или, предпочтительно, психоакустически прозрачно кодированного аудиосигнала 705. С выхода 706 высокополосной части фильтра 702, обозначаемой «HP», поступает верхняя полоса аудиосигнала. Часть аудиосигнала, пропущенная через фильтр верхних частот, т.е. верхняя полоса или HF полоса, также обозначаемая как HF часть, поступает в блок вычисления параметров 707, применяемый для расчета различных параметров. Такими параметрами являются, например, спектральная огибающая верхней полосы 706 в относительно низком разрешении, например, посредством представления масштабного коэффициента для каждой психоакустической частотной группы или для каждой полосы Барка на шкале Барка. Еще одним параметром, который может быть вычислен блоком вычисления параметров 707, является область шумов в верхней полосе, энергия которой, приходящаяся на полосу частот, предпочтительно может быть связана с энергией огибающей этой полосы. Другие параметры, которые могут быть вычислены блоком вычисления параметров 707, включают меру тональности для каждой отдельной полосы верхней полосы частот, которая показывает, как спектральная энергия распределена по полосе, а именно распределена ли спектральная энергия по полосе относительно однородно, и при этом в этой полосе присутствует атональный сигнал, или энергия в этой полосе довольно сильно сконцентрирована в определенной позиции на полосе, и при этом в этой полосе скорее всего присутствует тональный сигнал. Еще одними параметрами являются полностью кодированные пики, довольно сильно выделяющиеся в верхней полосе по своей высоте и частоте, учитывая, что концепция расширения полосы частот при восстановлении без такого полного кодирования выделяющихся синусоидальных частей верхней полосы частот, либо восстановит их довольно неточно, или не восстановит вовсе.
При любых обстоятельствах блок вычисления параметров 707 применяется только для расчета параметров 708 верхней полосы частот, в отношении которых могут быть приняты аналогичные меры сокращения энтропии, поскольку они также могут быть кодированы в аудиокодере 704 для квантованных спектральных величин, посредством, например, дифференциального кодирования, предсказания, кодирования Хаффмана и т.п. Представление параметра 708 и аудиосигнал 705 затем поступают в блок форматирования потока данных 709, применяемый для формирования выходного потока данных 710, который, как правило, представляет собой поток битов с определенным форматом, например, описанным в Стандарте MPEG4.
Далее со ссылкой на фиг.7b, будет проиллюстрирован вариант декодирующей стороны, наиболее применимый для настоящего изобретения. Поток данных 710 входит в преобразователь потока данных 711, применяемый для выделения параметрической части 708 от аудиосигнальной части 705. Параметрическая часть 708 декодируется параметрическим декодером 712 для получения декодированных параметров 713. Параллельно этому, аудиосигнальная часть 705 декодируется аудиодекодером 714 для получения аудиосигнала, изображенного позицией 100 на фиг.1.
В зависимости от варианта выполнения, аудиосигнал 100 может быть выведен через первый выход 715. В этом случае на выходе 715 может быть получен аудиосигнал с узкой полосой частот и также, следовательно, низким качеством. При этом для повышения качества осуществляют заявленное расширение полосы частот 720, которое, как например изображено на фиг.1, используется для получения на выходе аудиосигнала с расширенной полосой частот или широкополосного аудиосигнала 112, соответственно с высоким качеством.
Далее со ссылкой на фиг.2a, показан предпочтительный вариант применения расширения полосы частот по фиг.1, который предпочтительно может быть использован в блоке 712, изображенном на фиг.7b. На фиг.2a, во-первых, присутствует блок, названный «аудиосигнал и параметр», который может соответствовать блокам 711, 712; и 714 на фиг.7b и обозначенный позицией 200. Блок 200 формирует выходной сигнал 100, а также декодированные параметры 713 на выходе, которые могут быть использованы для различных искажений, например для коррекции тональности 109a и огибающей 109b. Сигнал, сформированный или откорректированный посредством коррекции тональности 109a и огибающей 109b, подается в блок объединения 111 для получения на выходе аудиосигнала с расширенной полосой частот 112.
Предпочтительно, чтобы блок расширения сигнала 102 на фиг.1 представлял собой фазовый вокодер 202а. Дециматор 105 на фиг.1 предпочтительно реализуется в виде обычного преобразователя частоты дискретизации 205а. Фильтр 107 для выделения полосового сигнала предпочтительно является стандартным полосовым фильтром 107a. В частном случае, фазовый вокодер 202a и дискретный дециматор 205a работают с коэффициентом расширения, равным 2.
Предпочтительно, дополнительная «цепь элементов», состоящая из фазового вокодера 202b, дециматора 205b и полосового фильтра 207b, используется для извлечения дополнительного полосового сигнала на выходе фильтра 207b, содержащего диапазон частот между верхней частотой среза полосового фильтра 207a и частотой, в три раза большей максимальной частоты аудиосигнала 100.
В дополнение к этому, k-фазовый вокодер 202c обеспечивает получение расширения аудиосигнала с коэффициентом k, причем k - предпочтительно целое число, большее 1. Поток данных с выхода фазового вокодера 202с поступает в дециматор 205, осуществляющий децимацию с коэффициентом k. Наконец, децимированный сигнал поступает в полосовой фильтр 207c, который имеет нижнюю частоту среза, равную верхней частоте среза смежной полосы, и имеет верхнюю частоту среза, соответствующую частоте, k-кратной максимальной частоте аудиосигнала 100. Все полосовые сигналы объединяются блоком объединения 209, при этом блок объединения 209 может, например, представлять собой сумматор. Кроме того, блок объединения 209 может также быть выполнен в виде взвешенного сумматора, который, в зависимости от варианта выполнения, ослабляет более высокие полосы частот сильнее, чем более низкие полосы частот, вне зависимости от последующего искажения элементами 109a, 109b. В дополнение к этому, система, показанная на фиг.2а. включает этап задержки 211, который гарантирует, что в блоке объединения 111, выполненном в виде, например, сумматора семплов, будет объединяться синхронизированная комбинация.
На фиг.3 изображена схематичная иллюстрация различных спектров, которые могут наблюдаться при выполнении обработки, показанной на фиг.1 или фиг.2а. Фиг.1 на фиг.3 показывает ограниченный по полосе аудиосигнал, который обозначается, например, позицией 100 на фиг.1 или позицией 703 на фиг.7а. Предпочтительно, чтобы этот сигнал был расширен блоком расширения сигнала 102 до целого значения, кратного первоначальной продолжительности сигнала, и затем подвергнут децимации с целочисленным коэффициентом децимации, что приведет к расширению спектра в целом, как показано на фиг.2 и фиг.3. На фиг.3 показана HF часть, которая извлечена полосовым фильтром, имеющим полосу пропускания 300. Фиг.3 демонстрирует варианты, при которых полосовой сигнал перед искажением уже объединен с первоначальным аудиосигналом 100. Таким образом, образуется спектр комбинации с неискаженным полосовым сигналом, и затем для получения аудиосигнала 112 с расширенной полосой частот, как показано па фиг.(4), производится искажение верхней полосы, но, по-возможности, не производится модификация нижней полосы частот.
LF сигнал на фиг.1 обладает максимальной частотой LFmax. В фазовом вокодере 202a транспозиция аудиосигнала выполняется таким образом, что максимальная частота транспонированного аудиосигнала равна 2LFmax. Затем полученный сигнал, показанный на фиг.(2), подвергают полосно-пропускающему фильтрованию в диапазоне от LFmax до 2LFmax. Как правило, когда коэффициент расширения определяется числом k (k>1), полосовой фильтр имеет полосу пропускания в диапазоне от (k-1)·LFmax до k·LFmax. Обработка, показанная на фиг.3, повторяется для различных коэффициентов расширения до тех пор, пока не будет достигнута искомая наивысшая частота k-LFmax, где k равно максимальному коэффициенту расширения kmax.
Далее со ссылкой на фиг.5 и 6, будет раскрыт предпочтительный вариант выполнения фазового вокодера 202a, 202b, 202c в соответствии с настоящим изобретением. На фиг.5a показан вариант выполнения фазового вокодера в виде банка фильтров, при котором аудиосигнал подается на вход 500 и выводится с выхода 510. В частности, каждый канал банка фильтров, схематично изображенного на фиг.5а, включает полосовой фильтр 501 и последующий генератор 502. Выходные сигналы со всех генераторов от каждого канала для получения выходного сигнала объединяются блоком объединения, представляющего собой, например, сумматор и обозначенного позицией 503. Каждый фильтр 501 выполнен таким образом, что производит как амплитудный сигнал, так и частотный сигнал. Амплитудный и частотный сигналы являются временными сигналами, иллюстрирующими изменение во времени амплитуды в фильтре 501, в то время как частотный сигнал описывает изменение частоты сигнала, пропущенного через фильтр 501.
На фиг.5b показана схематичная структура фильтра 501. Каждый фильтр 501 на фиг.5a может быть устроен как фильтр, изображенный на фиг.5b, в котором, тем не менее, в зависимости от канала будут меняться только частоты fi, поступающие на два входных микшера 551 и сумматор 552. Оба выходных сигнала микшеров пропускаются через фильтры нижних частот 553, при этом низкополосные сигналы несколько различаются, поскольку они были созданы на локальных частотах генератора (LO частотах), отличающихся по фазе на 90°. Верхний фильтр нижних частот 553 создает квадратурный сигнал (Q) 554, в то время как нижний фильтр 553 создает синфазный сигнал (I) 555. Эти два сигнала, I и Q, поступают в координатный преобразователь 556, который создает отображение зависимости величины фазы в прямоугольных координатах. С выхода 557 выводится зависимость величины сигнала или амплитуды сигнала от времени, показанная на фиг.5a. Фазовый сигнал подается в блок развертки фазы 558. На выходе блока 558 наблюдаются значения фазы, которые уже более не находятся постоянно между 0 и 360°, а линейно увеличиваются. Эта «развертка» значения фазы поступает в фазочастотный преобразователь 559, который может, например, быть выполнен в виде обычного формирователя разности фаз, который для получения значения частоты в текущий момент времени вычитает фазу, наблюдаемую в предыдущий момент времени, из фазы, наблюдаемой текущий момент времени. Полученное значение частоты добавляется к постоянному значению частоты fi канала фильтра i для получения изменяющегося во времени значения частоты на выходе 560. Значение частоты на выходе 560 имеет постоянную составляющую, равную fi, и переменную составляющую, равную отклонению частоты, на которое текущая частота сигнала в канале фильтра отклоняется от средней частоты fi.
Таким образом, как показано на фиг.5a и 5b, в фазовом вокодере достигается разделение спектральной и временной информаций. Спектральная информация содержится в специальном канале или в частоте fi, дающей постоянную составляющую частоты для каждого канала, в то время как временная информация содержится в отклонении частоты или изменении ее величины во времени.
Фиг.5c демонстрирует операции для расширения полосы частот в соответствии с настоящим изобретением, осуществляемые, в частности, в фазовом вокодере 202a, а именно в той области схемы, которая изображена пунктиром на фиг.5a.
Для того чтобы осуществить масштабирование по времени, могут, например, быть децимированы или интерполированы соответственно сигнал амплитуды A(t) в каждом канале или сигнал частоты f(t) в каждом сигнале. Для осуществления транспозиции, эффективно применяемой в настоящем изобретении, выполняется интерполяция, т.е. временное расширение или растягивание сигналов A(t) и f(t), для получения расширенных сигналов A′(t) и f′(t), при этом интерполяция контролируется коэффициентом расширения 104, как показано на фиг.1. Благодаря интерполяции изменения фазы, а именно ее значения перед добавлением постоянной частоты сумматором 552, частота каждого отдельного генератора 502 на фиг.5a не меняется. Вместе с тем, скорость изменения по времени всего аудиосигнала замедляется с коэффициентом 2. В результате получается расширенный по времени звуковой сигнал, имеющий первоначальный основной тон, т.е. первоначальную основную волну с ее гармониками.
Посредством выполнения обработки сигнала, показанной на фиг.5c, причем такая обработка выполняется в каждом канале полосового фильтра на фиг.5, и посредством последующей децимации итогового временного сигнала в дециматоре 105 на фиг.1 или в дециматоре 205a на фиг.5a, продолжительность аудиосигнала возвращается к своему первоначальному значению, в то время как все частоты одновременно удваиваются. Это приводит к транспозиции основного тона с коэффициентом 2, при этом, однако, получается аудиосигнал, который имеет такую же длину, что и первоначальный аудиосигнал, т.е. такое же количество семплов.
Как альтернатива варианту с применением полосового фильтра, изображенного на фиг.5a, может использоваться также вариант с применением преобразований в фазовом вокодере. В этом случае аудиосигнал 100 поступает в процессор БПФ (FFT), или, более обобщенно, в процессор краткосрочного преобразования Фурье 600, в виде последовательности временных семплов. Процессор БПФ 600, схематично изображенный на фиг.6, применяется для выполнения обработки аудиосигнала методом временного окна для того, чтобы посредством БПФ вычислить как спектр амплитуд, так и спектр фаз, при этом такое вычисление выполняется для последовательных спектров блоков аудиосигнала, которые в значительной степени перекрываются.
В предельном случае, для каждого нового семпла аудиосигнала может быть вычислен новый спектр, но в то же время новый спектр может быть вычислен также. например, только для каждого двадцатого нового семпла. Это расстояние а в семплах между двумя спектрами предпочтительно определяется контроллером 602. Контроллер 602 затем передает данные в процессор ОБПФ (IFFT) 604, осуществляющий операцию перекрытия. В частности, процессор ОБПФ 604 применяется для осуществления обратного кратковременного преобразования Фурье, выполняя ОБПФ для каждого спектра, основанного на спектре амплитуд и спектре фаз для того, чтобы затем выполнить операцию накладывающегося окна, в результате которой определяется период. Операция накладывающегося окна устраняет влияние окна анализа.
Расширение временного сигнала достигается за счет того, что после обработки процессором ОБПФ 604 двух спектров расстояние b между ними, больше, чем расстояние а между спектрами в поколении FFT спектров. Основной идеей является расширение аудиосигнала посредством обратных БПФ, которые просто разнесены дальше друг от друга, чем исследуемые FFT. В результате, спектральные изменения в синтезированном аудиосигнале происходят более медленно, чем в первоначальном аудиосигнале.
Отсутствие изменения масштаба фазы в блоке 606, однако, привело бы к частотным помехам. Например, если взять один отдельный элемент разрешения по частоте и применить к нему последовательные значения фазы, отличающиеся на 45°, это привело бы к тому, что сигнал в пределах этой полосы частот фильтра возрастал по фазе со скоростью 1/8 за период, т.е. на 45° за временной интервал, причем в этом случае временной интервал - это временной интервал между последовательными БПФ. То, что обратные БПФ разнесены дальше друг от друга, означает, что увеличение фазы на 45° происходит на более длительном временном интервале. Это значит, что частота этой части сигнала ненамеренно была уменьшена. Для устранения такого нежелательного снижения частоты осуществляется изменение масштаба фазы с точно таким же коэффициентом, с каким аудиосигнал был расширен по времени. В результате фаза каждого спектрального значения БПФ возрастает с коэффициентом b/a и такое ненамеренное снижение частоты устраняется.
В то время как в варианте выполнения, изображенном на фиг.5c, расширение посредством интерполяции амплитудочастотных уп