Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот
Иллюстрации
Показать всеИзобретение относится к способам генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала. Техническим результатом является повышение акустического качества сигнала с расширенной полосой частот при сравнительно невысокой вычислительной сложности. Указанный результат достигается тем, что устройство для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала (110) включает фазовый вокодер (130), генерирующий значения (βζ…β2ζ) спектрального представления первого патча сигнала с расширенным диапазоном частот на основе представления входного сигнала; и блок копирования значений (140), предназначенный для копирования набора значений (βζ…β2ζ) спектрального представления первого патча, сгенерированных фазовым вокодером, с целью формирования набора значений (β2ζ…β3ζ) спектрального представления второго патча, причем второй патч связан с более высокими частотами, чем первый патч. Устройство выполнено с возможностью генерирования представления (120) сигнала с расширенным диапазоном частот с использованием значений спектрального представления первого патча и значений спектрального представления второго патча. 6 н. и 11 з.п. ф-лы, 9 ил.
Реферат
Область техники
Конструктивные решения по данному изобретению относятся к устройству для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала. Другие конструктивные решения по данному изобретению относятся к способу генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала. Прочие конструктивные решения по настоящему изобретению относятся к носителю с программным кодом, предназначенному для осуществления указанного способа.
Ряд технических решений по предлагаемому изобретению имеет отношение к новым методам патчирования при репликации спектральных полос.
Уровень техники
Процесс накопления или передачи звуковых сигналов часто строго ограничен фактором скорости передачи данных. Такие ограничения обычно преодолевают за счет кодирования сигнала. В прошлом, когда был доступен только очень низкий битрейт, кодеры резко ограничивали ширину диапазона частот передаваемого аудиосигнала. Современные аудиокодеки рассчитаны на сохранение ширины слышимой полосы частот благодаря применению методов расширения диапазона частот (BWE). Подобные методики описаны, например, в [1]-[12]. Эти алгоритмы основаны на параметрическом представлении высокочастотного контента (ВЧ), сгенерированного из закодированной формы волны низкочастотной составляющей (НЧ) декодированного сигнала транспонированием в область спектра ВЧ (“патчированием”) и применением полученного параметра для последующей обработки сигнала.
В существующем уровне техники такие приемы расширения полосы пропускания, как репликация спектральных полос (SBR), используют в качестве эффективных методов генерации высокочастотных сигналов в кодеках, основанных на высокочастотной реконструкции (HFR).
При репликации спектральных полос, описанной в [1], обозначаемой также аббревиатурой “SBR”, для генерации ВЧ информации используют банк квадратурных зеркальных фильтров (банк КЗФ). С помощью, так называемой технологии “патчирования”, нижние частоты КЗФ копируют в верхнюю (частотную) позицию, реплицируя НЧ информацию в область ВЧ. Затем сгенерированные ВЧ монтируют с первоначальной частью ВЧ, используя параметры, которые совмещают (или корректируют) огибающую спектра и тональность (например, форматируя огибающую).
Стандартная репликация спектральных полос (SBR) включает в себя операцию патчирования, которая всегда выполняется путем копирования внутри области КЗФ.
Как установлено, это может иногда приводить к возникновению акустических артефактов, особенно если синусоиды скопированы вблизи друг друга на границе НЧ и генерируемой ВЧ части. Таким образом, можно заключить, что процедура SBR связана с проблемой артефактов. Кроме того, некоторые общепринятые реализации концепции расширения полосы пропускания сопряжены с достаточно высокой сложностью. В дополнение к этому, в некоторых вариантах подхода к расширению диапазона частот спектр становится слишком разреженным для „заплат" в верхней его части (с высокими коэффициентами растяжения), что может привести к нежелательным (слышимым) акустическим артефактам.
С учетом сказанного выше целью данного изобретения является создание концепции формирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала, которая способствовала бы оптимальному соотношению вычислительной сложности и качества звука.
Краткое описание изобретения
Конструктивные решения по предлагаемому изобретению реализуют устройство для генерирования представления сигнала с расширенной полосой частот на базе представления входного сигнала. Устройство включает в себя фазовый вокодер, предназначенный для расчета значений спектрального представления первого патча сигнала с расширенной полосой частот на базе представления входного сигнала. Кроме того, устройство имеет в своем составе блок копирования значений, предназначенный для копирования набора значений спектрального представления первого патча, полученных от фазового вокодера, с целью расчета набора значений спектрального представления второго патча. Второй патч содержит более высокие частоты, чем первый патч. Устройство выполняет функцию формирования представления сигнала с расширенным диапазоном частот с использованием значений спектрального представления первого патча и значений спектрального представления второго патча.
Ключевой идеей данного изобретения является оптимальное соотношение вычислительной трудоемкости и акустического качества сигнала с расширенной полосой частот, достигаемое за счет совмещения фазового вокодера с блоком копирования значений, при этом фазовый вокодер генерирует первый патч сигнала с расширенной полосой частот, а второй патч сигнала с расширенной полосой частот формируется на базе первого патча с помощью блока копирования значений. Таким образом, содержимое первого патча представляет собой гармонически транспонированный вариант содержимого низкочастотной части (НЧ) входного сигнала (в виде преобразованного представления входного сигнала), а второй патч является сам (или представляет) сдвинутый (негармонически) по частоте вариант содержимого первого патча. Следовательно, второй патч может быть генерирован с относительно низкой сложностью вычислений, поскольку копирование значений в вычислительном отношении проще, чем операция фазового вокодирования. Дополнительно, устраняются большие спектральные дыры во втором патче, так как спектральные характеристики первого патча, как правило, достаточно заполнены (то есть содержат ненулевые значения), благодаря чему ослабляются или устраняются различимые на слух артефакты, которые могли бы возникнуть в некоторых случаях, когда второй патч разрежен.
Если обобщить сказанное, концепция изобретения дает существенные преимущества перед общепринятыми алгоритмами патчирования (“наложения заплаты”) в силу того, что при гармоническом расширении диапазона частот с помощью фазового вокодера получают значения спектрального представления первого патча, то есть - нижней части спектра, в то время как для высоких частот используют негармоническое расширение диапазона частот, основанное на копировании значений спектрального представления первого патча для получения значений спектрального представления второго патча. Таким образом, нижний диапазон (обозначенный как “первый патч”) полосы расширения частот (выше частоты перехода) формируется как гармоническое расширение основного частотного диапазона (то есть - в частотном диапазоне входного сигнала, охватывающем частоты, проходящие ниже частот полосы частотного расширения, например, частоты, находящиеся ниже частоты перехода), что обусловливает высокое качество восприятия на слух сигнала с расширенным диапазоном частот. Кроме того, установлено, что простая генерация значений спектрального представления верхнего диапазона полосы частотного расширения (который обозначен как “второй патч”), выполняемая с помощью блока копирования, не влечет за собой существенные акустические артефакты, так как человеческий слух не особенно чувствителен к спектральным тонкостям верхнего диапазона полосы частотного расширения (второго патча).
В итоге, концепция изобретения обеспечивает хорошее акустическое качество при сравнительно невысокой вычислительной сложности.
В предпочтительной версии реализации фазовый вокодер выполняет функцию копирования набора показателей амплитуды, связанных с совокупностью определенных частотных поддиапазонов входного представления в спектральной области, с целью получения набора значений амплитуды, связанных с соответствующими частотными поддиапазонами первого патча, при этом пара, куда входят определенный частотный поддиапазон входного спектрального представления и соответствующий частотный поддиапазон первого патча, охватывает (или включает в себя) пару, куда входят основная частота и гармоника основной частоты (например, первая гармоника основной частоты). Наряду с этим фазовый вокодер предпочтительно выполняет функцию умножения фазовых показателей, связанных с совокупностью определенных частотных поддиапазонов входного представления в спектральной области, на заданный коэффициент (допустим, 2) для получения значений фазы, связанных с соответствующими частотными поддиапазонами первого патча. Блок копирования значений преимущественно предназначается для копирования набора значений, связанных с совокупностью определенных частотных поддиапазонов первого патча, с целью получения набора значений, связанных с соответствующими частотными поддиапазонами второго патча. Блок копирования значений преимущественно рассчитан на то, чтобы при копировании сохранять фазовые показатели без изменения. Таким образом, фазовый вокодер выполняет, по крайней мере, приближенно, гармоническое транспонирование, в то время как блок копирования значений выполняет негармонический сдвиг частоты. Частотные поддиапазоны могут, например, представлять собой полосы частот, соотнесенные с коэффициентами быстрого преобразования Фурье (или любого сопоставимого преобразования). Или же, частотные поддиапазоны могут представлять собой полосы частот, соотнесенные с индивидуальными сигналами банка КЗФ. Как правило, ширина частотных поддиапазонов относительно центральной частоты невелика, при этом отношение конечной частоты к начальной в таком частотном интервале значительно меньше, чем 2:1. Другими словами, даже при условии, что частотные поддиапазоны входного спектрального представления (которые могут, например, иметь форму коэффициентов БПФ или форму сигналов банка КЗФ) и частотные поддиапазоны первого патча не должны полностью совпадать друг с другом гармонически, почти всегда можно соотнести частотный поддиапазон (имеющий, например, коэффициент встречаемости k) входного спектрального представления и соответствующий частотный поддиапазон (имеющий, например, коэффициент встречаемости 2k) первого патча так, чтобы частотный поддиапазон (2k) первого патча представлял, по меньшей мере, приближенно, гармоническую частоту соответствующего частотного поддиапазона (k) входного спектрального представления.
Следовательно, фазовый вокодер осуществляет гармоническое транспонирование с учетом фазовых характеристик, преобразованных путем масштабирования фазы. В отличие от этого, блок копирования значений лишь выполняет (хотя бы, приближенно), операцию негармонической частотной модуляции.
В предпочтительном конструктивном варианте блок копирования значений предусматривает копирование значений таким образом, чтобы обеспечить общий спектральный (или частотный) сдвиг значений первого патча к значениям второго патча.
Предпочтительное техническое решение фазового вокодера подразумевает получение значений спектрального представления первого патча таким образом, чтобы эти значения воспроизводили гармонически транспонированный вверх вариант диапазона опорной частоты представления входного сигнала (например, диапазон опорной частоты ниже так называемой частоты перехода). Блок копирования значений преимущественно предназначен для получения значений спектрального представления второго патча таким образом, чтобы эти значения воспроизводили частотно модулированный вариант первого патча. Таким образом, реализуются охарактеризованные выше преимущества. В особенности это относится к простоте реализации при хорошем акустическом восприятии.
Предпочтительное аппаратное исполнение рассчитано на прием аудиоданных с импульсно-кодовой модуляцией (с ИКМ) и на субдискретизацию импульсно-кодово-модулированных входных аудиоданных с целью генерации субдискретизированных импульсно-кодово-модулированных аудиоданных. Кроме того, устройство выполняет оконное взвешивание субдискретизированных импульсно-кодово-модулированных аудиоданных с целью получения взвешенных входных данных и преобразует эти взвешенные входные данные в частотную область с формированием представления входного сигнала. Наряду с этим устройство предпочтительно рассчитывает значения амплитуды ak (обозначенные также αk) и фазовые показатели φk величины шага дискретизации k (где k - коэффициент частотного разрешения) представления входного сигнала, а также копирует значения амплитуды ak с целью получения скопированных значений амплитуды ask (обозначенных также αsk), отображающих величину шага дискретизации с коэффициентом sk для первого патча, где s - коэффициент растяжения при s=2. В дополнение к этому устройство предпочтительно выполняет функции копирования и масштабирования фазовых показателей φk, относящихся к величине шага частотной дискретизации k представления входного сигнала, с целью получения скопированных и отмасштабированных фазовых показателей φsk, относящихся к величине шага частотной дискретизации с коэффициентом частотности sk первого патча. Также, устройство предпочтительно предусматривает копирование значений βk-iζ, связанных с шагом частотной дискретизации k-iζ, спектрального представления первого патча, с целью получения значений βk спектрального представления второго патча. Кроме того, устройство предпочтительно преобразует представление сигнала с расширенным диапазоном частот (включающее в себя спектральное представление первого патча и спектральное представление второго патча) во временную область с целью формирования временного представления и приложения к временному представлению окна синтеза. Применение изложенной выше концепции дает возможность генерировать сигнал с расширенным диапазоном частот при умеренной трудоемкости вычислений. Расширение полосы пропускания осуществляется в частотной области, откуда возможно преобразование в спектральную область, например, в область БПФ или КЗФ.
Предпочтительная аппаратная версия изобретения имеет в своем составе преобразователь сигнала из временной области в спектральную область (например, средство быстрого преобразования Фурье или банк КЗФ), рассчитывающий характеристики представления в спектральной области (например, коэффициенты быстрого преобразования Фурье или подполосовые сигналы КЗФ) входного аудиосигнала или предварительно обработанного (например, субдискретизированного и/или взвешенного) варианта входного аудиосигнала (например, импульсно-кодово-модулированного сигнала, сгенерированного ядром аудиодекодера). Названное устройство предпочтительно включает в себя преобразователь сигнала из спектральной области во временную область (например, средство обратного быстрого преобразования Фурье или синтезирующий банк КЗФ), формирующий представление во временной области сигнала с расширенным диапазоном частот с использованием значений спектрального представления (например, в виде коэффициентов БПФ или подполосовых сигналов КЗФ) первого патча и значений спектрального представления (например, в виде коэффициентов БПФ или подполосовых сигналов КЗФ) второго патча. Конфигурация спектрально-временного преобразователя преимущественно предполагает, что число возможных спектральных величин (например, дискретов БПФ или полос КЗФ), принятое им, превышает число возможных спектральных величин (например, дискретов БПФ, или полос КЗФ), сгенерированное время-спектральным преобразователем (например, средством быстрого преобразования Фурье или банком КЗФ), при этом спектрально-временной преобразователь обрабатывает большее количество частотных отсчетов (например, дискретов быстрого преобразования Фурье или частотных полос КЗФ), чем время-частотный преобразователь. Следовательно, расширение полосы пропускания достигается за счет того, что преобразователь сигнала из области спектра в область времени обрабатывает больший объем частотных отсчетов, чем преобразователь из временной области в частотную область.
В предпочтительном варианте осуществления устройство имеет в своем составе анализирующий оконный преобразователь, предусмотренный для оконного взвешивания входного аналогового звукового сигнала с целью формирования взвешенной модификации такого сигнала, которая служит основой для генерирования представления входного сигнала.
Кроме того, устройство включает в себя синтезирующий оконный преобразователь, предусмотренный для оконного взвешивания фрагмента представления во временной области сигнала с расширенным диапазоном частот с целью получения взвешенного фрагмента представления во временной области сигнала с расширенным диапазоном частот. В силу этого сокращаются или даже устраняются артефакты сигнала с расширенным диапазоном частот.
В предпочтительной версии исполнения устройство осуществляет функцию обработки множества последовательно перекрывающихся смещающихся во времени фрагментов входного аналогового аудиосигнала с образованием множества последовательно перекрывающихся смещающихся во времени взвешенных оконных рагментов представления во временной области сигнала с расширенной полосой частот. Временной сдвиг между двумя смежными фрагментами входного аудиосигнала во временной области - меньше, чем, или равен одной четвертой длины окна анализа. Было установлено, что относительно большое временное наложение смежных сдвинутых по времени фрагментов входного аудиосигнала во временной области (и/или сравнительно большое временное наложение смежных сдвинутых по времени фрагментов временного представления сигнала с расширенной полосой частот) дает в результате расширение диапазона частот, обеспечивающее хорошее слуховое восприятие, поскольку благодаря сравнительно большому временному наложению устраняются нестационарности сигнала.
Предпочтительное техническое решение предполагает оснащение устройства детектором нестационарных режимов, который обеспечивает данные о наличии нестационарности во входном сигнале (в представлении входного сигнала). Наряду с этим устройство включает в себя первый контур преобразования, генерирующий представление компоненты сигнала, расширенного по полосе частот, основываясь на стационарной составляющей представления входного сигнала, и второй контур преобразования, генерирующий представление компоненты сигнала, расширенного по полосе частот, основываясь на нестационарной составляющей представления входного сигнала. Второй контур преобразования выполняет функцию обработки спектрального представления входного сигнала, которое имеет более высокое спектральное разрешение, чем спектральное представление входного сигнала, обработанного первым контуром преобразования. Соответственно, компоненты сигнала, содержащие нестационарность, могут быть обработаны с более высоким спектральным разрешением, которое предотвращает слышимые артефакты, возникающие при нестационарных режимах. С другой стороны, более низкое спектральное разрешение может быть применено для стационарных компонент сигнала (то есть для составляющих сигнала, в которых детектор нестационарных режимов не распознает нестационарное состояние). В силу этого, вычислительная эффективность поддерживается на высоком уровне, в то время как увеличенная спектральная разрешающая способность используется только тогда, когда это целесообразно (например, когда это обеспечивает улучшение акустического качества вблизи нестационарности).
Преимущественная версия конфигурации этого устройства включает в себя блок добавления нулей во временной области, предназначенный для дополнения нулями нестационарной составляющей входного сигнала с получением расширенной во времени нестационарной составляющей входного сигнала. При этом первый контур преобразования содержит (первый) время-частотный преобразователь, который обеспечивает первый набор значений спектральной области, связанных со стационарной составляющей входного сигнала, в то время как второй контур преобразования содержит (второй) время-частотный преобразователь, который обеспечивает второй набор значений спектральной области, связанных с расширенной во времени нестационарной составляющей входного сигнала. Второй набор значений спектральной области превосходит первый набор значений спектральной области, по меньшей мере, на коэффициент 1,5. Подобным образом достигается адекватное управление нестационарным процессом.
В предпочтительном варианте компоновки второй контур преобразования содержит блок удаления нулей, предназначенный для извлечения множества нулевых значений из компоненты сигнала с расширенной полосой частот, на основе расширенной во времени нестационарной составляющей входного сигнала. За счет этого выполняется обращение временного растяжения входного сигнала, полученное добавлением нулей.
Предпочтительное конструктивное решение устройства предусматривает субдискретизатор, предназначенный для гармонической дискретизации представления входного сигнала во временной области. С помощью субдискретизации входного сигнала может быть повышена вычислительная эффективность, если входной сигнал не покрывает всю ширину полосы Найквиста входного потока отсчетов с импульсно-кодовой модуляцией.
Вариантом конструктивного решения по предлагаемому изобретению является устройство, в котором инвертирован порядок рабочих операций блока копирования значений и фазового вокодера. Данное устройство предназначено для генерации представления сигнала с расширенной полосой частот на основе представления входного сигнала (110; 383) и включает в себя блок копирования значений, выполняющий функции копирования набора значений представления входного сигнала, генерации набора значений спектрального представления первого патча, причем первый патч связан с более высокими частотами, чем представление входного сигнала. Кроме того, устройство включает в себя фазовый вокодер (130; 406), выполняющий расчет значений (β2ζ…β3ζ) спектрального представления второго патча сигнала с расширенной полосой частот на основе значений (β4/3ζ…β2) спектрального представления первого патча, причем второй патч связан с более высокими частотами, чем первый патч. Устройство предназначено для построения представления (120; 426) сигнала с расширенным диапазоном частот с использованием значений спектрального представления первого патча и значений спектрального представления второго патча.
Данное устройство рассчитано на генерацию сигнала с расширенным диапазоном частот при сравнительно низкой вычислительной стоимости, но высоком акустическом качестве на выходе. Оставляя фазовый вокодер после копирования в режиме работы со сравнительно небольшой относительной частотой (то есть отношением частоты выходного сигнала вокодера к частоте входного сигнала вокодера), можно получить оптимальное заполнение спектра и предупредить его большие разрывы. Более того, было определено, что при таком подходе качество звучания даже возрастает по сравнению с подходом, опирающимся единственно на процедуру копирования, без введения фазового вокодера, даже несмотря на то, что первый патч (для более низких частот) получен с использованием копирования, и только второй патч (для более высоких частот) сгенерирован с использованием фазового кодера. Сверх того, вычислительная сложность уменьшается по сравнению с системами, в которых применена концепция генерации всех патчей с задействованием только фазовых вокодеров, а разрывы спектра при этом сокращаются.
Бесспорно, такое конструктивное решение может быть дополнено любой из функциональных возможностей, обсуждаемых здесь.
Данное изобретение осуществляется за счет предлагаемых способов генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала. Указанный способ базируется на концепции, лежащей в основе рассматриваемого устройства.
Осуществление способа, относящегося к настоящему изобретению, опирается на использование носителя с программным кодом.
Краткое описание фигур
На фиг.1 дана блок-схема работы устройства для генерации представления сигнала с расширенным диапазоном частот на основе представления входного сигнала согласно реализации данного изобретения; на фиг.2 графически отображена концепция расширения диапазона частот в соответствии с настоящим изобретением; на фиг.3 дана детализированная принципиальная блочная схема аудиодекодера, включающего в себя устройство для генерации представления сигнала с расширенным диапазоном частот на основе представления входного сигнала, реализованного в соответствии с изобретением; на фиг.4 дана блок-схема способа генерации представления сигнала с расширенным диапазоном частот на основе представления входного сигнала, реализованного в соответствии с изобретением; на фиг.5 дана принципиальная блочная схема аудиодекодера в качестве первого сравнительного примера; и на фиг.6 дана принципиальная блочная схема аудиодекодера в качестве второго сравнительного примера.
Описание реализации изобретения
1. Устройство по фиг.1
На фиг.1 дана блок-схема работы устройства 100 для генерации представления сигнала с расширенным диапазоном частот на основе представления входного сигнала. Устройство 100 предназначено для приема представления входного сигнала 110 и генерации на его основе сигнала с расширенным диапазоном частот 120. Устройство 100 включает в себя фазовый вокодер 130, предназначенный для вычисления значений спектрального представления первого патча для сигнала с расширенным диапазоном частот 120 на основе представления входного сигнала 110. Значения спектрального представления первого патча обозначены, допустим, как βζ-β2ζ. Кроме того, устройство 100 включает в себя блок копирования значений 140, предназначенный для копирования наборов значений спектрального представления 132 первого патча, рассчитанные фазовым вокодером 130, для вычисления набора значений спектрального представления 142 второго патча, причем второй патч связан с более высокими частотами, чем первый патч. Значения спектрального представления 142 второго патча обозначены, допустим, как β2ζ-β3ζ. Устройство 100 генерирует представление 120 сигнала с расширенным диапазоном частот, используя значения βζ-β2ζ спектрального представления 132 первого патча и значения β2ζ-β3ζ спектрального представления 142 второго патча. Например, представление 120 сигнала с расширенным диапазоном частот может содержать как значения спектрального представления 132 первого патча, так и спектрального представления 142 второго патча. В дополнение к этому представление 120 сигнала с расширенным диапазоном частот может, в частности, содержать значения спектрального представления входного сигнала (скажем, в форме представления входного сигнала 110). Вместе с тем, представление 120 сигнала с расширенным диапазоном частот может базироваться на значениях спектрального представления 132 первого патча и значений спектрального представления 142 второго патча (и, как вариант, на таких как значения спектрального представления 116 входного сигнала и/или значения спектрального представления дополнительных патчей).
Ниже функциональные возможности и работа устройства 100 будут рассмотрены более подробно в контексте фиг.2, где графически отображена концепция генерации представления сигнала с расширенным диапазоном частот на основе представления входного сигнала, лежащая в основе изобретения.
На первом графике 200 отображено гармоническое транспонирование входного сигнала (в форме представления входного сигнала 110), выполняемое фазовым вокодером 130. Как можно видеть, входной сигнал представлен, к примеру, набором значений амплитуды αk. Индекс k обозначает шаг спектрального разрешения (предположим, отсчет быстрого преобразования Фурье с индексом k, или частотную полосу преобразования КЗФ с индексом k). Представление входного сигнала 110 может, например, содержать величины амплитуды αk от k=1 до k=ζ, где ζ обозначает так называемый шаг частоты перехода и характеризует начальную частоту расширения полосы. Затем описывается диапазон опорной частоты, например, с помощью фазовых характеристик φk, где k - индекс элемента разрешения по частоте, как сказано выше.
Аналогичным образом первый патч описывается набором значений представления в спектральной области, например, значениями βk при k между ζ, и 2ζ. Или, первый патч может быть отображен через величины амплитуды αk и фазовые характеристики φk с шагом разрешения по частоте с индексом k между ζ и 2ζ.
Как уже сказано, фазовый вокодер 130 предназначен для гармонического транспонирования на базе представления входного сигнала 110 с целью расчета значений спектрального представления 132 первого патча. Для этого фазовый вокодер 130 может задать величину амплитуды α2k шага по частоте с индексом (шага по частоте) 2k, как равную величине амплитуды αk шага по частоте с индексом (шага по частоте) k. Кроме того, фазовый вокодер 130 может задать фазовой характеристике φ2k шага по частоте с индексом 2k величину, равную 2 фазовым характеристика φk шага по частоте с индексом k. В этом случае шаг по частоте, имеющий индекс k становится отсчетом по частоте в представлении входного сигнала 110, а шаг по частоте с индексом 2k становится частотным дискретом спектрального представления 132 первого патча. Кроме того, шаг по частоте, имеющий индекс 2k может включать в себя частоту, которая является первой гармоникой частоты, входящей в шаг по частоте, имеющий индекс k. Таким образом могут быть получены характеристики амплитуды α2k и фазы φ2k, описывающие спектральное представление 132 первого патча, где k находится в пределах от ζ до 2ζ, давая в результате α2k=αk и φ2k=2φk. И наоборот, и равнозначно, параметры представления в спектральной области 132 первого патча β2k могут быть выведены для 2k между ζ, и 2ζ, таким образом, что β2k=αkej2φk
В итоге, если принять, что элементы разрешения по частоте с индексом k (или, равнозначно, 2k, и так далее), которые являются, например, отсчетами в частотной области быстрого преобразования Фурье, или полосами частот преобразования КЗФ, представляют собой линейные частотные дискреты (когда индекс элемента разрешения по частоте, например k или 2k, является, по меньшей мере, приближенно, пропорциональным частоте, входящей в соответствующий частотный дискрет, например, центральной частоте k-го частотного отсчета быстрого преобразования Фурье или центральной частоте k-й полосы КЗФ), можно заключить, что гармоническое транспонирование фазовым вокодером 130 выполнено. Однако характеристики представления в спектральной области 142 второго патча рассчитываются блоком копирования значений 140, который выполняет нелинейное копирование параметров спектрального представления 132 первого патча.
Теперь, ссылаясь на график 250, кратко рассмотрим негармоническое копирование. Как видно, первый патч представлен показателями βζ-β2ζ (или же величинами амплитуды αζ-α2ζ, и фазовыми характеристиками φζ-φ2ζ. Соответствующие характеристики β2ζ-β3ζ (или показатели амплитуды α2ζ-α3ζ и фазы φ2ζ-φ3ζ) спектрального представления 142 второго патча сгенерированы путем негармонического копирования, выполненного блоком копирования значений 140. Например, комплекснозначные спектральные величины β2ζ-β3ζ спектрального представления 142 второго патча могут быть рассчитаны на базе соответствующих характеристик βζ-β2ζ спектрального представления 132 первого патча согласно βk=βk-ζ для k в пределах 2ζ, и 3ζ. Аналогично, величины амплитуды α2ζ, to α3ζ, спектрального представления 142 второго патча могут быть вычислены, исходя из величин амплитуды спектрального представления 132 первого патча, согласно αk=αk-ζ для k между 2ζ, и 3ζ. При этом фазовые показатели φ2ζ - φ3ζ спектрального представления 142 второго патча могут быть сформированы на основе фазовых показателей φζ - φ2ζ, спектрального представления 132 первого патча согласно φk=φk-ζ; для k между 2ζ и 3ζ. Таким вот, блин, манером, показатели спектрального представления 142 второго патча описывают сигнал, который негармонически (т.е. линейно) сдвигается по частоте относительно сигнала, описанного значениями спектрального представления 132 первого патча.
Значения βζ - β2ζ, спектрального представления 132 первого патча и значения β2ζ - β3ζ спектрального представления 142 второго патча могут быть использованы для генерации представления 120 сигнала с расширенным диапазоном частот. По желанию представление 120 сигнала с расширенным диапазоном частот может быть сформировано в спектральной или во временной области. При необходимости формирования представления во временной области в схему может быть введен частотно-временной преобразователь, обеспечивающий временное представление, исходя из показателей βζ - β2ζ спектрального представления 132 первого патча и показателей β2ζ - β3ζ спектрального представления 142 второго патча. И наоборот (но, равносильно), расчетные оценки αζ-α2ζ, φζ-φ2ζ, α2ζ-α3ζ и φ2ζ-φ3ζ; могут быть использованы для извлечения представления 120 сигнала с расширенным диапазоном частот (как в области спектра, так и во временной области).
Как уже говорилось выше, концепция, рассмотренная с опорой на фиг.1 и 2, оптимизирует слуховое восприятие при сравнительно низкой вычислительной трудоемкости. Необходимость в применении фазового вокодера возникает только один раз, даже если налагается множество патчей (например, первый патч и второй патч). Более того, предупреждается появление больших спектральных разрывов во втором патче, которые могли бы возникнуть в случае введения в схему другого фазового вокодера для генерации второго патча. Таким образом, концепция изобретения способствует нахождению рационального компромисса между вычислительной сложностью и акустическим качеством.
Более того, следует отметить, что ряд реализаций позволяет на базе величин спектрального представления 132 первого патча генерировать дополнительные патчи. В частности, в развитие концепции изобретения предусматривается опция генерирования параметров спектрального представления третьего патча на базе показателей спектрального представления 132 первого патча с использованием еще одного блок копирования значений, что подробнее будет обсуждаться в контексте фиг.3.
Конструктивные решения, рассмотренные в фиг 1 и 2 (как и другие версии осуществления), открыты для внесения модификаций по широкому кругу аспектов. Допустим, первый патч будет рассчитан с использованием фазового вокодера, тогда второй, третий и четвертый патчи могут быть сгенерированы путем повышающего копирования спектральных характеристик. Или же, первый и второй патчи могут быть вычислены с использованием фазовых вокодеров, а третий и четвертый патчи могут быть выведены повышающим копированием параметров спектра. Несомненно, могут быть применены разнообразные комбинации рабочих операций фазовых вокодеров и процедур повышающего копирования.
Более того, первый патч может быть получен повышающим копированием (с помощью блока копирования значений) спектральных характеристик представления входного сигнала, а второй патч может быть сгенерирован фазовым вокодером (на основе скопированных величин первого патча, сформированного блоком копирования значений.
2. Конструктивное решение в соответствии с фиг.3
Далее будет рассмотрена фиг.3, где размещена детализированная принципиальная блочная схема аудиодекодера 300, включающего в себя устройство для генерации представления сигнала с расширенным диапазоном частот на основе представления входного сигнала.
2.1. Аудиодекодер - Обзор
Аудиодекодер 300 предназначен для приема потока данных 310 и синтезирования на его