Устройство и способ для эффективного синтеза синусоид и свип-синусоид с помощью использования спектральных шаблонов
Иллюстрации
Показать всеИзобретение относится к средствам для кодирования, декодирования и обработки звукового сигнала. Технический результат заключается в повышении эффективности кодирования звука с низкой задержкой и низкой скоростью передачи данных. Устройство для генерации выходного звукового сигнала содержит блок обработки для обработки спектра кодированного звукового сигнала для получения спектра декодированного звукового сигнала, содержащего множество спектральных коэффициентов, причем каждый из спектральных коэффициентов имеет спектральное расположение в спектре кодированного звукового сигнала и спектральное значение, причем спектральные коэффициенты последовательно упорядочиваются согласно их спектральному расположению в спектре кодированного звукового сигнала так, чтобы спектральные коэффициенты сформировали последовательность спектральных коэффициентов. Кроме того, устройство содержит блок замены для замены по меньшей мере одного или большего количества псевдокоэффициентов определенным спектральным шаблоном для получения измененного спектра звукового сигнала, причем определенный спектральный шаблон содержит по меньшей мере два коэффициента шаблона, причем каждый по меньшей мере из двух коэффициентов шаблона имеет спектральное значение. 6 н. и 17 з.п. ф-лы, 17 ил., 4 табл.
Реферат
Настоящее изобретение относится к кодированию, декодированию и обработке звукового сигнала, и в частности - к эффективному синтезу синусоид и свип-синусоид (синусоид с качающейся частотой) с помощью использования спектральных шаблонов.
Обработка звукового сигнала становится все более важной. Возникают сложные проблемы, поскольку современные перцепционные звуковые кодеки должны обеспечивать удовлетворительное качество звука при все более низких скоростях передачи данных. Дополнительно, часто допустимое время ожидания также является очень низким, например, для применений двусторонней связи или распространения игр и т.д.
Современные звуковые кодеры с преобразованием с сохранением формы сигнала часто обладают улучшениями параметрического кодирования, такими как замещение шума или расширение полосы пропускания. В дополнение к этим известным параметрическим средствам может также быть желательно синтезировать синусоидальные тоны в таком декодере из параметрической дополнительной информации. Сложность вычислений всегда является важным критерием при разработке кодека, так как низкая сложность является основной для широкого одобрения и использования кодека. Поэтому, необходимы эффективные способы для генерации этих тонов.
Например, звуковые кодеки MPEG-D USAC (MPEG-D = стандарт D экспертной группы по вопросам движущихся изображений; USAC= унифицированное кодирование речи и звука) часто переключаются между прогнозирующим кодированием во временной области и кодированием в области преобразования, однако музыкальный контент все еще преобладающе кодируется в области преобразования. При низких скоростях передачи данных, например, <14 кбит/сек, тональные компоненты в музыкальных объектах часто звучат плохо, когда кодируются через кодеры с преобразованием, что делает задачу кодирования звука с достаточным качеством еще более сложной.
Дополнительно, ограничения низкой задержки в общем случае приводят к неоптимальной частотной характеристике набора фильтров кодера с преобразованием (из-за оптимизированной по отношению к низкой задержке формы окна и/или длины преобразования), и поэтому дополнительно негативно влияют на качество восприятия у таких кодеков.
Согласно классической психоакустической модели определяются предпосылки для прозрачности по отношению к искажениям квантования. При высоких скоростях передачи данных это относится к настраиваемому по восприятию оптимальному распределению времени/частоты искажений квантования, которое удовлетворяет условиям уровней маскировки человеческой аудитории. При низких скоростях передачи данных, однако, прозрачность не может быть достигнута. Поэтому при низких скоростях передачи данных может использоваться стратегия уменьшения требований к уровню маскировки.
Высококлассные кодеки уже обеспечены для музыкального контента, в частности кодеры с преобразованием, основанные на модифицированном дискретном косинусном преобразовании (MDCT), которые квантуют и передают спектральные коэффициенты в частотной области. Однако, при очень низких скоростях передачи данных только очень небольшое количество спектральных линий каждого временного кадра может кодироваться с помощью доступных битов для этого кадра. Как следствие, искажения временной модуляции и так называемые искажения «подвывания» неизбежно вводятся в кодированный сигнал.
Наиболее заметно искажения этих типов воспринимаются в квазипостоянных тональных компонентах. Это главным образом происходит, если из-за ограничений по задержке необходимо выбирать форму окна преобразования, которая создает существенные перекрестные помехи между смежными спектральными коэффициентами (расширение спектра) из-за известного эффекта утечки. Однако, тем не менее обычно только один или несколько из этих смежных спектральных коэффициентов остаются ненулевыми после «грубого» квантования с помощью кодера с низкой скоростью передачи данных.
Как указано выше, в уровне техники согласно одному подходу используются кодеры с преобразованием. Современные звуковые кодеки высокой степени сжатия, которые хорошо подходят для кодирования музыкального контента, все основываются на кодировании с преобразованием. Наиболее известными примерами являются усовершенствованное кодирование звука (AAC) MPEG2/4 и унифицированное кодирование речи и звука (USAC) MPEG-D. USAC имеет переключающееся ядро, совместимое с модулем линейного предсказания с возбуждением по алгебраической кодой книге (ACELP) плюс модуль преобразования кодированного возбуждения (TCX) (см. [5]), предназначенный главным образом для кодирования речи и, альтернативно, AAC, предназначенный главным образом для кодирования музыки. Также как AAC, TCX является способом кодирования, основанным на преобразовании. При настройках с низкой скоростью передачи данных эти схемы кодирования предрасположены к демонстрации искажений «подвывания», особенно если основные схемы кодирования основаны на модифицированном дискретном косинусном преобразовании (MDCT) (см. [1]).
Для воспроизведения музыки кодеры с преобразованием являются предпочтительной методикой сжатия звуковых данных. Однако, при низких скоростях передачи данных традиционные кодеры с преобразованием показывают сильные искажения «подвывания» и нечеткость. Большинство искажений происходит из слишком редко кодированных тональных спектральных компонент. Это случается, в частности, если они спектрально размываются с помощью неоптимальной спектральной функции преобразования (эффект утечки), которая главным образом разработана для соответствия строгим ограничениям задержки.
Согласно другому подходу в уровне техники схемы кодирования являются полностью параметрическими для переходных процессов, синусоид и шума. В частности для средних и низких скоростей передачи данных были стандартизированы полностью параметрические звуковые кодеки, самыми заметными из которых является стандарт сжатия видеосигнала MPEG 4 часть 3, подраздел 7, гармонические и отдельные линии плюс шум (HILN) (см. [2]), и стандарт сжатия видеосигнала MPEG 4 часть 3, подраздел 8, синусоидальное кодирование (SSC) (см. [3]). Параметрические кодеры, однако, страдают от неприятно искусственного звука и при увеличении скорости передачи данных не масштабируются хорошо для прозрачности для восприятия.
Дополнительный подход обеспечивает гибридное кодирование формы сигнала и параметрическое кодирование. В [4] предложен гибрид кодирования формы сигнала, основанного на преобразовании, и кодирования MPEG-4 SSC (только синусоидальная часть). В итеративном процессе синусоиды извлекаются и вычитаются из сигнала для формирования разностного сигнала, который будет кодироваться с помощью методики кодирования с преобразованием. Извлеченные синусоиды кодируются с помощью набора параметров и передаются вместе с разностным значением. В [6] обеспечивается подход гибридного кодирования, в котором синусоиды и разностные значения кодируются отдельно. В [7], в так называемом кодеке ограниченной энергии преобразования с перекрытием (CELT)/несуществующая Интернет-страница, представлена идея использовать набор осцилляторов для гибридного кодирования. Однако, генерация искусственных тонов с помощью набора осцилляторов, который работает параллельно с декодером и выход которого смешивается с выходом набора фильтров синтеза декодера во временной области, означает большую вычислительную нагрузку, так как множество осцилляторов должны вычисляться параллельно с высокой частотой дискретизации. Сложность вычислений всегда является важным критерием при разработке и использовании кодека, поэтому необходимы более эффективные способы генерации этих тонов.
При средних или более высоких скоростях передачи данных кодеры с преобразованием хорошо подходят для кодирования музыки из-за их естественного звука. Там полностью или почти полностью выполняются требованиям прозрачности основной психоакустической модели. Однако, при низких скоростях передачи данных кодеры должны серьезно нарушить требования психоакустической модели, и в таких ситуациях кодеры с преобразованием склонны к «подвыванию», нечеткости и шумовым искажениям музыки.
Хотя полностью параметрические звуковые кодеки больше всего подходят для более низких скоростей передачи данных, однако они, как известно, звучат неприятно искусственно. Кроме того, эти кодеки бесшовно не масштабируются для прозрачности для восприятия, так как постепенное усовершенствование довольно «грубой» параметрической модели невыполнимо.
Гибридное кодирование формы и параметрическое кодирование могут потенциально преодолевать ограничения отдельных подходов и могут потенциально использовать преимущество взаимно ортогональных свойств обеих методик. Однако, в существующем уровне техники этому препятствует нехватка взаимосвязи между кодированной с преобразованием частью и параметрической частью гибридного кодека. Проблемы относятся к разделению сигнала между параметрической частью и частью кодека с преобразованием, к управлению запасом битов между частью с преобразованием и параметрической частью, к методикам сигнализации параметров и к бесшовному объединению выходов параметрического кодека и кодека с преобразованием.
Дополнительно предыдущие публикации в области техники относятся к синтезу синусоидальных тонов непосредственно в области времени, или кусочных постоянных тонах в области частоты DFT [13], и к оптимизации ОСШ сокращенных шаблонов в области DFT [12]. Внедрение кусочных тонов постоянной частоты, основанное на спектрах MDCT в среде перцепционного кодека [10] или сценарий расширения полосы пропускания [11], уже описаны. Однако, эффективная генерация свип-синусоид и их бесшовная связь с дорожками в области MDCT еще, как представляется, не решена, а также не решено определение обоснованных ограничений на доступные степени свободы в области параметра.
Задачей настоящего изобретения является обеспечение улучшенных концепций для гибридного декодирования звука. Задача настоящего изобретения решается с помощью устройства согласно п. 1, устройства согласно п. 14, способа согласно п. 20, способа согласно п. 21 и компьютерной программы согласно п. 22.
Обеспечено устройство для генерации выходного звукового сигнала, основываясь на спектре кодированного звукового сигнала.
Устройство содержит блок обработки для обработки спектра кодированного звукового сигнала для получения спектра декодированного звукового сигнала, содержащего множество спектральных коэффициентов, причем каждый из спектральных коэффициентов имеет спектральное расположение в спектре кодированного звукового сигнала и спектральное значение, причем спектральные коэффициенты последовательно упорядочиваются согласно их спектральному расположению в спектре кодированного звукового сигнала так, чтобы спектральные коэффициенты сформировали последовательность спектральных коэффициентов.
Кроме того, устройство содержит средство определения псевдокоэффициентов для определения одного или большего количества псевдокоэффициентов спектра декодированного звукового сигнала, каждый из псевдокоэффициентов имеет спектральное расположение и спектральное значение.
Кроме того, устройство содержит блок замены для замены по меньшей мере одного или большего количества псевдокоэффициентов определенным спектральным шаблоном для получения измененного спектра звукового сигнала, причем определенный спектральный шаблон содержит по меньшей мере два коэффициента шаблона, причем каждый по меньшей мере из двух коэффициентов шаблона имеет спектральное значение.
Кроме того, устройство содержит блок преобразования «спектр-время» для преобразования измененного спектра звукового сигнала во временную область для обеспечения выходного звукового сигнала.
В варианте осуществления устройство кроме того может содержать блок хранения, содержащий базу данных или память, который хранит в базе данных или в памяти множество сохраненных спектральных шаблонов, причем каждый из сохраненных спектральных шаблонов имеет некоторое спектральное свойство (например, постоянную частоту, качающуюся частоту - каждое в версии расположения на элементе разрешения или между элементами разрешения - и т.д.). Блок замены может конфигурироваться для запроса из блока хранения одного из сохраненных спектральных шаблонов в качестве запрашиваемого спектрального шаблона. Блок хранения может конфигурироваться для обеспечения указанного запрашиваемого спектрального шаблона, и блок замены может конфигурироваться для замены по меньшей мере одного или большего количества псевдокоэффициентов определенным спектральным шаблоном, основываясь на запрашиваемом спектральном шаблоне.
Согласно варианту осуществления блок замены может конфигурироваться для запроса из блока хранения указанного одного из сохраненных спектральных шаблонов в зависимости от первого выведенного спектрального расположения, выведенного по меньшей мере из одного из одного или большего количества псевдокоэффициентов, определенных с помощью средства определения псевдокоэффициентов.
В одном варианте осуществления первое выведенное спектральное расположение, выведенное по меньшей мере из одного из одного или большего количества псевдокоэффициентов, может быть спектральным расположением одного из псевдокоэффициентов.
В другом варианте осуществления один или большее количество псевдокоэффициентов являются значениями со знаком, каждый содержит компоненту знака, и блок замены конфигурируется для определения первого выведенного спектрального расположения, основываясь на спектральном расположении одного псевдокоэффициента из одного или большего количества псевдокоэффициентов и основываясь на компоненте знака указанного псевдокоэффициента, так, чтобы первое выведенное спектральное расположение было равно спектральному расположению указанного псевдокоэффициента, когда компонента знака имеет первое значение знака, и так, чтобы первое выведенное спектральное расположение было равно измененному расположению, измененное расположение является результатом смещения спектрального расположения указанного псевдокоэффициента на предопределенное значение, когда компонента знака имеет отличающееся второе значение.
Например, разрешающую способность по частоте в половину элемента разрешения псевдолиний может сообщать знак указанного псевдокоэффициента. Предопределенное значение, на которое сдвигается спектральное расположение указанного псевдокоэффициента, может в таком случае соответствовать половине разницы частот, например, двух последующих элементов, например, когда рассматривают частотно-временную область, когда компонента знака псевдокоэффициента имеет второе значение знака.
Компонента знака псевдокоэффициента может содержаться в спектральном значении псевдокоэффициента.
В варианте осуществления множество сохраненных спектральных шаблонов, хранящихся в базе данных или в памяти из блока хранения, может быть или шаблонами постоянного тона, или шаблонами качающейся частоты. Средство определения псевдокоэффициентов может конфигурироваться для определения двух или большего количества последовательных по времени псевдокоэффициентов спектра декодированного звукового сигнала. Блок замены может конфигурироваться для назначения первого псевдокоэффициента и второго псевдокоэффициента из двух или большего количества последовательных по времени псевдокоэффициентов дорожке в зависимости от того, меньше или нет абсолютная разница между первым выведенным спектральным расположением, выведенным из первого псевдокоэффициента, и вторым выведенным спектральным расположением, выведенным из второго псевдокоэффициента, чем пороговое значение. И блок замены может конфигурироваться для запроса из блока хранения одного из шаблонов постоянного тона, когда первое выведенное спектральное расположение, выведенное из первого псевдокоэффициента дорожки, равно второму выведенному спектральному расположению, выведенному из второго псевдокоэффициента дорожки. Кроме того, блок замены может конфигурироваться для запроса из блока хранения одного из шаблонов качающейся частоты, когда первое выведенное спектральное расположение, выведенное из первого псевдокоэффициента дорожки, отличается от второго выведенного спектрального расположения, выведенного из второго псевдокоэффициента дорожки.
Согласно варианту осуществления блок замены может конфигурироваться для запроса из блока хранения первого шаблона качающейся частоты из шаблонов качающейся частоты, когда разница частот между вторым выведенным спектральным расположением, выведенным из второго псевдокоэффициента дорожки, и первым выведенным спектральным расположением, выведенным из первого псевдокоэффициента дорожки, равна половине предопределенного значения. Кроме того, блок замены может конфигурироваться для запроса из блока хранения второго шаблона качающейся частоты, который отличается от первого шаблона качающейся частоты, из шаблонов качающейся частоты, когда разница частот между вторым выведенным спектральным расположением, выведенным из второго псевдокоэффициента дорожки, и первым выведенным спектральным расположением, выведенным из первого псевдокоэффициента дорожки, равна предопределенному значению. Кроме того, блок замены может конфигурироваться для запроса из блока хранения третьего шаблона качающейся частоты, который отличается от первого качающегося шаблона и второго шаблона качающейся частоты из шаблонов качающейся частоты, когда разница частот между вторым выведенным спектральным расположением, выведенным из второго псевдокоэффициента дорожки, и первым выведенным спектральным расположением, выведенным из первого псевдокоэффициента дорожки, равна полутора предопределенным значениям.
Согласно варианту осуществления блок замены содержит блок адаптации шаблона, конфигурируемый для изменения запрашиваемого спектрального шаблона, обеспеченного с помощью блока хранения, для получения определенного спектрального шаблона.
В варианте осуществления блок адаптации шаблона может конфигурироваться для изменения запрашиваемого спектрального шаблона, обеспеченного с помощью блока хранения, с помощью повторного масштабирования спектральных значений коэффициентов шаблона запрашиваемого спектрального шаблона в зависимости от спектрального значения одного из одного или большего количества псевдокоэффициентов для получения определенного спектрального шаблона.
Согласно варианту осуществления блок адаптации шаблона может конфигурироваться для изменения запрашиваемого спектрального шаблона, обеспеченного с помощью блока хранения, в зависимости от начальной фазы так, чтобы спектральное значение каждого из коэффициентов шаблона запрашиваемого спектрального шаблона изменялось первым способом, когда начальная фаза имеет первое значение начальной фазы, и так, чтобы спектральное значение каждого из коэффициентов шаблона запрашиваемого спектрального шаблона изменялось отличающимся вторым способом, когда начальная фаза имеет отличающееся второе значение начальной фазы.
Согласно варианту осуществления спектральное значение каждого из коэффициентов шаблона запрашиваемого спектрального шаблона может быть комплексным коэффициентом, содержащим действительную часть и мнимую часть. В таком варианте осуществления блок адаптации шаблона может конфигурироваться для изменения запрашиваемого спектрального шаблона с помощью изменения действительной части и мнимой части каждого из коэффициентов шаблона запрашиваемого спектрального шаблона, обеспеченного с помощью блока хранения, с помощью применения множителя ej⋅ϕ комплексного поворота, причем ϕ является углом (например, угловым значением). С помощью этого для каждого из комплексных коэффициентов вектор, представляющий указанный комплексный коэффициент в комплексной плоскости, поворачивается на тот же самый угол для каждого из комплексных коэффициентов.
В варианте осуществления спектральное значение каждого из коэффициентов шаблона запрашиваемого спектрального шаблона содержит действительную часть и мнимую часть. Блок адаптации шаблона может конфигурироваться для изменения запрашиваемого спектрального шаблона, обеспеченного с помощью блока хранения, с помощью инвертирования действительной и мнимой частей спектрального значения каждого из коэффициентов шаблона запрашиваемого спектрального шаблона, или с помощью перестановки действительной части или инвертированной действительной части и мнимой части или инвертированной мнимой части спектрального значения каждого из коэффициентов шаблона запрашиваемого спектрального шаблона.
В варианте осуществления блок адаптации шаблона может конфигурироваться для изменения запрашиваемого спектрального шаблона, обеспеченного с помощью блока хранения, с помощью реализации временного зеркального отображения шаблона. Как правило, оно может получаться в частотной области с помощью вычисления комплексного сопряжения (умножения мнимой части на -1) шаблона и применения комплексной фазовой составляющей (вращения).
Согласно варианту осуществления спектр декодированного звукового сигнала представлен в области MDCT. Блок адаптации шаблона может конфигурироваться для изменения запрашиваемого спектрального шаблона, обеспеченного с помощью блока хранения, с помощью изменения спектральных значений коэффициентов шаблона запрашиваемого спектрального шаблона для получения измененного спектрального шаблона, причем спектральные значения представлены в области нечетного дискретного преобразования Фурье. Кроме того, блок адаптации шаблона может конфигурироваться для преобразования спектральных значений коэффициентов шаблона измененного спектрального шаблона из области нечетного дискретного преобразования Фурье в область MDCT для получения определенного спектрального шаблона. Кроме того, блок замены может конфигурироваться для замены по меньшей мере одного или большего количества псевдокоэффициентов определенным спектральным шаблоном, представленным в области MDCT, для получения измененного спектра звукового сигнала, представленного в области MDCT.
Альтернативно, в вариантах осуществления спектральные значения могут быть представлены в области комплексного модифицированного дискретного косинусного преобразования (CMDCT). Кроме того, в этих вариантах осуществления блок адаптации шаблона может конфигурироваться для преобразования спектральных значений коэффициентов шаблона измененного спектрального шаблона из области CMDCT в область MDCT для получения определенного спектрального шаблона с помощью простого извлечения действительной части комплексного измененного шаблона.
Кроме того, обеспечено устройство для генерации множества спектральных шаблонов. Устройство содержит генератор сигнала для генерации множества сигналов в первой области. Кроме того, устройство содержит блок преобразования сигнала для преобразования каждого сигнала из множества сигналов из первой области во вторую область для получения множества спектральных шаблонов, каждый шаблон из множества преобразованных спектральных шаблонов содержит множество коэффициентов. Кроме того, устройство содержит блок последующей обработки для сокращения преобразованных спектральных шаблонов с помощью удаления одного или большего количества коэффициентов преобразованных спектральных шаблонов для получения множества обработанных шаблонов. Кроме того, устройство содержит блок хранения, содержащий базу данных или память, причем блок хранения конфигурируется для хранения каждого обработанного шаблона из множества обработанных шаблонов в базе данных или памяти. Генератор сигнала конфигурируется для генерации каждого сигнала из множества сигналов, основываясь на формулах
причем t и τ указывают время, причем ϕ(t) является мгновенной фазой в t, и причем f(τ) является мгновенной частотой в τ, причем каждый сигнал из множества сигналов имеет начальную частоту (f0), которая является мгновенной частотой указанного сигнала в первый момент времени, и целевую частоту (f1), которая является мгновенной частотой указанного сигнала в отличающийся второй момент времени. Генератор сигнала конфигурируется для генерации первого сигнала из множества сигналов так, чтобы целевая частота первого сигнала была равна начальной частоте. Кроме того, генератор сигнала конфигурируется для генерации отличающегося второго сигнала из множества сигналов так, чтобы целевая частота первого сигнала отличалась от начальной частоты.
Согласно варианту осуществления блок преобразования сигнала может конфигурироваться для преобразования каждого сигнала из множества сигналов из первой области, которая является временной областью, во вторую область, которая является спектральной областью. Блок преобразования сигнала может конфигурироваться для генерации первого из множества блоков времени для преобразования указанного сигнала, причем каждый блок времени из множества блоков времени содержит множество взвешенных выборок, причем каждая из указанных взвешенных выборок является выборкой указанного сигнала, взвешенной с помощью веса из множества весов, причем множество весов назначается указанному блоку времени, и причем каждый вес из множества весов назначается моменту времени. Начальная частота (f0) каждого сигнала из множества сигналов может быть мгновенной частотой указанного сигнала в первый момент времени, причем первый из весов первого из блоков времени назначается первому моменту времени, причем второй из весов отличающегося второго из блоков времени назначается первому моменту времени, причем первый из блоков времени и второй из блоков времени перекрываются, и причем первый из весов равен второму из весов. Целевая частота (f1) каждого сигнала из множества сигналов может быть мгновенной частотой указанного сигнала во второй момент времени, причем третий из весов первого из блоков времени назначается второму моменту времени, причем четвертый из весов отличающегося третьего из блоков времени назначается второму моменту времени, причем первый из блоков времени и третий из блоков времени перекрываются, и причем третий из весов равен четвертому из весов.
Нужно отметить, что, например, может быть достаточно генерировать только один блок времени (например, первый из блоков времени) для генерации шаблона.
Согласно варианту осуществления каждый сигнал из множества сигналов имеет начальную фазу (ϕ0), которая является фазой указанного сигнала в первый момент времени, и целевую фазу ((ϕ1), которая является фазой указанного сигнала в отличающийся второй момент времени, причем генератор сигнала конфигурируется для генерации множество сигналов таким образом, чтобы начальная фаза (ϕ0) первого из множества сигналов была равна начальной фазе (ϕ0) отличающегося второго из множества сигналов.
Начальная фаза (и неявно с помощью выбора начальной и целевой частоты - конечная фаза) каждого сигнала из множества сигналов может корректироваться в указанные начальный и конечный моменты времени.
С помощью этого специального выбора начального и конечного моментов времени уменьшаются искажения добавления перекрытия, которые могут возникнуть, если соединяют шаблоны с различными спектральными свойствами.
В варианте осуществления блок дополнительной обработки может кроме того конфигурироваться для выполнения поворота на π/4 спектральных коэффициентов каждого из преобразованных спектральных шаблонов для получения множества повернутых спектральных шаблонов.
В другом варианте осуществления блок последующей обработки может кроме того конфигурироваться для выполнения поворота на произвольный фазовый угол спектральных коэффициентов каждого из преобразованных спектральных шаблонов для получения множества произвольно повернутых спектральных шаблонов.
Согласно дополнительному варианту осуществления генератор сигнала может конфигурироваться для генерации первого сигнала, второго сигнала и одного или большего количества дополнительных сигналов, как множества сигналов, так, чтобы каждая разница целевой частоты и начальной частоты каждого из дополнительных сигналов была целым кратным разницы целевой частоты и начальной частоты второго сигнала.
Кроме того, обеспечен способ генерации выходного звукового сигнала, основываясь на спектре кодированного звукового сигнала. Способ содержит этапы, на которых:
- Обрабатывают спектр кодированного звукового сигнала для получения спектра декодированного звукового сигнала, содержащего множество спектральных коэффициентов, причем каждый из спектральных коэффициентов имеет спектральное расположение в спектре кодированного звукового сигнала и спектральное значение, причем спектральные коэффициенты последовательно упорядочиваются согласно их спектральному расположению в спектре кодированного звукового сигнала так, чтобы спектральные коэффициенты сформировали последовательность спектральных коэффициентов.
- Определяют один или большее количество псевдокоэффициентов спектра декодированного звукового сигнала, причем каждый из псевдокоэффициентов является одним из спектральных коэффициентов.
- Заменяют по меньшей мере один или большее количество псевдокоэффициентов определенным спектральным шаблоном для получения измененного спектра звукового сигнала, причем определенный спектральный шаблон содержит по меньшей мере два коэффициента шаблона, причем каждый по меньшей мере из двух коэффициентов шаблона имеет спектральное значение. И:
- Преобразовывают измененный спектр звукового сигнала во временную область для обеспечения выходного звукового сигнала.
Кроме того, обеспечен способ генерации множества спектральных шаблонов. Данный способ содержит этапы, на которых:
- Генерируют множество сигналов в первой области.
- Преобразовывают каждый сигнал из множества сигналов из первой области во вторую область для получения множества спектральных шаблонов, каждый шаблон из множества преобразованных спектральных шаблонов содержит множество коэффициентов.
- Сокращают преобразованные спектральные шаблоны с помощью удаления одного или большего количества коэффициентов преобразованных спектральных шаблонов для получения множества обработанных шаблонов. И:
- Сохраняют каждый обработанный шаблон из множества обработанных шаблонов в базе данных или памяти.
Генерация каждого сигнала из множества сигналов осуществляется, основываясь на формулах
причем t и τ указывают время, причем ϕ(t) является мгновенной фазой в t, и причем f(τ) является мгновенной частотой в τ, и причем каждый сигнал из множества сигналов имеет начальную частоту (f0), которая является мгновенной частотой указанного сигнала в первый момент времени, и целевую частоту (f1), которая является мгновенной частотой указанного сигнала в отличающийся второй момент времени.
Генерация множества сигналов осуществляется с помощью генерации первого сигнала из множества сигналов так, чтобы целевая частота (f1) первого сигнала была равна начальной частоте (f0). Кроме того, генерация множества сигналов осуществляется с помощью генерации отличающегося второго сигнала из множества сигналов так, чтобы целевая частота (f1) первого сигнала отличалась от начальной частоты (f0).
Кроме того, обеспечена компьютерная программа для воплощения вышеописанных способов при выполнении на компьютере или процессоре обработки сигналов.
Так как современные кодеки, такие как AAC или USAC, основаны на представлении звука в области MDCT, варианты осуществления обеспечивают концепции для генерации синтетических тонов с помощью исправления шаблонов тона в спектре MDCT в декодере. Продемонстрировано, как соответствующие спектральные шаблоны могут получаться и настраиваться к их целевому расположению в (и между) сетке время/частота (в/ч) MDCT для бесшовного синтеза высококачественных синусоидальных тонов, включающих в себя свип-синусоиды.
Современные кодеки, такие как перспективное звуковое кодирование (AAC) или унифицированное кодирование речи и звука (USAC), основаны на представлении звука в области модифицированного дискретного косинусного преобразования (MDCT). Варианты осуществления генерируют синтетические тоны с помощью непосредственного исправления шаблонов тона в спектре MDCT в декодере. Только с помощью этого может быть реализовано воплощение сверхнизкой сложности.
В вариантах осуществления соответствующие шаблоны получаются и настраиваются к их целевому расположению в (и между) сетке в/ч MDCT для синтеза высококачественных синусоидальных тонов, включающих в себя свип-синусоиды.
Согласно вариантам осуществления обеспечено кодирование звука с низкой задержкой и с низкой скоростью передачи данных. Некоторые варианты осуществления основаны на новой и изобретенной концепции, названной ToneFilling (TF). Термин ToneFilling обозначает методику кодирования, при которой в ином случае плохо кодируемые естественные тоны заменяются аналогичными по восприятию, но все же чистыми синусоидальными тонами. Таким образом избегают искажений амплитудной модуляции на некоторой скорости, зависящие от спектрального положения синусоиды относительно спектрального расположения самого близкого элемента MDCT (известно как «подвывание»).
В вариантах осуществления взвешивается степень раздражения из-за всех возможных искажений. Это относится к аспектам восприятия, таким как, например, высота звука, гармоничность, модуляция, и к стационарности искажений. Все аспекты оцениваются в звуковой модели раздражения восприятия (SPAM).
Управляемый такой моделью, ToncFilling обеспечивает существенные преимущества. Ошибка в высоте звука и модуляции, которая представляется с помощью замены естественного тона чистым синусоидальным тоном, взвешивается по отношению к воздействию аддитивного шума и плохой стационарности («подвывание»), вызванными редко квантованным естественным тоном.
ToneFilling обеспечивает существенное отличие от кодеков «синусоида плюс шум». Например, TF замещает тоны синусоидами и линейными свип-синусоидами с предопределенными наклонами, вместо вычитания синусоид. Аналогичные по восприятию тоны имеют те же самые локальные центры тяжести (COG), как исходная замещаемая компонента звука. Согласно вариантам осуществления исходные тоны стираются в диапазоне звуковых частот (слева направо по функции COG). Как правило, разрешающая способность по частоте синусоиды, используемой для замещения, является настолько «грубой», насколько это возможно, для минимизации дополнительной информации, вместе с тем, в то же самое время, учитывает требования восприятия, чтобы избежать ощущения ненастроенности.
В некоторых вариантах осуществления ToneFilling может выполняться выше нижней критической частоты, из-за указанных требований восприятия, но не ниже нижней критической частоты. Выполняя ToneFilling, тоны представляются через спектральные псевдолинии в кодере с преобразованием. Однако, в кодере, оборудованном ToneFilling, псевдолинии подвергаются регулярной обработке, которой управляет классическая психоакустическая модель. Поэтому, выполняя ToneFilling, нет никакой необходимости в априорных ограничениях параметрической части (при скорости передачи данных x, y тональных компонентов заменяются). Таким образом достигается плотное интегрирование в кодек с преобразованием.
Функциональные возможности ToneFilling могут использоваться в кодере с помощью обнаружения локальных COG (сглаженных оценок; измерений качества пика) с помощью удаления тональных компонент, с помощью генерации замещенных псевдолиний (например, псевдокоэффициентов), которые несут информацию уровня