Аудиокодер, аудиодекодер, способ обеспечения кодированной аудиоинформации, способ обеспечения декодированной аудиоинформации, компьютерная программа и кодированное представление с использованием сигнально-адаптивного расширения полосы пропускания

Патент 2641461

Авторы

Правообладатели

ФРАУНХОФЕР-ГЕЗЕЛЛЬШАФТ ЦУР ФЕРДЕРУНГ ДЕР АНГЕВАНДТЕН ФОРШУНГ Е.Ф. (DE)

Классы МПК

G10L19 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Аудиокодер, аудиодекодер, способ обеспечения кодированной аудиоинформации, способ обеспечения декодированной аудиоинформации, компьютерная программа и кодированное представление с использованием сигнально-адаптивного расширения полосы пропускания

Иллюстрации

Показать все

Изобретение относится к области аудиокодирования и аудиодекодирования для обеспечения кодированной и декодированной аудиоинформации соответственно на основании входной аудиоинформации и на основании кодированной аудиоинформации. Технический результат – обеспечение расширения полосы пропускания для улучшения компромисса между скоростью передачи битов и качеством звука. Аудиокодер содержит низкочастотный кодер для получения кодированного представления низкочастотной части и блок обеспечения информации расширения полосы пропускания на основании входной аудиоинформации. Аудиокодер выполнен также для избирательного включения информации расширения полосы пропускания в кодированную аудиоинформацию. Аудиодекодер содержит низкочастотный декодер для получения декодированного представления низкочастотной части и расширение полосы пропускания для получения сигнала расширения полосы пропускания вслепую для частей аудиоконтента, для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию, и получать сигнал расширения полосы пропускания для частей аудиоконтента, для которых параметры расширения полосы пропускания включены в кодированную аудиоинформацию. 14 н. и 24 з.п. ф-лы, 8 ил.

Реферат

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Варианты осуществления согласно изобретению относятся к аудиокодеру для обеспечения кодированной аудиоинформации на основании входной аудиоинформации.

Дополнительные варианты осуществления согласно изобретению относятся к аудиодекодеру для обеспечения декодированной аудиоинформации на основании кодированной аудиоинформации.

Дополнительные варианты осуществления согласно изобретению относятся к способу обеспечения кодированной аудиоинформации на основании входной аудиоинформации.

Дополнительные варианты осуществления согласно изобретению относятся к способу обеспечения декодированной аудиоинформации на основании кодированной аудиоинформации.

Дополнительные варианты осуществления согласно изобретению относятся к компьютерной программе для осуществления одного из упомянутых способов.

Дополнительные варианты осуществления согласно изобретению относятся к кодированному аудиопредставлению, представляющему аудиоинформацию.

Некоторые варианты осуществления согласно изобретению относятся к общему расширению полосы пропускания аудиосигнала со скоростью передачи сигнально-адаптивной вспомогательной информации для кодирования аудио с очень низкой скоростью передачи битов.

УРОВЕНЬ ТЕХНИКИ

В последние годы постоянно растет потребность в кодировании и декодировании аудиоконтента. Хотя доступные скорости передачи битов и емкости устройств хранения данных для передачи и хранения кодированного аудиоконтента существенно возрастают, по-прежнему имеется потребность в эффективном по скорости передачи битов кодировании, передаче, хранении и декодировании аудиоконтента при обоснованном качестве, в частности, речевых сигналов в сценариях связи.

Современные системы кодирования речи допускают кодирование широкополосного (WB) цифрового аудиоконтента, т.е. сигналов с частотами вплоть до 7-8 кГц, на скоростях передачи битов всего в 6 Кбит/с. Наиболее широко обсуждаемые примеры представляют собой рекомендации ITU-T G.722.2 (см., например, ссылочный материал [1]), а также позднее разработанный G.718 (см., например, ссылочные материалы [4] и [10]) и унифицированный речевой и аудио-MPEG-кодек xHE-AAC (см., например, ссылочный материал [8]). Как G.722.2, также известный как AMR-WB, так и G.718 используют технологии расширения полосы пропускания (BWE) в 6,4-7 кГц, чтобы давать возможность лежащему в основе базовому ACELP-кодеру «сосредоточиться» на более релевантных с точки зрения восприятия нижних частотах (в частности, на частотах, на которых слуховая система человека является фазочувствительной) и за счет этого достигать достаточного качества, в частности, на очень низких скоростях передачи битов. В xHE-AAC, улучшенная репликация полос спектра (eSBR) используется для расширения полосы пропускания (BWE). Процесс расширения полосы пропускания может, в общем, разделяться на два концептуальных подхода.

BWE «вслепую» (или «искусственное» BWE), в котором высокочастотные (HF) компоненты восстанавливаются только из декодированного низкочастотного (LF) сигнала базового кодера, т.е. без необходимости передачи вспомогательной информации из кодера. Эта схема используется посредством AMR-WB и G.718 при 16 Кбит/с и ниже, а также посредством некоторых обратно совместимых систем постобработки при расширении полосы пропускания, управляющих традиционной узкополосной телефонной речью (см., например, ссылочные материалы [5] и [9]).

«Направляемое» BWE, которое отличается от расширения полосы пропускания вслепую тем, что некоторые параметры, используемые для восстановления высокочастотного (HF) контента, передаются в декодер в качестве вспомогательной информации вместо оценки из декодированного базового сигнала. AMR-WB, G.718, xHE-AAC, а также некоторые другие кодеки (см., например, ссылочные материалы [2], [7] и [11]) используют этот подход, но не на очень низких скоростях передачи битов.

Тем не менее, обнаружено, что сложно обеспечить надлежащее расширение полосы пропускания на низких скоростях передачи битов, которое обеспечивает достаточно хорошее качество при восстановлении аудиоконтента.

Таким образом, имеется потребность в принципе расширения полосы пропускания, который способствует улучшенному компромиссу между скоростью передачи битов и качеством звука.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

Вариант осуществления согласно изобретению создает аудиокодер для обеспечения кодированной аудиоинформации на основании входной аудиоинформации. Аудиокодер содержит низкочастотный кодер, выполненный с возможностью кодировать низкочастотную часть входной аудиоинформации для того, чтобы получать кодированное представление низкочастотной части. Аудиокодер также содержит блок обеспечения информации расширения полосы пропускания, выполненный с возможностью обеспечения информации расширения полосы пропускания на основании входной аудиоинформации. Аудиокодер выполнен с возможностью избирательно включать информацию расширения полосы пропускания в кодированную аудиоинформацию сигнально-адаптивным способом.

Этот вариант осуществления согласно изобретению основан на таких выявленных сведениях, что для некоторых типов аудиоконтента и даже для некоторых частей смежного фрагмента аудиоконтента, расширение полосы пропускания с хорошим качеством может достигаться на основании кодированного представления низкочастотной части вообще без вспомогательной информации расширения полосы пропускания или только с небольшим объемом вспомогательной информации расширения полосы пропускания (например, с небольшим числом параметров расширения полосы пропускания, которые включены в кодированную аудиоинформацию). Тем не менее, принцип также основан на таких выявленных сведениях, что для других типов аудиоконтента и даже для других частей смежного фрагмента аудиоконтента, может быть необходимым (или по меньшей мере очень желательным) включать вспомогательную информацию расширения полосы пропускания (например, выделенные параметры расширения полосы пропускания) или увеличенный объем вспомогательной информации расширения полосы пропускания (например, по сравнению с вышеуказанным случаем) в кодированную аудиоинформацию, поскольку в противном случае расширение полосы пропускания на стороне декодера не обеспечивает удовлетворительное качество звука.

Посредством избирательного включения информации расширения полосы пропускания в кодированную аудиоинформацию (например, посредством избирательного варьирования объема информации расширения полосы пропускания или параметров расширения полосы пропускания, включенных в кодированную аудиоинформацию, либо посредством избирательного переключения между включением информации расширения полосы пропускания в кодированную аудиоинформацию и исключением упомянутого включения информации расширения полосы пропускания в кодированную аудиоинформацию), можно не допускать того, что «факультативная» информация расширения полосы пропускания использует ценную скорость передачи битов для случая, когда расширение полосы пропускания на стороне декодера реально не требует информации расширения полосы пропускания, и, тем не менее, можно обеспечивать то, что информация расширения полосы пропускания (или увеличенный объем информации расширения полосы пропускания) включен в кодированную аудиоинформацию, если информация расширения полосы пропускания фактически требуется для расширения полосы пропускания на стороне декодера, т.е. для восстановления аудиоконтента на стороне декодера.

Таким образом, посредством избирательного включения информации расширения полосы пропускания в кодированную аудиоинформацию сигнально-адаптивным способом, т.е. когда информация расширения полосы пропускания фактически необходима для достижения достаточно хорошего качества декодированного представления аудиосигнала, средняя скорость передачи битов может уменьшаться при одновременном поддержании возможности получать высокое качество звука.

Другими словами, аудиокодер, например, может переключаться между обеспечением информации расширения полосы пропускания, которая обеспечивает направляемое параметрами расширение полосы пропускания на стороне аудиодекодера, и исключением обеспечения информации расширения полосы пропускания, которая требует использования расширения полосы пропускания вслепую на стороне аудиодекодера.

Соответственно, очень хороший компромисс между скоростью передачи битов и качеством звука может получаться с использованием вышеописанного принципа.

В предпочтительном варианте осуществления, аудиокодер содержит детектор, выполненный с возможностью идентифицировать части входной аудиоинформации, которые не могут декодироваться с достаточным или желаемым качеством (например, с точки зрения заданного показателя качества), на основании кодированного представления низкочастотной части и с использованием расширения полосы пропускания вслепую. В этом случае аудиокодер выполнен с возможностью избирательно включать информацию расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных посредством детектора. Посредством определения или оценки (например, на основании свойств входной аудиоинформации или на основании частичного или полного восстановления аудиоинформации на стороне аудиокодера) того, какие части входной аудиоинформации не могут декодироваться с достаточным (или желаемым) качеством, на основании кодированного представления низкочастотной части и с использованием расширения полосы пропускания вслепую, получается значимый критерий для определения, следует ли включать информацию расширения полосы пропускания в кодированную аудиоинформацию, для частей (например, кадров) входной аудиоинформации (или эквивалентно, для кадров или частей кодированной аудиоинформации). Другими словами, вышеуказанный критерий, который оценен посредством детектора, обеспечивает возможность хорошего компромисса между впечатлением от прослушивания, которое может достигаться посредством декодирования кодированной аудиоинформации, и скоростью передачи битов для кодированной аудиоинформации.

В предпочтительном варианте осуществления аудиокодер содержит детектор, выполненный с возможностью идентифицировать части входной аудиоинформации, для которых параметры расширения полосы пропускания не могут оцениваться на основании низкочастотной части с достаточной или желаемой точностью. В этом случае аудиокодер выполнен с возможностью избирательно включать информацию расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных посредством детектора. Этот вариант осуществления согласно изобретению основан на таких выявленных сведениях, что определение в отношении того, могут ли параметры расширения полосы пропускания оцениваться на основании низкочастотной части с достаточной или желаемой точностью, составляет критерий, который может быть оценен при небольших вычислительных затратах, и который, тем не менее, составляет хороший критерий для определения, следует ли включать информацию расширения полосы пропускания в кодированную аудиоинформацию.

В предпочтительном варианте осуществления аудиокодер содержит детектор, выполненный с возможностью идентифицировать части входной аудиоинформации в зависимости от того, являются ли части неподвижными во времени частями, и в зависимости от того, имеют ли части низкочастотный характер. Кроме того, аудиокодер выполнен с возможностью избирательно исключать включение информации расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных посредством детектора в качестве неподвижных во времени частей, имеющих низкочастотный характер.

Этот вариант осуществления согласно изобретению основан на таких выявленных сведениях, что обычно не обязательно включать информацию расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, которые являются неподвижными во времени и имеют низкочастотный характер, поскольку расширение полосы пропускания вслепую (которое не основывается на информации расширения полосы пропускания или параметрах из потока битов) обычно обеспечивает возможность достаточно хорошего восстановления таких частей сигнала. Соответственно, предусмотрен критерий, который может быть оценен вычислительно эффективным способом, и который, тем не менее, обеспечивает хорошие результаты (с точки зрения компромисса между скоростью передачи битов и качеством звука).

В предпочтительном варианте осуществления детектор выполнен с возможностью идентифицировать части входной аудиоинформации в зависимости от того, содержат ли части вокализованную речь, и/или в зависимости от того, содержат ли части шум окружающей среды (например, автомобилей), и/или в зависимости от того, содержат ли части музыку без ударных инструментов. Обнаружено, что такие части, которые содержат вокализованную речь, либо которые содержат шум окружающей среды, либо которые содержат музыку без ударных инструментов, обычно могут восстанавливаться с использованием расширения полосы пропускания вслепую с достаточным качеством звука, так что рекомендуется включение информации расширения полосы пропускания в кодированную аудиоинформацию для таких частей.

В предпочтительном варианте осуществления аудиокодер содержит детектор, выполненный с возможностью идентифицировать части входной аудиоинформации в зависимости от того, превышает или равна либо нет разность между спектральной огибающей низкочастотной части и спектральной огибающей высокочастотной части заданному показателю разности. В этом случае аудиокодер выполнен с возможностью избирательно включать информацию расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных посредством детектора.

Обнаружено, что части входной аудиоинформации, которые содержат большую разность между спектральной огибающей низкочастотной части и спектральной огибающей высокочастотной части, обычно не могут хорошо восстанавливаться с использованием расширения полосы пропускания вслепую, поскольку расширение полосы пропускания вслепую зачастую обеспечивает аналогичные спектральные огибающие в высокочастотной части (т.е. в сигнале расширения полосы пропускания) по сравнению с соответствующей низкочастотной частью. Соответственно, обнаружено, что оценка разности между спектральной огибающей низкочастотной части и спектральной огибающей высокочастотной части составляет хороший критерий определения того, следует ли включать информацию расширения полосы пропускания в кодированную аудиоинформацию.

В предпочтительном варианте осуществления детектор выполнен с возможностью идентифицировать части входной аудиоинформации в зависимости от того, содержат ли части невокализованную речь, и/или в зависимости от того, содержат ли части звуки ударных инструментов. Обнаружено, что части, содержащие невокализованную речь, и части, содержащие звуки ударных инструментов, обычно содержат спектры, в которых спектральная огибающая низкочастотной части существенно отличается от спектральной огибающей высокочастотной части. Соответственно, обнаружено, что обнаружение невокализованной речи и/или звуков ударных инструментов представляет собой хороший критерий определения того, следует ли включать информацию расширения полосы пропускания в кодированную аудиоинформацию.

В предпочтительном варианте осуществления аудиокодер содержит детектор, выполненный с возможностью определять спектральный наклон частей входной аудиоинформации и идентифицировать части входной аудиоинформации в зависимости от того, превышает или равен либо нет определенный спектральный наклон фиксированному или переменному пороговому значению наклона. В этом случае аудиокодер выполнен с возможностью избирательно включать информацию расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных посредством детектора. Обнаружено, что спектральный наклон может извлекаться при небольших вычислительных затратах и при этом обеспечивает хороший критерий определения в отношении того, следует ли включать информацию расширения полосы пропускания в кодированную аудиоинформацию. Например, если спектральный наклон достигает или превышает пороговое значение наклона, можно прийти к выводу, что спектр имеет высокочастотный характер и не может быть хорошо восстановлен посредством расширения полосы пропускания вслепую. В частности, расширение полосы пропускания вслепую обычно не может восстанавливать спектры, содержащие положительный наклон (при этом высокочастотная часть подчеркивается относительно низкочастотной части), с хорошей точностью. Кроме того, поскольку высокочастотная часть имеет конкретную перцепционную релевантность в случае положительного спектрального наклона, в таких случаях рекомендуется включать информацию расширения полосы пропускания в кодированное аудиопредставление.

В предпочтительном варианте осуществления детектор дополнительно выполнен с возможностью определять частоту переходов через нуль частей входной аудиоинформации и идентифицировать части входной аудиоинформации также в зависимости от того, превышает или равна либо нет определенная частота переходов через нуль фиксированному или переменному пороговому значению частоты переходов через нуль. Обнаружено, что частота переходов через нуль также представляет собой хороший критерий для того, чтобы обнаруживать части входной аудиоинформации, которые не могут быть хорошо восстановлены с использованием расширения полосы пропускания вслепую, так что целесообразно (с точки зрения достижения хорошего компромисса между скоростью передачи битов и качеством звука) включать информацию расширения полосы пропускания в кодированную аудиоинформацию.

В предпочтительном варианте осуществления детектор выполнен с возможностью применять гистерезис для идентификации частей сигнала входной аудиоинформации для того, чтобы сокращать число переходов между идентифицированными частями сигнала (для которых информация расширения полосы пропускания включена в кодированное аудиопредставление) и неидентифицированными частями сигнала (для которых информация расширения полосы пропускания не включена в кодированное аудиопредставление). Обнаружено, что преимущественно не допускать избыточного переключения между включением информации расширения полосы пропускания в кодированную аудиоинформацию и исключением включения информации расширения полосы пропускания в кодированное аудиопредставление, поскольку такие переходы могут способствовать некоторым артефактам, в частности, если число переходов является очень большим. Соответственно, с использованием гистерезиса, который, например, может применяться к пороговому значению наклона (которое в таком случае является переменным пороговым значением наклона) или к пороговому значению частоты переходов через нуль (которое в таком случае является переменным пороговым значением частоты переходов через нуль), эта цель может достигаться.

В предпочтительном варианте осуществления аудиокодер выполнен с возможностью избирательно включать параметры, представляющие спектральную огибающую высокочастотной части входной аудиоинформации, в кодированную аудиоинформацию сигнально-адаптивным способом в качестве информации расширения полосы пропускания. Этот вариант осуществления основан на такой идее, что параметры, представляющие спектральную огибающую высокочастотной части, являются особенно важными в направляемом параметрами расширении полосы пропускания, так что включение упомянутых параметров, представляющих спектральную огибающую высокочастотной части входной аудиоинформации, позволяет достигать расширения полосы пропускания с хорошим качеством без результирующей высокой скорости передачи битов.

В предпочтительном варианте осуществления низкочастотный кодер выполнен с возможностью кодировать низкочастотную часть входной аудиоинформации, содержащую частоты вплоть до максимальной частоты, которая находится в диапазоне 6-7 кГц. Кроме того, аудиокодер выполнен с возможностью избирательно включать в кодированное аудиопредставление от трех до пяти параметров, описывающих интенсивности высокочастотных частей или подчастей сигнала (например, частей сигнала, имеющих частоты выше приблизительно 6-7 кГц), имеющих полосы пропускания в 300-500 Гц. Обнаружено, что такой принцип приводит к высокому качеству звука без существенного увеличения затрат в виде скорости передачи битов.

В предпочтительном варианте осуществления аудиокодер выполнен с возможностью избирательно включать в кодированное аудиопредставление 3-5 скалярно квантованных параметров, описывающих интенсивности четырех высокочастотных частей (или подчастей) сигнала, причем высокочастотные части (или подчасти) сигнала покрывают частотные диапазоны выше низкочастотной части. Обнаружено, что использование 3-5 скалярно квантованных параметров, описывающих интенсивности четырех высокочастотных частей сигнала, обычно является достаточным для того, чтобы достигать направляемого параметрами расширения полосы пропускания, которое превышает относительно низкое качество звука, получаемое посредством расширения полосы пропускания вслепую на идентичной части сигнала. Соответственно, отсутствуют большие различия в качестве между восстановленными частями аудиосигнала, независимо от того, восстановлены восстановленные части аудиосигнала с использованием расширения полосы пропускания вслепую или направляемого расширения полосы пропускания. Таким образом, вышеуказанный принцип хорошо адаптирован к принципу, который обеспечивает возможность переключения между расширением полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания.

В предпочтительном варианте осуществления аудиокодер выполнен с возможностью избирательно включать в кодированное аудиопредставление множество параметров, описывающих взаимосвязь между энергиями спектрально смежных частотных частей, при этом один из параметров описывает отношение между энергией первой высокочастотной части и низкочастотной части расширения полосы пропускания, и при этом другие из параметров описывают отношения между энергиями (пар) других высокочастотных частей расширения полосы пропускания. Обнаружено, что такой принцип, описывающий отношения (или разности) между энергиями (или, эквивалентно, интенсивностями) различных (предпочтительно смежных) частотных частей, обеспечивает возможность эффективного кодирования информации расширения полосы пропускания. Также обнаружено, что такие параметры, описывающие взаимосвязь между энергиями спектрально смежных частотных частей, обычно могут квантоваться только с небольшим числом битов без существенного ухудшения качества звука, получаемого посредством расширения полосы пропускания.

Другой вариант осуществления согласно изобретению обеспечивает аудиодекодер для обеспечения декодированной аудиоинформации на основании кодированной аудиоинформации. Аудиодекодер содержит низкочастотный декодер, выполненный с возможностью декодировать кодированное представление низкочастотной части (аудиоконтента) для того, получать декодированное представление низкочастотной части. Аудиодекодер также содержит расширение полосы пропускания, выполненное с возможностью получать сигнал расширения полосы пропускания с использованием расширения полосы пропускания вслепую для частей аудиоконтента, для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию, и получать сигнал расширения полосы пропускания с использованием направляемого параметрами расширения полосы пропускания для частей аудиоконтента, для которых параметры расширения полосы пропускания включены в кодированную аудиоинформацию.

Этот аудиокодер основан на такой идее, что хороший компромисс между качеством звука и скоростью передачи битов может получаться, если можно переключаться между расширением полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания даже в пределах смежного фрагмента аудиоконтента, поскольку обнаружено, что множество характерных фрагментов аудиоконтента содержат как секции, для которых высокое качество звука может получаться с использованием расширения полосы пропускания вслепую, так и секции, для которых требуется направляемое параметрами расширение полосы пропускания с тем, чтобы достигать достаточного качества звука. Кроме того, должно быть очевидным, что идентичные соображения, поясненные выше относительно аудиокодера, также применяются к аудиодекодеру.

В предпочтительном варианте осуществления аудиодекодер выполнен с возможностью определять то, следует получать сигнал расширения полосы пропускания с использованием расширения полосы пропускания вслепую или с использованием направляемого параметрами расширения полосы пропускания, на покадровой основе. Обнаружено, что такое сверхточное (покадровое) переключение между расширением полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания помогает поддерживать скорость передачи битов обоснованно низкой, даже если регулярно возникают некоторые кадры, в которых направляемое параметрами расширение полосы пропускания требуется для того, чтобы не допускать избыточного ухудшения аудиоконтента.

В предпочтительном варианте осуществления аудиодекодер выполнен с возможностью переключаться между использованием расширения полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания в пределах смежного фрагмента аудиоконтента. Этот вариант осуществления основан на таких выявленных сведениях, что даже один (смежный) фрагмент аудиоконтента зачастую содержит пассажи (либо части или кадры) различных видов, некоторые из которых должны кодироваться (и, следовательно, декодироваться) с использованием направляемого параметрами расширения полосы пропускания, в то время как другие пассажи или кадры могут декодироваться с использованием расширения полосы пропускания вслепую без существенного ухудшения качества звука.

В предпочтительном варианте осуществления аудиодекодер выполнен с возможностью оценивать флаги, включенные в кодированную аудиоинформацию для различных частей (например, кадров) аудиоконтента, чтобы определять то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания (например, для кадра, с которым ассоциирован флаг). Соответственно, определение того, должно использоваться расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, поддерживается простым, и аудиодекодер не должен иметь существенной интеллектуальности, чтобы определять то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания.

Тем не менее, в другом предпочтительном варианте осуществления аудиодекодер выполнен с возможностью определять то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, на основании кодированного представления низкочастотной части без оценки флага сигнализации режима расширения полосы пропускания. Таким образом, за счет обеспечения интеллектуальности в аудиодекодере может исключаться флаг сигнализации режима расширения полосы пропускания, что сокращает скорость передачи битов.

В предпочтительном варианте осуществления аудиодекодер выполнен с возможностью определять то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, на основании одного или более свойств декодированного представления низкочастотной части (аудиоконтента). Обнаружено, что свойства декодированного представления низкочастотной части составляют величины, которые могут использоваться с хорошей точностью для того, чтобы определять то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания. Это является, в частности, верным, если на стороне аудиокодера используются те же свойства. Соответственно, более не обязательно оценивать флаг сигнализации режима расширения полосы пропускания, что, в свою очередь, обеспечивает возможность уменьшения скорости передачи битов, поскольку не обязательно включать флаг сигнализации режима расширения полосы пропускания в кодированное аудиопредставление на стороне аудиокодера.

В предпочтительном варианте осуществления аудиодекодер выполнен с возможностью определять то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, на основании квантованных коэффициентов линейного прогнозирования и/или статистики во временной области декодированного представления низкочастотной части (аудиоконтента). Обнаружено, что квантованные коэффициенты линейного прогнозирования могут легко получаться на стороне аудиодекодера и за счет обеспечения возможности извлекать спектральный наклон, как следствие, могут служить в качестве хорошего индикатора того, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания. Кроме того, квантованные коэффициенты линейного прогнозирования также являются легкодоступными на стороне аудиокодера, так что можно легко координировать переключение между расширением полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания на стороне аудиокодера и на стороне аудиодекодера. Аналогично, обнаружено, что статистика во временной области декодированного представления низкочастотной части, такая как частота переходов через нуль, представляет собой надежную величину для определения того, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания на стороне аудиодекодера.

В предпочтительном варианте осуществления расширение полосы пропускания выполнено с возможностью получать сигнал расширения полосы пропускания с использованием одного или более свойств декодированного представления низкочастотной части и/или с использованием одного или более параметров низкочастотного декодера для временных частей входной аудиоинформации (или контента), для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию. Обнаружено, что такое расширение полосы пропускания вслепую приводит к высокому качеству звука.

В предпочтительном варианте осуществления расширение полосы пропускания выполнено с возможностью получать сигнал расширения полосы пропускания с использованием информации спектрального центроида и/или с использованием информации энергии, и/или с использованием информации (спектрального) наклона, и/или с использованием кодированных коэффициентов фильтрации для временных частей входной аудиоинформации (или контента), для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию. Обнаружено, что использование этих величин дает в результате эффективный способ получать расширение полосы пропускания с хорошим качеством.

В предпочтительном варианте осуществления расширение полосы пропускания выполнено с возможностью получать сигнал расширения полосы пропускания с использованием параметров потока битов, описывающих спектральную огибающую высокочастотной части для временных частей аудиоконтента, для которых параметры расширения полосы пропускания включены в кодированную аудиоинформацию. Обнаружено, что использование параметров потока битов, описывающих спектральную огибающую высокочастотной части, обеспечивает возможность эффективного по скорости передачи битов направляемого параметрами расширения полосы пропускания с хорошим качеством, при этом параметры потока битов, описывающие спектральную огибающую, обычно не требуют высокой скорости передачи битов, и могут кодироваться только с сравнительно небольшим числом битов в расчете на аудиокадр. Следовательно, даже переключение на направляемое параметрами расширение полосы пропускания не приводит к существенному увеличению скорости передачи битов.

В предпочтительном варианте осуществления расширение полосы пропускания выполнено с возможностью оценивать от трех до пяти параметров потока битов, описывающих интенсивности высокочастотных частей сигнала, имеющих полосы пропускания в 300-500 Гц, чтобы получать сигнал расширения полосы пропускания. Обнаружено, что сравнительно небольшое число параметров потока битов является достаточным для того, чтобы получать расширение полосы пропускания в перцепционно важном диапазоне, так что высокое качество звука может получаться с небольшим увеличением скорости передачи битов.

В предпочтительном варианте осуществления от трех до пяти параметров потока битов, описывающих интенсивность высокочастотных частей сигнала, имеющих полосы пропускания в 300-500 Гц, скалярно квантуются с разрешением в 2 или 3 бита, так что предусмотрено 6-15 битов для параметров формирования спектра расширения полосы пропускания в расчете на аудиокадр. Обнаружено, что такой выбор обеспечивает очень высокую эффективность по скорости передачи битов направляемого параметрами расширения полосы пропускания, в то время как качество расширения полосы пропускания обычно является сравнимым с качеством расширения полосы пропускания, получаемым с использованием расширения полосы пропускания вслепую для «некритических» частей аудиоконтента, в которых расширение полосы пропускания вслепую предлагает хорошие результаты. Соответственно, обеспечивается сбалансированное качество как в случае, если применяется расширение полосы пропускания вслепую, так и в случае, если применяется направляемое параметрами расширение полосы пропускания.

В предпочтительном варианте осуществления расширение полосы пропускания выполнено с возможностью осуществлять сглаживание энергий сигнала расширения полосы пропускания при переключении с расширения полосы пропускания вслепую на направляемое параметрами расширение полосы пропускания и/или при переключении с направляемого параметрами расширения полосы пропускания на расширение полосы пропускания вслепую. Соответственно, могут не допускаться щелчки или «артефакты блочности», которые могут вызываться посредством различных свойств расширения полосы пропускания вслепую и направляемого параметрами расширения полосы пропускания.

В предпочтительном варианте осуществления расширение полосы пропускания выполнено с возможностью гасить высокочастотную часть сигнала расширения полосы пропускания для части аудиоконтента, к которой применяется направляемое параметрами расширение полосы пропускания, после части аудиоконтента, к которой применяется расширение полосы пропускания вслепую. Кроме того, расширение полосы пропускания выполнено с возможностью уменьшать гашение для высокочастотной части сигнала расширения полосы пропускания для части аудиоконтента, к которой применяется расширение полосы пропускания вслепую, после части аудиоконтента, к которой применяется направляемое параметрами расширение полосы пропускания. Соответственно, может компенсироваться в некоторой степени такой эффект, что расширение полосы пропускания вслепую обычно показывает характеристику нижних частот, при том, что это не обязательно имеет место для направляемого параметрами расширения полосы пропускания. Соответственно, у