Принцип для компенсации переключения режима кодирования

Иллюстрации

Показать все

Изобретение относится к средствам для компенсации переключения режима кодирования. Технический результат заключается в повышении качества аудио при переключении между разными режимами кодирования с разными полосами пропускания, за счет сглаживания и/или смешивания звука при соответствующем переходе. В ответ на событие переключения осуществляют временное сглаживание и/или смешивание при переходе между первой временной частью информационного сигнала перед событием переключения и второй временной частью информационного сигнала после события переключения в высокочастотной полосе спектра. Реагируют на переключение одного или более из следующего: из режима кодирования аудио в полной полосе пропускания на режим BWE-кодирования аудио и из режима BWE-кодирования аудио на режим кодирования аудио в полной полосе пропускания, при этом высокочастотная полоса спектра перекрывается с частью спектра BWE-расширения режима BWE-кодирования аудио и частью спектра преобразования или кодированной с линейным прогнозированием частью спектра режима кодирования аудио в полной полосе пропускания. 7 н. и 9 з.п. ф-лы, 21 ил.

Реферат

Настоящая заявка относится к кодированию информационных сигналов с использованием различных режимов кодирования, отличающихся, например, по эффективной кодированной полосе пропускания и/или по свойству сохранения энергии.

В документах [1], [2] и [3] предлагается разрешать короткие ограничения полосы пропускания посредством экстраполяции отсутствующего контента с помощью BWE вслепую прогнозирующим способом. Тем не менее, этот подход не охватывает случаи, в которых полоса пропускания изменяется на долговременной основе. Кроме того, не рассматриваются различные свойства сохранения энергии (например, BWE вслепую обычно имеют значительные уменьшения энергии на высоких частотах по сравнению с полнополосным ядром). Кодеки с использованием режимов с варьирующейся полосой пропускания описываются в документах [4] и [5].

В приложениях мобильной связи варьирования доступной скорости передачи данных, которые также влияют на скорость передачи битов используемого кодека, могут быть обычным явлением. Следовательно, должно быть предпочтительным иметь возможность переключать кодек между различными, зависимыми от скорости передачи битов, настройками и/или улучшениями. Когда требуется переключение между различными BWE и, например, полнополосным ядром, могут возникать неоднородности вследствие различных эффективных выходных полос пропускания или варьирующихся свойств сохранения энергии. Более точно, различные BWE или BWE-настройки могут использоваться в зависимости от рабочей точки и скорости передачи битов (см. фиг. 1). Типично, для очень низких скоростей передачи битов, предпочитается схема расширения полосы пропускания вслепую, чтобы фокусировать доступную скорость передачи битов в более важном базовом кодере. Расширение полосы пропускания вслепую типично синтезирует небольшую дополнительную полосу пропускания поверх базового кодера без дополнительной вспомогательной информации. Чтобы исключать введение артефактов (например, посредством перерегулирований по энергии или усиления ошибочных компонентов) посредством BWE вслепую, дополнительная полоса пропускания обычно очень ограничена по энергии. Для средних скоростей передачи битов, в общем, желательно заменять BWE вслепую подходом на основе направляемого BWE. Этот направляемый подход использует параметрическую вспомогательную информацию для энергии и формы синтезированной дополнительной полосы пропускания. Посредством этого подхода и по сравнению с BWE вслепую при более высокой энергии может быть синтезирована более широкая полоса пропускания. Для высоких скоростей передачи битов желательно кодировать полную полосу пропускания в области базового кодера, т.е. без расширения полосы пропускания. Это типично предоставляет почти идеальное сохранение полосы пропускания и энергии.

Соответственно, цель настоящего изобретения заключается в том, чтобы предоставлять принцип для повышения качества кодеков, поддерживающих переключение между различными режимами кодирования, в частности, при переходах между различными режимами кодирования.

Это цель достигается посредством предмета изобретения находящихся на рассмотрении независимых пунктов формулы изобретения, при этом преимущественные подаспекты представляют собой предмет зависимых пунктов формулы изобретения.

Выявленные сведения, на которых основана настоящая заявка, заключаются в том, что кодек, обеспечивающий возможность переключения между различными режимами кодирования, может быть улучшен посредством, в ответ на событие переключения, выполнения временного сглаживания и/или смешивания при соответствующем переходе.

В соответствии с вариантом осуществления переключение осуществляется между режимом кодирования аудио в полной полосе пропускания, с одной стороны, и режимом кодирования аудио с BWE или в подполосе пропускания, с другой стороны. Согласно дополнительному варианту осуществления дополнительно или альтернативно временное сглаживание и/или смешивание выполняется при событиях переключения с переключением между режимами кодирования с направляемым BWE и BWE вслепую.

Помимо вышеуказанных выявленных сведений согласно дополнительному аспекту настоящей заявки авторы настоящей заявки поняли, что временное сглаживание и/или смешивание может использоваться для улучшения многорежимного кодирования также при событиях переключения между режимами кодирования, эффективная кодированная полоса пропускания которых фактически перекрывается с высокочастотной полосой спектра, в которой спектрально выполнено временное сглаживание и/или смешивание. Если точнее, в соответствии с вариантом осуществления настоящей заявки, высокочастотная полоса спектра, в которой выполняется временное сглаживание и/или смешивание при переходах, спектрально перекрывается с эффективной кодированной полосой пропускания обоих режимов кодирования, между которыми осуществляется переключение при событии переключения. Например, высокочастотная полоса спектра может перекрывать часть расширения полосы пропускания одного из двух режимов кодирования, т.е. ту высокочастотную часть, в которую, согласно одному из двух режимов кодирования, спектр расширен с использованием BWE. Что касается другого из двух режимов кодирования, высокочастотная полоса спектра, например, может перекрывать спектр преобразования или кодированный с линейным прогнозированием спектр, или часть расширения полосы пропускания этого режима кодирования. Следовательно, результирующее улучшение обусловлено тем фактом, что различные режимы кодирования могут, даже в частях спектра, в которых перекрываются их эффективные кодированные полосы пропускания, иметь различные свойства сохранения энергии, так что при кодировании информационного сигнала искусственные временные края/прыжки могут приводить к спектрограмме информационного сигнала. Временное сглаживание и/или смешивание уменьшает отрицательные эффекты.

В соответствии с вариантом осуществления настоящей заявки временное сглаживание и/или смешивание выполняется дополнительно в зависимости от анализа информационного сигнала в аналитической полосе спектра, размещаемой спектрально ниже высокочастотной полосы спектра. Посредством этой меры целесообразно подавлять или адаптировать степень временного сглаживания и/или смешивание я зависимости от меры флуктуации энергии информационного сигнала в аналитической полосе спектра. Если флуктуация является высокой, сглаживание и/или смешивание может непреднамеренно или невыгодно удалять флуктуации энергии в высокочастотной полосе спектра исходного сигнала, за счет этого потенциально приводя к ухудшению качества информационного сигнала.

Хотя вариант осуществления, подробнее указанный ниже, направлен на кодирование аудио, должно быть очевидным, что настоящее изобретение также является преимущественным и также может преимущественно использоваться относительно других видов информационных сигналов, таких как измерительные сигналы, сигналы передачи данных и т.п. Все варианты осуществления, соответственно, также должны трактоваться как представляющие вариант осуществления для таких других видов информационных сигналов.

Ниже подробно описываются предпочтительные варианты осуществления настоящей заявки со ссылкой на чертежи, на которых:

Фиг. 1 схематично показывает, с использованием спектрально-временного распределения шкалы полутонов, примерные BWE и полнополосное ядро с различными эффективными полосами пропускания и свойствами сохранения энергии;

Фиг. 2 схематично показывает график, показывающий пример для разности в спектральных ядрах свойства сохранения энергии различных режимов кодирования по фиг. 1;

Фиг. 3 схематично показывает кодер, поддерживающий различные режимы кодирования, в связи с которыми могут использоваться варианты осуществления настоящей заявки;

Фиг. 4 схематично показывает декодер, поддерживающий различные режимы кодирования, с дополнительной схематичной иллюстрацией примерных функциональностей при переключении, в высокочастотной полосе спектра, со свойств более высокого на свойства более низкого сохранения энергии;

Фиг. 5 схематично показывает декодер, поддерживающий различные режимы кодирования, с дополнительной схематичной иллюстрацией примерных функциональностей при переключении, в высокочастотной полосе спектра, со свойств более низкого на свойства более высокого сохранения энергии;

Фиг. 6a-6d схематично показывают другие примеры для режимов кодирования, данных, передаваемых в потоке данных для этих режимов кодирования, и функциональностей в декодере для обработки соответствующих режимов кодирования;

Фиг. 7a-7c схематично показывают различные способы того, как декодер может выполнять временное временное сглаживание/смешивание фиг. 4 и 5 при событиях переключения;

Фиг. 8 схематично показывает график, показывающий примеры для спектров последовательных временных отрезков, взаимно примыкающих друг к другу для события переключения, вместе со спектральным варьированием свойства сохранения энергии ассоциированных режимов кодирования этих временных частей в соответствии с примером, чтобы иллюстрировать сигнально-адаптивное управление временным сглаживанием/смешиванием по фиг. 9;

Фиг. 9 схематично показывает сигнально-адаптивное управление временным сглаживанием/смешиванием в соответствии с вариантом осуществления;

Фиг. 10 показывает позиции спектрально-временных мозаичных фрагментов, в которых энергии оцениваются и используются в соответствии с конкретным вариантом осуществления на основе сигнально-адаптивного сглаживания;

Фиг. 11 показывает блок-схему последовательности операций способа, осуществляемого в соответствии с вариантом осуществления на основе сигнально-адаптивного сглаживания в декодере;

Фиг. 12 показывает блок-схему последовательности операций способа смешивания полосы пропускания, осуществляемого в декодере в соответствии с вариантом осуществления;

Фиг. 13a показывает спектрально-временную часть около события переключения, чтобы иллюстрировать спектрально-временной мозаичный фрагмент, в котором выполняется смешивание в соответствии с фиг. 12;

Фиг. 13b показывает временное варьирование коэффициента смешивания в соответствии с вариантом осуществления по фиг. 12;

Фиг. 14a схематично показывает разновидность варианта осуществления по фиг. 12, чтобы учитывать события переключения, возникающие во время смешивания; и

Фиг. 14b показывает результирующее варьирование временного варьирования коэффициента смешивания в случае разновидности по фиг. 14a.

Перед дальнейшим более подробным описанием вариантов осуществления настоящей заявки, следует снова вкратце обратиться к фиг. 1, чтобы обосновать и прояснять идею и принципы, лежащие в основе нижеприведенных вариантов осуществления. Фиг. 1 примерно показывает часть из аудиосигнала, которая примерно последовательно кодирована с использованием трех различных режимов кодирования, а именно, BWE вслепую в первой временной части 10, направляемого BWE во второй временной части 12 и полнополосного базового кодирования в третьей временной части 14. В частности, фиг. 1 показывает двумерное полутоновое кодированное представление, показывающее варьирование свойства сохранения энергии, с которым аудиосигнал кодируется, спектрально-временным способом, т.е. посредством добавления спектральной оси 16 к временной оси 18. Подробности, показанные и описанные относительно трех различных режимов кодирования, показанных на фиг. 1, должны трактоваться просто в качестве иллюстративных для нижеприведенных вариантов осуществления, но эти подробности облегчают понимание нижеприведенных вариантов осуществления и их преимуществ, получающихся в результате, так что эти подробности описываются в дальнейшем.

В частности, как показано посредством использования полутонового представления по фиг. 1, режим полнополосного базового кодирования существенно сохраняет энергию аудиосигнала по полной полосе пропускания, расширяющейся от 0 до fstop,Core2. На фиг. 2, спектральная динамика свойства сохранения энергии полнополосного ядра графически показана по частоте f на 20. Здесь, кодирование с преобразованием примерно использовано с интервалом преобразования, непрерывно расширяющимся от 0 до fstop,Core2. Например, согласно режиму 20, перекрывающееся преобразование с критической дискретизацией может использоваться для того, чтобы анализировать аудиосигнал с последующим кодированием спектральных линий, получающихся в результате, с использованием, например, квантования и энтропийного кодирования. Альтернативно, полнополосный базовый режим может иметь тип линейного прогнозирования, к примеру, CELP или ACELP.

Два режима BWE-кодирования, примерно проиллюстрированные на фиг. 1 и 2, также кодируют низкочастотную часть с использованием режима базового кодирования, такого как вышеприведенный режим кодирования с преобразованием или режим кодирования с линейным прогнозированием, но в это время базовое кодирование просто относится к низкочастотной части полной полосы пропускания, которая колеблется от 0 до fstop,Core1<fstop,Core2. Спектральные компоненты аудиосигнала выше fstop,Core1 параметрически кодированы в случае направляемого расширения полосы пропускания до частоты fstop,BWE2 и без вспомогательной информации в потоке данных, т.е. вслепую, в случае режима расширения полосы пропускания вслепую между fstop,Core1 и fstop,BWE1, при этом в случае фиг. 2, fstop,Core1<fstop,BWE1<fstop,BWE2<fstop,Core2.

Согласно расширению полосы пропускания вслепую, например, декодер оценивает в соответствии с этим режимом кодирования с BWE вслепую, часть fstop,Core1-fstop,BWE1 расширения полосы пропускания из части базового кодирования, расширяющейся от 0 до fstop,Core1, без дополнительной вспомогательной информации, содержащейся в потоке данных, в дополнение к кодированию части базового кодирования спектра аудиосигнала. Вследствие ненаправляемого способа, которым спектр аудиосигнала кодирован вплоть до конечной частоты fstop,Core1 базового кодирования, ширина части расширения полосы пропускания BWE вслепую обычно, но не обязательно, меньше ширины части расширения полосы пропускания режима направляемого BWE, которая расширяется от fstop,Core1 до fstop,BWE2. В направляемом BWE, аудиосигнал кодируется с использованием режима базового кодирования в отношении части спектра базового кодирования, расширяющейся от 0 до fstop,Core1, но дополнительные данные параметрической вспомогательной информации предоставляются с тем, чтобы позволять стороне декодирования оценивать спектр аудиосигнала за пределами частоты разделения fstop,Core1 в части расширения полосы пропускания, расширяющейся от fstop,Core1 до fstop,BWE2. Например, эта параметрическая вспомогательная информация содержит данные огибающей, описывающие огибающую аудиосигнала в спектрально-временном разрешении, которое является более приблизительным по сравнению со спектрально-временным разрешением, с которым, при использовании кодирования с преобразованием, аудиосигнал кодируется в части базового кодирования с использованием базового кодирования. Например, декодер может реплицировать спектр в части базового кодирования, с тем чтобы предварительно заполнять пустую часть аудиосигнала между fstop,Core1 и fstop,BWE2 с последующим формированием этого предварительно заполненного состояния с использованием передаваемых данных огибающей.

Фиг. 1 и 2 раскрывает, что переключение между примерными режимами кодирования может вызывать неприятные, т.е. воспринимаемые артефакты при событиях переключения между этими режимами кодирования. Например, при переключении между направляемым BWE, с одной стороны, и режимом кодирования в полной полосе пропускания, с другой стороны, очевидно, что хотя режим кодирования в полной полосе пропускания корректно восстанавливает, т.е. эффективно кодирует, спектральные компоненты в части спектра fstop,BWE2 и fstop,Core2, режим направляемого BWE даже не имеет возможность кодировать что-либо из аудиосигнала в этой части спектра. Соответственно, переключение с направляемого BWE на FB-кодирование может вызывать невыгодное внезапное возникновение спектральных компонентов аудиосигнала в этой части спектра, и переключение в противоположном направлении, т.е. с базового FB-кодирования на направляемое BWE, может, в свою очередь, вызывать внезапное исчезновение таких спектральных компонентов. Тем не менее, это может вызывать артефакты при воспроизведении аудиосигнала. Спектральная область, в которой, по сравнению с режимом базового кодирования в полной полосе пропускания, не сохраняется ничего из энергии исходного аудиосигнала, еще увеличивается в случае BWE вслепую, и, соответственно, спектральная область внезапного возникновения и/или внезапного исчезновения, описанная выше относительно направляемого BWE, также возникает при BWE вслепую, и переключается между этим режимом и режимом базового FB-кодирования, при этом, тем не менее, часть спектра увеличивается и расширяется с fstop,BWE1 до fstop,Core2.

Тем не менее, части спектра, в которых раздражающие артефакты могут получаться в результате переключения между различными режимами кодирования, не ограничены частями спектра, в которых один из режимов кодирования, между которыми осуществляется событие переключения, вообще не содержит кодирование, т.е. не ограничивается частями спектра за пределами эффективной полосы пропускания кодирования одного из режимов кодирования. Наоборот, как показано на фиг. 1 и 2, предусмотрены даже части, в которых фактически оба режима кодирования, между которыми осуществляется событие переключения, фактически являются эффективными, но в которых свойство сохранения энергии этих режимов кодирования отличается таким образом, что также в результате могут получаться раздражающие артефакты. Например, в случае переключения между базовым FB-кодированием и направляемым BWE, оба режима кодирования являются эффективными в части спектра fstop,Core1 и fstop,BWE2, но тогда как режим 20 базового FB-кодирования существенно экономит энергию аудиосигнала в этой части спектра, свойство сохранения энергии направляемого BWE в этой части спектра существенно снижено, и соответственно, внезапное снижение/увеличение при переключении между этими двумя режимами кодирования также может вызывать воспринимаемые артефакты.

Вышеуказанные сценарии переключения служат просто в качестве типичных сценариев. Предусмотрены другие пары режимов кодирования, переключение между которыми вызывает или может вызывать раздражающие артефакты. Это является истинным, например, для переключения между BWE вслепую, с одной стороны, и направляемым BWE, с другой стороны, или переключением между любым из BWE вслепую, направляемым BWE и FB-кодированием, с одной стороны, и простым совместным кодированием базового BWE вслепую и направляемого BWE, с другой стороны, либо даже между различными полнополосными базовыми кодерами с неравными свойствами сохранения энергии.

Варианты осуществления, подробнее указанные ниже, преодолевают отрицательные эффекты, получающиеся в результате вышеуказанных обстоятельств при переключении между различными режимами кодирования.

Тем не менее, перед описанием этих вариантов осуществления, вкратце поясняется относительно фиг. 3, который показывает примерный кодер, поддерживающий различные режимы кодирования, то, как кодер, например, может выбирать текущий используемый режим кодирования из поддерживаемых нескольких режимов кодирования, чтобы лучше понимать, почему переключение между ними может приводить к вышеуказанным воспринимаемым артефактам.

Кодер, показанный на фиг. 3, в общем, указывается с использованием ссылки с номером 30, которая принимает информационный сигнал, т.е. здесь аудиосигнал 32 на входе и выводит поток 34 данных, представляющий/кодирующий аудиосигнал 32 на выходе. Как указано выше, кодер 30 поддерживает множество режимов кодирования с различным свойством сохранения энергии, как примерно указано относительно фиг. 1 и 2. Аудиосигнал 32 может считаться неискаженным, к примеру, имеющим представленную полосу пропускания максимум от 0 до некоторой максимальной частоты, к примеру, половины частоты дискретизации аудиосигнала 32. Спектр или спектрограмма исходного аудиосигнала показана на фиг. 3 на 36. Аудиокодер 30 переключается, во время кодирования аудиосигнала 32, между различными режимами кодирования, такими режимы кодирования, указанные выше относительно фиг. 1 и 2, в потоке 34 данных. Соответственно, аудиосигнал является восстанавливаемым из потока 34 данных, тем не менее, с сохранением энергии в области верхних частот, варьирующейся в соответствии с переключением между различными режимами кодирования. Обратимся, например, к спектру/спектрограмме аудиосигнала, восстанавливаемому из потока 34 данных на фиг. 3 на 38, на котором примерно показаны три события A, B и C переключения. Перед переключением A кодер 30 использует режим кодирования, который кодирует аудиосигнал 32 вплоть до некоторой максимальной частоты fmax,cod≤fmax, например, с существенным сохранением энергии через полную полосу пропускания 0-fmax,cod. Между событиями A и B переключения, например, кодер 30 использует режим кодирования, который, как показано на 40, имеет эффективную кодированную полосу пропускания, которая просто расширяется вплоть до частоты f1≤fmax,cod, например, с существенным постоянным свойством сохранения энергии через эту полосу пропускания и между событиями B и C переключения, кодер 30 использует примерно режим кодирования, который также имеет эффективную кодированную полосу пропускания, расширяющуюся до fmax,cod, но со свойством уменьшенного сохранения энергии относительно режима кодирования в полной полосе пропускания до события A в отношении спектрального диапазона f1-fmax,cod, как показано на 42.

Соответственно, при событиях переключения, могут возникать проблемы относительно воспринимаемых артефактов, которые пояснены выше относительно фиг. 1 и 2. Тем не менее, несмотря на проблемы, кодер 30 может решать переключаться между режимами кодирования при событиях A-C переключения в ответ на внешние управляющие сигналы 44. Такие внешние управляющие сигналы 44, например, могут исходить из системы передачи, отвечающей за передачу потока данных 34. Например, управляющие сигналы 44 могут указывать кодеру 30 доступную полосу пропускания передачи, так что кодер 30, возможно, должен адаптировать скорость передачи битов потока 34 данных таким образом, что она удовлетворяет, т.е. ниже или равна, указываемой доступной скорости передачи битов. Тем не менее, в зависимости от этой доступной скорости передачи битов, оптимальный режим кодирования из числа доступных режимов кодирования кодера 30 может изменяться. "Оптимальный режим кодирования" может представлять собой режим кодирования с оптимальным/наилучшим искажение в зависимости от скорости передачи при соответствующей скорости передачи битов. Тем не менее, по мере того, как доступная скорость передачи битов изменяется способом, полностью или существенно декоррелированным с контентом аудиосигнала 32, эти события A-C переключения могут возникать в моменты времени, когда контент аудиосигнала имеет, невыгодно, существенную энергию в этой высокочастотной части f1-fmax,cod, в которой вследствие переключения между режимами кодирования, свойство сохранения энергии кодера 30 варьируется во времени. Таким образом, кодер 30 может не иметь возможность помогать в этом, но, возможно, он должен переключаться между режимами кодирования, как предписывается снаружи посредством управляющих сигналов 44 даже в моменты времени, когда переключение является невыгодным.

Варианты осуществления, описанные далее, относятся к вариантам осуществления для декодера, выполненного с возможностью надлежащим образом уменьшать отрицательные эффекты, получающиеся в результате переключения между режимами кодирования на стороне кодера.

Фиг. 4 показывает декодер 50, поддерживающий и переключаемый, по меньшей мере, между двумя режимами кодирования, с тем чтобы декодировать информационный сигнал 52 из входящего потока 34 данных, при этом декодер выполнен с возможностью, в ответ на определенные события переключения, осуществлять временное сглаживание или смешивание, как подробнее описано ниже.

Относительно примеров для режимов кодирования, поддерживаемых посредством декодера 50, следует обратиться к вышеприведенному описанию относительно фиг. 1 и 2, например. Иными словами, декодер 50, например, может поддерживать один или более режимов базового кодирования, с использованием которых аудиосигнал кодирован в поток 34 данных вплоть до определенной максимальной частоты с использованием кодирования с преобразованием, например, при этом поток 34 данных содержит, для частей аудиосигнала, кодированного с таким режимом базового кодирования, представление на основе спектральных линий преобразования аудиосигнала, спектрально разлагая аудиосигнал от 0 до соответствующей максимальной частоты. Альтернативно, режим базового кодирования может заключать в себе кодирование с прогнозированием, к примеру, кодирование с линейным прогнозированием. В первом случае, поток 34 данных может содержать для базовых кодированных частей аудиосигнала, кодирование представления на основе спектральных линий аудиосигнала, и декодер 50 выполнен с возможностью осуществлять обратное преобразование для этого представления на основе спектральных линий, при этом обратное преобразование приводит к обратному преобразованию, расширяющемуся от нулевой частоты вплоть до максимальной частоты, так что восстановленный аудиосигнал 52 фактически совпадает, по энергии, с исходным аудиосигналом, кодированным в поток 34 данных, по всей полосе частот от 0 до соответствующей максимальной частоты. В случае режима базового кодирования с прогнозированием, декодер 50 может быть выполнен с возможностью использовать коэффициенты линейного прогнозирования, содержащиеся в потоке 30 данных, для временных частей исходного аудиосигнала, кодированного в поток 34 данных с использованием соответствующего режима базового кодирования с прогнозированием, с тем чтобы, с использованием синтезирующего фильтра, заданного согласно коэффициенту линейного прогнозирования, или с использованием формирования шума в частотной области (FDNS), управляемого через коэффициенты линейного прогнозирования, восстанавливать аудиосигнал 52 с использованием сигнала возбуждения, также кодированного для этих временных частей. В случае использования синтезирующего фильтра, синтезирующий фильтр может работать на такой частоте дискретизации, что аудиосигнал 52 восстанавливается вплоть до соответствующей максимальной частоты, т.е. до максимальной частоты, в два раза превышающей частоту дискретизации, и в случае использования формирования шума в частотной области, декодер 50 может быть выполнен с возможностью получать сигнал возбуждения из потока 34 данных и области преобразования, формы представления на основе спектральных линий, например, с помощью формирования этого сигнала возбуждения с использованием FDNS (формирования шума в частотной области) посредством использования коэффициентов линейного прогнозирования и выполнения обратного преобразования в спектрально сформированную версию спектра, представленного посредством преобразованных коэффициентов, и представления, в свою очередь, возбуждения. Один или два, или более таких режимов базового кодирования с различной максимальной частотой могут быть доступными или поддерживаться посредством декодера 50. Другие режимы кодирования могут использовать BWE, чтобы расширять полосу пропускания, поддерживаемую посредством любого из режимов базового кодирования за пределами соответствующей максимальной частоты, к примеру, BWE вслепую или направляемое BWE. Направляемое BWE, например, может заключать в себе SBR (репликацию полос спектра), согласно которой декодер 50 получает точную структуру части расширения полосы пропускания, расширяющей полосу пропускания базового кодирования до более высоких частот, из аудиосигнала, восстановленного из режима базового кодирования, с использованием параметрической вспомогательной информации с тем, чтобы формировать точную структуру согласно этой параметрической вспомогательной информации. Другие режимы кодирования с направляемым BWE также являются целесообразными. В случае BWE вслепую, декодер 50 может восстанавливать часть расширения полосы пропускания, расширяющую полосу пропускания базового кодирования за пределы максимума до более высоких частот без явной вспомогательной информации относительно этой части расширения полосы пропускания.

Следует отметить, что единицы, в которых режимы кодирования могут изменяться во времени в потоке данных, могут представлять собой "кадры" с постоянной или даже варьирующейся длиной. Когда ниже возникает термин "кадр", в силу этого, подразумевается, что он обозначает такую единицу, с которой режим кодирования варьируется в потоке битов, т.е. единицы, между которыми режимы кодирования могут варьироваться, а в рамках которых режим кодирования не варьируется. Например, для каждого кадра, поток 34 данных может содержать элемент синтаксиса, раскрывающий режим кодирования, с использованием которого кодируется соответствующий кадр. Таким образом, события переключения могут размещаться на границах кадров, разделяющих кадры различных режимов кодирования. Иногда может встречаться термин "субкадры". Субкадры могут представлять временную сегментацию кадров во временные субъединицы, в которых аудиосигнал, в соответствии с режимом кодирования, ассоциированным с соответствующим кадром, кодируется с использованием конкретных для субкадра параметров кодирования для соответствующего режима кодирования.

Фиг. 4 конкретно рассматривает переключение с режима кодирования, имеющего свойство более высокого сохранения энергии в некоторой высокочастотной полосе спектра, на режим кодирования, имеющий свойство меньшего или отсутствия сохранения энергии в этой высокочастотной полосе спектра. Следует отметить, что фиг. 4 концентрируется на этих событиях переключения просто для простоты понимания, и декодер в соответствии с вариантом осуществления настоящей заявки не должен ограничиваться этим возможным вариантом. Наоборот, должно быть очевидным, что декодер в соответствии с вариантами осуществления настоящей заявки может реализовываться таким образом, что он включает все или любой поднабор конкретных функциональностей, описанных относительно фиг. 4 и следующих чертежей в связи, с конкретными событиями переключения для конкретных пар режимов кодирования, между которыми осуществляется соответствующее событие переключения.

Фиг. 4 примерно показывает событие A переключения в момент tA времени, когда режим кодирования, с использованием которого аудиосигнал кодируется в поток 34 данных, переключается с первого режима кодирования на второй режим кодирования, при этом первый режим кодирования примерно представляет собой режим кодирования, имеющий эффективную кодированную полосу пропускания от 0 до fmax, в режим кодирования, совпадающий по свойству сохранения энергии от нулевой частоты до частоты f1<fmax, но имеющий меньшее свойство сохранения энергии или отсутствие свойства сохранения энергии за рамками этой частоты, т.е. f1-fmax. Два возможных варианта примерно иллюстрируются на 54 и 56 на фиг. 4 для примерной частоты между f1 и fmax, указываемыми с помощью пунктирной линии в схематичном спектрально-временном представлении свойства сохранения энергии, с использованием которого аудиосигнал кодируется в поток 34 данных на 58. В случае 54, второй режим кодирования, декодированная версия временной части аудиосигнала 52, после события A переключения, имеет эффективную кодированную полосу пропускания, которая просто расширяется до f1, так что свойство сохранения энергии равно 0 за пределами этой частоты, как показано на 54.

Например, первый режим кодирования, а также второй режим кодирования могут представлять собой режимы базового кодирования, имеющие различные максимальные частоты f1 и fmax. Альтернативно, один или оба из этих режимов кодирования могут заключать в себе расширение полосы пропускания с различными эффективными кодированными полосами пропускания, одна из которых расширяется вплоть до f1, а другая – до fmax.

Случай 56 иллюстрирует возможность обоих режимов кодирования, имеющих эффективную кодированную полосу пропускания, расширяющуюся вплоть до fmax, при этом, тем не менее, свойство сохранения энергии второго режима кодирования снижается относительно свойства сохранения энергии первых режимов кодирования касательно временной части перед моментом tA времени.

Событие A переключения, т.е. тот факт, что временная часть 60, непосредственно перед событием A переключения, кодируется с использованием первого режима кодирования, и временная часть 62, непосредственно после события A переключения, кодируется с использованием второго режима кодирования, может передаваться в служебных сигналах в потоке 34 данных или может иным образом передаваться в служебных сигналах в декодер 50, так что события переключения, при которых декодер 50 изменяет режимы кодирования для декодирования аудиосигнала 52 из потока 34 данных, синхронизированы с переключением соответствующих режимов кодирования на стороне кодирования. Например, покадровая передача в служебных сигналах режима, вкратце указанная выше, может использоваться посредством декодера 50 для того, чтобы распознавать и идентифицировать или различать между различными типами событий переключения.

В любом случае, декодер по фиг. 4 выполнен с возможностью осуществлять временное сглаживание или смешивание при переходе между декодированными версиями временных частей 60 и 62 аудиосигнала 52, как схематично проиллюстрировано на 64, который направлен на иллюстрацию эффекта выполнения временного сглаживания или смешивания посредством демонстрации того, что свойство сохранения энергии в высокочастотной полосе 66 спектра между частотами f1-fmax временно сглаживается, с тем чтобы исключать эффекты временной неоднородности при событии A переключения.

Аналогично 54 и 56, на 68, 70, 72 и 74, неисчерпывающий набор примеров показывает то, как декодер 50 достигает временного сглаживания/смешивания, посредством демонстрации динамики результирующего свойства сохранения энергии, проиллюстрированной во время t, для примерной частоты, указываемой с помощью пунктирных линий на 64 в высокочастотной полосе 66 спектра. Хотя примеры 68 и 72 представляют возможные примеры функциональности декодера 50 для разрешения примера события переключения, показанного на 54, примеры, показанные на 70 и 74, показывают возможные функциональности декодера 50 в случае сценария переключения, проиллюстрированного на 56.

С другой стороны, в сценарии переключения, проиллюстрированном на 54, второй режим кодирования вообще не восстанавливает аудиосигнал 52 выше частоты f1. Чтобы выполнять временное сглаживание или смешивание при переходе между декодированными версиями аудиосигнала 52 до и после события A переключения, в соответствии с примером 68, декодер 50 временно, в течение временного периода 76 времени, непосредственно после события A переключения, выполняет BWE вслепую, с тем чтобы оценивать и заполнять спектр аудиосигнала выше частоты f1 вплоть до fmax. Как показано в примере 72, декодер 50 может с этой целью подвергать оцененный спектр в высокочастотной полосе 66 спектра операции временного формирования с использованием некоторой функции 78 постепенного затухания, так что переход для события A переключения еще более сглаживается в отношении свойства сохранения энергии в высокочастотной полосе 66 спектра.

Ниже подробно описывается конкретный пример для случая примера 72. Следует подчеркнуть, что поток 34 данных не должен