Устройство и способ для вычисления числа огибающих спектра

Иллюстрации

Показать все

Изобретение относится к области вычисления числа огибающих спектра, а именно к кодированию звуковых сигналов. Техническим результатом является эффективное кодирование в лучшем качестве, специально для сигналов с медленно изменяющейся энергией, интенсивность колебаний которой слишком низкая, чтобы быть обнаруженной обычными детекторами кратковременных помех. Устройство для вычисления числа огибающих спектра включает: вычислитель порога квантования; детектор для обнаружения нарушения пороговой величины при помощи порога квантования; процессор для определения первой границы огибающей между парой соседних временных частей; процессор для определения второй границы огибающей между отличной парой соседних временных частей; числовой процессор для установления числа огибающих спектра, имеющих первую границу огибающей и вторую границу огибающей; переключающийся блок принятия решения, формируемый, чтобы предоставить сигнал переключения принятия решения; сигнал переключения принятия решения подает речеподобный звуковой сигнал и обычный звукоподобный звуковой сигнал, где детектор приспособлен, чтобы понижать пороговую величину для речеподобных звуковых сигналов. Способ описывает работу данного устройства. 4 н. и 8 з.п. ф-лы, 11 ил.

Реферат

Данное изобретение имеет отношение к устройству и способу вычисления числа огибающих спектра, к звуковому кодирующему устройству и способу кодирования звуковых сигналов.

Естественное звуковое кодирование и речевое кодирование - две главные задачи кодер-декодеров для звуковых сигналов. Естественное звуковое кодирование обычно используется для музыкальных или произвольных сигналов при средних скоростях передачи битов и обычно предлагает широкие звуковые полосы пропускания. С другой стороны, речевые кодирующие устройства в основном ограничиваются воспроизведением речи, но могут также использоваться при очень низкой скорости передачи битов. Широкополосная речь предлагает главное субъективное повышение качества на узкой полосе речи. Увеличение полосы пропускания не только улучшает ясность и естественность речи, но также и распознавание спикера. Широкополосное речевое кодирование, таким образом, - важная проблема для следующего поколения телефонных структур. Далее, из-за огромного роста мультимедийной сферы, весьма желательно передавать музыкальные и другие неречевые сигналы по телефонным системам с высоким качеством.

Чтобы радикально уменьшить скорость передачи битов, кодирование источника может выполняться посредством использования расщепляющих полосу перцепционных звуковых кодер-декодеров. Эти естественные звуковые кодер-декодеры эксплуатируют перцепционную ненужность и статистическую избыточность в сигнале. Кроме того, распространено уменьшение частоты дискретизации и, таким образом, звуковой полосы пропускания. Также распространено сокращение числа структурных уровней, что иногда обеспечивает слышимое искажение квантизации, и использование деградации стереообласти во время кодирования интенсивности. Злоупотребление такими методами приводит к раздражающей перцепционной деградации. Чтобы улучшить исполнение кодирования, в качестве эффективного метода используется репликация спектральной полосы, чтобы генерировать высокочастотные сигналы в кодер-декодере, основанном на высокочастотной реконструкции (HFR).

Репликация спектральной полосы (SBR) включает методику, завоевавшую популярность в качестве дополнения к популярным перцепционным звуковым кодирующим устройствам, таким как МРЗ и улучшенное звуковое кодирование (AAC). SBR включает способ расширения полосы пропускания, в котором нижняя полоса (базовая полоса или основная полоса) спектра кодируется посредством использования современных кодер-декодеров, тогда как верхняя полоса (или высокая полоса) грубо параметризуются посредством использования нескольких параметров. SBR использует корреляцию между нижней полосой и верхней полосой посредством прогнозирования более широкой полосы сигнала от более низкой полосы, используя извлеченные характеристики верхней полосы. Этого часто бывает достаточно, так как человеческое ухо менее чувствительно к искажениям в более высокой полосе по сравнению с более низкой полосой. Новые звуковые кодирующие устройства, поэтому, кодируют более низкий спектр, используя, например, МРЗ или ААС, тогда как верхняя полоса кодируется при помощи SBR. Ключом к алгоритму SBR является информация, используемая для описания более высокой частотной части сигнала. Главная цель разработки этого алгоритма состоит в том, чтобы восстановить спектр более высокой полосы, не вводя артефактов, и чтобы обеспечить хорошее спектральное и временное разрешение. Например, 64-полосная комплекснозначная многофазная гребенка фильтров используется в анализирующем блоке и в кодирующем устройстве; гребенка фильтров используется, чтобы получить, например, образцы энергии верхней полосы оригинального входного сигнала. Эти образцы энергии могут тогда использоваться как опорные величины для схемы регулирования огибающей, используемой в декодере.

Огибающие спектра обращаются к грубому спектральному распределению сигнала в общем смысле и включают, например, коэффициенты фильтрации в линейном кодирующем устройстве, основанном на прогнозе, или множестве средних по частоте / времени образцов поддиапазона в кодирующем устройстве поддиапазона. Данные огибающей обращаются, в свою очередь, к квантованной и кодированной огибающей спектра. В особенности, если более низкий частотный диапазон кодируется с низкой скоростью передачи битов, данные огибающей составляют большую часть битового потока. Следовательно, важно сжато представить огибающую спектра, используя особенно низкие скорости передачи битов.

Репликация спектральной полосы использует инструменты, которые основываются на репликации, например, последовательности гармоник, усеченных во время кодирования. Кроме того, таким образом регулируется огибающая спектра генерированной верхней полосы и применяется обратное фильтрование и добавляются шумовые и гармонические компоненты, чтобы восстановить спектральные характеристики оригинального сигнала. Поэтому вход инструмента SBR включает, например, квантованные данные огибающей, различные управляющие данные, сигнал временной области от основного кодирующего устройства (например, ААС или МРЗ). Выход инструмента SBR - или сигнал временной области, или представление QMF-области (QMF=Квадратурный зеркальный фильтр) сигнала, как, например, в случае, если используется MPEG окружающий инструмент. Описание элементов битового потока для полезной нагрузки SBR может быть найдено в Стандарте ISO/IEC 14496-3:2005, подпункт 4.5.2.8, оно включает, среди других данных, данные расширения SBR, заголовок SBR и указывает число огибающих SBR в пределах SBR фрейма.

Для выполнения SBR на стороне кодирующего устройства анализ выполняется на входном сигнале. Информация, полученная из этого анализа, используется, чтобы выбрать подходящее временное / частотное разрешение данного SBR фрейма. Алгоритм вычисляет границы начального момента времени и конечного момента времени огибающих SBR в данном SBR фрейме, число огибающих SBR, а также их частотное разрешение. Различные частотные разрешения вычисляются, как описано, например, в Стандарте ISO/IEC 144963 в подпункте 4.6.18.3. Алгоритм также вычисляет число минимальных уровней шума для данного SBR фрейма и его границы начального момента времени и конечного момента времени. Границы начального момента времени и конечного момента времени минимальных уровней шума должны быть подмножеством границ начального момента времени и конечного момента времени огибающих спектра. Алгоритм делит данный SBR фрейм на четыре класса:

FIXFIX - и ведущая, и замыкающая временные границы равны номинальным границам SBR-фрейма. Все временные границы огибающей SBR в фрейме однородно распределены во времени. Число огибающих - целочисленная степень двух (1, 2, 4, 8, …).

FIXVAR - ведущая временная граница равняется ведущей номинальной границе фрейма. Замыкающая временная граница является переменной и может быть определена элементами битового потока. Все временные границы огибающей SBR между ведущей и замыкающей временными границами могут быть определены как относительное расстояние в квантах времени до предыдущей границы, начиная с замыкающей временной границы.

VARFIX - ведущая временная граница является переменной и может определяться элементами битового потока. Замыкающая временная граница равняется замыкающей номинальной границе структуры. Все временные границы огибающей SBR между ведущей и замыкающей временными границами определяются в битовом потоке как относительное расстояние в квантах времени до предыдущей границы, начиная с ведущей временной границы.

VARVAR - и ведущая, и замыкающая временные границы являются переменными и могут определяться в битовом потоке. Определяются также все временные границы огибающей SBR между ведущей и замыкающей временными границами. Относительные временные границы, начиная с ведущей временной границы, определяются как относительное расстояние до предыдущей временной границы. Относительные временные границы, начиная с замыкающей временной границы, определяются как относительное расстояние до предыдущей временной границы.

Нет никаких ограничений на переходы классов SBR фрейма, то есть в Стандарте допустима любая последовательность классов. Однако, в соответствии с этим Стандартом, максимальное число огибающих SBR на SBR фрейм ограничено 4 для класса FIXFIX и 5 для класса VARVAR. Классы FIXVAR и VARFIX синтаксически ограничены четырьмя огибающими SBR. Огибающие спектра SBR фрейма оцениваются на временном сегменте и с частотным разрешением, предоставляемыми временной/частотной сеткой. Огибающая SBR оценивается посредством усреднения возведенных в квадрат сложных образцов поддиапазона в данных временных/частотных областях.

Обычно, кратковременные помехи получают в SBR определенную обработку посредством использования определенных огибающих переменных длин. Кратковременные помехи могут определяться частями в пределах обычных сигналов, где сильное увеличение энергии появляется в пределах короткого промежутка времени, который может быть или может не быть ограничен в определенной частотной области. Примеры кратковременных помех - удары кастаньет и ударных инструментов, а также определенные звуки человеческого голоса, как, например, буквы: П, Т, К. Обнаружение такого рода кратковременных помех пока всегда осуществляется таким образом или посредством того же самого алгоритма (использующего переходную пороговую величину), который независим от сигнала, если он классифицируется как речь, или классифицируется как музыка. Кроме того, возможное различие между вокализованной и невокализованной речью не влияет на обычный или классический механизм обнаружения кратковременных помех.

Следовательно, в случае обнаружения кратковременной помехи, SBR-данные должны быть приспособлены так, чтобы декодер мог должным образом копировать обнаруженную кратковременную помеху. В WO 01/26095 устройство и способ раскрываются для кодирования огибающей спектра, которое принимает во внимание обнаруженную кратковременную помеху в звуковом сигнале. В этом традиционном способе неоднородная временная и частотная выборка огибающей спектра достигается посредством адаптивно группирующихся образцов поддиапазона из гребенки фильтров установленного размера в частотных диапазонах и временных сегментах, каждый из которых генерирует один образец огибающей. Соответствующая система устанавливается по умолчанию на долговременные сегменты и высокочастотное разрешение, но около кратковременной помехи используются более короткие временные сегменты, посредством чего могут использоваться большие перепады частот, чтобы поддерживать размер данных в определенных рамках. В случае, если обнаруживается кратковременная помеха, система переключается с FIXFIX фрейма на FIXVAR фрейм, за которым следует VARFIX фрейм таким образом, что граница огибающей устанавливается прямо перед обнаруженной кратковременной помехой. Эта процедура повторяется всякий раз, когда обнаруживается кратковременная помеха.

В случае, если колебание энергии изменяется только медленно, детектор кратковременных помех не обнаружит изменение. Эти изменения могут, однако, быть достаточно сильными, чтобы генерировать заметные артефакты, если не будут обработаны должным образом. Простым решением было бы понижение пороговой величины в детекторе кратковременных помех. Это, однако, привело бы к частому переключению между различными фреймами (FIXFIX на FIXVAR+VARFIX). Как следствие, значительное количество дополнительных данных должно быть передано, подразумевая плохую эффективность кодирования, - особенно, если медленное увеличение происходит за более длительное время (например, на множественных фреймах). Это не приемлемо, так как сигнал не имеет такую сложность, которая оправдала бы более высокую скорость передачи данных, и, следовательно, эта опция не решит проблему.

Задачей данного изобретения, поэтому, является предоставление устройства, которое обеспечит эффективное кодирование без заметных артефактов, особенно для сигналов, включающих медленно изменяющуюся энергию, которая слишком низка, чтобы быть обнаруженной детектором кратковременных помех.

Эта задача достигается устройством по п.1, кодирующим устройством по п.11, способом вычисления числа огибающих спектра по п.13 или способом генерирования потока данных по п.14.

Данное изобретение основывается на обнаружении того, что перцепционное качество переданного звукового сигнала может быть улучшено посредством гибкого регулирования числа огибающих спектра в пределах SBR фрейма в соответствии с данным сигналом. Это достигается сравнением звукового сигнала соседних временных частей в пределах SBR фрейма. Сравнение осуществляется посредством определения распределения энергии для звукового сигнала в пределах временных частей, и порог квантования измеряет отклонение распределений энергии двух соседних временных частей. В зависимости от того, преступает ли порог квантования пороговую величину, граница огибающей располагается между соседними временными частями. Другая граница огибающей может быть или вначале, или в конце SBR фрейма или, альтернативно, также между двумя дальнейшими соседними временными частями в пределах SBR фрейма.

В результате, SBR фрейм не приспосабливается или не изменяется, как, например, в обычном устройстве, где изменение FIXFIX фрейма на FIXVAR фрейм или на VARFIX фрейм выполняется, чтобы обработать кратковременные помехи. Вместо этого осуществления используют переменное число огибающих, например, в пределах FIXFIX фреймов, чтобы принять во внимание переменные колебания звукового сигнала так, чтобы даже медленно изменяющиеся сигналы могли привести к изменению числа огибающих и, к тому же, обеспечить улучшенное звуковое качество, производимое инструментом SBR в декодере. Определенные огибающие могут, например, покрывать части равной продолжительности в пределах SBR фрейма. Например, SBR фрейм может быть разделен на предварительно определенное число временных частей (которое может, например, включить 4, 8 или другую целочисленную степень числа 2).

Распределение спектральной энергии каждой временной части может покрывать только верхний частотный диапазон, который копируется SBR. С другой стороны, распределение спектральной энергии может также быть связано с целым частотным диапазоном (верхним и нижним), где верхний частотный диапазон может быть или не быть взвешен больше, чем нижний частотный диапазон. В соответствии с этой процедурой уже одного нарушения пороговой величины может быть достаточно, чтобы увеличить число огибающих, или чтобы использовать максимальное число огибающих в пределах SBR фрейма.

Дальнейшие осуществления могут также включать инструмент классификатора сигнала, который анализирует оригинальный входной сигнал и генерирует из него управляющую информацию, которая запускает выбор различных кодирующих режимов. Различные кодирующие режимы могут, например, включать речевое кодирующее устройство и обычное звуковое кодирующее устройство. Анализ входного сигнала зависит от исполнения с целью выбрать оптимальный основной кодирующий режим для данного фрейма входного сигнала. Оптимальный вариант связан с балансированием перцепционного высокого качества при использовании только низкой скорости передачи битов для кодирования. Входом инструмента классификатора сигнала может быть оригинальный неизмененный входной сигнал и/или дополнительные зависимые от исполнения параметры. Выходом инструмента классификатора сигнала может, например, быть управляющий сигнал для управления выбором основного кодер-декодера.

Если, например, сигнал идентифицирован или классифицирован как речь, времениподобное разрешение расширения полосы пропускания (BWE) может быть увеличено (например, большим количеством огибающих) так, чтобы времениподобное колебание энергии (медленно или сильно колеблющееся) могло лучше приниматься во внимание.

Этот подход принимает во внимание то, что различные сигналы с различными временными/частотными характеристиками имеют различные требования относительно характеристик расширения полосы пропускания. Например, сигналы кратковременных помех (появляющиеся, например, в речевых сигналах) нуждаются в высоком временном разрешении BWE, частота разделения (которая означает верхнюю частотную границу основного кодирующего устройства) должна быть насколько возможно высокой. Особенно в вокализованной речи искаженная временная структура может снизить качество восприятия. С другой стороны, тональные сигналы часто нуждаются в устойчивом воспроизведении спектральных компонентов и согласованного гармонического рисунка воспроизведенных высокочастотных частей. Устойчивое воспроизведение тональных частей ограничивает полосу пропускания основного кодирующего устройства - оно не нуждается в BWE с высоким временным разрешением, но вместо этого с более высоким спектральным разрешением. В проекте, обеспечивающем переключение основного кодирующего устройства с речи на звук, кроме того, возможно использовать решение основного кодирующего устройства, чтобы приспособить как временные, так и спектральные характеристики ВWE, а также, чтобы приспособить полосу пропускания основного кодирующего устройства к характеристикам сигнала.

Если все огибающие включают ту же самую продолжительность, зависящую от обнаруженного нарушения (в какой-то момент времени), число огибающих может отличаться от фрейма к фрейму. Осуществления определяют число огибающих для SBR фрейма, например, следующим образом. Можно начать с разделения максимально возможного числа огибающих (например, 8) и постепенно сократить число огибающих так, чтобы в зависимости от входного сигнала не использовалось больше огибающих, чем необходимо, чтобы обеспечить воспроизведение сигнала в перцепционно высоком качестве.

Например, нарушение, обнаруженное уже на первой границе временных частей в пределах фрейма, может дать в результате максимальное число огибающих, тогда как нарушение, обнаруженное только на второй границе, может дать в результате половину максимального числа огибающих. Чтобы уменьшить количество данных, подлежащих передаче, в дальнейших осуществлениях пороговая величина может зависеть от момента времени (то есть в зависимости от того, какая граница в настоящее время анализируется). Например, между первой и второй временными частями (первая граница) и между третьей и четвертой временными части (третья граница) пороговая величина в обоих случаях может быть выше, чем между второй и третьей временными частями (вторая граница). Таким образом, статистически будет больше нарушений на второй границе, чем на первой или третьей границе, и, следовательно, более вероятно, меньше огибающих, что было бы предпочтительнее (более детально см. ниже).

В дальнейших осуществлениях продолжительность временной части предварительно определенного числа последующих временных частей равна минимальной продолжительности, для которой определяется единственная огибающая, и в которой вычислитель порога квантования приспосабливается, чтобы вычислять порог квантования для двух соседних временных частей, имеющих минимальную продолжительность.

Дальнейшие осуществления включают информационный процессор для предоставления дополнительной информации; дополнительная информация включает первую границу огибающей и вторую границу огибающей в пределах временной последовательности звукового сигнала. В дальнейших осуществлениях детектор приспосабливается, чтобы исследовать во временной последовательности каждую границу между соседними временными частями.

Осуществления также используют устройство для вычисления числа огибающих в пределах кодирующего устройства. Кодирующее устройство включает устройство для вычисления числа огибающих спектра, а вычислитель огибающих использует это число, чтобы вычислять данные огибающей спектра для SBR фрейма. Осуществления также включают способ вычисления числа огибающих и способ кодирования звукового сигнала.

Поэтому использование огибающих в пределах FIXFIX фрейма направлено на обеспечение улучшенного моделирования колебания энергии, которое не покрывается указанными обработками кратковременных помех, так как они слишком медленные, чтобы быть обнаруженными как кратковременные помехи или быть классифицированными как кратковременные помехи. С другой стороны, они достаточно быстрые, чтобы вызвать появление артефактов, если их не обрабатывать должным образом, из-за недостаточного времени подобного разрешения. Поэтому обработка огибающих, согласно данному изобретению, принимает во внимание медленно изменяющиеся колебания энергии, а не только сильные или быстрые колебания энергии, которые характерны для кратковременных помех. Следовательно, осуществления данного изобретения обеспечивают более эффективное кодирование в лучшем качестве, специально для сигналов с медленно изменяющейся энергией, интенсивность колебаний которой слишком низкая, чтобы быть обнаруженной обычными детекторами кратковременных помех.

Краткое описание чертежей

Данное изобретение будет теперь описано и проиллюстрировано примерами. Характерные черты изобретения будут легко оценены и лучше поняты со ссылкой на следующее детальное описание, которое следует рассматривать со ссылкой на сопровождающие чертежи, на которых:

Фиг.1 показывает блок-схему устройства для вычисления числа огибающих спектра согласно осуществлениям данного изобретения;

Фиг.2 показывает блок-схему модуля SBR, включающего вычислитель числа огибающих;

Фиг.3A и 3B показывают блок-схемы кодирующего устройства, включающего вычислитель числа огибающих;

Фиг.4 иллюстрирует разделение SBR фрейма на предварительно определенное число временных частей;

Фиг.5a-5c показывают дальнейшее разделение SBR фрейма, включающего три огибающих, покрывающих различные числа временных частей;

Фиг.6A и 6B иллюстрируют распределение спектральной энергии для сигналов в пределах соседних временных частей; и

Фиг.7A-7C показывают кодирующее устройство, включающее дополнительное переключение звук/речь, вызывающее различное временное разрешение звукового сигнала.

Детальное описание изобретения

Осуществления, описанные ниже, просто иллюстрируют принцип данного изобретения для улучшения репликации спектральной полосы, например, используемой в звуковом кодирующем устройстве. Подразумевается, что модификации и изменения расположения и деталей, описанных здесь, будут очевидны для специалистов, квалифицированных в этой области. Поэтому цель состоит в том, чтобы не ограничиваться конкретными деталями, представленными здесь посредством описания и объяснения осуществлений.

Фиг.1 показывает устройство 100 для вычисления числа 102 огибающих спектра 104. Огибающие спектра 104 получены посредством кодирующего устройства для репликации спектральной полосы, где кодирующее устройство приспособлено, чтобы кодировать звуковой сигнал 105, используя множество выборочных значений в пределах предварительно определенного числа последующих временных частей 110 в фрейме репликации спектральной полосы (SBR фрейм), простирающийся от начального момента времени t0 до конечного момента времени tn. Предварительно определенное число последующих временных частей 110 расположено во временной последовательности, обусловленной звуковым сигналом 105.

Устройство 100 включает вычислитель порога квантования 120 для определения порога квантования 125, где порог квантования 125 измеряет отклонение в распределениях спектральной энергии пары соседних временных частей. Устройство 100 далее включает детектор нарушения 130 для обнаружения нарушения 135 пороговой величины посредством порога квантования 125. Кроме того, устройство 100 включает процессор 140 (процессор, определяющий первую границу) для определения первой границы огибающей 145 между парой соседних временных частей, когда обнаружено нарушение 135 пороговой величины. Устройство 100 также включает процессор 150 (процессор, определяющий вторую границу) для определения второй границы огибающей 155 между другой парой соседних временных частей или в начальный момент времени t0 или конечный момент времени tn для огибающей 104, имеющей первую границу огибающей 145, основанную на нарушении 135 пороговой величины для другой пары, или основанную на временном положении пары или другой пары в SBR фрейме. Наконец, устройство 100 включает процессор 160 (процессор числа огибающих) для определения числа 102 огибающих спектра 104, имеющих первую границу огибающей 145 и вторую границу огибающей 155.

Дальнейшие осуществления включают устройство 100, в котором продолжительность временной части предварительно определенного числа последующей временной части 110 равна минимальной продолжительности, для которой определяется единственная огибающая 104. Кроме того, вычислитель порога квантования 120 приспособлен для вычисления порога квантования 125 для двух соседних временных частей, имеющих минимальную продолжительность.

Фиг.2 показывает осуществление для инструмента SBR, включающего вычислитель числа огибающих 100 (показанный на фиг.1), который определяет число 102 огибающих спектра 104 посредством обработки звукового сигнала 105. Число 102 вводится в вычислитель огибающих 210, который вычисляет данные огибающей 205 звукового сигнала 105. Используя число 102, вычислитель огибающих 210 разделит SBR фрейм на части, покрываемые огибающей спектра 104, и для каждой огибающей спектра 104 вычислитель огибающих 210 вычисляет данные огибающей 205. Данные огибающей включают, например, квантованную и кодированную огибающие спектра, и эти данные необходимы на стороне декодера для генерирования сигнала высокой полосы и применения обратного фильтрования, добавления шумовых и гармонических компонентов для репликации спектральных характеристик оригинального сигнала.

Фиг.3A показывает осуществление кодирующего устройства 300; кодирующее устройство 300 включает связанные с SBR модули 310, анализирующий блок QMF 320, субдискретизатор 330, основное кодирующее устройство ААС 340 и форматер полезной нагрузки битового потока 350. Кроме того, кодирующее устройство 300 включает вычислитель данных огибающей 210. Кодирующее устройство 300 включает вход для образцов РСМ (звуковой сигнал 105; РСМ=кодово-импульсная модуляция), который соединен с анализирующим блоком QMF 320, и с SBR-связанными модулями 310, и с субдискретизатор 330. Анализирующий блок QMF 320, в свою очередь, соединен с вычислителем данных огибающей 210, который, в свою очередь, соединен с форматером полезной нагрузки битового потока 350. Субдискретизатор 330 соединен с основным кодирующим устройством ААС 340, который, в свою очередь, соединен с форматером полезной нагрузки битового потока 350. Наконец, SBR-связанный модуль 310 соединен с вычислителем данных огибающей 210 и с основным кодирующим устройством ААС 340.

Поэтому кодирующее устройство 300 субдискретизирует звуковой сигнал 105, чтобы генерировать компоненты в основном частотном диапазоне (в субдискретизаторе 330), которые вводятся в основное кодирующее устройство ААС 340, которое кодирует звуковой сигнал в основном диапазоне частот и передает закодированный сигнал к форматеру полезной нагрузки битового потока 350, в котором кодируемый звуковой сигнал основного частотного диапазона добавляется к закодированному звуковому потоку 355. С другой стороны, звуковой сигнал 105 анализируется анализирующим блоком QMF 320, который извлекает частотные компоненты высокочастотного диапазона и вводит эти сигналы в вычислитель данных огибающей 210. Например, блок QMF с 64 поддиапазонами 320 выполняют поддиапазоновое фильтрование входного сигнала. Выход из гребенки фильтров (то есть образцы поддиапазона) является комплекснозначным и, таким образом, супердискретизированным множителем, равным двум, по сравнению со стандартным блоком QMF.

SBR-связанные модули 310 управляют вычислителем данных огибающей 210 посредством предоставления, например, числа 102 огибающих 104 вычислителю данных огибающей 210. Используя число 102 и звуковые компоненты, генерированные анализирующим блоком QMF 320, вычислитель данных огибающей 210 вычисляет данные огибающей 205 и передает данные огибающей 205 форматеру полезной нагрузки битового потока 350, который объединяет данные огибающей 205 с компонентами, закодированными основным кодирующим устройством 340, в закодированном звуковом потоке 355.

Фиг.3A показывает, поэтому, часть кодирующего устройства инструмента SBR, оценивающего несколько параметров, используемых в высокочастотном восстановлении в декодере.

Фиг.3B показывает пример SBR-связанного модуля 310, который включает вычислитель числа огибающих 100 (показанный на фиг.1) и дополнительно другие модули SBR 360. SBR-связанные модули 310 получают звуковой сигнал 105 и производят число 102 огибающих 104, но также и другие данные, генерированные другими модулями SBR 360.

Другие модули SBR 360 могут, например, включать обычный детектор кратковременных помех, приспособленный для обнаружения кратковременных помех в звуковом сигнале 105, и могут также получать число и/или положения огибающих так, чтобы модули SBR могли или не могли вычислить часть параметров, используемых способом высокочастотного восстановления в декодере (параметр SBR).

Как было сказано выше, в пределах SBR единица времени SBR (SBR фрейм) может быть разделена на различные блоки данных, так называемые огибающие. Если это подразделение или разделение однородно, то есть если все огибающие 104 имеют тот же самый размер, и первая огибающая начинается, а последняя огибающая заканчивается границей структуры, SBR фрейм определяется как FIXFIX фрейм.

Фиг.4 иллюстрирует такое разделение для SBR фрейма на число 102 огибающих спектра 104. SBR фрейм покрывает промежуток времени между начальным моментом времени t0 и конечным моментом времени tn и, в осуществлении, показанном на фиг.4, разделяется на 8 временных частей: первая временная часть 111, вторая временная часть 112, …, седьмая временная часть 117 и восьмая временная часть 118. Восемь временных частей 110 разделены 7-ю границами; это означает, что граница 1 является промежуточной между первой и второй временными частями 111, 112, граница 2 расположена между второй частью 112 и третьей частью 113, и так далее до границы 7, являющейся промежуточной между седьмой частью 117 и восьмой частью 118.

В Стандарте ISO/IEC 14496-3 максимальное число огибающих 104 в FIXFIX фрейме ограничено четырьмя (см. подраздел 4, параграф 4.6.18.3.6). В общем, число огибающих 104 в FIXFIX фрейме может быть степенью двух (например, 1, 2, 4), где FIXFIX фреймы используются только, если в том же самом фрейме не были обнаружены никакие кратковременные помехи. В традиционных выполнениях высокоэффективных кодирующих устройств ААС, с другой стороны, максимальное число огибающих 104 ограничено двумя, даже если спецификация стандарта теоретически позволяет иметь до четырех огибающих. Это число огибающих 104 на фрейм может быть увеличено, например, до восьми (см. фиг.4), так, чтобы FIXFIX фрейм мог включать 1, 2, 4 или 8 огибающих (или другую степень 2). Конечно, возможно любое другое такое число 102 огибающих 104, чтобы максимальное число огибающих 104 (предварительно определенное число) могло быть ограничено только временным разрешением гребенки фильтров QMF, которая имеет 32 кванта времени QMF на SBR фрейм.

Число 102 огибающих 104 может, например, вычисляться следующим образом. Вычислитель порога квантования 120 измеряет отклонения в распределениях спектральной энергии пар соседних временных частей 110. Например, это означает, что вычислитель порога квантования 120 вычисляет распределение первой спектральной энергии для первой временной части 111, вычисляет распределение второй спектральной энергии из спектральных данных в пределах второй временной части 112, и так далее. Затем, сравнивается распределение первой спектральной энергии и распределение второй спектральной энергии, и из этого сравнения получается порог квантования 125, где порог квантования 125 относится, в этом примере, к границе 1 между первой временной частью 111 и второй временной частью 112. Та же самая процедура может быть применена к второй временной части 112 и к третьей временной части 113 так, чтобы для этих двух соседних временных частей также были получены два распределения спектральной энергии, и эти два распределения спектральной энергии, в свою очередь, сравниваются вычислителем порога квантования 120 для получения дальнейшего порога квантования 125.

В качестве следующего шага, детектор 130 будет сравнивать полученные пороги квантования 125 с пороговой величиной, и если пороговая величина нарушается, то детектор 130 обнаружит нарушение 135. Если детектор 130 обнаруживает нарушение 135, процессор 140 определяет первую границу огибающей 145. Например, если детектор 130 обнаруживает нарушение на границе 1 между первой временной частью 111 и второй временной частью 112, первая граница огибающей 145a располагается на протяжении границы 1.

На фиг.4 осуществление, в котором допустимы только несколько возможностей для гранул/границ, это означало бы, что процесс закончен полностью, и все границы установлены, как обозначено маленькими огибающими, обозначенными цифрами 104a, 104b. В этом случае границы были бы на всех временных моментах 0, 1, 2, …, n.

Когда, однако, первая граница должна быть установлена, например, на момент времени 4, тогда должен быть произведен поиск второй границы. Как обозначено на фиг.4, вторая граница могла быть на 3, 2, 0. В случае, когда граница находится на 3, процедура закончена полностью, так как установлены наименьшие огибающие 104а, 104b. В случае, когда граница находится на 2, поиск должен быть продолжен, так как еще нет уверенности в том, что могут быть использованы средние огибающие (обозначены цифрой 145а). Даже в случае нахождения границы на 0 еще не определено, что во второй половине, то есть между 4 и n, нет границы. Если во второй половине нет границы, тогда могут быть установлены самые широкие огибающие. Если есть граница, например, на 5, тогда должны использоваться наименьшие огибающие. Если есть граница только на 6, то используются средние огибающие.

Однако, когда допускается полностью гибкий или более гибкий рисунок для огибающих, процедура продолжается, когда была определена первая граница на 1. Тогда процессор 150 определяет вторую границу огибающей 155, которая находится или между другой парой соседних временных частей, или совпадает с начальным моментом времени t0 или конечным моментом времени tn. В осуществлениях, как показано на фиг.4, вторая граница огибающей 155а совпадает с начальным моментом времени t0 (давая в результате первую огибающую 104а), и другая вторая граница огибающей 155b совпадает с границей 2 между второй временной частью 112 и третьей временной частью 113 (давая в результате вторую огибающую 104b). Если не обнаружено никакое нарушение на границе 1 между первой временной частью 111 и второй временной частью 112, то детектор 130 продолжит исследовать границу 2 между второй временной частью 112 и третьей временной частью 113. Если есть нарушение, другая огибающая 104с простирается от начального момента t0 до границы 2.

Согласно осуществлениям изобретения для пары соседних огибающих указанный порог квантования 125 измеряет отклонение распределений спектральной энергии, где каждое распределение спектральной энергии относится к части звукового сигнала в пределах временной части. В примере с 8-ю огибающими имеется в сумме 7 измерений (=7 границ между соседними временными частями) или, в общем, если имеется n огибающих, то имеется n-1 измерений (пороги квантования 125). Каждый из этих порогов квантования 125 может тогда сравниваться с пороговой величиной, и если порог квантования 125 (мера) преступает пороговую величину, то граница огибающей будет расположена между двумя соседними огибающими. В зависимости от определения порога квантования 125 и пороговой величины нарушение может состоять в том, что порог квантования 125 либо выше, либо ниже пороговой величины. В случае, если порог квантования 125 ниже пороговой величины, спектральное распределение может не сильно изменяется от огибающей к огибающей. Следовательно, в этом положении (=момент времени) может не потребоваться никакая граница огибающей.

В предпочтите