Устройство и способ окончательной обработки спектральных значений и кодирующее устройство и декодер для аудиосигналов

Иллюстрации

Показать все

Изобретение относится к звуковому кодированию/декодированию, в частности к концепциям масштабируемого кодирования/декодирования, имеющим базовый слой и слой расширения. Для постобработки спектральных величин, основанных на первом алгоритме преобразования, для конвертирования звукового сигнала в спектральное представление создают последовательность блоков спектральных величин, представляющих последовательность блоков образцов звукового сигнала. Затем выполняется взвешенное добавление спектральных величин последовательности блоков спектральных величин для получения последовательности блоков постобработанных спектральных величин, где комбинация выполняется таким образом, что для вычисления постобработанной спектральной величины для частотного диапазона и периода времени используется спектральная величина последовательности блоков для частотного диапазона и периода времени и спектральная величина для другого частотного диапазона или другого периода времени, где далее комбинация выполняется таким образом, что используют такие весовые коэффициенты, что постобработанные спектральные величины являются приближением к спектральным величинам, полученным посредством конвертирования звукового сигнала в спектральное представление с использованием второго алгоритма преобразования, который отличается от первого алгоритма преобразования. Постобработанные спектральные величины, в частности, используются для формирования разности в пределах масштабируемого кодера или для добавления в пределах масштабируемого декодера. Технический результат - создание эффективной концепции обработки звуковых данных, в особенности кодирования или декодирования звуковых данных. 8 н. и 21 з.п. ф-лы, 14 ил.

Реферат

Область техники, к которой относится изобретение:

Изобретение имеет отношение к звуковому кодированию/расшифровке, в частности к концепциям масштабируемого кодирования/расшифровки, имеющим базовый слой и слой растяжения.

Описание уровня техники

Звуковые кодеры/декодеры известны уже давно. В частности, звуковые кодеры/декодеры, работающие согласно стандарту ISO/TEC 11172-3 (этот стандарт так же известен как МР3 стандарт), рассматриваются как преобразующие кодеры. Такой МР3 кодер получает последовательность временной выборки в качестве входного сигнала, который управляется окнами. Управление окнами приводит к появлению последовательных блоков временной выборки, которые затем преобразуются в спектральное отображение блока за блоком. Согласно МР3 стандарту здесь преобразование выполняется при помощи так называемого блока гибридных фильтров. Первая ступень блока гибридных фильтров - это блок фильтров, имеющий 32 канала, чтобы генерировать 32 поддиапазонных сигнала. Поддиапазонные фильтры этой первой ступени включают наложенные полосы пропускания, поэтому это фильтрование предрасположено к совмещению имен. Вторая ступень - MDCT (модифицированное дискретное косинусное преобразование) ступень для разделения 32 поддиапазонных сигналов на 576 спектральных величин. Потом спектральные величины квантируются с учетом психоакустической модели и впоследствии кодируются по методу Хаффмана для того, чтобы в конечном итоге получить последовательность битов, включающую поток кодовых слов Хаффмана и побочную информацию, необходимую для расшифровки.

На стороне декодера кодовые слова Хаффмана обратно переводятся в индексы квантования. Реквантизация приводит к получению спектральных величин, которые затем поступают в блок гибридных синтезирующих фильтров, который является внедренным аналогом блока анализирующих фильтров для получения блоков временной выборки кодированного и снова расшифрованного звукового сигнала. Все ступени на стороне кодера и декодера представлены в МР3 стандарте. Что касается терминологии, в дальнейшем ссылка также будет сделана на «инверсионное квантование». Хотя квантование не является обратимым, поскольку оно приводит к невосполнимой потере данных, выражение «инверсионное квантование» часто используется для указания на проводившуюся ранее реквантизацию.

Звуковой алгоритм кодера/декодера, называемый ААС (перспективное звуковое кодирование), известен в этой области техники. Такой кодер, стандартизированный в международном стандарте ISO/TEC 13818-7, работает на основе временных выборок звукового сигнала. Временные выборки звукового сигнала снова подвергаются управлению окнами для получения последовательных блоков оконных временных выборок. В отличие от МР3 кодера, в котором используется блок гибридных фильтров, в ААС кодере выполняется одно единственное MDCT преобразование для получения последовательности блоков MDCT спектральных величин. Эти MDCT спектральные величины затем снова квантуются на основе психоакустической модели, и квантованные спектральные величины в конечном итоге кодируются по методу Хаффмана. На стороне декодера процесс соответствующий. Кодовые слова Хаффмана расшифровываются, и индексы квантования или квантованные спектральные величины, полученные таким образом, затем реквантуются или инверсионно квантуются, чтобы в конечном итоге получить спектральные величины, которые могут быть переданы в MDCT блок синтезирующих фильтров для того, чтобы снова получить окончательные временные выборки кодера/декодера.

Оба метода работают с наложенными блоками и адаптивными оконными функциями, как описано в экспертной публикации «Кодирование звуковых сигналов с наложенным преобразованием и адаптивными оконными функциями», Бернд Эдлер, Фриквенц, том 43, 1989 г., стр.252-256.

В частности, когда транзитные области определены в звуковом сигнале, происходит переключение с длинных оконных функций на короткие оконные функции для того, чтобы получить сниженное частотное разрешение для лучшего временного разрешения. Последовательность коротких окон вводится стартовым окном, и последовательность коротких окон завершается окном остановки. Таким образом, может быть получен сплошной монтажный переход между наложенными длинными оконными функциями и наложенными короткими оконными функциями. В зависимости от реализации область наложения с короткими окнами меньше, чем область наложения с длинными окнами, что вполне обоснованно с учетом того факта, что части переходного сигнала присутствуют в звуковом сигнале, однако не всегда. Таким образом, последовательности коротких окон, так же как и последовательности длинных окон, могут реализовываться с наложением в 50%. В частности, в случае коротких окон, однако, для улучшения кодирования частей переходного сигнала может быть выбрана уменьшенная ширина наложения, например, 10% или меньше вместо 50%.

Как в МР3 стандарте, так и в ААС стандарте управление окнами осуществляется длинными и короткими окнами, а стартовые окна и окна остановки соответственно масштабируются таким образом, что, в общем, всегда может сохраняться тот же самый блочный растр. Для МР3 стандарта это означает, что для каждого длинного блока генерируется 576 спектральных величин и что три коротких блока соответствуют одному длинному блоку. Это означает, что один короткий блок генерирует 192 спектральные величины. При наложении 50% для управления окнами используется длина окна в 1152 временные выборки, так как из-за наложения и добавления 50% наложения два блока временных выборок всегда ведут к образованию одного блока спектральных величин.

Как в случае МР3 кодеров, так и в случае ААС кодеров имеет место необратимое сжатие. Потери вводятся квантованием имеющихся спектральных величин. Спектральные величины, в частности, квантуются так, что искажения, создаваемые квантованием, также рассматриваемые как шум квантования, имеют мощность ниже психоакустического порога маскирования.

Чем грубее звуковой сигнал квантуется, например чем больше размер шага квантизатора, тем выше шум квантования. С другой стороны, однако, для более грубого квантования более мелкий набор выходных величин квантизатора должен рассматриваться, так что величины, квантованные грубее, могут быть энтропийно закодированы с использованием меньшего количества битов. Это означает, что более грубое квантование ведет к более высокому сжатию данных, однако одновременно ведет к более высоким потерям сигнала.

Эти потери сигнала не являются проблемой, если они ниже порога маскирования. Если психоакустический порог маскирования превышен незначительно, это может не вызвать звуковых помех, заметных для неподготовленного слушателя. Как бы то ни было, имеет место потеря информации, которая может быть нежелательной, например, благодаря артефактам, которые могут быть различимы в определенных ситуациях.

В частности, в случае широкополосных информационных соединений, или когда скорость передачи данных не является параметром, имеющим решающее значение, или когда имеются и широкополосные, и узкополосные сети передачи данных, может быть желательным иметь сжатое представление звукового сигнала не с потерей информации, а без потери или почти без потери.

Такой масштабируемый кодер, схематически показанный на фиг.7, и связанный декодер, схематически показанный на фиг.8, известны благодаря экспертной публикации «INTMDCT - связь между перцепционным звуковым кодированием и звуковым кодированием без потерь», Ральф Гейгер, Юрген Гере, Юрген Колер, Карлхейнц Бранденбург, Международная конференция по акустической обработке речи и сигналов (ICASSP), 13-17 мая 2002 г., Орландо, Флорида. Подобная технология описана в Европейском патенте ЕР 1495464 В1. Элементы 71, 72, 73, 74 иллюстрируют ААС кодер для генерирования потока битов, закодированных с потерей информации, называемого «перцепционно закодированный поток битов», на фиг.7. Этот поток битов представляет собой базовый слой. В частности, блок 71 на фиг.7 обозначает блок анализирующих фильтров, включающий управление длинными и короткими окнами согласно ААС стандарту. Блок 73 представляет квантование/кодирование согласно ААС стандарту, а блок 74 представляет генерирование потока битов таким образом, что поток битов на стороне выхода не только включает кодовые слова Хаффмана квантованных спектральных величин, но также необходимую дополнительную информацию, такую как масштабные коэффициенты и т.д., чтобы могла быть осуществлена расшифровка. Квантование с потерей информации в блоке 73 контролируется психоакустической моделью, описанной как «перцепционная модель» 72 на фиг.7.

Как уже было указано, выходной сигнал блока 74 является базовым масштабируемым слоем, требующим относительно небольшого количества битов, и является, однако, только отображением оригинального звукового сигнала с потерей информации и может включать в себя артефакты кодера. Блоки 75, 76, 77, 78 представляют дополнительные элементы, необходимые для генерирования расширенного потока битов без потерь или фактически без потерь, как показано на фиг.7. В частности, оригинальный звуковой сигнал подвергается целочисловому MDCT (IntMDCT) на входе 70, как показано на блоке 75. Далее, квантованные спектральные величины, генерированные блоком 73, в который уже введены потери кодера, подвергаются инверсионному квантованию и последующему округлению для получения округленных спектральных величин. Они подаются в формирователь разности 77, создающий спектрально-числовую разность, которая затем подвергается энтропийному кодированию в блоке 78 для генерирования расширенного потока битов без потерь масштабируемой схемы на фиг.7. Спектр дифференциальных величин на выходе блока 77, таким образом, представляет собой искажение, введенное психоакустическим квантованием в блоке 73.

На стороне декодера закодированный с потерей поток битов или перцепционно закодированный поток битов подается декодеру потока битов 81. На стороне выхода блок 81 создает последовательность блоков квантованных спектральных величин, которые затем подвергаются инверсионному квантованию в блоке 82. На выходе блока 82 присутствуют инверсионно квантованные спектральные величины, которые теперь, в отличие от величин на входе блока 82, больше не представляют собой индексы квантизатора, но которые являются теперь, так сказать, «правильными» спектральными величинами, которые, однако, отличаются от спектральных величин до кодирования в блоке 73 фиг.7 из-за квантования с потерями. Эти квантованные спектральные величины теперь подаются в блок синтезирующих фильтров или инверсионного MDCT преобразования (инверсионный MDCT) соответственно в блоке 83 для получения психоакустически закодированного и снова расшифрованного звукового сигнала (перцепционный звук), который отличается от оригинального звукового сигнала на входе 70 фиг.7 из-за ошибок кодирования, введенных кодером фиг.7. С целью не только получить сжатие с потерями, но даже сжатие без потерь звуковой сигнал блока 82 поступает на округление в блоке 84. В сумматоре 85 теперь округленные, инверсионно квантованные спектральные величины добавляются к дифференциальным величинам, генерированным формирователем разности 77, где в блоке 86 выполняется энтропийная расшифровка, для расшифровки энтропийных кодовых слов, находящихся в расширенном потоке битов, содержащем информацию без потерь или фактически без потерь.

На выходе блока 85 IntMDCT, таким образом, присутствуют спектральные величины, которые в лучшем случае идентичны MDCT спектральным величинам на выходе блока 75 кодера фиг.7. Они же затем подвергаются инверсионному целочисловому MDCT (инверсионный IntMDCT) для получения закодированного звукового сигнала без потерь или звукового сигнала фактически без потерь (звук без потерь) на выходе блока 87.

Целочисловое MDCT (IntMDCT) является приближением MDCT, однако производит целочисловые выходные величины. Оно получено из MDCT с использованием подъемной схемы. Это работает, в частности, когда MDCT разделен на так называемые повороты Гивенса. Тогда двухступенчатый алгоритм с поворотами Гивенса и последующий DCT-IV результируют как целочисловое MDCT на стороне кодера и с DCT-IV и расположенными ниже несколькими поворотами Гивенса на стороне декодера. В схеме фиг.7 и фиг.8, таким образом, используется квантованный спектр MDCT, генерированный в ААС кодере, чтобы утвердить целочисловой MDCT спектр. Вообще целочисловое MDCT является, таким образом, примером целочислового преобразования, производящего целочисловые спектральные величины и снова временные выборки из целочисловых спектральных величин без потерь, введенных при помощи округления ошибок. Другие целочисловые преобразования существуют отдельно от целочислового MDCT.

Схема масштабирования, показанная на фиг.7 и 8, достаточно эффективна, только когда разности на выходе формирователя разностей 77 являются незначительными. На схеме фиг.7 показан такой случай, так как MDCT и целочисловое MDCT одинаковы и так как IntMDCT в блоке 75 получен из MDCT в блоке 71. Если бы это было не так, схема, показанная там, была бы неподходящей, поскольку тогда дифференциальные величины были бы во многих случаях больше, чем оригинальные величины MDCT, или еще больше, чем оригинальные величины IntMDCT. Тогда схема масштабирования на фиг.7 потеряла бы свою ценность, поскольку расширенный масштабируемый слой, произведенный блоком 78, имеет высокую избыточность относительно основного масштабируемого слоя.

Схемы масштабируемости всегда оптимальны, когда базовый слой включает некоторое число битов, и когда слой расширения включает некоторое число битов, и когда сумма битов в базовом слое и в слое расширения равна числу битов, которые были бы получены, если бы базовый слой уже был кодирован без потерь. Этот оптимальный случай никогда не достигается в практических схемах масштабируемости, что касается слоя расширения, требуются дополнительные сигнальные биты. Этот оптимум, однако, является целью для достижения, насколько это возможно. Поскольку преобразования в блоках 71 и 75 относительно одинаковы на фиг.7, концепция, проиллюстрированная на фиг.7, близка к оптимуму.

Эта простая концепция масштабируемости может, однако, не совсем так применяться к выходному сигналу кодера МР3, поскольку кодер МР3, как было показано, включает не чистый блок фильтров MDCT в качестве блока фильтров, а блок гибридных фильтров, имеющий первую ступень блока фильтров для генерирования различных поддиапазонных сигналов и расположенный ниже MDCT для дальнейшего разрушения поддиапазонных сигналов, где, кроме того, как тоже было указано в стандарте МР3, реализована дополнительная стадия отмены совмещения имен блока гибридных фильтров. Так как целочисловое MDCT в блоке 75 фиг.7 имеет мало общих черт с блоком гибридных фильтров согласно стандарту МР3, прямое применение концепции, показанной на фиг.7, к выходному сигналу МР3 привело бы к очень высоким диффрененциальным величинам на выходе формирователя разностей 77, которые привели бы к чрезвычайно неэффективной концепции масштабирования, поскольку слой расширения требует слишком большого количества битов, чтобы должным образом закодировать дифференциальные величины на выходе формирователя разностей 77.

Возможность генерировать расширенный поток битов для выходного сигнала МР3 показана на фиг.9 для кодера и на фиг.10 для декодера. Кодер МР3 90 кодирует звуковой сигнал и обеспечивает базовый слой 91 на выходной стороне. Закодированный звуковой сигнал МР3 затем передается декодеру МР3 92, обеспечивающему звуковой сигнал с потерями во временном диапазоне. Этот сигнал затем передается IntMDCT блоку, который может, в принципе, быть установлен точно так же, как блок 75 на фиг.7, где этот блок 75 затем производит IntMDCT спектральные величины на выходной стороне, которые передаются формирователю разностей 77, который также включает спектральные величины IntMDCT как дальнейшие входные величины, которые были, однако, генерированы не расшифрованным МР3 звуковым сигналом, а оригинальным звуковым сигналом, который был передан кодеру МР3 90.

На стороне декодера базовый слой снова передается декодеру МР3 92, чтобы обеспечить расшифрованный звуковой сигнал с потерями на выходе 100, который соответствовал бы сигналу на выходе блока 83 на фиг.8. Этот сигнал затем должен быть подвергнут целочисловому MDCT 75, чтобы потом быть закодированным вместе со слоем расширения 93, который был генерирован на выходе формирователя разностей 77. Спектр без потерь затем будет присутствовать на выходе 101 сумматора 102 и должен быть преобразован посредством инверсионного IntMDCT 103 во временном диапазоне для получения расшифрованных звуковых сигналов без потерь, которые соответствовали бы «звуку без потерь» в начале блока 87 фиг.8.

Концепция, показанная на фиг.9 и фиг.10, которая обеспечивает относительно эффективно закодированный слой расширения, точно такой же, как концепция, показанная на фиг.7 и 8, является дорогостоящей как на стороне кодера (фиг.9), так и на стороне декодера (фиг.10). В отличие от концепции на фиг.7 требуется полный декодер МР3 92 и дополнительный IntMDCT 75.

Другим недостатком этой схемы является то, что должен быть описан точный битовый декодер МР3. Это, однако, не планировалось, поскольку стандарт МР3 не представляет точных битовых спецификаций, но только должен быть выполнен декодером в рамках «соответствия».

На стороне декодера далее требуется полная дополнительная стадия IntMDCT 75. Оба дополнительных элемента вызывают дополнительные расходы и являются невыгодными, в особенности для использования в мобильных устройствах, как относительно расходования чипа, так и относительно потребления тока, а также относительно связанной с этим задержки.

Подводя итог, преимуществами концепции, проиллюстрированной на фиг.7 и фиг.8, является то, что по сравнению с методами временного интервала не требуется полной расшифровки адаптированного к звуку закодированного сигнала, и то, что эффективное кодирование получено путем представления ошибки квантования в частотном диапазоне для дополнительной кодировки. Таким образом, метод, стандартизированный ISO/IEC, MPEG-4 Масштабируемое кодирование без потерь (SLS) использует этот подход, как описано в работе Р.Гейгера, Р.Ю, Дж.Херре, С.Рахарджа, С.Кима, X.Лина, М.Шмидта, «ISO/IEC MPEG-4 масштабируемое перспективное звуковое кодирование высокой четкости", 120-ое собрание AES, 20-23 мая, 2006 г., Париж, Франция, репринт 6791. Таким образом, получается обратное совместимое расширение без потерь звуковых кодирующих методов, например MPEG-2/4 ААС, которые используют MDCT в качестве блока фильтров.

Этот подход не может, однако, быть непосредственно применен к широко используемому методу MPEG-1/2 Layer 3 (МР3), так как блок гибридных фильтров, используемый в этом методе, в отличие от MDCT не совместим с IntMDCT или другим целочисловым преобразованием. Таким образом, формирование разности между расшифрованными спектральными величинами и соответствующими IntMDCT величинами вообще не приводит к незначительным дифференциальным величинам и, таким образом, не приводит к эффективному кодированию дифференциальных величин. Суть проблемы здесь - сдвиги во времени между соответствующими функциями модуляции IntMDCT и блоком гибридных фильтров МР3. Они приводят к сдвигам фазы, которые в неблагоприятных случаях даже приводят к тому, что дифференциальные величины включают более высокие величины, чем величины IntMDCT. Также применение принципов, лежащих в основе IntMDCT, таких как, например, подъемная схема, к блоку гибридных фильтров МР3 весьма проблематично, в отношении его основного подхода - в отличие от MDCT - блок гибридных фильтров является блоком фильтров, который не обеспечивает идеальной реконструкции.

КРАТКОЕ ИЗЛОЖЕНИЕ ИЗОБРЕТЕНИЯ

Задача данного изобретения - создать эффективную концепцию обработки звуковых данных, в особенности кодирования или расшифровки звуковых данных.

Эта задача достигнута посредством устройства для постобработки спектральных величин, кодера, декодера или метода или компьютерной программы, описанных в пунктах формулы изобретения.

Настоящее изобретение основано на выводе о том, что спектральные величины, например, представляющие базовый слой схемы масштабирования, то есть, например, МР3 спектральные величины, подвергаются постобработке для получения величин, которые совместимы с соответствующими величинами, полученными согласно альтернативному алгоритму преобразования. Согласно изобретению, таким образом, выполняется постобработка, использующая взвешенные добавления спектральных величин, чтобы результат постобработки был насколько возможно более схож с результатом, полученным, когда тот же самый звуковой сигнал преобразован в спектральный образ, использующий не первый алгоритм преобразования, а второй алгоритм преобразования, который является, в предпочтительных осуществлениях данного изобретения, алгоритмом преобразования целого числа.

Таким образом, был сделан вывод о том, что даже с сильно несовместимым первым алгоритмом преобразования и вторым алгоритмом преобразования посредством взвешенного добавления определенных спектральных величин первого алгоритма преобразования достигается совместимость постобработанных величин с результатами второго преобразования, которая настолько хороша, что может быть сформирован эффективный слой расширения с дифференциальными величинами без необходимости использовать дорогостоящее и поэтому невыгодное кодирование и расшифровку концепции фиг.9 и фиг.10. В частности, взвешенное добавление выполнено так, чтобы постобработанная спектральная величина была генерирована из взвешенного добавления спектральной величины и смежной спектральной величины на выходе первого алгоритма преобразования, где предпочтительно используются как спектральные величины из смежных частотных диапазонов, так и спектральные величины от смежных временных интервалов или временных периодов. Под взвешенным добавлением смежных спектральных величин подразумевается, что в первом алгоритме преобразования смежные фильтры наложения блока фильтров наложены, как это происходит, фактически со всеми блоками фильтров. При использовании временно смежных спектральных величин, то есть взвешенных добавлением спектральных величин (например, той же самой или лишь слегка отличающейся частоты) двух последовательных блоков спектральных величин первого преобразования, далее подразумевается, что используются типичные алгоритмы преобразования, в которых используется наложение блока.

Предпочтительно, чтобы весовые коэффициенты постоянно программировались как на стороне кодера, так и на стороне декодера, чтобы не потребовалось дополнительных битов для передачи весовых коэффициентов. Вместо этого весовые коэффициенты однажды установлены и, например, сохранены в таблице или надежно внедрены в аппаратные средства, поскольку весовые коэффициенты не зависят от сигнала, а зависят только от первого алгоритма преобразования и от второго алгоритма преобразования. В частности, предпочтительно установить весовые коэффициенты так, чтобы импульсная характеристика конструкции первого алгоритма преобразования и постобработки была равна импульсной характеристике второго алгоритма преобразования. В этом отношении оптимизация весовых коэффициентов может производиться вручную или автоматизированно с использованием известных методов оптимизации, например, используя определенные репрезентативные испытательные сигналы или, как указано, непосредственно используя импульсные характеристики результирующих фильтров.

То же самое устройство постобработки может использоваться как на стороне кодера, так и на стороне декодера, чтобы адаптировать фактически несовместимые спектральные величины первого алгоритма преобразования к спектральным величинам второго алгоритма преобразования, чтобы оба блока спектральных величин могли быть подвергнуты формированию разности, чтобы, в конце концов, получить слой расширения для звукового сигнала, который, например МР3 закодированный сигнал, находится в базовом слое и включает расширение без потерь как слой расширения.

Следует заметить, что данное изобретение не лимитировано комбинацией МР3 и целочислового MDCT, но может использоваться всегда, когда спектральные величины фактически несовместимых алгоритмов преобразования должны быть обработаны вместе, например, с целью формирования разности, добавления или любого другого комбинированного процесса в звуковом кодере или звуковом декодере. Предпочтительное использование изобретенного устройства постобработки должно, однако, создавать слой расширения для базового слоя, в котором звуковой сигнал кодируется с определенным качеством, где слой расширения вместе с базовым слоем служит для достижения более высококачественной расшифровки, где эта более высококачественная расшифровка является, предпочтительно, расшифровкой без потерь, но может, однако, также быть фактической расшифровкой без потерь, если качество расшифрованного звукового сигнала улучшается при использовании слоя расширения по сравнению с расшифровкой, использующей только базовый слой.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Ниже предпочтительные осуществления данного изобретения объяснены более подробно со ссылкой на сопровождающие чертежи, на которых:

фиг.1 показывает изобретенное устройство для постобработки спектральных величин;

фиг.2 показывает сторону кодера концепции изобретенного кодера;

фиг.3 показывает сторону декодера концепции изобретенного декодера;

фиг.4 показывает детальную иллюстрацию предпочтительного осуществления изобретенной постобработки и формирования разности для длинных блоков;

фиг.5а показывает предпочтительное использование изобретенного устройства постобработки для коротких блоков согласно первому варианту;

фиг.5b показывает схематическую иллюстрацию блоков величин, принадлежащих концепции, показанной на фиг.5а;

фиг.5с показывает последовательность окон для варианта, показанного на фиг.5а;

фиг.6а показывает предпочтительное использование изобретенного устройства постобработки и формирования разности для коротких блоков согласно второму варианту данного изобретения;

фиг.6b иллюстрирует разнообразные величины для варианта, иллюстрированного на фиг.6а;

фиг.6с показывает растр блока для варианта, иллюстрированного на фиг.6а;

фиг.7 показывает предшествующую иллюстрацию кодера для генерирования масштабного потока данных;

фиг.8 показывает предшествующую иллюстрацию декодера для обработки масштабного потока данных;

фиг.9 показывает неэффективный вариант кодера;

фиг.10 показывает неэффективный вариант декодера.

ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ОСУЩЕСТВЛЕНИЙ

Фиг.1 показывает изобретенное устройство для постобработки спектральных величин, которые являются, предпочтительно, отображением с потерями звукового сигнала, где спектральные величины имеют базовый первый алгоритм преобразования для преобразования звукового сигнала в спектральный образ, независимо от того факта, с потерями они или без. Изобретенное устройство, показанное на фиг.1, или метод, также схематически показанный на фиг.1 соответственно, отличаются - в отношении устройства - механизмом 12 для создания последовательности блоков спектральных величин, представляющих последовательность блоков сэмплов звукового сигнала. В предпочтительном осуществлении данного изобретения, которое будет иллюстрировано позже, последовательность блоков, созданных механизмом 12, является последовательностью блоков, генерированных блоком фильтров МР3. Последовательность блоков спектральных величин передается изобретенному объединителю 13, где объединитель внедрен для выполнения взвешенного добавления спектральных величин последовательности блоков спектральных величин, чтобы получить на стороне выхода последовательность блоков постобработанных спектральных величин, как показано, выходом 14. В частности, объединитель 13 внедрен для вычисления постобработанной спектральной величины для частотного диапазона и временного периода, спектральной величины последовательности блоков для частотного диапазона и временного периода и спектральной величины для смежного частотного диапазона и/или смежного временного периода. Далее, объединитель внедрен, чтобы использовать такие весовые коэффициенты для весовой обработки используемых спектральных величин, чтобы постобработанные спектральные величины были приближены к спектральным величинам, полученным посредством второго алгоритма преобразования для преобразования звукового сигнала в спектральный образ, где, однако, второй алгоритм преобразования отличается от первого алгоритма преобразования.

Это схематически проиллюстрировано на фиг.1 внизу. Первый алгоритм преобразования представлен номером ссылки 16. Постобработка, выполняемая объединителем, представлена номером ссылки 13, а второй алгоритм преобразования представлен номером ссылки 17. Из блоков 16, 13 и 17 блоки 16 и 17 являются зафиксированными и обязательными из-за внешних условий. Только весовые коэффициенты механизма постобработки 13, или объединителя 13, представленные номером ссылки 18, могут быть установлены пользователем. В этой связи он не зависит от сигнала, а зависит от первого алгоритма преобразования и второго алгоритма преобразования. При помощи весовых коэффициентов 18 можно далее установить, сколько спектральных величин, смежных относительно частоты, или спектральных величин, смежных во времени, объединено друг с другом. Если весовой коэффициент, как это будет объяснено на фиг.4-6, установлен на 0, спектральная величина, связанная с этим весовым коэффициентом, не рассматривается в комбинации.

В предпочтительных осуществлениях данного изобретения для каждой спектральной величины обеспечен комплект весовых коэффициентов. Таким образом, получается значительное количество весовых коэффициентов. Это не проблема, однако, поскольку весовые коэффициенты не должны передаваться, но должны только постоянно программироваться на стороне кодера и на стороне декодера. Если кодер и декодер, таким образом, согласованы на том же самом наборе весовых коэффициентов для каждой спектральной величины и, если применимо, для каждого временного периода, или, как будет показано далее, для каждого субблока или позиции упорядочения, не требуется никакой передачи сигналов для данного изобретения, чтобы изобретенная концепция достигла существенного сокращения скорости передачи данных в слое расширения без какой бы то ни было передачи сигналов дополнительной информации, без каких бы то ни было сопутствующих потерь качества.

Данное изобретение, таким образом, обеспечивает компенсацию фазовых сдвигов между величинами частоты, полученными посредством первого алгоритма преобразования, и величинами частоты, полученными посредством второго алгоритма преобразования, где эта компенсация фазовых сдвигов может быть представлена через сложный спектральный образ. С этой целью включена по причине доходчивости концепция, описанная в DE 10234130, в которой для вычисления воображаемых частей из реального блока фильтров получаются выходные величины линейных комбинаций временно и спектрально смежных спектральных величин. Если бы эта процедура использовалась для расшифрованных спектральных величин МР3, был бы получен комплекснозначный спектральный образ. Каждая из результирующих комплексных спектральных величин может теперь быть модифицирована в отношении положения фазы посредством умножения на комплекснозначный поправочный коэффициент, чтобы, согласно данному изобретению, она как можно ближе подошла ко второму алгоритму преобразования, то есть предпочтительно соответствующая величина IntMDCT, и является, таким образом, подходящей для формирования разности. Далее, согласно изобретению, также выполняется возможно необходимая коррекция амплитуды. Согласно изобретению, эти шаги для формирования комплекснозначного спектрального образа и коррекции фазы или суммы суммируются таким образом, что посредством линейной комбинации спектральных величин на основе первого алгоритма преобразования и его временных и спектральных соседних объектов формируется новая спектральная величина, которая минимизирует разность до соответствующей IntMDCT величины. Согласно изобретению, в отличие от DE 10234130 постобработка выходных величин блока фильтров не выполняется с использованием весовых коэффициентов, чтобы получить реальные и воображаемые части. Вместо этого согласно изобретению постобработка выполняется с использованием таких весовых коэффициентов, как показано на фиг.1 внизу, что комбинация первого алгоритма преобразования 16 и постобработка 13 устанавливается посредством весовых коэффициентов, чтобы результат соответствовал второму алгоритму преобразования в максимально возможной степени.

Фиг.2 и фиг.3 показывают предпочтительную область использования изобретенной концепции, проиллюстрированной на фиг.1, как на стороне кодера (фиг.2), так и на стороне декодера (фиг.3) масштабируемого кодера. Поток битов МР3 20 или вообще поток битов, поскольку он может быть получен посредством первого алгоритма преобразования, подается на блок 21, чтобы генерировать спектральные величины из потока битов, которые являются, например, МР3 спектральными величинами. Расшифровка спектральных величин в блоке 21 будет, таким образом, включать энтропийную расшифровку и инверсионное квантование.

Затем в блоке 10 выполняется вычисление приблизительных величин, где вычисление приблизительных величин или блоков постобработанных спектральных величин выполняется, как показано на фиг.1. Вследствие этого формирование разности выполняется в блоке 22 с использованием IntMDCT спектральных величин, поскольку они получены посредством преобразования IntMDCT в блоке 23. Блок 23, таким образом, получает звуковой сигнал как входной сигнал, из которого поток битов МР3, как будто он подается на вход 20, был получен посредством кодирования. Предпочтительно, чтобы дифференциальные спектры, произведенные блоком 22, подвергались кодированию без потерь 24, которое, например, включает дельта-кодирование, кодирование Хаффмана, арифметическое кодирование или любое другое энтропийное кодирование, посредством которого уменьшается скорость передачи данных, однако никакие потери в сигнал не вводятся.

На стороне декодера поток битов МР3 20, поскольку он также был передан на вход 20 фиг.2, снова подвергается расшифровке спектральных величин блоком 21, который может соответствовать блоку 21 фиг.2. Вследствие этого МР3 спектральные величины, полученные на выходе блока 21, снова обрабатываются согласно Фиг.1 или блоку 10. На стороне декодера, однако, блоки постобработанных спектральных величин, поскольку они произведены блоком 10, передаются на дополнительную стадию 30, которая получает дифференциальные величины IntMDCT на ее другом входе, поскольку они получены расшифровкой без потерь 31 из расширенного потока битов без потерь, который был произведен блоком 24 фиг.2. Посредством добавления IntMDCT дифференциальных величин, произведенных блоком 31, и обработанных спектральных величин, произведенных блоком 10, затем на выходе 32 дополнительной стадии 30 получаются блоки спектральных величин IntMDCT, которые являются отображением без потерь оригинального звукового сигнала, то есть звукового сигнала, который был введен в блок 23 фиг.2. Выходной звуковой сигнал без потерь генерируется блоком 33, который выполняет инверсионный IntMDCT для получения выходного звукового сигнала без потерь или фактически без потерь. В сущности, выходной звуковой сигнал на выходе блока 33 имеет лучшее качество, чем звуковой сигнал, который был бы получен, если бы выходной сигнал блока 21 был обработан посредством синтезирующего гибридного блока фильтров МР3. В зависимости от выполнения выходной звуковой сигнал 33 может быть идентичным отображением звукового сигнала, который был введен в блок 23 фиг.2, или отображением этого звукового сигнала, который не идентичен, то есть не полностью без потерь, но имеет лучшее качество, чем нормальный МР3 закодированный