Способ и устройство масштабируемого кодирования- декодирования стереофонического звукового сигнала (варианты)

Реферат

 

Изобретение относится к кодированию-декодированию стереофонического звукового сигнала. Достигаемый при этом технический результат состоит в повышении эффективности кодирования. Он обеспечивается благодаря тому, что в способе для кодирования звуковых сигналов в многоуровневый поток данных, имеющий основной уровень и по меньшей мере два уровня расширения, входные звуковые сигналы обрабатывают и квантуют для каждого заранее определенного диапазона кодирования; затем кодируют квантованные данные, соответствующие основному уровню, из числа квантованных данных, и следующему уровню расширения кодированного основного уровня; и последовательно выполняют этапы кодирования уровня для всех уровней расширения, для формирования потоков двоичных разрядов, причем дополнительную информацию и квантованные данные, соответствующие подлежащему кодированию уровню, представляют разрядами одного и того же заранее определенного числа, и затем арифметически кодируют с использованием заранее определенной вероятностной модели в порядке от последовательностей старших двоичных разрядов до последовательностей младших двоичных разрядов, причем разрядно-модульные данные левого канала и данные правого канала поочередно кодируют в единицах заранее определенных векторов. 4 с. и 22 з.п.ф-лы, 65 табл., 5 ил.

Изобретение касается кодирования и декодирования звукового сигнала и, в частности, способа и устройства масштабируемого кодирования-декодирования стереофонического звукового сигнала, с использованием разрядно-модульного арифметического кодирования.

В обычном масштабируемом звуковом устройстве кодирования-декодирования учитывалась масштабируемость 1-канального моносигнала [К. Бранденбруг и др., "Первые идеи относительно масштабируемого кодирования звукового сигнала", 97-я конвенция общества инженеров-акустиков (AES), предварительная публикация 3924, Сан-Франциско, 1994 г.] и [К. Бранденбруг и др., "Система масштабируемого кодирования звукового сигнала двух- или трехступенчатой скорости передачи разрядов", 99-я конвенция общества инженеров-акустиков, предварительная публикация 4132, Нью-Йорк, 1995 г.]. Однако звуковые стандарты сжатия движущегося изображения (MPEG) [MPEG Комитет ISO/IEC/JTCI/SC29/WG11 (ISO - Международная организация по стандартизации, IEC - Международная электротехническая комиссия). Технология обработки информации - Кодирование движущихся изображений и связанного с ними сигнала звукового сопровождения для носителей запоминания данных приблизительно до 1,5 мегабит в секунду - Часть 3: Звуковое сопровождение, ISO/IEC IS - 11172-3, 1998 г.] или способы АС-2/АС-3 (AC-управление доступом) [Долби, "Многоканальное звуковое кодирование Долби АС-3 - представление к Большому альянсу группы специалистов по звуковому сопровождению". Лаборатория Долби, август 1993 г.] обеспечивают технологию для обработки стереофонических и многоканальных сигналов, а также моносигналов. Практически, большинство музыкальных сигналов состоят из стереофонических сигналов. Таким образом, необходимо применять масштабируемый звуковой кодек, адаптивный к сигналам, состоящим из двух или больше канальных потоков двоичных разрядов, как в Интернете или системе связи.

Обычно музыкальные сигналы являются стереофоническими сигналами. Стереофонические сигналы поступают через компакт-диск (КД), сеть связи или широковещательную сеть, и в будущем будут обеспечиваться при мультимедийных условиях. Однако существующие масштабируемые звуковые кодеки главным образом обрабатывают моносигналы и еще не обрабатывают стереофонические сигналы. Для обрабатывания стереофонических сигналов передача сигналов должна осуществляться так, чтобы передавались все сигналы для одного канала, а затем передавались сигналы для другого канала. Однако, в этом случае, поскольку количество двоичных разрядов, производимых в двух каналах, не всегда то же самое, эффективность масштабируемого звукового кодека для стереофонических сигналов значительно ниже на более низкой скорости передачи разрядов.

Для решения вышеупомянутых проблем целью настоящего изобретения является обеспечить способ и устройство масштабируемого кодирования стереофонических цифровых звуковых данных и носитель записи, предназначенный для записи способа кодирования. Кодирование осуществляют с помощью генерирования потоков двоичных разрядов, состоящих из нескольких уровней расширения, базирующихся на основном уровне, с использованием метода разрядно-модульного арифметического кодирования (РМАК).

Для достижения цели настоящего изобретения обеспечен способ масштабируемого кодирования стереофонического звукового сигнала, предназначенный для кодирования звуковых сигналов в многоуровневый поток данных, имеющий основной уровень и по меньшей мере два уровня расширения, включающий этапы: обработки входных звуковых сигналов и их квантования для каждого заранее определенного диапазона кодирования, кодирования квантованных данных, соответствующих основному уровню, из числа квантованных данных, кодирования квантованных данных, соответствующих следующему уровню расширения кодированного основного уровня, и остающихся квантованных данных, не кодированных из-за предела размера уровня и принадлежащих кодированному уровню, и последовательного выполнения этапов кодирования уровней для всех уровней расширения, с целью формирования потоков двоичных разрядов, в котором этап кодирования основного уровня, этап кодирования уровня расширения и этап последовательного кодирования выполняются таким образом, что дополнительная информация и квантованные данные, соответствующие подлежащему кодированию уровню, представляются цифрами того же самого заранее определенного номера, и затем арифметически кодируются, используя заранее определенную модель вероятности для изменения в пределах от последовательностей старших двоичных разрядов (СДР) до последовательностей младших двоичных разрядов (МДР), разрядно-модульные данные левого канала и данные правого канала, поочередно кодируемые в единицах заранее определенных векторов. Дополнительная информация включает в себя по меньшей мере масштабные множители и информацию, исходя из модели вероятности, подлежащей использованию при арифметическом кодировании. Заранее определенные векторы являются четырехмерными векторами, образованными соединением четырех разрядно-модульных звуковых данных канала в один вектор. Четырехмерные векторы делятся на два подвектора в соответствии с предварительно установленными положениями, указывающими кодируются ли ненулевые разрядно-модульные частотные составляющие или нет, для последующего кодирования.

Кроме того, этап кодирования масштабных множителей включает в себя этапы получения максимального масштабного множителя, получения разности между максимальным масштабным множителем и первыми масштабными множителями и арифметического кодирования разности, и получения разностей между непосредственно предшествующим арифметически кодированным масштабным множителем и соответствующими масштабными множителями, следующими за первым масштабным множителем, преобразования разностей в заранее определенную величину и арифметического кодирования преобразованных величин.

Этап кодирования масштабных множителей включает в себя этапы получения максимального масштабного множителя и получения разностей между максимальным масштабным множителем и соответствующими масштабными множителями и арифметического кодирования разности.

Кодируется информация заголовка, обычно используемая для всех диапазонов, а дополнительная информация и квантованные частоты, необходимые для соответствующего уровня, формируются с помощью разрядно-модульной информации для последующего кодирования с целью получения многоуровневой структуры.

Квантование выполняется с помощью этапов преобразования входных звуковых сигналов временной области в сигналы частотной области, соединения преобразованных сигналов в виде сигналов заранее определенных диапазонов масштабного множителя с помощью временно-частотного преобразования и вычисления порога маскирования в каждом диапазоне масштабного множителя, выполнения формирования временного шума для управления временной формой шума квантования в пределах каждого окна для преобразования, выполнения обработки интенсивности стереофонических сигналов таким образом, что кодируется только квантованная информация диапазона масштабного множителя для одного из двух каналов, и передается только масштабный множитель для другого канала, предсказания частотных коэффициентов текущего кадра, выполнения обработки стереофонических сигналов средней стороны (С/С) для преобразования сигнала левого канала и сигнала правого канала в аддитивный сигнал двух сигналов и их субтрактивный сигнал, и квантования сигналов для каждого заранее определенного диапазона кодирования так, чтобы шум квантования каждого диапазона был меньше, чем порог маскирования.

Когда квантованные данные составлены из знаковых данных и данных величины, этапы кодирования основного уровня и уровней расширения и формирования потоков двоичных разрядов включают в себя этапы: арифметического кодирования последовательностей старших разрядов, состоящих из старших разрядов данных величины, кодирования знаковых данных, соответствующих ненулевым данным из числа кодированных последовательностей старших разрядов, кодирования последовательностей старших разрядов из числа некодированных данных величины цифровых данных, кодирования некодированных знаковых данных из числа знаковых данных, соответствующих ненулевым данным величины из числа кодированных последовательностей разряда, и выполнения этапа кодирования величины и этапа кодирования знака в соответствующих разрядах цифровых данных, причем соответствующие этапы поочередно выполняются на данных левого канала и данных правого канала в единицах заранее определенных векторов.

Устройство декодирования масштабируемых стереофонических звуковых сигналов дополнительно включает в себя часть обработки стереофонических сигналов С/С, для выполнения обработки стереофонических сигналов С/С, с целью проверки, была или не была выполнена обработка стереофонических сигналов С/С способом кодирования потоков двоичных разрядов, и преобразования сигнала левого канала и сигнала правого канала в аддитивный сигнал двух сигналов и их субтрактивный сигнал, если обработка стереофонических сигналов С/С была выполнена, часть предсказания для проверки, был ли выполнен этап предсказания способом кодирования потоков двоичных разрядов или нет, и предсказания частотных коэффициентов текущего кадра, если этап проверки был выполнен, часть обработки интенсивности стереофонического сигнала для проверки, была ли выполнена обработка интенсивности стереофонического сигнала способом кодирования потоков двоичных разрядов или нет, и, если обработка интенсивности стереофонического сигнала была выполнена, тогда, поскольку кодируется только квантованная информация диапазона масштабного множителя для одного канала (левого канала) из двух каналов, выполнения обработки интенсивности стереофонического сигнала для восстановления квантованной информации другого канала (правого канала) в значение левого канала, и часть формирования временного шума (ФВШ) для проверки, был ли этап формирования временного шума выполнен способом кодирования потоков двоичных разрядов или нет, и если этап ФВШ был выполнен, выполнения формирования временного шума для управления временной формой шума квантования в пределах каждого окна для преобразования.

В соответствии с другим аспектом настоящего изобретения обеспечено устройство масштабируемого кодирования стереофонического звукового сигнала, включающее часть квантования для сигнальной обработки входных звуковых сигналов и их квантования для каждого диапазона кодирования, часть разрядно-модульного арифметического кодирования для кодирования потоков двоичных разрядов всех уровней таким образом, чтобы получить многоуровневую структуру, путем ограничения диапазона для основного уровня, чтобы он был масштабируемым, кодирования дополнительной информации, соответствующей основному уровню, кодирования последовательно квантованной информации от последовательности старших двоичных разрядов до последовательности младших двоичных разрядов, и от более низкочастотных составляющих до более высокочастотных составляющих, поочередного кодирования данных левого канала и данных правого канала в единицах заранее определенных векторов, и кодирования дополнительной информации, соответствующей следующему уровню расширения основного уровня и квантованных данных, и часть формирования потока двоичных разрядов для сбора данных, образованных в части квантования, и части разрядно-модульного арифметического кодирования и образования потоков двоичных разрядов.

Часть квантования включает в себя часть временно-частотного преобразования для преобразования входных звуковых сигналов временной области в сигналы частотной области, психоакустическую часть для соединения преобразованных сигналов с сигналами заранее определенных диапазонов масштабного множителя путем временно-частотного преобразования и вычисления порога маскирования в каждом диапазоне масштабного множителя, используя явление маскирования, производимое взаимодействием соответствующих сигналов, и часть квантования для квантования сигналов для каждого заранее определенного диапазона кодирования, в то время как шум квантования каждого диапазона сравнивается с порогом маскирования. Кроме того, устройство дополнительно включает в себя часть формирования временного шума (ФВШ) с целью выполнения формирования временного шума для управления временной формой шума квантования в пределах каждого окна для преобразования, часть обработки интенсивности стереофонических сигналов для выполнения обработки интенсивности стереофонических сигналов таким образом, что кодируется только квантованная информация диапазона масштабного множителя для одного из двух каналов, и передается только масштабный множитель для другого канала, часть предсказания для предсказания частотных коэффициентов текущего кадра, и часть обработки стереофонического сигнала С/С для выполнения обработки стереофонического сигнала С/С с целью преобразования сигнала левого канала и сигнала правого канала в аддитивный сигнал двух сигналов и их субтрактивный сигнал.

В соответствии с еще одним аспектом настоящего изобретения обеспечен способ масштабируемого декодирования стереофонического звукового сигнала для декодирования звуковых данных, кодированных таким образом, чтобы иметь многоуровневые скорости передачи разрядов, включающий в себя этапы анализа данных, необходимых для соответствующих модулей в потоках двоичных разрядов, имеющих многоуровневую структуру декодирования по меньшей мере масштабных множителей и индексов модели арифметического кодирования и квантованных данных, с целью создания уровней в потоках двоичных разрядов, имеющих многоуровневую структуру квантованных данных, декодируемых поочередно для соответствующих каналов, путем анализа значимостей двоичных разрядов составляющих потоков двоичных разрядов, от верхних значащих двоичных разрядов до нижних значащих двоичных разрядов, восстановления декодированных масштабных множителей и квантованных данных в сигналы, имеющие первоначальные величины, и преобразования инверсно квантованных сигналов в сигналы временной области.

Способ масштабируемого декодирования стереофонического звукового сигнала дополнительно включает в себя этапы выполнения обработки стереофонического сигнала С/С с целью проверки, была ли выполнена обработка стереофонического сигнала С/С способом кодирования потоков двоичных разрядов или нет, и преобразования сигнала левого канала и сигнала правого канала в аддитивный сигнал двух сигналов и их субтрактивный сигнал, если обработка стереофонического сигнала С/С была выполнена, проверки, был ли выполнен этап предсказания способом кодирования потоков двоичных разрядов или нет, и предсказания частотных коэффициентов текущего кадра, если этап проверки был выполнен, проверки, был ли выполнен этап обработки интенсивности стереофонического сигнала способом кодирования потоков двоичных разрядов или нет, и, если обработка интенсивности стереофонического сигнала была выполнена, тогда, поскольку кодируется только квантованная информация диапазона масштабного множителя для одного канала (левого канала) из двух каналов, выполнения обработки интенсивности стереофонического сигнала для восстановления квантованной информации другого канала (правого канала) в значение левого канала, и проверки, был ли выполнен этап формирования временного шума (ФВШ) способом кодирования потоков двоичных разрядов или нет, и, если этап ФВШ был выполнен, выполнения формирования временного шума для управления временной формой шума квантования в пределах каждого окна для преобразования.

Когда квантованные данные состоят из знаковых данных и данных величины, восстанавливают квантованные частотные составляющие с помощью последовательного декодирования данных величины квантованных двоичных разрядов знака частотных составляющих и соединяют данные величины и двоичных разрядов знака.

Этап декодирования выполняется от старших двоичных разрядов до младших двоичных разрядов, а этап восстановления выполняется соединением декодированных разрядно-модульных данных и восстановлением соединенных данных в квантованные данные частотных составляющих.

Данные на этапе декодирования декодируются таким образом, что разрядно-модульная информация четырех выборок декодируется в единицы четырехмерных векторов.

Декодирование четырехмерных векторов выполняется таким образом, что арифметически декодируются два подвектора, кодированные в соответствии с предварительно установленными положениями, указывающими, кодируются ли ненулевые разрядно-модульные частотные составляющие или нет, и восстанавливаются в четырехмерные векторы два подвектора, декодированные в соответствии с состояниям кодирования соответствующих выборок.

Кроме того, хотя разрядно-модульные данные соответствующих частотных составляющих декодируются от разрядов СДР, декодирование пропускается, если разрядно-модульные данные представляют собой "0", а знаковые данные арифметически декодируются, когда разрядно-модульные данные "1" появляются впервые. Декодирование масштабных множителей выполняется путем декодирования максимального масштабного множителя в потоке двоичных разрядов, арифметического декодирования разностей между максимальным масштабным множителем и соответствующими масштабными множителями, и вычитания разности из максимального масштабного множителя. Точно также этап декодирования масштабных множителей включает в себя этапы декодирования максимального масштабного множителя из потоков двоичных разрядов, получения разностей между максимальным масштабным множителем и масштабными множителями, подлежащими декодированию с помощью преобразования и арифметического декодирования разностей и обратного преобразования разностей от преобразованных величин, и получения первого масштабного множителя путем вычитания разностей из максимального масштабного множителя, и получения масштабных множителей для остающихся диапазонов с помощью вычитания разностей из предыдущих масштабных множителей.

Декодирование арифметически кодированных индексов модели выполняется с помощью этапов декодирования минимального индекса арифметической модели в потоке двоичных разрядов, декодирования разностей между минимальным индексом и соответствующими индексами в дополнительной информации соответствующих уровней, и добавления минимального индекса и разностей.

В качестве альтернативы, в соответствии с настоящим изобретением обеспечено масштабируемое устройство декодирования стереофонических звуковых сигналов для декодирования звуковых данных, кодированных таким образом, чтобы иметь многоуровневые скорости передачи разрядов, включающее в себя часть анализа потока двоичных разрядов для анализирования данных, необходимых для соответствующих модулей в потоках двоичных разрядов, имеющих многоуровневую структуру, часть декодирования для декодирования по меньшей мере масштабных множителей и арифметического кодирования индексов модели и квантованных данных, с целью создания уровней в потоках двоичных разрядов, имеющих многоуровневую структуру, квантованные данные, декодируемые поочередно для соответствующих каналов путем анализирования значимостей двоичных разрядов, составляющих потоки двоичных разрядов, от старших двоичных разрядов до младших двоичных разрядов, часть восстановления для восстановления декодированных масштабных множителей и квантованных данных в сигналы, имеющие первоначальные величины, и часть временно-частотного преобразования для преобразования инверсно квантованных сигналов в сигналы временной области.

Устройство дополнительно включает в себя часть обработки стереофонических сигналов С/С, предназначенную для выполнения обработки стереофонических сигналов С/С с целью проверки, была ли обработка стереофонических сигналов С/С выполнена способом кодирования потоков двоичных разрядов или нет, и преобразования сигнала левого канала и сигнала правого канала в аддитивный сигнал двух сигналов и их субтрактивный сигнал, если обработка стереофонических сигналов С/С была выполнена, часть предсказания для проверки, был ли выполнен этап предсказания способом кодирования потоков двоичных разрядов и предсказания частотных коэффициентов текущего кадра или нет, если этап проверки был выполнен, часть обработки интенсивности стереофонического сигнала для проверки, была ли выполнена обработка интенсивности стереофонического сигнала способом кодирования потока двоичных разрядов или нет, и, если обработка интенсивности стереофонического сигнала была выполнена, тогда, поскольку кодируется только квантованная информация диапазона масштабного множителя для одного канала (левого канала) из двух каналов, выполнения обработки интенсивности стереофонического сигнала для восстановления квантованной информации другого канала (правого канала) в значение левого канала, и часть формирования временного шума для проверки, был ли этап формирования временного шума (ФВШ) выполнен способом кодирования потоков двоичных разрядов или нет, и, если этап ФВШ был выполнен, выполнения формирования временного шума для управления временной формой шума квантования в пределах каждого окна для преобразования.

Вышеупомянутые цели и преимущества настоящего изобретения станут более очевидными благодаря подробному описанию его предпочтительного варианта осуществления со ссылкой на прилагаемые чертежи, на которых: фиг. 1 представляет блок-схему соответствующего настоящему изобретению устройства кодирования; фиг.2 изображает соответствующую настоящему изобретению структуру потока двоичных разрядов; фиг. 3 представляет блок-схему соответствующего настоящему изобретению устройства декодирования; фиг.4 иллюстрирует расположение частотных составляющих для длинного блока (размер окна = 2048); фиг. 5 иллюстрирует расположение частотных составляющих для короткого блока (размер окна = 2048).

Ниже подробно описаны предпочтительные варианты осуществления настоящего изобретения со ссылкой на прилагаемые чертежи.

Настоящее изобретение предназначено для кодирования и декодирования масштабируемых стереофонических цифровых звуковых данных с использованием способа разрядно-модульного арифметического кодирования (РМАК). Другими словами, в настоящем изобретении, только модуль кодирования без потерь заменяется способом РМАК, со всеми другими модулями обычного кодера, остающимися неизменными. Настоящее изобретение расширяет приемлемость таким образом сконструированного масштабируемого кодера-декодера, то есть, настоящее изобретение можно приспосабливать к стереофоническому сигналу.

Фиг. 1 представляет блок-схему соответствующего настоящему изобретению устройства масштабируемого кодирования звукового сигнала. Устройство масштабируемого кодирования звукового сигнала включает в себя часть 100 временно-частотного преобразования, психоакустическую часть 110, часть 120 формирования временного шума, часть 130 обработки интенсивности стереофонического сигнала, часть 140 предсказания, часть 150 обработки стереофонических сигналов средней стороны (С/С), часть 160 квантования, часть 170 разрядно-модульного арифметического кодирования, и часть 180 формирования потока двоичных разрядов.

Наиболее важные для человека акустические характеристики при кодировании цифрового звукового сигнала представляют собой эффект маскирования и характеристику критического диапазона. Эффект маскирования относится к явлению, при котором звуковой сигнал (звук) оказывается неслышимым из-за другого сигнала. Например, когда поезд проходит через железнодорожную станцию, человек не может слышать голос своего собеседника во время тихой беседы из-за шума, вызванного поездом. Звуковые сигналы воспринимаются по-разному для каждого диапазона в пределах слышимого для человека диапазона частот. Кроме того, ввиду характеристик критического диапазона, шумы, имеющие одну и ту же амплитуду, воспринимаются по-разному, когда шумовой сигнал находится в критическом диапазоне или когда шумовой сигнал находится вне критического сигнала. В этом случае, когда шумовой сигнал превышает критический диапазон, шум воспринимается более ясно.

Кодирование человеческих акустических характеристик в основном использует эти две характеристики таким образом, что рассчитывается диапазон шума, который может располагаться внутри критического диапазона, и затем производится шум квантования, соответствующий расчетному диапазону, с целью минимизирования потерь информации из-за кодирования.

Часть 100 временно-частотного преобразования преобразовывает входные звуковые сигналы временной области в звуковые сигналы частотной области.

Психоакустическая часть 110 соединяет преобразованные сигналы с помощью части 100 временно-частотного преобразования сигналами заранее определенных диапазонов масштабного множителя и вычисляет порог маскирования в каждом диапазоне масштабного множителя, используя явление маскирования, образуемое при взаимодействии с соответствующими сигналами.

Часть 120 формирования шума временной области управляет временной формой шума квантования в пределах каждого окна для преобразования. Шум можно временно формировать с помощью фильтрования частотных данных. Этот модуль необязательно используется в устройстве кодирования.

Часть 130 обработки интенсивности стереофонического сигнала представляет модуль, используемый для более эффективной обработки стереофонического сигнала, и кодирует только квантованную информацию для диапазона масштабного множителя одного из двух каналов с диапазоном масштабного множителя другого передаваемого канала. Этот модуль необязательно используется в устройстве кодирования, но для каждого диапазона масштабного множителя учитываются различные вопросы с целью определения, следует ли его использовать или нет.

Часть 140 предсказания оценивает частотные коэффициенты текущего кадра. Квантуется и кодируется разность между предсказанной величиной и фактической частотной составляющей, вследствие чего уменьшая количество производимых используемых двоичных разрядов. Часть 140 предсказания необязательно используется в единицах кадров. Другими словами, поскольку использование части 140 предсказания увеличивает возрастание сложности при предсказании последующего частотного коэффициента, часть 140 предсказания можно не использовать. Иногда количество фактически производимых двоичных разрядов по оценке может быть больше, чем без оценки. В это время часть 140 предсказания не используется.

Часть 150 обработки стереофонических сигналов С/С для более эффективной обработки стереофонических сигналов преобразовывает сигнал левого канала и сигнал правого канала в аддитивный и субтрактивный сигналы двух сигналов соответственно для последующей их обработки. Этот модуль необязательно используется в устройстве кодирования, но для каждого диапазона масштабного множителя учитываются различные вопросы с целью определения, следует ли его использовать или нет.

Часть 160 квантования скалярно квантует частотные сигналы каждого диапазона так, чтобы величина шума квантования каждого диапазона была меньше, чем порог маскирования, чтобы он был неощутимым. Квантование выполняется таким образом, чтобы величина ОШМ (отношение шума к маскированию), которая является отношением порога маскирования, рассчитанного психоакустической частью 210, к шуму, производимому в каждом диапазоне, была меньше или равной 0 дБ. Величина ОШМ меньше или равная 0 дБ означает, что порог маскирования выше, чем шум квантования. Другими словами, шум квантования не слышен.

Часть 170 разрядно-модульного арифметического кодирования, базовый модуль настоящего изобретения, можно использовать в качестве альтернативы части кодирования без потерь способа АСС, так как существующий звуковой кодек типа MPEG-2 (Стандарт сжатия движущегося изображения) ААС не может обеспечивать масштабируемость. Чтобы осуществлять масштабируемый звуковой кодек, квантованные частью 160 квантования частотные данные кодируются путем объединения дополнительной информации соответствующего диапазона и информации квантования звуковых данных. Кроме того, в дополнение к масштабируемости, в верхнем уровне можно обеспечивать характеристики, аналогичные характеристикам в ААС. Функции части 170 разрядно-модульного арифметического кодирования будут описаны более подробно. Чтобы оказаться масштабируемым, диапазон ограничивается диапазоном, соответствующим основному уровню, и кодируется дополнительная информация для основного уровня. Информация для квантованных величин последовательно кодируется в порядке изменения от последовательностей СДР к последовательностям МДР и от более низкочастотных составляющих до более высокочастотных составляющих. Кроме того, левые каналы и правые каналы поочередно кодируются в единицах заранее определенных векторов для выполнения кодирования основного уровня. После завершения кодирования основного уровня кодируются дополнительная информация для следующего уровня расширения и квантованные величины звуковых данных так, чтобы сформированные таким образом потоки двоичных разрядов имели многоуровневую структуру.

Часть 180 формирования потока двоичных разрядов производит потоки двоичных разрядов в соответствии с заранее определенным синтаксисом, подходящим для масштабируемого кодека, собирая информацию, образованную в соответствующих модулях устройства кодирования.

Фиг.2 изображает соответствующую настоящему изобретению структуру потока двоичных разрядов. Как показано на фиг.2, потоки двоичных разрядов имеют многоуровневую структуру, в которой потоки двоичных разрядов уровней более низкой скорости передачи разрядов содержатся в потоках уровней более высокой скорости передачи разрядов в соответствии со скоростями передачи разрядов. Традиционно, для образования потоков двоичных разрядов сначала кодируется дополнительная информация, а затем кодируется остающаяся информация. Однако в настоящем изобретении, как показано на фиг.2, дополнительная информация для каждого уровня расширения кодируется отдельно. Кроме того, хотя все квантованные данные кодируются последовательно обычно в единицах выборок, в настоящем изобретении квантованные данные представлены двоичными данными и кодируются от последовательности СДР двоичных данных, для формирования потоков двоичных разрядов в пределах выделенных двоичных разрядов.

Фиг. 3 представляет блок-схему соответствующего настоящему изобретению устройства декодирования, которое включает в себя часть 300 анализа потока двоичных разрядов, часть 310 разрядно-модульного арифметического декодирования, часть 320 обратного квантования, часть 330 обработки стереофонических сигналов С/С, часть 340 предсказания, часть 350 обработки интенсивности стереофонического сигнала, часть 360 формирования шума временной области и часть 370 частотно-временного преобразования.

Часть 300 анализа потока двоичных разрядов разделяет информацию заголовка и кодированные данные для образования входных потоков двоичных разрядов и передает их в соответственные модули.

Часть 310 разрядно-модульного арифметического декодирования декодирует дополнительную информацию и разрядно-модульные квантованные данные для образования входных потоков двоичных разрядов, подлежащих передаче в часть 320 обратного квантования.

Часть 330 обработки стереофонических сигналов С/С, применяемая только для стереофонических сигналов, обрабатывает диапазон масштабного множителя, соответствующий обработке стереофонических сигналов С/С, выполняемой в устройстве кодирования.

В случае, когда в устройстве кодирования выполняется оценка, часть 340 предсказания осуществляет поиск таких же величин, как декодируемые данные в предыдущем кадре, через оценку тем же самым способом, как и устройство кодирования. Предсказанный сигнал суммируется с разностным сигналом, декодируемым частью 300 анализа потока двоичных разрядов, вследствие этого восстанавливая первоначальные частотные составляющие.

Часть 350 обработки интенсивности стереофонического сигнала, предназначенная только для стереофонических сигналов, обрабатывает диапазон масштабного множителя, соответствующий обработке интенсивности стереофонического сигнала, выполняемой в устройстве кодирования.

Часть 360 формирования шума временной области, используемая для управления временной формой шума квантования в пределах каждого окна для преобразования, выполняет соответствующую обработку.

Декодируемые данные восстанавливаются в виде сигнала временной области с помощью такого модуля обработки, как обычный звуковой алгоритм типа стандартов ААС. Сначала часть 320 обратного квантования восстанавливает декодированный масштабный множитель и квантованные данные в сигналы, имеющие первоначальные величины. Часть 370 частотно-временного преобразования преобразовывает инверсно квантованные сигналы в сигналы временной области так, чтобы их воспроизвести.

Теперь будет описана работа устройства кодирования.

Входные звуковые сигналы преобразуются в сигналы частотной области посредством ИДКП (измененного дискретного косинусного преобразования) в части 100 временно-частотного преобразования. Психоакустическая часть 110 соединяет частотные сигналы соответствующими диапазонами масштабного множителя для получения порога маскирования. Кроме того, звуковые сигналы, преобразованные в сигналы частотной области, проходят через модули для увеличения эффективности кодирования, то есть часть 120 ФВШ, часть 130 обработки интенсивности стереофонического сигнала, часть 140 предсказания и часть 150 обработки стереофонических сигналов С/С, с целью образования более эффективно сжатых сигналов.

Часть 160 квантования выполняет скалярное квантование так, чтобы величина шума квантования каждого диапазона масштабного множителя была меньше, чем порог маскирования, который является слышимым, но не ощутим в пределах выделенных двоичных разрядов. Если выполняется квантование, удовлетворяющее таким условиям, производятся масштабные множители для соответствующих диапазонов масштабного множителя и квантованные величины частот.

Обычно, ввиду психоакустических свойств человека, близкие частотные составляющие могут легко восприниматься на более низкой частоте. Однако с увеличением частоты интервал ощутимых частот становится более широким. Когда с