Устройство аудио кодирования, устройство аудио декодирования, методы кодирования и декодирования аудио-сигнала, аудио поток и компьютерная программа

Иллюстрации

Показать все

Изобретение относится к средствам кодирования и декодирования аудио потока на основе преобразования входного звукового сигнала. Технический результат заключается в уменьшении объема закодированных данных. Получают аудио поток, содержащий информацию, описывающую диапазон частот аудио контента, и информацию, описывающую ошибку многополосной дискретизации. Определяют ошибку многополосной дискретизации для множества диапазонов частот входного звукового сигнала, в котором имеется информация об усилении для отдельных диапазонов. Рассчитывают среднюю ошибку дискретизации для множества частотных диапазонов входного аудио сигнала. Исключаются диапазоны частот, спектральные компоненты которых полностью квантованы к нулю. Вводят шум в спектральные компоненты для множества диапазонов частот, причем информация об усилении в отдельных диапазонах частот связана с общим значением интенсивности многополосного шума. 7 н.з. и 11 з.п. ф-лы, 23 ил.

Реферат

Воплощения изобретения связаны с соответствующим устройством кодирования для обеспечения аудио потока на основе преобразования представления области входного звукового сигнала. Другие варианты воплощения изобретения связаны с устройством декодирования для обеспечения представления декодированного аудио сигнала на основе закодированного аудио потока. Следующие варианты воплощения изобретения предоставляют методы для кодирования и декодирования аудио сигнала. Варианты изобретения позволяют обеспечить формирование аудио потока. Варианты изобретения обеспечиваются компьютерными программами для кодирования и декодирования аудио сигнала. Вообще говоря, варианты изобретения, связанные с заполнением шумом.

Концепции аудио кодирования часто относятся к кодированию звукового сигнала в частотной области. Например, в так называемой концепции "Улучшенного Аудио Кодирования" (ААС) кодируется содержимое различных спектральных элементов дискретизации (или частотных элементов дискретизации) с использованием психоакустической модели. Для этого кодируется информация об интенсивности для разных спектральных элементов дискретизации. Однако разрешение, используемое для кодирования интенсивности в различных спектральных элементах дискретизации? адаптировано в соответствии с психоакустической адекватностью различных спектральных элементов дискретизации. Таким образом, некоторые спектральные элементы дискретизации, которые имеют низкую психоакустическую адекватность, кодируются с очень низким разрешением интенсивности, так что некоторые спектральные элементы дискретизации, имеющие низкую психоакустическую адекватность, или даже преобладающее их количество квантуются к нулю. Квантование интенсивности спектральных элементов дискретизации к нулю создает преимущество в том, что квантованные нулевые значения могут быть закодированы очень экономно и позволяют использовать минимальную возможную скорость. Тем не менее, спектральные элементы дискретизации, квантованные к нулю, иногда приводят к звуковым артефактам, даже если психоакустическая модель показывает, что спектральные элементы дискретизации имеют низкую психоакустическую адекватность.

Таким образом, желательно использовать спектральные элементы дискретизации, квантованные к нулю, в аудио устройствах и кодирования, и декодирования.

Известны различные подходы, использующие спектральные элементы дискретизации, закодированные к нулю, в системах аудио кодирования области преобразования, а также кодирования речи. Например, в MPEG-4 "ААС" (Улучшенное Аудио Кодирование) используется концепция восприятия замещения шумом (PNS). Восприятие замещения шумом полностью заполняет коэффициент масштаба диапазона только шумом. Подробную информацию о MPEG-4 ААС можно, например, найти в международном стандарте ISO / IEC 14496-3 (Information Technology - Coding of Audio-Visual Objects - Part 3: Audio). Кроме того, кодировщик речи AMR-WB+ заменяет вектор дискретизации векторами (VQ векторами), квантованными к нулю [при квантовании (дискретизации) после деления на некоторый коэффициент результат деления становится равным нулю] со случайным вектором шума, где каждое комплексное спектральное значение имеет постоянную амплитуду и случайную фазу. Амплитуды контролируются одним значением шума, переданным с потоком битов. Подробную информацию о речевом кодировщике AMR-WB+ можно найти, например, в технической спецификации, озаглавленной "Third Generation Partnership Project; Technical Specification Group Services and System Aspects; Audio Codec Processing Functions; Extended Adaptive Multi-Rate-Wide Band (AMR-WB+) Codec; Transcoding Functions (Release Six)", которая также известна как "3GPP TS 26,290 V6.3.0 (2005-06) - Технические характеристики".

Кроме того, в ЕР 1395980 В1 описана концепция кодирования звука. Там же описаны средства, которые выбирают информацию о диапазонах частот исходного звукового сигнала, которые слышны, но которые менее актуальны для восприятия и не должны кодироваться, но могут быть заменены параметрами заполнения шума. Те диапазоны частот сигнала, у которых содержание более актуально для восприятия, в отличие от предыдущих кодируются полностью. Закодированные биты сохраняются таким образом, что в частотном спектре принимаемого сигнала не остается пустот. Параметр заполнения шумом является мерой значения RMS сигнала в пределах исследуемого диапазона и используется на приемном участке алгоритмом декодирования для указания, какое количество шума необходимо вводить в исследуемый диапазон частот.

Другие подходы предусматривают неуправляемое введение шума в устройство декодирования, принимая во внимание тональность передаваемого спектра. Однако общепринятые концепции обычно имеют проблемы в том, что они либо обладают плохим разрешением в дискретизации заполнения шумом, которое обычно ухудшает слуховое восприятие, либо требуют сравнительно большого количества дополнительной информации о заполнении шумом, для которой необходима повышенная скорость передачи данных.

В связи с изложенным выше существует необходимость совершенствования концепции шумового заполнения, которая предусматривает улучшение компромисса между достижимым слуховым восприятием и требуемой скоростью передачи данных.

Сущность изобретения.

Воплощение изобретения создает кодировщик для обеспечения аудио потока на основе преобразования представления области входного звукового сигнала. Кодировщик включает в себя вычислитель ошибки дискретизации, настроенный на определение ошибки многополосной дискретизации множества диапазонов частот (например, множество коэффициентов масштаба диапазонов) на входе звукового сигнала, по которому доступна информация об усилении отдельных диапазонов (например, отдельных коэффициентов масштаба). Кодировщик также включает в себя поставщик аудио потока, настроенный на получение такого аудио потока, который содержит информацию, описывающую аудио контент [содержимое] диапазона частот, и информацию об ошибке многополосной дискретизации.

Описанный выше кодировщик основан на предложении, что использование информации об ошибке многополосной дискретизации влечет за собой возможность получения хорошего впечатления при прослушивании с использованием сравнительно небольшого количества дополнительной информации. В частности, с использованием информации об ошибке многополосной дискретизации, которая охватывает множество диапазонов частот, для которых доступна информация об усилении в отдельных диапазонах, позволяет масштабировать значение шума при декодировании, которые основаны на ошибке многополосной дискретизации, в зависимости от информации об усилении в диапазоне. Соответственно, так как информация об усилении в диапазоне, как правило, связана с психоакустической адекватностью в диапазонах частот или с точностью дискретизации применительно к диапазонам частот, то информация об ошибке многополосной дискретизации была определена в качестве дополнительной информации, которая позволяет синтезировать заполнение шумом с обеспечением хорошего впечатления при прослушивании с сохранением низкого отношения скорость-стоимость в дополнительной информации.

В предпочтительном варианте кодировщик содержит устройство дискретизации, настроенное на дискретизацию спектральных компонент (например, спектральных коэффициентов) различных частотных диапазонов в преобразовании представления области с использованием различных точностей дискретизации в зависимости от психоакустической адекватности в различных диапазонах частот для получения дискретных спектральных компонент, причем различные точности дискретизации отражают информацию об усилении в диапазоне. Кроме того, поставщик аудио потока настроен на работу с таким аудио потоком, который содержит информацию, описывающую информацию об усилении в диапазоне (например, в виде масштабных коэффициентов) и об ошибке многополосной дискретизации.

В предпочтительном варианте вычислитель ошибки дискретизации настроен на определение ошибки многополосной дискретизации во множестве диапазонов частот, содержащих, по меньшей мере, один частотный компонент (например, частотный элемент дискретизации), квантованный в ненулевое значение, с исключением диапазона частот полностью квантованного к нулю. Было установлено, что информация ошибки многополосной дискретизации является особенно значимой, если диапазоны частот, полностью квантованные к нулю, исключаются из расчета. В диапазонах частот, полностью квантованных к нулю, дискретизация, как правило, очень грубая, так что информация об ошибке дискретизации, полученная для таких диапазонов частот, как правило, не особенно значима. Более важный случай, когда ошибка дискретизации дает более значимую информацию для диапазонов частот, которые не полностью квантованы к нулю и более подходят для психоакустического восприятия, [и информация] позволяет в декодере адаптировать шум заполнения к человеческого слуху. Воплощение в соответствии с изобретением создает декодировщик для обеспечения декодирования представления аудио сигнала на основе закодированного потока, представляющего спектральные компоненты диапазона частот звукового сигнала. Декодировщик включает заполнитель шумом, настроенный для внесения шума в спектральные компоненты (например, значения спектральных линий или, в более общем смысле, значения спектрального элемента дискретизации) в нескольких диапазонах частот, для которых получение информации (например, коэффициентов масштаба) в отдельных диапазонах частот связано с основным значением интенсивности общего многополосного шума.

Декодировщик основан на представлении о том, что значение интенсивности одного многополосного шума может быть применено для заполнения шумом с хорошими результатами, если информация, полученная для отдельных диапазонов частот, связана с разными диапазонами частот. Соответственно, индивидуальное масштабирование шума, вводимое в различные частотные диапазоны, возможно на основе полученной информации для диапазона частот, такой, что, например, значение интенсивности одного общего многополосного шума, взятого в сочетании с информацией об усилении в отдельном диапазоне частот, обеспечивает получение достаточной информации для введения шума, адаптированного к психоакустике человека. Таким образом, концепция, описанная здесь, позволяет применять шум заполнения в квантованной (но не нормированной) области.

Шум, добавленный в декодировщик, может быть расширен с учетом психоакустической адекватности диапазона без необходимости получения дополнительной информации (без дополнительной информации, которая, так или иначе, необходима для расширения аудио контента без включения шума в диапазоне частот в соответствии с психоакустической адекватностью диапазона частот).

В предпочтительном варианте заполнитель шумом настроен на решение, выбранное на основе спектрального элемента дискретизации, следует ли вводить шум в отдельные спектральные элементы дискретизации диапазонов частот в зависимости от того? квантованы к нулю или нет соответствующие отдельные спектральные элементы дискретизации. Соответственно, можно получить очень тонкую детализацию шума заполнения при сохранении очень малого количества необходимой дополнительной информации. Действительно, не требуется передавать любую дополнительную информацию о специфическом шуме заполнения, в то время когда есть отличная детализация по отношению к шуму заполнения. Например, как правило, требуется передать коэффициент усиления в диапазоне (например, масштабный коэффициент) для диапазона частот, даже если только одна спектральная линия (или один спектральный элемент дискретизации) указанного диапазона частот квантуется в ненулевое значение интенсивности. Таким образом, можно сказать, что информация о коэффициенте масштаба может быть использована для заполнения шумом без каких-либо дополнительных затрат (с точки зрения битрейта), если хотя бы одна спектральная линия (или спектральный элемент дискретизации) в полосе частот квантуется с ненулевой интенсивностью. Однако в соответствии с настоящим изобретением это не является необходимым для передачи информации о специфическом шуме в частотном диапазоне с целью получения соответствующего шума заполнения в таком диапазоне частот, в котором существует хотя бы одно ненулевое значение интенсивности спектрального элемента дискретизации. Таким образом, было обнаружено, что хорошие по психоакустике результаты могут быть получены с помощью значения интенсивности многополосного шума в сочетании с получением информации о специфическом шуме в частотном диапазоне (например, масштабным коэффициентом). Таким образом, нет необходимости тратить биты на информацию заполнения специфического шума в частотном диапазоне. То есть передачи одного значения интенсивности многополосного шума достаточно, потому что эта информация заполнения многополосным шумом во всех случаях может быть объединена с информацией об усилении в диапазоне частот для получения информации заполнения специфическим шумом в частотном диапазоне, хорошо приспособленным к человеческому слуху.

В другом предпочтительном варианте заполнитель шумом настроен на прием множества значений спектральных элементов дискретизации, представляющих различные перекрывающиеся или неперекрывающиеся частотные области из первого диапазона частот в частотной области представления аудио сигнала, а также [заполнитель шумом настроен] на получение множества значений спектральных элементов дискретизации, представляющих различные перекрывающиеся или неперекрывающиеся частотные области из первого диапазона частот в частотной области представления аудио сигнала. Кроме того, заполнитель шумом настроен на замену одного или нескольких значений спектральных элементов дискретизации в первом диапазоне частот из множества диапазонов частот на первое значение шума спектрального элемента дискретизации, причем величина значения шума первого спектрального элемента дискретизации определяется значением интенсивности многополосного шума. Кроме того, заполнитель шумом настроен на замену одного или нескольких значений спектральных элементов дискретизации из второго диапазона частот на второе значение шума спектрального элемента дискретизации, имеющего ту же величину, что и первое значение шума спектрального элемента дискретизации. Декодер также включает в себя блок масштабирования, настроенный на масштабирование значения спектрального элемента дискретизации из первого диапазона частот со значением усиления в первом диапазоне частот, для получения значений масштабирования спектральных элементов дискретизации из первого диапазона частот, и [модуль масштабирования, настроенный на] масштабирование значений спектральных элементов дискретизации из второго диапазона частот со значением усиления во втором диапазоне частот для получения масштабирования значений спектральных элементов дискретизации из второго диапазона частот, так что значения спектрального элемента дискретизации, замененные с использованием шумовых значений первого и второго спектральных элементов дискретизации, масштабируются с различными значениями усиления в диапазоне частот таким образом, что значение спектрального элемента дискретизации, замененное с использованием шумовых значений первого спектрального элемента дискретизации, незамещенные значения спектральных элементов дискретизации в первом диапазоне частот, представляющие аудио контент первого диапазона частот, масштабируются с значением усиления первого диапазона частот таким образом, что значение спектрального элемента дискретизации, замененное значением шума второго спектрального элемента дискретизации, незамещенные значения спектрального элемента дискретизации из второго диапазона частот, представляющие аудио контент второго диапазона частот, масштабируются со значением усиления во втором диапазоне частот.

В воплощении в соответствии с изобретением заполнитель шумом необязательно настроен на выборочное изменение значения усиления в частотном диапазоне с использованием значения смещения шума, если данный диапазон частот квантован к нулю. Соответственно, смещение шума позволяет минимизировать число битов дополнительной информации. Что касается этой минимизации, следует отметить, что кодирование масштабных коэффициентов (ССП) в ААС аудио кодировщике осуществляется с использованием кодирования Huffmann разности последовательных масштабных коэффициентов (ССП). Небольшие значения разности позволяют получить кратчайшие коды (в то время как большие различия дают более длинные коды). Смещение шума минимизирует "среднюю разность" в переходе от обычных масштабных коэффициентов (коэффициенты масштаба диапазона не квантуются к нулю) к коэффициентам масштаба шума и обратно, и таким образом оптимизируется требуемое число разрядов в дополнительной информации. Это связано с тем, что обычно "коэффициенты масштаба шума "больше, чем обычные коэффициенты масштаба, если включенных линий не >=1 и они соответствуют средней ошибке квантования е (причем обычно 0<е<0.5).

В предпочтительном варианте заполнитель шумом настроен на замену значения спектральных элементов дискретизации, квантованных к нулю, на значения шума спектрального элемента дискретизации, у которых величины значений шума спектральных элементов дискретизации зависит от значения интенсивности многополосного шума, чтобы получить замененные значения спектральных элементов дискретизации, только для диапазонов частот, имеющих наименьший коэффициент спектрального элемента дискретизации из ранее определенных индексов спектрального элемента дискретизации, оставляя значения спектральных элементов дискретизации диапазонов частот, если наименьший коэффициент спектрального элемента дискретизации меньше предварительно определенного неизменного индекса спектрального элемента дискретизации. Предпочтительно, чтобы заполнитель шумом был настроен на выборочное изменение для диапазонов частот, имеющих наименьший коэффициент спектрального элемента дискретизации выше предварительно определенного индекса спектрального элемента дискретизации, [заполнитель шумом настроен на] значение усиления диапазона (например, значение коэффициента масштаба) для заданного диапазона частот в зависимости от значения смещения шума, если заданный диапазон частот полностью квантован к нулю. Предпочтительно, чтобы заполнение шумом выполнялось только при превышении заданного индекса спектрального элемента дискретизации. Кроме того, предпочтительно, чтобы смещение шума применялось только к квантованным к нулю диапазонам и не применялось для значений ниже заданного индекса спектрального элемента дискретизации. Кроме того, предпочтительно, чтобы декодировщик содержал масштабирование, настроенное на применение выборочного изменения или сохранения значений усиления диапазона для выборочной замены или запрета замены значений спектральных элементов дискретизации и получения масштабированной спектральной информации, которая представляет аудио сигнал. С использованием такого подхода декодировщик позволяет получить очень сбалансированное впечатление при прослушивании, которое не сильно ухудшается от заполнения шумом. Заполнение шумом применяется только к верхним диапазонам частот (с наименьшими коэффициентами спектральных элементов дискретизации из предварительно заданного индекса спектрального элемента дискретизации), так как шум заполнения в нижних диапазонах частот может привести к нежелательному ухудшению впечатления при прослушивании. С другой стороны, желательно выполнять заполнение шумом в верхних диапазонах частот. Следует отметить, что в некоторых случаях диапазоны с меньшим масштабом коэффициента (SFB) квантуются лучше (по сравнению с диапазонами с большим коэффициентом масштаба).

Другой вариант изобретения представляет метод для получения аудио потока на основе преобразования представления области входного звукового сигнала. Следующий вариант изобретения создает метод для обеспечения представления декодированного аудио сигнала на основе закодированного аудио потока.

Еще один вариант изобретения создает компьютерную программу для выполнения одного или нескольких из указанных выше методов.

Еще один вариант изобретения создает аудио поток, представляющий аудио сигнал. Аудио поток содержит спектральную информацию, описывающую интенсивности спектральных компонент звукового сигнала, причем спектральная информация дискретизируется с различными точностями дискретизации в различных частотных диапазонах. Аудио поток также включает в себя информацию об уровне шума, описывающую ошибку многополосной дискретизации для множества диапазонов частот, с учетом различных точностей дискретизации. Как было указано выше, такой аудио поток позволяет эффективно декодировать аудио контент, в котором достигается хороший компромисс между достижимым впечатлением при прослушивании и требуемой скоростью передачи. Краткое описание фигур чертежей.

Фиг.1 показывает блок-схему кодировщика в соответствии с вариантом изобретения;

Фиг.2 показывает блок-схему кодировщика для другого варианта изобретения;

Фиг.3A и 3B показывают блок-схему расширенного Улучшенного Аудио Кодирования (ААС) в соответствии с вариантом изобретения;

Фиг.4A и 4B показывает псевдокод программы, представляющей алгоритмы для выполнения кодирования звукового сигнала;

Фиг.5 показывает блок-схему декодировщика в соответствии с вариантом изобретения;

Фиг.6 показывает блок-схему декодировщика согласно другому варианту изобретения;

Фиг.7A показывает блок-схему расширенного ААС и 7B (Улучшенного Аудио Кодирования) декодировщика в соответствии с вариантом изобретения;

Фиг.8A показывает математические представления деквантования, которое может быть выполнено в расширенном декодировщике ААС Фиг.7;

Фиг.8B показывает псевдокод программы, описывающей алгоритм деквантования, который может выполнить расширенное декодирование ААС Фиг.7;

Фиг.8С показывает представление блок-схемы деквантования;

Фиг.9 показывает блок-схему заполнителя шумом и модуля масштабирования, которые могут быть использованы в расширенном декодировании ААС Фиг.7;

Фиг.10A показывает псевдокод программы, представляющей алгоритм, который может быть выполнен заполнителем шумом, показанном на Фиг.7 или заполнителя шумом, показанного на Фиг.9;

Фиг.10B показывает наименование элементов псевдокода программы на Фиг.10A;

Фиг.11 показывает блок-схему метода, который может быть реализован в заполнителе шумом Фиг.7 или в заполнителе шумом Фиг.9;

Фиг.12 показывает графическую иллюстрацию метода Фиг.11;

Фиг.13F и 13B показывают псевдокоды программы, представляющие алгоритмы, которые могут быть выполнены заполнителем шумом Фиг.7 или заполнителем шумом Фиг.9;

Фиг.14A по 14D показывают представления элементов битового потока для аудио потока в соответствии с вариантом изобретения; и

Фиг.15 показывает графическое представление битового потока в соответствии с другим вариантом осуществления изобретения.

Подробное описание изобретения

1. Устройство кодирования (кодировщик)

1.1. Кодировщик в соответствии с Фиг.1

Фиг.1 показывает блок-схему кодировщика для получения аудио потока на основе преобразования представления области входного звукового сигнала в соответствии с вариантом изобретения.

Кодировщик 100 на Фиг.1 включает в себя вычислитель ошибки дискретизации 110 и поставщика аудио потока 120. Вычислитель ошибки дискретизации 110 настроен на получение информации 112 для первого диапазона частот, для которого имеется информация об усилении в первом диапазоне частот и информации 114 для второго диапазона частот, для которого имеется информация об усилении во втором диапазоне частот. Вычислитель ошибки дискретизации настроен для определения ошибки многополосной дискретизации для множества частотных диапазонов входного звукового сигнала, в котором доступна информация об усилении в отдельном диапазоне. Например, вычислитель ошибки дискретизации 110 настроен для определения ошибки многополосной дискретизации в первом диапазоне частот, а второй диапазон частот использует информацию 112, 114. Соответственно, вычислитель ошибки дискретизации 110 настроен на предоставление информации 116, описывающей ошибку многополосной дискретизации для поставщика аудио потока 120. Поставщик аудио потока 120 настроен также на получение информации 122, описывающей первый диапазон частот и информации 124, описывающей второй диапазон частот. Кроме того, поставщик аудио потока 120 настроен на получение аудио потока 126, так что звуковой поток 126 включает в себя представление информации 116, а также представление аудио контента первого и второго диапазонов частот.

Таким образом, кодировщик 100 формирует аудио поток 126, включающий информацию контента, которая используется для эффективного декодирования аудио контента с использованием заполнения шумом диапазона частот. В частности, аудио поток 126, представляемый кодировщиком, позволяет получить хороший компромисс между скоростью передачи и «гибкостью декодирования шума заполнения».

1.2. Кодировщик в соответствии с Фиг.2

1.2.1 Обзор Кодировщика

Далее будет описано улучшенное аудио кодирование в соответствии с вариантом изобретения, который основан на аудио кодировании и описан в международном стандарте ISO / IEC 14496-3:2005 (Е), Information Technology - Coding of Audio-Visual Objects - Part 3: Audio, Sub-part 4: General Audio Coding (GA) - AAC, Twin VQ, BSAC. Аудио кодировщик 200 в соответствии с Фиг.2, в частности, основан на аудио кодировании, описанном в ISO/IEC 14496-3: 2005(E), Part 3: Audio, Sub-part 4, Section 4.1.However, the audio encoder 200 does not need to implement the exact functionality of the audio encoder of ISO/IEC 14494-3: 2005(E).

Однако аудио кодек и 200 не нуждается в необходимости осуществления точной функциональности аудио кодировщика по стандарту ISO/IEC 14494-3:2005(E). Аудио кодек 200 может, например, быть настроен на прием сигнала во времени 210 и представления на его основе закодированного аудио потока 212. Путь обработки сигналов может включать дополнительно модуль низкочастотных выборок 220, дополнительный контроль усиления ААС 222, блок переключения набора фильтров 224, дополнительную обработку сигнала 226, расширенный ААС кодировщик 228 и форматирование потока битов полезного сигнала 230. Однако кодировщик 200 обычно включает в себя психоакустическую модель 240.

В самом простом случае кодировщик 200 включает в себя только блок переключения / набор фильтров 224, расширенный кодировщик ААС 228, форматирование потока битов полезного сигнала 230 и психоакустическую модели 240, в то время как другие компоненты (в частности, компоненты 220, 222, 226) должны рассматриваться лишь как дополнительные.

В простом случае блок переключения / набор фильтров 224 получает входной сигнал времени 210 (дополнительно производятся выборки модулем низкочастотных выборок 220, и дополнительно масштабируется усиление с помощью контроллера усиления ААС 222) и на этой основе обеспечивает представление в частотной области 224а. Представление в частотной области 224а может, например, содержать информацию, описывающую интенсивности (например, амплитуду и энергию) спектральных элементов дискретизации входного сигнала времени 210. Например, блок переключения / набор фильтров 224, могут быть настроены на выполнение улучшенного дискретного косинусного преобразования (МСКТ) для получения значений в частотной области из входного сигнала временной области 210. Представление в частотной области может быть логически разделено на различные частотные диапазоны, которые также обозначены как "диапазоны коэффициентов масштаба". Например, предполагается, что блок переключения / набор фильтров 224 обеспечивает спектральные значения (также именуемые значениями частотных элементов дискретизации) для большого числа различных частотных элементов дискретизации. Количество частотных элементов дискретизации определяется, среди прочего, длиной окна на входе в набор фильтров 224, а также зависит от скорости выборок (и битов). Тем не менее, диапазоны частот или диапазоны коэффициентов масштаба определяют подмножества спектральных значений при помощи блока переключения / набора фильтров. Подробная информация в отношении определения диапазонов коэффициентов масштаба известна специалистам, а также описана в ISO/IEC 14496-3:2005(E), Part 3, Sub-part 4.

Расширенный кодировщик ААС 228 получает спектральные значения 224а с помощью блока переключения / набора фильтров 224 на основе входного сигнала во временной области 210 (или его предварительно обработанной версии) в качестве входной информации 228а. Как видно из Фиг.2, входная информация 228а расширенного кодировщика ААС 228 может быть получена из спектральных значений 224а с помощью одного или нескольких этапов дополнительной спектральной обработки 226. Для более подробной информации об этапах дополнительной предварительной спектральной обработки 226 можно обратиться к ISO/IEC 14496-3:2005(E) и затем к Стандартам, на которые он ссылается.

Расширенный кодировщик ААС 228 настроен на прием входной информации 228а в виде спектральных значений для множества спектральных элементов дискретизации и представления на его основе дискретизированного и закодированного с исключением шума представления спектра 228b. Для этого расширенный кодировщик ААС 228 может, например, использовать информацию, полученную из входного звукового сигнала 210 (или его предварительно обработанной версии) с помощью психоакустической модели 240. Вообще говоря, расширенный кодировщик ААС 228 может использовать информацию, представленную психоакустической моделью 240, чтобы решить, с какой точностью должно применяться кодирование различных диапазонов частот (или диапазон коэффициентов масштаба) входной спектральной информации 228а. Таким образом, расширенный кодировщик ААС 228 в целом может адаптировать ее точность дискретизации для различных диапазонов частот с конкретными характеристиками входного сигнала во временной области 210, а также имеющимся числом битов. Таким образом, расширенный кодировщик ААС может настроить точность дискретизации, например, таким образом, что информация, представляющая дискретизированный и закодированный с исключением шума спектр, включает в себя соответствующую скорость передачи данных (или среднюю скорость передачи данных).

Форматирование потока битов полезного сигнала 230 настроено на включение информации 228b, представляющей дискретизированный и закодированный с исключением шума спектр, в закодированный аудио поток 212 в соответствии с предварительно определенным синтаксисом.

Для более подробной информации о работе компонент кодировщика, описанных здесь, предлагается ссылка на ISO / IEC 14496-3: 2005 (Е) (включая приложение 4.В), а также ISO / IEC 13818-7:2003. Кроме того, предлагается ссылка на ISO / IEC 13818-7:2005, подпункты от СТ до С9.

Кроме того, конкретная ссылка в отношении терминологии сделана в ISO / IEC 14496-3:2005 (Е), Part 3: Audio, Sub-part 1: Main.

Кроме того, дается конкретная ссылка на ISO / IEC 14496-3:2005 (Е), Part 3: Audio, Subpart 4: General Audio Coding (GA) - AAC, Twin VQ, BSAC.

1.2.2. Детальное описание кодировщика

Далее представлено детальное описание кодировщика со ссылкой на Фиг.3A, 3B, 4A и 4B. На Фиг.3A и 3B показана блок-схема расширенного кодировщика ААС в соответствии с вариантом изобретения. Расширенный декодировщик ААС предназначен для 228 и может использоваться вместо расширенного кодировщика ААС 228 на Фиг.2. Расширенный кодировщик ААС 228 настроен на получение из входной информации 228а вектора амплитуд спектральных линий, в котором вектор спектральных линий иногда обозначается mdctline (0.. 1023). Расширенный кодировщик ААС 228 также получает информацию о пороге чувствительности кодирования 228 с, которая задает максимально допустимую ошибку для уровня MDCT. Информация о пороге чувствительности кодирования 228 с обычно предоставляется индивидуально для различного диапазона коэффициентов масштаба и создается с помощью психоакустической модели 240. Кодировщик информации о пороге чувствительности 228 иногда обозначается Xmin (sb), в котором параметр sb показывает зависимость диапазона коэффициентов масштаба. Расширенный кодировщик ААС 228 также получает информацию о количестве разрядов 228d, которая описывает количество доступных битов для кодирования спектра, представленного вектором 228а величин спектральных значений. Например, информация о количестве разрядов 228d может включать значащую информацию бита (обозначается mean_bits) и дополнительную информацию бита (обозначается more_bits). Расширенный кодировщик ААС 228 также настроен на получение информации о диапазоне коэффициентов масштаба 228е, которая описывает, например, количество и ширину диапазонов коэффициентов масштаба. Расширенный кодировщик ААС включает спектральное значение блока дискретизации 310, который настроен для получения вектора 312 дискретных значений спектральных линий, который также обозначается x_quant (0… 1023). Спектральное значение блока дискретизации 310 включает в себя масштабирование и настроено на получение информации о коэффициенте масштаба 314, которая может представлять собой один масштабный коэффициент для каждого диапазона коэффициентов масштаба, а также общую информацию о коэффициенте масштаба. Кроме того, спектральное значение блока дискретизации 310 может быть настроено для предоставления информации об использовании бита 316, которая может описать количество битов, используемых для дискретизации вектора 228а величин спектральных значений. Действительно, спектральное значение блока дискретизации 310 настроено на дискретизацию различных спектральных значений вектора 228а с различной точностью в зависимости от психоакустической адекватности различных спектральных значений. Для этого спектральное значение блока дискретизации 310 масштабируется спектральными значениями вектора 228а с использованием различных коэффициентов масштаба, зависящих от диапазона, и в результате дискретизируются масштабные спектральные значения. Как правило, спектральные значения, связанные с психоакустически важным диапазоном коэффициентов масштаба, будут масштабироваться с большими масштабными коэффициентами, такими что масштабированные спектральные значения в психоакустически важных диапазонах коэффициентов масштаба перекрывают большой диапазон значений. С другой стороны, спектральные значения в психоакустически менее важных диапазонах коэффициентов масштаба масштабируются с меньшими коэффициентами масштаба, так что масштабированные спектральные значения в психоакустически менее важных диапазонах коэффициентов масштаба перекрывают меньший диапазон значений. Масштабированные спектральные значения затем дискретизируются, например, до целых значений. При таком масштабировании многие из масштабированных спектральных значений в психоакустически менее важных диапазонах коэффициентов масштаба квантуются к нулю, потому что спектральные значения в психоакустически менее важных диапазонах коэффициентов масштаба масштабируются с малыми коэффициентами масштаба.

В итоге можно сказать, что спектральные значения, психоакустически более соответствующие диапазонам коэффициентов масштаба, дискретизируются с высокой точностью (поскольку утверждается, что масштабированные спектральные линии, более соответствующие диапазонам коэффициентов масштаба, перекрывают больший диапазон значений и, следовательно, число шагов дискретизации), а спектральные значения в психоакустически менее важных диапазонах коэффициентов масштаба дискретизируются с более низкой точностью дискретизации (так как масштабированные спектральные значения в менее важных диапазонах коэффициентов масштаба перекрывают меньший диапазон значений и, следовательно, дискретизируются с меньшими различиями в шагах дискретизации).

Спектральное значение блока дискретизации 310, как правило, настроено для определения надлежащих коэффициентов масштаба с использованием порогового значения кодировщика 228 с и информации о количестве битов 228d. Как правило, спектральное значение блока дискретизации 310 также настрое