2393552 - Комбинированное аудиокодирование, минимизирующее воспринимаемое искажение

Комбинированное аудиокодирование, минимизирующее воспринимаемое искажение

Иллюстрации

Показать все

Изобретение относится к области кодирования аудиосигнала низкой скорости передачи битов высокого качества. Аудиокодировщик, в котором два или более предпочтительно разных кодировщика работают вместе, чтобы генерировать объединенный кодированный аудиосигнал. Параметры кодирования упомянутых двух или более кодировщиков оптимизируются в ответ на меру искажения объединенного кодированного аудиосигнала в соответствии с заданным критерием. Мера искажения предпочтительно является мерой воспринимаемого искажения. В одном варианте осуществления кодировщика, содержащем синусоидальный кодировщик и кодировщик формы волны, постоянная полная скорость передачи битов для каждого аудиокадра распределяется между двумя кодировщиками так, чтобы минимизировать воспринимаемое искажение как для первого, так и второго кодировщика. Другие варианты осуществления рассматривают набор параметров кодирования, который больше, чем только те, которые минимизируют воспринимаемое искажение первого кодировщика. В некоторых вариантах осуществления воспринимаемое искажение может минимизироваться посредством оптимизации кодирования через оптимизацию всех шаблонов кодирования, т.е. комплексного набора параметров кодирования, для отдельных кодировщиков. Отдельные кодировщики могут либо быть каскадными, либо работать параллельно, или в комбинации этого. В процедуре оптимизации предпочтительно принимаются в рассмотрение два или более аудиосегментов. Соответствующий аудиодекодер содержит отдельные декодеры, соответствующие отдельным кодировщикам аудиокодировщика, который закодировал аудиосигнал. Декодированные части сигнала из этих декодеров затем складываются, чтобы производить конечный аудиосигнал. Технический результат - обеспечение аудиокодирования высокого качества с высокой эффективностью для большого разнообразия характеристик аудиосигнала и для разных целевых скоростей передачи битов. 4 н. и 16 з.п ф-лы, 7 ил.

Реферат

Область техники, к которой относится изобретение

Это изобретение относится к области кодирования аудиосигнала низкой скорости передачи битов высокого качества. Это изобретение, в частности, относится к эффективному кодированию, оптимизированному по отношению к качеству воспринимаемого звука, при рассмотрении целевой скорости передачи битов. Более конкретно, это изобретение относится к кодированию аудиосигнала, использующему множество кодировщиков для производства объединенного представления кодированного сигнала. Это изобретение также относится к кодировщику, декодеру, способам кодирования и декодирования, кодированному аудиосигналу, хранилищу и носителям передачи с данными, представляющими такой кодированный сигнал, и аудиоустройствам с кодировщиком и/или декодером.

Предшествующий уровень техники

В аудиокодировании высокого качества хорошо известно, что необходимы разные способы кодирования для предоставления оптимального результата по отношению к качеству звука по отношению к скорости передачи битов для большого многообразия аудиосигналов. Один способ кодирования может предоставлять хорошие результаты для некоторых типов аудиосигналов, тогда как другие типы аудиосигналов дают результатом недостаточную производительность. Для очень низких скоростей передачи битов наиболее эффективным является синусоидальный кодировщик плюс шумовая модель, в то время как технологии кодирования формы волны, в общем, приводят к более хорошим результатам для более высоких скоростей передачи битов.

В текущих стандартах MPEG 2 и MPEG 4 признается проблема, что разные стратегии кодирования могут быть более эффективными для разных скоростей передачи битов. Таким образом, в этот стандарт включен большой диапазон различных аудиокодировщиков, большинство из которых нацелены давать наилучшие результаты для ограниченного диапазона скоростей передачи битов.

Однако нормальные аудиосигналы включают в себя смесь большого многообразия свойств сигнала даже внутри короткого периода времени. Поэтому является достаточно распространенным, что даже несколько секунд аудиосигнала содержат короткие отрывки, доминируемые, например, чистыми тональными сигналами, шумом или кратковременными звуками (звуковыми переходами). Эти разные характеристики требуют разных характеристик кодирования для оптимального кодирования, т.е. использование единичного типа кодировщика может давать результатом довольно недостаточные результаты в терминах скорости передачи битов или качества для некоторых отрывков сигнала.

Диссертация, выполненная Скотом Левиным (Scott Levine), [1] (см. список ссылок в конце раздела, озаглавленного "Описание вариантов осуществления"), описывает кодировщик, содержащий смесь между синусоидальным (или параметрическим) кодировщиком и кодировщиком формы волны. Наибольшая часть аудиосигнала кодируется с помощью параметрического кодировщика, в то время как кодировщик формы волны используется только для переходных частей аудиосигнала. В этой схеме применяется заданное разделение между параметрическим кодировщиком и кодировщиком формы волны.

Патент США 5808569 на имя Philips описывает схему кодирования, в которой разные части сигнала кодируются посредством использования двух разных стратегий кодирования. Однако никакая дополнительная спецификация не дана, чтобы определять, как битовая скорость распределяется по разным кодировщикам.

Никакой аудиокодировщик предыдущей области техники, таким образом, не обращается к проблеме управления двумя или более разными схемами кодирования в ответ на изменение параметров аудиосигнала.

Цель и сущность изобретения

Целью настоящего изобретения является предоставить гибкий аудиокодировщик, который способен предоставлять аудиокодирование высокого качества с высокой эффективностью для большого многообразия характеристик аудиосигнала и для разных целевых скоростей передачи битов.

Согласно первому аспекту этого изобретения эта цель достигается с помощью аудиокодировщика, сконфигурированного кодировать аудиосигнал, причем аудиокодировщик содержит:

- первый кодировщик, сконфигурированный генерировать первую кодированную часть сигнала,

- по меньшей мере, второй кодировщик, сконфигурированный генерировать вторую кодированную часть сигнала, и

- устройство управления, содержащее

- средство вычисления, сконфигурированное вычислять объединенное представление аудиосигнала, содержащее первую и вторую кодированные части сигнала, по отношению к мере искажения, и

- оптимизирующее средство, сконфигурированное регулировать параметры кодирования для, по меньшей мере, одного из: первого и второго кодировщиков, и отслеживать меру искажения объединенного представления аудиосигнала в ответ на это с тем, чтобы оптимизировать параметры кодирования в соответствии с заданным критерием.

Термин 'мера искажения' должен толковаться как любая мера различия между аудиосигналом и кодированным аудиосигналом, т.е. объединенным представлением аудиосигнала.

Термин 'параметры кодирования' должен толковаться широко как одна или более возможных переменных кодирования, которые могут регулироваться для конкретного кодировщика. Природа этих параметров кодирования зависит от типа кодировщика.

Аудиокодировщик согласно первому аспекту способен осуществлять оптимальное кодирование для каждого отрывка аудиосигнала так, чтобы наилучшим образом использовать два объединенных кодировщика для получения наименьшего возможного воспринимаемого искажения, т.е. наилучшего качества восприятия, при заданном некотором пределе максимальной скорости передачи битов. В особенности, выбор первого и второго кодировщиков, так что они используют совершенно разные принципы кодирования, будет предоставлять эффективное кодирование. Например, для одного отрывка с некоторыми характеристиками сигнала наиболее эффективное кодирование может быть получено почти единственно с полной скоростью передачи битов, используемой первым кодировщиком, в то время как следующий отрывок демонстрирует другие характеристики, требующие смесь обоих кодировщиков для оптимального кодирования. Кодировщик согласно первому аспекту способен конфигурироваться для разных характеристик аудиосигнала и также предоставлять оптимальную производительность при разных пределах максимальной скорости передачи битов. Известно, что некоторые кодировщики показывают наилучшую производительность при конкретных скоростях передачи битов. Это принимается в рассмотрение вследствие оптимизированной смеси двух кодировщиков, таким образом, обеспечивая, что оптимальная эффективность кодирования получается для большого диапазона целевых скоростей передачи битов. Параметры кодирования обоих первого и второго кодировщика предпочтительно оптимизируются.

В принципе, кодировщик согласно этому изобретению делает возможной оптимизацию параметров кодирования его отдельных кодировщиков в соответствии с большим многообразием критериев. В одном варианте осуществления оптимизирующее средство конфигурируется для регулировки параметров кодирования так, чтобы минимизировать меру искажения, т.е. в соответствии с этим критерием, качество звука оптимизируется без какого-либо рассмотрения доступной скорости передачи битов. Однако этот вариант осуществления может быть модифицирован с помощью ограничения заданной максимальной полной скорости передачи битов для первого и второго кодировщиков.

В другом варианте осуществления оптимизирующее средство конфигурируется для минимизации меры искажения посредством распределения, в пределах заданной максимальной полной скорости передачи битов, первой и второй скоростей передачи битов первому и второму кодировщикам соответственно. Этот вариант осуществления аудиокодировщика стремится распределять полную скорость передачи битов наиболее эффективно между двумя кодировщиками так, чтобы минимизировать искажение. В простом варианте осуществления двух кодировщиков с ограниченным набором фиксированных скоростей передачи битов и постоянной суммой скоростей передачи битов для двух кодировщиков оптимизирующее средство только должно регулировать распределение скоростей передачи битов между двумя кодировщиками.

В других вариантах осуществления оптимизирующее средство конфигурируется минимизировать полную скорость передачи битов для первой и второй частей сигнала с ограничением заданной максимальной меры искажения. В соответствии с этим вариантом осуществления критерий оптимизации должен минимизировать полную скорость передачи битов для фиксированной меры искажения.

В предпочтительных вариантах осуществления мера искажения содержит меру воспринимаемого искажения. Термин 'мера воспринимаемого искажения' должен толковаться широко как величина, выражающая, например, в соответствии с психоакустической моделью, до какой степени кодированный сигнал искажается по отношению к качеству воспринимаемого звука. Другими словами, мера воспринимаемого искажения для кодированного сигнала является величиной, выражающей степень деградации исходного входного аудиосигнала, которая может восприниматься слушателем. Очевидно, эта мера предпочтительно должна минимизироваться, чтобы достигнуть цели оптимального качества звука кодированного сигнала.

В предпочтительном варианте осуществления первый кодировщик конфигурируется для кодирования аудиосигнала в первую кодированную часть сигнала, и второй кодировщик конфигурируется для кодирования первого остаточного сигнала, определенного как разность между упомянутым аудиосигналом и первой кодированной частью сигнала, во вторую кодированную часть сигнала. Этот вариант осуществления описывает каскад двух кодировщиков, в котором второй кодировщик кодирует оставшуюся часть исходного сигнала, которая не кодируется первым кодировщиком. Мера искажения предпочтительно базируется на втором остаточном сигнале, определенном как разность между первым остаточным сигналом и второй кодированной частью сигнала. Это означает, что оставшаяся часть исходного аудиосигнала, которая не была кодирована двумя кодировщиками, используется вместе с исходным аудиосигналом для создания меры искажения. В более общих терминах, в каскаде более чем двух кодировщиков каждый из которых кодирует остаточные сигналы кодировщика, предшествующего ему в каскаде, остаточный сигнал, который не был декодирован последним кодировщиком в каскаде, используется как входной для устройства управления для процесса оптимизации.

В другом предпочтительном варианте осуществления аудиокодировщик дополнительно содержит разделитель сигнала, сконфигурированный разделять аудиосигнал на первую и вторую части, где первый кодировщик сконфигурирован кодировать первую часть аудиосигнала в первую кодированную часть сигнала, и где второй кодировщик сконфигурирован кодировать вторую часть аудиосигнала во вторую кодированную часть сигнала. В этом варианте осуществления первый и второй кодировщики, таким образом, работают параллельно. Например, разделитель сигнала может содержать модуль фильтра, разделяющий аудиосигнал на разные частотные диапазоны.

Аудиокодировщик может дополнительно содержать третий кодировщик, сконфигурированный генерировать третью кодированную часть сигнала, где устройство управления сконфигурировано обрабатывать объединенное представление аудиосигнала, содержащее первую, вторую и третью кодированные части сигнала. Три кодировщика могут работать в каскаде параллельно, как описано выше, или в комбинации этого. Аудиокодировщик может содержать более чем три кодировщика, т.е. четыре, пять, шесть или более кодировщиков. Они могут быть каскадными, соединенными параллельно или соединенными в комбинации каскада и параллельно. Это множество кодировщиков могут быть разных типов или могут, по меньшей мере, представлять два разных типа.

Оптимизирующее средство предпочтительно конфигурируется выбирать среди заданных наборов первых и вторых шаблонов кодирования для первого и второго кодировщиков, соответственно, пару первого и второго шаблонов кодирования, дающую результатом наилучшую производительность в соответствии с заданным критерием. Здесь, 'шаблон кодирования' должен толковаться, чтобы означать, для конкретного кодировщика, выбранный набор параметров кодирования, которые могут регулироваться. 'Набор заданных шаблонов' должен, таким образом, толковаться, чтобы означать, для конкретного кодировщика, наборы разных выбранных параметров кодирования.

Первый кодировщик предпочтительно содержит кодировщик, выбранный из группы, состоящей из параметрических кодировщиков (например, синусоидального кодировщика), кодировщиков преобразования, кодировщиков регулярного импульсного возбуждения и кодировщиков возбуждаемого линейного прогноза шифровальной книги. Второй кодировщик предпочтительно содержит кодировщик, выбранный из такой же группы. Первый кодировщик также может быть комбинированным кодировщиком. Наиболее предпочтительно, чтобы первый и второй кодировщики были разных типов, так что они дополняют друг друга наилучшим возможным способом. Однако первый и второй кодировщики могут быть одного и того же типа, но с разными шаблонами кодирования.

Аудиокодировщик предпочтительно конфигурируется, чтобы принимать аудиосигнал, разделенный на сегменты. Оптимизирующее средство предпочтительно конфигурируется, чтобы оптимизировать параметры кодирования по одному или более последовательным сегментам аудиосигнала. Эти сегменты могут быть перекрывающимися или неперекрывающимися. Более предпочтительно, три или более последовательных сегментов используются в процессе оптимизации.

Второй аспект этого изобретения предоставляет аудиодекодер, сконфигурированный для декодирования кодированного аудиосигнала, причем аудиодекодер содержит:

- первый декодер, сконфигурированный, чтобы генерировать первую декодированную часть сигнала из первой кодированной части сигнала,

- второй декодер, сконфигурированный, чтобы генерировать вторую декодированную часть сигнала из второй кодированной части сигнала, и

- средство суммирования, сконфигурированное, чтобы генерировать представление аудиосигнала как сумму первой и второй декодированных частей сигнала.

Первый и второй декодеры должны быть того же типа, что и те, которые используются в процессе кодирования. Иначе они будут неспособны декодировать первый и второй кодированные сигналы, которые могут содержать специфичные для кодировщика данные, такие как, например, синусоидальные параметры и т.д. Декодеры могут работать полностью параллельно на каждой части кодированного сигнала.

Предпочтительные первый и второй декодеры могут, таким образом, выбираться из соответствующих типов, как перечислено выше в связи с аудиокодировщиком.

Что касается аудиокодировщика, декодер может дополнительно содержать третий декодер, сконфигурированный, чтобы генерировать третью декодированную часть сигнала из третьей кодированной части сигнала, где средство суммирования сконфигурировано, чтобы генерировать представление аудиосигнала как сумму первой, второй и третьей декодированных частей сигнала. Аудиодекодер может дополнительно содержать четвертый, пятый, шестой или более отдельных декодеров, каждый сконфигурирован, чтобы декодировать отдельную часть кодированного аудиосигнала. Все декодированные части сигнала должны складываться, чтобы генерировать выходной аудиосигнал.

В третьем аспекте это изобретение предоставляет способ кодирования аудиосигнала, причем способ содержит этапы:

- генерирование первой кодированной части сигнала, используя первый кодировщик,

- генерирование, по меньшей мере, второй кодированной части сигнала, используя второй кодировщик,

- вычисление объединенного представления аудиосигнала, содержащего первую и вторую кодированные части сигнала, по отношению к мере искажения, и

- оптимизацию параметров кодирования для первого и второго кодировщиков в ответ на меру искажения в соответствии с заданным критерием.

Применяется то же объяснение, как для первого аспекта.

В четвертом аспекте это изобретение предоставляет способ декодирования кодированного аудиосигнала, причем способ содержит этапы:

- генерирование первой декодированной части сигнала из первой кодированной части сигнала, используя первый декодер,

- генерирование второй декодированной части сигнала из второй кодированной части сигнала, используя второй декодер,

- сложение первой и второй декодированных частей сигнала.

Применяется то же объяснение, как для второго аспекта.

В пятом аспекте это изобретение предоставляет кодированный аудиосигнал, содержащий первую и вторую кодированные части сигнала, закодированные разными кодировщиками.

Кодированный сигнал может быть цифровым электрическим сигналом с форматом в соответствии со стандартными цифровыми аудиоформатами. Сигнал может передаваться посредством использования электрического подсоединяемого кабеля между двумя аудиоустройствами. Однако кодированный сигнал может быть беспроводным сигналом, таким как переносимый по воздуху сигнал, использующий радиочастотный носитель, или он может быть оптическим сигналом, сконфигурированным для передачи через оптоволокно.

В шестом аспекте это изобретение предоставляет запоминающий носитель, содержащий данные, представляющие кодированный аудиосигнал, согласно пятому аспекту. Запоминающий носитель предпочтительно является стандартным запоминающим носителем аудиоданных, таким как DVD, DVD-ROM, DVD-R, DVD+RW, CD, CD-R, CD-RW, компактным устройством флэш, устройством memory stick и т.д. Однако он также может быть компьютерным запоминающим носителем данных, таким как компьютерный жесткий диск, компьютерная память, гибкий диск и т.д.

В седьмом аспекте это изобретение предоставляет устройство, содержащее аудиокодировщик согласно первому аспекту.

В восьмом аспекте это изобретение предоставляет аудиоустройство, содержащее аудиодекодер согласно второму аспекту.

Все из предпочтительных устройств согласно седьмому и восьмому аспектам являются разными типами аудиоустройств, такими как лента, диск или базирующиеся на памяти модули аудиозаписи и проигрыватели, например твердотельные проигрыватели, проигрыватели DVD, аудиопроцессоры для компьютеров и т.д. В дополнение, это может быть предпочтительным для мобильных телефонов. Девятый и десятый аспекты предоставляют машиночитаемые программные коды, т.е. программное обеспечение, содержащее алгоритмы, реализующие способы кодирования и декодирования согласно третьему и четвертому аспектам соответственно.

Краткое описание чертежей

Это изобретение будет описываться более детально ниже со ссылкой на сопровождающие чертежи, на которых

Фиг. 1 - это блок-схема первого варианта осуществления аудиокодировщика, содержащего каскад из двух кодировщиков, работающих под ограничением полной (суммарной) целевой скорости передачи битов для каждого аудиоотрывка,

Фиг. 2 показывает график, показывающий пример масочной кривой (кривой маски) и спектра ошибки, используемых для выведения меры воспринимаемого искажения,

Фиг. 3 показывает графики, показывающие, для двух разных звуковых примеров, влияние распределения скоростей передачи битов между первым и вторым кодировщиками на результирующее полное воспринимаемое искажение,

Фиг. 4 - это блок-схема аудиодекодера, содержащего два декодера,

Фиг. 5 показывает второй вариант осуществления кодировщика, содержащий каскад из двух кодировщиков, работающих, для каждого аудиоотрывка, с некоторым количеством возможных шаблонов кодирования,

Фиг. 6 показывает пример сегментирования и перекрытия между двумя кодировщиками второго варианта осуществления кодировщика, и

Фиг. 7 показывает третий вариант осуществления кодировщика, содержащий два кодировщика, работающих параллельно.

В то время как возможны различные модификации и альтернативные формы в рамках объема этого изобретения, конкретные варианты осуществления были показаны в качестве примера на чертежах и будут описываться в деталях ниже. Следует отметить, однако, что это изобретение не ограничено конкретными раскрытыми формами. Это изобретение скорее охватывает все модификации, эквиваленты и альтернативы в рамках сущности и объема этого изобретения, как определено в прилагаемых пунктах формулы изобретения.

Описание вариантов осуществления

Фиг. 1 - это блок-схема, показывающая принципы первого варианта осуществления простого кодировщика, содержащего каскад двух разных кодировщиков AE1, AE2, работающих с фиксированной полной целевой скоростью передачи битов на кадр. Кадр определяется как временной интервал, который равен или больше по продолжительности, чем единичный сегмент. Первый кодировщик AE1 предпочтительно содержит синусоидальный кодировщик, в то время как второй кодировщик AE2 содержит кодировщик преобразования. Способ синусоидального кодирования является эффективным на низких скоростях передачи битов и предоставляет более хорошее качество звука по сравнению с кодировщиками формы волны на сравнительно низких скоростях передачи битов. Известно, что кодировщики преобразования требуют больших скоростей передачи битов, но достигают более хорошего качества звука, чем синусоидальные кодировщики. Таким образом, всецело, комбинация предоставляет гибкий аудиокодировщик.

В схеме кодирования, показанной на фиг. 1, отрывок аудиосигнала ε0 кодируется первым кодировщиком AE1, используя некоторую часть R₁ целевой скорости передачи битов. Часть скорости R₁ передачи битов, которая может расходоваться первым кодировщиком AE1, управляется устройством CU управления. После синусоидального кодирования в первом кодировщике AE1 первая кодированная часть E1 сигнала, т.е. неквантованное синусоидальное описание, вычитается из исходного входного сигнала ε0, чтобы дать результатом остаточный сигнал ε1, т.е. ту часть сигнала, которая не моделируется синусоидальным кодировщиком AE1. Остаточный сигнал ε1 затем кодируется вторым кодировщиком AE2, т.е. кодировщиком формы волны, во вторую кодированную часть E2 сигнала, расходуя оставшуюся часть R₂ полной скорости передачи битов, которая доступна для кодирования кадра.

В этом варианте осуществления устройство CU управления теперь оптимизирует качество воспринимаемого звука объединенного кодированного сигнала E1, E2 посредством тестирования некоторого количества альтернативных распределений скоростей R₁, R₂ передачи битов между двумя кодировщиками AE1, AE2 и вычисления объединенного кодированного результата по отношению к мере воспринимаемого искажения. Модель восприятия предпочтительно используется для предоставления меры воспринимаемого искажения. Предпочтительная модель, которая явно предлагает способ предсказания воспринимаемых искажений является способом, представленным в [4]. Обычно эта оптимизация должна делаться на основе кадр за кадром, чтобы позволять кодировщику конфигурировать локальные свойства сигнала.

Устройство CU управления сохраняет меру воспринимаемого искажения для конкретного распределения скоростей R₁, R₂ передачи битов между двумя кодировщиками AE1, AE2 и пробует другое распределение до тех пор, когда оно не находит наилучшее распределение. Для этой цели устройство CU управления сравнивает сигнал ε₂ ошибки после второго кодировщика AE2 с исходным входным сигналом ε₀. Сигнал ошибки или остаточный сигнал ε₂ определяется как разность между первым остаточным сигналом ε₁ и второй кодированной частью E2 сигнала, другими словами, конечный остаточный сигнал, который не был закодирован двумя кодировщиками AE1, AE2.

После тестирования заданного набора распределений R₁, R₂ скоростей передачи битов устройство CU управления выбирает из определенных мер воспринимаемого искажения распределение R₁, R₂ скоростей передачи битов, дающее результатом наименьшее воспринимаемое искажение, которое должно использоваться. В соответствии с этим распределением R₁, R₂, результирующие первая и вторая части E1, E2 сигнала, т.е. параметры и данные, результирующие из кодировщиков AE1, AE2 соответственно, обрабатываются модулем форматирования битового потока BSF с тем, чтобы предоставлять кодированный выходной битовый поток OUT.

Заданный набор распределений R₁, R₂ скоростей передачи битов, который должен тестироваться, может являться, например, всеми комбинациями с размером шага 5%, 10%, 20% или 25% полной целевой скорости передачи битов, т.е. R₁+R₂. В случае целевой скорости передачи битов 64 kbps (кбит в секунду), например, наборы (R₁, R₂) могут выбираться, чтобы быть (0.64), (16.48), (32.32), (48.64) и (64.0) kbps.

Точная граничная точка, где синусоидальный кодировщик AE1 является более эффективным, чем кодировщик AE2 формы волны, будет зависеть от конкретных аудиоданных, которые кодируются; например, один аудиоотрывок для скорости передачи битов, например 32 kbps, может кодироваться наиболее эффективно синусоидальным кодировщиком, в то время как при той же скорости передачи битов другой аудиоотрывок может кодироваться наиболее эффективно с помощью кодировщика формы волны.

Как описано выше, устройство CU управления тестирует весь заданный набор распределений R₁, R₂ скоростей передачи битов. В альтернативном процессе оптимизации устройство CU управления останавливает тестирование дополнительных комбинаций R₁, R₂ распределений скоростей передачи битов, когда комбинация R₁, R₂ скоростей передачи битов дает результатом меру воспринимаемого искажения, которая ниже заданного значения.

Как результат, вариант осуществления, описанный со ссылкой на фиг. 1, дает результатом наилучшее использование возможностей вовлеченных двух аудиокодировщиков AE1, AE2, так как оно будет конфигурироваться для каждого конкретного аудиоотрывка. Это ведет к: 1) автоматическому выбору наилучшего аудиокодировщика для конкретного кадра аудио, которое должно кодироваться, 2) это позволяет комбинированное использование аудиокодировщиков для случая, в котором это ведет к более хорошему качеству.

Остаточный сигнал ε₂, который остается после второго кодировщика AE2, может использоваться как входной сигнал для кодировщика шума (не показан). Этим способом, по меньшей мере, некоторые из спектральных частей, которые не моделируются двумя кодировщиками AE1, AE2, могут заменяться шумом, что обычно ведет к хорошему улучшению качества.

В предпочтительном варианте осуществления первого синусоидального кодировщика, AE1, алгоритм поиска психоакустического соответствия [5] используется для оценки синусоид. Сегментирование и распределение синусоид предпочтительно осуществляется в соответствии со способом, описанным в [6].

Предпочтительный вариант осуществления второго кодировщика AE2 преобразования базируется на модуле фильтра, описанном в [7]. Сегментирование второго кодировщика AE2 может либо следовать сегментированию первого кодировщика AE1 или оно может принимать равномерное сегментирование.

Остаточный сигнал ε₂ после второго кодировщика AE2 предпочтительно вычисляется с помощью модели восприятия [4] для измерения полного воспринимаемого искажения. Это предпочтительно делается посредством определения масочной функции, v(f) для каждого кадра исходного сигнала IN. Масочная функция понимается как спектральное представление порога человеческого слуха при заданном рассматриваемом аудиосигнале как ввод в человеческую слуховую систему в виде функции частоты f. Затем остаточный сигнал ε₂ временной области используется, чтобы выводить спектр s(f) ошибки как функцию частоты f. Как показано в уравнении 9 из [4], внутреннее произведение сигнала спектра ошибки и обратной к масочной функции предоставляет хороший прогнозирующий параметр воспринятого искажения, т.е. воспринимаемое искажение D может быть вычислено как:

Фиг. 2 показывает график, показывающий пример масочной кривой v(f), показанной с помощью прерывистой линии, вычисленной с помощью упомянутой модели восприятия, вместе со спектром s(f) ошибки, показанным с помощью сплошной линии, которые используются для вывода меры D воспринимаемого искажения, как показано выше. График показывает линейный частотный масштаб f по отношению к уровню, Lp, в dB. Фиг. 2 показывает, что при более низких частотах, например около 100 Гц, сигнал s(f) ошибки имеет значительный уровень по сравнению с масочной кривой v(f), и этот частотный диапазон, таким образом, вносит вклад в полное воспринимаемое искажение D. Выше 10-12 кГц возрастание масочной кривой, главным образом, вызвано возрастанием порога человеческого слуха в тишине.

Фиг. 3 показывает два графика, показывающих, для разных аудиосигналов, зависимость полного воспринимаемого искажения TPD от части скорости передачи битов, назначенной синусоидальному кодировщику PBRS, в случае аудиокодировщика с синусоидальным кодировщиком и формой волны, как описано со ссылкой на фиг. 1. Разные аудиосигналы представляют звук, записанный от кастаньет, верхний график, и клавесина, нижний график. Символы показывают разные полные скорости передачи битов: 12 kbps (круги), 24 kbps (плюсы) и 48 kbps (звездочки). Жирные линии показывают выбор распределения скоростей передачи битов для различных полных скоростей передачи битов.

Как можно видеть для кастаньет, верхний график, воспринимаемые искажения являются довольно постоянными как функция распределения скоростей передачи битов, по меньшей мере, при 12 kbps (круги) и 24 kbps (плюсы). Однако для 48 kbps (звездочки), явно является предпочтительным распределять большую часть скорости передачи битов кодировщику формы волны по сравнению с отправкой большей части скорости передачи битов синусоидальному кодировщику. Для клавесина, нижний график, появляется другая картина. Здесь ясно, что даже при высоких скоростях передачи битов, синусоидальный кодировщик должен использовать около половины скорости передачи битов, в то время как при низких скоростях передачи битов, явно лучше использовать полную скорость передачи битов для синусоидального кодировщика.

Отметим, что хотя примеры, показанные на фиг. 3, были получены с помощью вычисления и оптимизации полных аудиоотрывков, этот способ оптимизации предполагается для использования на более коротких сегментах аудио, так что распределение скоростей R₁, R₂ передачи битов может конфигурироваться более локально к свойствам сигнала.

Фиг. 4 - это блок-схема аудиодекодера, сконфигурированного для декодирования кодированного аудиосигнала, например, аудиосигнала, закодированного аудиокодировщиком, описанным со ссылкой на фиг. 1. Аудиодекодер содержит первый и второй декодеры AD1, AD2, соответствующие типам первого и второго кодировщиков AE1, AE2, так что они сконфигурированы принимать первую и вторую кодированные части E1, E2 сигнала от кодировщиков AE1, AE2. Декодированный аудиосигнал принимается во входном битовом потоке IN, и первая и вторая декодированные части E1, E2 сигнала извлекаются декодером битового потока BSD. Затем первая декодированная часть E1 сигнала подается первому декодеру AD1, и вторая декодированная часть E2 сигнала подается второму декодеру AD2. Декодеры AD1, AD2 могут независимо декодировать их части, и результирующие первая и вторая декодированные части D1, D2 сигнала могут затем просто складываться так, чтобы генерировать представление OUT исходного аудиосигнала.

Фиг. 5 - это блок-схема другого варианта осуществления аудиокодировщика, содержащего каскад из первого и второго отдельных кодировщиков AE1, AE2. Там, где схема кодирования, описанная в связи с первым вариантом осуществления, показанным на фиг. 1, работает при ограничении постоянной полной скорости передачи битов (R₁+R₂) для каждого заданного временного интервала или сегмента, это ограничение ослабляется во втором варианте осуществления из фиг. 5. Этот второй вариант осуществления рассматривает, в принципе, все возможные параметры кодирования, по меньшей мере, первого кодировщика AE1, предпочтительно также второго кодировщика AE2, и это также дает результатом уменьшенное воспринимаемое искажение по сравнению с первым аудиокодировщиком из фиг. 1. Однако по сравнению с первым вариантом осуществления аудиокодировщика второй вариант осуществления аудиокодировщика является более сложным для реализации. В отличие от первого варианта осуществления второй вариант осуществления, таким образом, позволяет адаптировать скорость передачи битов для требований каждого отрывка аудиосигнала, что позволяет более лучшую оптимизацию двух кодировщиков AE1, AE2, и, следовательно, второй вариант осуществления аудиокодировщика способен достигать более низкого воспринимаемого искажения, т.е. более высокого качества звука, при той же скорости передачи битов, рассматриваемой как среднее большого количества аудиоотрывков.

В аудиокодировщике из фиг. 5 первый и второй разные кодировщики AE1, AE2, каждый конфигурируется, чтобы кодировать принятый входной сигнал ε₀ многими разными способами. Эти варианты выбора кодирования называются шаблонами кодирования. Например, в случае синусоидального кодировщика один конкретный шаблон кодирования определяет один конкретный набор синусоид, который используется для представления входного аудиосегмента, в то время как другой шаблон может определять другой набор синусоид. Набор всех возможных шаблонов, поэтому, позволяет кодировщику выполнять каждую операцию кодирования, которая возможна, и, таким образом, способен конфигурировать его кодирование для каждого аудиоотрывка. Шаблоны для первого и второго кодировщиков AE1, AE2 обозначаются первый и второй шаблоны T₁, T₂ соответственно.

Для каждых двух шаблонов T₁ и T₂ кодирования, которые выбраны, первый кодировщик AE1 кодирует аудио входной сигнал ε₀ в первую кодированную часть E1 сигнала. Вследствие несовершенного кодирования кодирование дает результатом остаточный сигнал ε₁, который затем кодируется вторым кодировщиком AE2 во вторую кодированную часть E2 сигнала. Второй процесс кодирования снова дает результатом остаточный сигнал ε₂, который вычисляется устройством CU управления, использующим модель восприятия, дающую результатом вычисление меры воспринимаемого искажения. Чтобы выбрать конечное кодирование входного аудиосигнала ε₀, устройство CU управления выполняет процедуру оптимизации с целью нахождения шаблонов T₁, T₂ кодирования из заданного набора позволенных шаблонов T₁, T₂ кодирования, которые дают результатом наименьшую меру воспринимаемого искажения. Для этой цели, помимо меры воспринимаемого искажения в рассмотрение принимаются также скорости R₁, R₂ передачи битов (или их оценки) каждого из двух кодировщиков AE1, AE2.

Как только конечные шаблоны T₁, T₂ кодирования найдены, эти шаблоны T₁, T₂ используются для генерирования первой и второй кодированных частей E1, E2 сигнала, результирующих из первого и второго кодировщиков AE1, AE2, соответственно. Эти первая и вторая кодированные части E1, E2 сигнала подаются к модулю форматирования битового потока BSF, который формирует выходной битовый поток OUT.

Первый кодировщик AE1 предпочтительно содержит синусоидальный кодировщик, в то время как второй кодировщик AE2 содержит кодировщик преобразования. Мера воспринимаемого искажения D предпочтительно вычисляется в соответствии с [4], как описано в связи с первым вариантом осуществления кодировщика.

Формальное определение проблемы оптимизации, которая должна быть решена устройством CU управления, дается как

где D₂ вычисляется на основе ε₂ и представляет воспринимаемое искажение как прогнозируемое моделью восприятия (например, [4]), и n

Комбинированное аудиокодирование, минимизирующее воспринимаемое искажение

Патент 2393552