Устройство и способ выбора одного из первого алгоритма кодирования и второго алгоритма кодирования с использованием уменьшения гармоник

Иллюстрации

Показать все

Изобретение относится к средствам для выбора алгоритма кодирования. Технический результат заключается в уменьшении сложности выбора между первым алгоритмом кодирования и вторым алгоритмом кодирования. Устройство для выбора одного из первого алгоритма кодирования и второго алгоритма кодирования, для кодирования части аудиосигнала, чтобы получать кодированную версию части аудиосигнала, содержит фильтр, выполненный с возможностью принимать аудиосигнал, уменьшать амплитуду гармоник в аудиосигнале и выводить фильтрованную версию аудиосигнала. Первый модуль оценки предоставляется для использования фильтрованной версии аудиосигнала при оценке SNR или сегментального SNR части аудиосигнала в качестве первого показателя качества для части аудиосигнала, которая ассоциирована с первым алгоритмом кодирования, без фактического кодирования и декодирования части аудиосигнала с использованием первого алгоритма кодирования. Второй модуль оценки предоставляется для оценки SNR или сегментального SNR в качестве второго показателя качества для части аудиосигнала, которая ассоциирована со вторым алгоритмом кодирования. 5 н. и 10 з.п. ф-лы, 5 ил.

Реферат

Подробное описание изобретения

Настоящее изобретение относится к кодированию аудио и, в частности, к переключаемому кодированию аудио, при котором для различных частей аудиосигнала, кодированный сигнал формируется с использованием различных алгоритмов кодирования.

Известны переключаемые аудиокодеры, которые определяют различные алгоритмы кодирования для различных частей аудиосигнала. Обычно, переключаемые аудиокодеры обеспечивают переключение между двумя различными режимами, т.е. алгоритмами, такими как ACELP (линейное прогнозирование с возбуждением по алгебраическому коду) и TCX (возбуждение по кодированию с преобразованием).

LPD-режим MPEG USAC (стандартизированного кодирования речи и аудио по MPEG-стандарту) основан на двух различных режимах ACELP и TCX. ACELP предоставляет лучшее качество для речевых и переходных сигналов. TCX предоставляет лучшее качество для музыкальных и шумоподобных сигналов. Кодер определяет то, какой режим следует использовать, на покадровой основе. Решение, принимаемое посредством кодера, является критически важным для качества кодека. Одно неправильное решение может вызывать сильный артефакт, в частности, на низких скоростях передачи битов.

Наиболее простой подход для определения того, какой режим использовать, представляет собой выбор режима с замкнутым контуром, т.е. выполнение полного кодирования/декодирования обоих режимов, затем вычисление критериев выбора (например, сегментального SNR) для обоих режимов на основе аудиосигнала и кодированных/декодированных аудиосигналов и в завершение выбор режима на основе критериев выбора. Этот подход, в общем, обеспечивает стабильное и надежное решение. Тем не менее, он также требует большого объема сложности, поскольку оба режима должны выполняться в каждом кадре.

Чтобы уменьшать сложность, альтернативный подход представляет собой выбор режима с разомкнутым контуром. Выбор с разомкнутым контуром состоит не из выполнения полного кодирования/декодирования обоих режимов, а вместо этого выбора одного режима с использованием критериев выбора, вычисленных с низкой сложностью. Сложность по принципу наихудшего случая затем уменьшается посредством сложности наименее сложного режима (обычно TCX), минус сложность, требуемая для того, чтобы вычислять критерии выбора. Снижение сложности обычно является значительным, что делает этот вид подхода практически полезным, когда сложность кодека по принципу наихудшего случая ограничивается.

AMR-WB+-стандарт (заданный в Международном стандарте 3GPP TS 26.290 V6.1.0 2004-12) включает в себя выбор режима с разомкнутым контуром, используемый для того, чтобы принимать решение с учетом всех комбинаций ACELP/TCX20/TCX40/TCX80 в кадре в 80 мс. Он описывается в разделе 5.2.4 3GPP TS 26.290. Он также описывается в докладе на конференции "Low Complex Audio Encoding for Mobile, Multimedia", VTC 2006, авторов Makinen и др., и в US 7747430 B2 и US7739120 B2, принадлежащих автору этого доклада на конференции.

US 7747430 B2 раскрывает выбор режима с разомкнутым контуром на основе анализа параметров долговременного прогнозирования. US 7739120 B2 раскрывает выбор режима с разомкнутым контуром на основе характеристик сигналов, указывающих тип аудиоконтента в соответствующих секциях аудиосигнала, при этом если такой выбор не является практически осуществимым, выбор дополнительно основан на статистической оценке, выполняемой для соответствующих соседних секций.

Выбор режима с разомкнутым контуром AMR-WB+ может описываться на двух основных этапах. На первом основном этапе, для аудиосигнала вычисляются несколько признаков, такие как среднеквадратическое отклонение энергетических уровней, отношение низкочастотной/высокочастотной энергии, полная энергия, расстояние между ISP (парами спектральных иммитансов), запаздывания и усиления основного тона, спектральный наклон. Эти признаки затем используются для того, чтобы проводить выбор между ACELP и TCX, с использованием простого классификатора на основе порогового значения. Если TCX выбирается на первом основном этапе, то второй основной этап принимает решение с учетом возможных комбинаций TCX20/TCX40/TCX80 в режиме с замкнутым контуром.

WO 2012/110448 A1 раскрывает подход для принятия решения с учетом двух алгоритмов кодирования, имеющих различные характеристики, на основе результата обнаружения переходных частей и результата в отношении качества аудиосигнала. Помимо этого, раскрыто применение гистерезиса, при этом гистерезис основывается на операциях выбора, выполняемых в прошлом, т.е. для более ранних частей аудиосигнала.

В докладе на конференции "Low Complex Audio Encoding for Mobile, Multimedia", VTC 2006, авторов Makinen и др., выбор режима с замкнутым контуром и с разомкнутым контуром AMR-WB+ сравнивается. Субъективные тесты на основе прослушивания указывают то, что выбор режима с разомкнутым контуром работает значительно хуже по сравнению с выбором режима с замкнутым контуром. Тем не менее, также показано, что выбор режима с разомкнутым контуром уменьшает сложность по принципу наихудшего случая на 40%.

Цель изобретения заключается в том, чтобы предоставлять улучшенный подход, который обеспечивает выбор между первым алгоритмом кодирования и вторым алгоритмом кодирования с хорошей производительностью и меньшей сложностью.

Это цель достигается посредством устройства по п. 1, способа по п. 18 и компьютерной программы по п. 19.

Варианты осуществления изобретения предоставляют устройство для выбора одного из первого алгоритма кодирования, имеющего первую характеристику, и второго алгоритма кодирования, имеющего вторую характеристику, для кодирования части аудиосигнала, чтобы получать кодированную версию части аудиосигнала, содержащее:

- фильтр, выполненный с возможностью принимать аудиосигнал, уменьшать амплитуду гармоник в аудиосигнале и выводить фильтрованную версию аудиосигнала;

- первый модуль оценки для использования фильтрованной версии аудиосигнала при оценке SNR (отношения "сигнал-шум") или сегментированного SNR части аудиосигнала в качестве первого показателя качества для части аудиосигнала, которая ассоциирована с первым алгоритмом кодирования, без фактического кодирования и декодирования части аудиосигнала с использованием первого алгоритма кодирования;

- второй модуль оценки для оценки SNR или сегментированного SNR в качестве второго показателя качества для части аудиосигнала, которая ассоциирована со вторым алгоритмом кодирования, без фактического кодирования и декодирования части аудиосигнала с использованием второго алгоритма кодирования; и

- контроллер для выбора первого алгоритма кодирования или второго алгоритма кодирования на основе сравнения между первым показателем качества и вторым показателем качества.

Варианты осуществления изобретения предоставляют способ выбора одного из первого алгоритма кодирования, имеющего первую характеристику, и второго алгоритма кодирования, имеющего вторую характеристику, для кодирования части аудиосигнала, чтобы получать кодированную версию части аудиосигнала, содержащий:

- фильтрацию аудиосигнала, чтобы уменьшать амплитуду гармоник в аудиосигнале и выводить фильтрованную версию аудиосигнала;

- использование фильтрованной версии аудиосигнала при оценке SNR или сегментального SNR части аудиосигнала в качестве первого показателя качества для части аудиосигнала, которая ассоциирована с первым алгоритмом кодирования, без фактического кодирования и декодирования части аудиосигнала с использованием первого алгоритма кодирования;

- оценку второго показателя качества для части аудиосигнала, которая ассоциирована со вторым алгоритмом кодирования, без фактического кодирования и декодирования части аудиосигнала с использованием второго алгоритма кодирования; и

- выбор первого алгоритма кодирования или второго алгоритма кодирования на основе сравнения между первым показателем качества и вторым показателем качества.

Варианты осуществления изобретения основаны на признании того факта, что выбор с разомкнутым контуром с повышенной производительностью может реализовываться посредством оценки показателя качества для каждого из первого и второго алгоритмов кодирования и выбора одного из алгоритмов кодирования на основе сравнения между первым и вторым показателями качества. Показатели качества оцениваются, т.е. аудиосигнал фактически не кодируется и декодируется, чтобы получать показатели качества. Таким образом, показатели качества могут получаться с меньшей сложностью. Выбор режима затем может выполняться с использованием оцененных показателей качества, сравнимых с выбором режима с замкнутым контуром. Кроме того, изобретение основано на признании того факта, что улучшенный выбор режима может получаться, если оценка первого показателя качества использует фильтрованную версию части аудиосигнала, в которой гармоники уменьшаются по сравнению с нефильтрованной версией аудиосигнала.

В вариантах осуществления изобретения, реализуется выбор режима с разомкнутым контуром, при котором сегментальное SNR ACELP и TCX сначала оценивается с низкой сложностью. Кроме того, затем выбор режима выполняется с использованием этих значений оцененного сегментального SNR, как при выборе режима с замкнутым контуром.

Варианты осуществления изобретения не используют классический подход "признаки+классификатор", который осуществляется при выборе режима с разомкнутым контуром в AMR-WB+. Тем менее, вместо этого, варианты осуществления изобретения пытаются оценивать показатель качества каждого режима и выбирать режим, который обеспечивает наилучшее качество.

Далее подробнее описываются варианты осуществления настоящего изобретения со ссылками на прилагаемые чертежи, на которых:

Фиг. 1 показывает схематичный вид варианта осуществления устройства для выбора одного из первого алгоритма кодирования и второго алгоритма кодирования;

Фиг. 2 показывает схематичный вид варианта осуществления устройства для кодирования аудиосигнала;

Фиг. 3 показывает схематичный вид варианта осуществления устройства для выбора одного из первого алгоритма кодирования и второго алгоритма кодирования;

Фиг. 4a и 4b являются возможными представлениями SNR и сегментального SNR.

В нижеприведенном описании, аналогичные элементы/этапы на различных чертежах обозначаются посредством идентичных ссылок с номерами. Следует отметить, что на чертежах опущены такие признаки, как сигнальные соединения и т.п., которые не требуются при понимании изобретения.

Фиг. 1 показывает устройство 10 для выбора одного из первого алгоритма кодирования, такого как TCX-алгоритм, и второго алгоритма кодирования, такого ACELP-алгоритм, в качестве кодера для кодирования части аудиосигнала. Устройство 10 содержит первый модуль 12 оценки для оценки SNR или сегментального SNR части аудиосигнала в качестве первого показателя качества для части сигнала предоставляется. Первый показатель качества ассоциирован с первым алгоритмом кодирования. Устройство 10 содержит фильтр 2, выполненный с возможностью принимать аудиосигнал, уменьшать амплитуду гармоник в аудиосигнале и выводить фильтрованную версию аудиосигнала. Фильтр 2 может быть внутренним для первого модуля 12 оценки, как показано на фиг. 1, или может быть внешним для первого модуля 12 оценки. Первый модуль 12 оценки использует фильтрованную версию аудиосигнала при оценке первого показателя качества. Другими словами, первый модуль 12 оценки оценивает первый показатель качества, который должна иметь часть аудиосигнала при кодировании и декодировании с использованием первого алгоритма кодирования, без фактического кодирования и декодирования части аудиосигнала с использованием первого алгоритма кодирования. Устройство 10 содержит второй модуль 14 оценки для оценки второго показателя качества для части сигнала. Второй показатель качества ассоциирован со вторым алгоритмом кодирования. Другими словами, второй модуль 14 оценки оценивает второй показатель качества, который должна иметь часть аудиосигнала при кодировании и декодировании с использованием второго алгоритма кодирования, без фактического кодирования и декодирования части аудиосигнала с использованием второго алгоритма кодирования. Кроме того, устройство 10 содержит контроллер 16 для выбора первого алгоритма кодирования или второго алгоритма кодирования на основе сравнения между первым показателем качества и вторым показателем качества. Контроллер может содержать выход 18, указывающий выбранный алгоритм кодирования.

В нижеприведенном подробном описании, первый модуль оценки использует фильтрованную версию аудиосигнала, т.е. фильтрованную версию части аудиосигнала при оценке первого показателя качества, если фильтр 2, выполненный с возможностью уменьшать амплитуду гармоник, предоставляется и не деактивирован, даже если не явно указано.

В варианте осуществления, первая характеристика, ассоциированная с первым алгоритмом кодирования, лучше подходит для музыкальных и шумоподобных сигналов, а вторая характеристика кодирования, ассоциированная со вторым алгоритмом кодирования, лучше подходит для речевых и переходных сигналов. В вариантах осуществления изобретения, первый алгоритм кодирования представляет собой алгоритм кодирования аудио, такой как алгоритм кодирования с преобразованием, например, алгоритм кодирования с MDCT (модифицированным дискретным косинусным преобразованием), такой как алгоритм кодирования на основе TCX (возбуждения по кодированию с преобразованием). Другие алгоритмы кодирования с преобразованием могут быть основаны на FFT-преобразовании либо на любом другом преобразовании или гребенке фильтров. В вариантах осуществления изобретения, второй алгоритм кодирования представляет собой алгоритм кодирования речи, такой как алгоритм кодирования на основе CELP (линейного прогнозирования с возбуждением по коду), к примеру, алгоритм кодирования на основе ACELP (линейного прогнозирования с возбуждением по алгебраическому коду).

В вариантах осуществления, показатель качества представляет показатель перцепционного качества. Одно значение, которое является оценкой субъективного качества первого алгоритма кодирования, и одно значение, которое является оценкой субъективного качества второго алгоритма кодирования, могут вычисляться. Алгоритм кодирования, который обеспечивает наилучшее оцененное субъективное качество, может выбираться только на основе сравнения этих двух значений. Это отличается от того, что выполняется в AMR-WB+-стандарте, в котором вычисляются множество признаков, представляющих различные характеристики сигнала, а затем применяется классификатор для того, чтобы определять, какой алгоритм следует выбирать.

В вариантах осуществления, соответствующий показатель качества оценивается на основе части взвешенного аудиосигнала, т.е. взвешенной версии аудиосигнала. В вариантах осуществления, взвешенный аудиосигнал может задаваться как аудиосигнал, фильтрованный посредством функции взвешивания, при этом функция взвешивания представляет собой взвешенный LPC-фильтр A(z/g), где A(z) является LPC-фильтром, а g является весовым коэффициентом между 0 и 1, к примеру, 0,68. Оказывается, что хорошие показатели перцепционного качества могут получаться таким способом. Следует отметить, что LPC-фильтр A(z) и взвешенный LPC-фильтр A(z/g) определяются в каскаде предварительной обработки, и что они также используются в обоих алгоритмах кодирования. В других вариантах осуществления, функция взвешивания может представлять собой линейный фильтр, FIR-фильтр или линейный прогнозный фильтр.

В вариантах осуществления, показатель качества представляет собой сегментальное SNR (отношение "сигнал-шум") в области взвешенных сигналов. Оказывается, что сегментальное SNR в области взвешенных сигналов представляет хороший показатель перцепционного качества и в силу этого может использоваться в качестве показателя качества преимущественным способом. Оно также представляет собой показатель качества, используемый в обоих алгоритмах ACELP- и TCX-кодирования для того, чтобы оценивать параметры кодирования.

Другой показатель качества может представлять собой SNR в области взвешенных сигналов. Другие показатели качества могут представлять собой сегментальное SNR, SNR соответствующей части аудиосигнала в области невзвешенных сигналов, т.е. нефильтрованное посредством (взвешенных) LPC-коэффициентов.

Обычно, SNR сравнивает исходные и обработанные аудиосигналы (к примеру, речевые сигналы) последовательно выборочно. Его цель состоит в том, чтобы измерять искажение кодеров на основе формы сигналов, которые воспроизводят форму входного сигнала. SNR может вычисляться так, как показано на фиг. 5a, где x(i) и y(i) являются исходными и обработанными выборками, индексированными посредством i, и N является общим числом выборок. Сегментальное SNR, вместо обработки для всего сигнала, вычисляет среднее SNR-значений коротких сегментов, к примеру, в 1-10 мс, к примеру, в 5 мс. SNR может вычисляться так, как показано на фиг. 5b, где N и M являются длиной сегмента и числом сегментов, соответственно.

В вариантах осуществления изобретения, часть аудиосигнала представляет кадр аудиосигнала, который получается посредством кодирования с взвешиванием аудиосигнала, и выбор надлежащего алгоритма кодирования выполняется для множества последовательных кадров, полученных посредством кодирования со взвешиванием аудиосигнала. В нижеприведенном подробном описании, в связи с аудиосигналом, термины "часть" и "кадр" используются взаимозаменяемо. В вариантах осуществления, каждый кадр разделен на субкадры, и сегментальное SNR оценивается для каждого кадра посредством вычисления SNR для каждого субкадра, преобразованного в дБ, и вычисления среднего SNR субкадров в дБ.

Таким образом, в вариантах осуществления, оценивается не (сегментальное) SNR между входным аудиосигналом и декодированным аудиосигналом, а оценивается (сегментальное) SNR между взвешенным входным аудиосигналом и взвешенным декодированным аудиосигналом. Что касается этого (сегментального) SNR, можно обратиться к главе 5.2.3 AMR-WB+-стандарта (Международного стандарта 3GPP TS 26.290 V6.1.0 2004-12).

В вариантах осуществления изобретения, соответствующий показатель качества оценивается на основе энергии части взвешенного аудиосигнала и на основе оцененного искажения, введенного при кодировании части сигнала посредством соответствующего алгоритма, при этом первый и второй модули оценки выполнены с возможностью определять оцененные искажения в зависимости от энергии взвешенного аудиосигнала.

В вариантах осуществления изобретения, определяется оцененное искажение квантователя, введенное посредством квантователя, используемого в первом алгоритме кодирования при квантовании части аудиосигнала, и первый показатель качества определяется на основе энергии части взвешенного аудиосигнала и оцененного искажения квантователя. В таких вариантах осуществления, глобальное усиление для части аудиосигнала может оцениваться таким образом, что часть аудиосигнала должна формировать данную целевую скорость передачи битов при кодировании с помощью квантователя и энтропийного кодера, используемых в первом алгоритме кодирования, при этом оцененное искажение квантователя определяется на основе оцененного глобального усиления. В таких вариантах осуществления, оцененное искажение квантователя может определяться на основе мощности оцененного усиления. Когда квантователь, используемый в первом алгоритме кодирования, представляет собой равномерный скалярный квантователь, первый модуль оценки может быть выполнен с возможностью определять оцененное искажение квантователя с использованием формулы D=G*G/12, где D является оцененным искажением квантователя, и G является оцененным глобальным усилением. В случае если первый алгоритм кодирования использует другой квантователь, искажение квантователя может определяться из глобального усиления другим способом.

Авторы изобретения выяснили, что показатель качества, такой как сегментальное SNR, которое получается при кодировании и декодировании части аудиосигнала с использованием первого алгоритма кодирования, такого как TCX-алгоритм, может оцениваться надлежащим образом посредством использования вышеуказанных признаков в любой их комбинации.

В вариантах осуществления изобретения, первый показатель качества представляет собой сегментальное SNR, и сегментальное SNR оценивается посредством вычисления оцененного SNR, ассоциированного с каждой из множества подчастей части аудиосигнала, на основе энергии соответствующей подчасти взвешенного аудиосигнала и оцененного искажения квантователя и посредством вычисления среднего SNR, ассоциированных с подчастями части взвешенного аудиосигнала, чтобы получать оцененное сегментальное SNR для части взвешенного аудиосигнала.

В вариантах осуществления изобретения, определяется оцененное искажение адаптивной таблицы кодирования, введенное посредством адаптивной таблицы кодирования, используемой во втором алгоритме кодирования при использовании адаптивной таблицы кодирования для того, чтобы кодировать часть аудиосигнала, и второй показатель качества оценивается на основе энергии части взвешенного аудиосигнала и оцененного искажения адаптивной таблицы кодирования.

В таких вариантах осуществления, для каждой из множества подчастей части аудиосигнала, адаптивная таблица кодирования может быть аппроксимирована на основе версии подчасти взвешенного аудиосигнала, сдвинутой в прошлое посредством запаздывания основного тона, определенного в каскаде предварительной обработки, усиление адаптивной таблицы кодирования может оцениваться таким образом, что ошибка между подчастью части взвешенного аудиосигнала и аппроксимированной адаптивной таблицей кодирования минимизируется, и оцененное искажение адаптивной таблицы кодирования может определяться на основе энергии ошибки между подчастью части взвешенного аудиосигнала и аппроксимированной адаптивной таблицей кодирования, масштабированной посредством усиления адаптивной таблицы кодирования.

В вариантах осуществления изобретения, оцененное искажение адаптивной таблицы кодирования, определенное для каждой подчасти части аудиосигнала, может уменьшаться на постоянный множитель, чтобы учитывать уменьшение искажения, которое достигается посредством инновационной таблицы кодирования во втором алгоритме кодирования.

В вариантах осуществления изобретения, второй показатель качества представляет собой сегментальное SNR, и сегментальное SNR оценивается посредством вычисления оцененного SNR, ассоциированного с каждой подчастью, на основе энергии соответствующей подчасти взвешенного аудиосигнала и оцененного искажения адаптивной таблицы кодирования и посредством вычисления среднего SNR, ассоциированных с подчастями, чтобы получать оцененное сегментальное SNR.

В вариантах осуществления изобретения, адаптивная таблица кодирования аппроксимирована на основе версии части взвешенного аудиосигнала, сдвинутой в прошлое посредством запаздывания основного тона, определенного в каскаде предварительной обработки, усиление адаптивной таблицы кодирования оценивается таким образом, что ошибка между частью взвешенного аудиосигнала и аппроксимированной адаптивной таблицей кодирования минимизируется, и оцененное искажение адаптивной таблицы кодирования определяется на основе энергии между частью взвешенного аудиосигнала и аппроксимированной адаптивной таблицей кодирования, масштабированной посредством усиления адаптивной таблицы кодирования. Таким образом, оцененное искажение адаптивной таблицы кодирования может определяться с низкой сложностью.

Авторы изобретения выяснили, что показатель качества, такой как сегментальное SNR, которое получается при кодировании и декодировании части аудиосигнала с использованием второго алгоритма кодирования, такого как ACELP-алгоритм, может оцениваться надлежащим образом посредством использования вышеуказанных признаков в любой их комбинации.

В вариантах осуществления изобретения, гистерезисный механизм используется при сравнении оцененных показателей качества. Он позволяет обеспечивать большую стабильность решения в отношении того, какой алгоритм должен использоваться. Гистерезисный механизм может зависеть от оцененных показателей качества (таких как разность между ними) и других параметров, таких как статистика в отношении предыдущих решений, число временно стационарных кадров, переходные части в кадрах. Что касается таких гистерезисных механизмов, можно обратиться, например, к WO 2012/110448 A1.

В вариантах осуществления изобретения, кодер для кодирования аудиосигнала содержит устройство 10, каскад для выполнения первого алгоритма кодирования и каскад для выполнения второго алгоритма кодирования, при этом кодер выполнен с возможностью кодировать часть аудиосигнала с использованием первого алгоритма кодирования или второго алгоритма кодирования в зависимости от выбора посредством контроллера 16. В вариантах осуществления изобретения, система для кодирования и декодирования содержит кодер и декодер, выполненные с возможностью принимать кодированную версию части аудиосигнала и индикатор относительно алгоритма, используемого для того, чтобы кодировать часть аудиосигнала и декодировать кодированную версию части аудиосигнала с использованием указываемого алгоритма.

Такой алгоритм выбора режима с разомкнутым контуром, как показано на фиг. 1 и описано выше (за исключением фильтра 2), описывается в предыдущей заявке PCT/EP2014/051557. Этот алгоритм используется для того, чтобы проводить выбор между двумя режимами, такими как ACELP и TCX, на покадровой основе. Выбор может быть основан на оценке сегментального SNR как ACELP, так и TCX. Режим с наибольшим оцененным сегментированным SNR выбирается. Необязательно, гистерезисный механизм может использоваться для того, чтобы предоставлять более надежный выбор. Сегментальное SNR ACELP может оцениваться с использованием аппроксимации искажения адаптивной таблицы кодирования и аппроксимации искажения инновационной таблицы кодирования. Адаптивная таблица кодирования может быть аппроксимирована в области взвешенных сигналов с использованием запаздывания основного тона, оцененного посредством алгоритма анализа основного тона. Искажение может вычисляться в области взвешенных сигналов при условии оптимального усиления. Искажение затем может уменьшаться посредством постоянного множителя, аппроксимирующего искажение инновационной таблицы кодирования. Сегментальное SNR TCX может оцениваться с использованием упрощенной версии реального TCX-кодера. Входной сигнал может сначала преобразовываться с помощью MDCT и затем формироваться с использованием взвешенного LPC-фильтра. В завершение, искажение может оцениваться во взвешенной MDCT-области, с использованием глобального усиления и модуля оценки глобального усиления.

Оказывается, что этот алгоритм выбора режима с разомкнутым контуром, как описано в предыдущей заявке, предоставляет ожидаемое решение большую часть времени, выбирая ACELP для речевых и переходных сигналов и TCX для музыкальных и шумоподобных сигналов. Тем не менее, авторы изобретения выяснили, что может возникать такая ситуация, что ACELP иногда выбирается для некоторых гармонических музыкальных сигналов. Для таких сигналов, адаптивная таблица кодирования, в общем, имеет высокое усиление для прогнозирования вследствие высокой прогнозируемости гармонических сигналов, формируя низкое искажение и затем более высокое сегментальное SNR по сравнению с TCX. Тем не менее, TCX звучит лучше для большинства гармонических музыкальных сигналов, так что TCX должен быть предпочтительным в этих случаях.

Таким образом, настоящее изобретение предлагает выполнять оценку SNR или сегментального SNR в качестве первого показателя качества с использованием версии входного сигнала, которая фильтруется для того, чтобы уменьшать ее гармоники. Таким образом, может получаться улучшенный выбор режима для гармонических музыкальных сигналов.

Обычно, может использоваться любой подходящий фильтр для уменьшения гармоник. В вариантах осуществления изобретения, фильтр представляет собой фильтр долговременного прогнозирования. Один простой пример фильтра долговременного прогнозирования следующий:

F(z)=1-g*z-T,

где параметры фильтрации являются усилением g и запаздыванием T основного тона, которые определяются из аудиосигнала.

Варианты осуществления изобретения основаны на фильтре долговременного прогнозирования, который применяется к аудиосигналу перед MDCT-анализом при оценке сегментального TCX SNR. Фильтр долговременного прогнозирования уменьшает амплитуду гармоник во входном сигнале перед MDCT-анализом. Последствие состоит в том, что искажение во взвешенной MDCT-области уменьшается, оцененное сегментальное SNR TCX увеличивается, и в завершение, TCX выбирается чаще для гармонических музыкальных сигналов.

В вариантах осуществления изобретения, передаточная функция фильтра долговременного прогнозирования содержит целочисленную часть запаздывания основного тона и многоотводного фильтра в зависимости от дробной части запаздывания основного тона. Это обеспечивает эффективную реализацию, поскольку целочисленная часть используется только в нормальной концепции частоты дискретизации. Одновременно, может достигаться высокая точность вследствие использования дробной части в многоотводном фильтре. Посредством рассмотрения дробной части в многоотводном фильтре, может достигаться удаление энергии гармоник, тогда как удаление энергии частей около гармоник не допускается.

В вариантах осуществления изобретения, фильтр долговременного прогнозирования описывается следующим образом:

,

где Tint и Tfr являются целочисленной и дробной частью запаздывания основного тона, g усиление, β является весовым коэффициентом, и B(z, Tfr) является FIR-фильтром нижних частот, коэффициенты которого зависят от дробной части запаздывания основного тона. Ниже изложена более подробная информация касательно вариантов осуществления такого фильтра долговременного прогнозирования.

Запаздывание и усиление основного тона могут оцениваться на покадровой основе.

Прогнозный фильтр может деактивироваться (усиление = 0) на основе комбинации одного или более показателей гармонического характера (например, нормализованной корреляции или усиления для прогнозирования) и/или одного или более показателей временной структуры (например, показателя временной равномерности или изменения энергии).

Фильтр может применяться к входному аудиосигналу на покадровой основе. Если параметры фильтрации изменяются между кадрами, разрыв может вводиться на границе между двумя кадрами. В вариантах осуществления, устройство дополнительно содержит модуль для удаления разрывов в аудиосигнале, вызываемых посредством фильтра. Чтобы удалять возможные разрывы, может использоваться любая технология, к примеру, технологии, сравнимые с технологиями, описанными в US5012517, EP0732687A2, US5999899A или US7353168B2. Ниже описывается другая технология для удаления возможных разрывов.

Перед подробным описанием варианта осуществления первого модуля 12 оценки и второго модуля 14 оценки со ссылкой на фиг. 3, описывается вариант осуществления кодера 20 со ссылкой на фиг. 2.

Кодер 20 содержит первый модуль 12 оценки, второй модуль 14 оценки, контроллер 16, препроцессор 22, переключатель 24, первый каскад 26 кодера, выполненный с возможностью осуществлять TCX-алгоритм, второй каскад 28 кодера, выполненный с возможностью осуществлять ACELP-алгоритм, и интерфейс 30 вывода. Препроцессор 22 может быть частью общего USAC-кодера и может быть выполнен с возможностью выводить LPC-коэффициенты, взвешенные LPC-коэффициенты, взвешенный аудиосигнал и набор запаздываний основного тона. Следует отметить, что все эти параметры используются в обоих алгоритмах кодирования, т.е. в TCX-алгоритме и в ACELP-алгоритме. Таким образом, такие параметры не должны дополнительно вычисляться для решения по выбору режима с разомкнутым контуром. Преимущество использования уже вычисленных параметров в решении по выбору режима с разомкнутым контуром состоит в сокращении сложности.

Как показано на фиг. 2, устройство содержит фильтр 2 уменьшения гармоник. Устройство дополнительно содержит необязательный модуль 4 деактивации для деактивации фильтра 2 уменьшения гармоник на основе комбинации одного или более показателей гармонического характера (например, нормализованной корреляции или усиления для прогнозирования) и/или одного или более показателей временной структуры (например, показателя временной равномерности или изменения энергии). Устройство содержит необязательный модуль 6 удаления разрывов для удаления разрывов из фильтрованной версии аудиосигнала. Помимо этого, устройство необязательно содержит модуль 8 для оценки параметров фильтрации фильтра 2 уменьшения гармоник. На фиг. 2, эти компоненты (2, 4, 6 и 8) показаны как часть первого модуля 12 оценки. Само собой разумеется, что эти компоненты могут реализовываться внешне или отдельно от первого модуля оценки и могут быть выполнены с возможностью предоставлять фильтрованную версию аудиосигнала в первый модуль оценки.

Входной аудиосигнал 40 предоставляется во входной линии. Входной аудиосигнал 40 применяется к первому модулю 12 оценки, препроцессору 22 и обоим каскадам 26, 28 кодера. В первом модуле 12 оценки, входной аудиосигнал 40 применяется к фильтру 2, и фильтрованная версия входного аудиосигнала используется при оценке первого показателя качества. В случае если фильтр деактивируется посредством модуля 4 деактивации, входной аудиосигнал 40 используется при оценке первого показателя качества, а не фильтрованной версии входного аудиосигнала. Препроцессор 22 обрабатывает входной аудиосигнал традиционным способом, чтобы извлекать LPC-коэффициенты и взвешенные LPC-коэффициенты 42 и фильтровать аудиосигнал 40 со взвешенными LPC-коэффициентами 42, чтобы получать взвешенный аудиосигнал 44. Препроцессор 22 выводит взвешенные LPC-коэффициенты 42, взвешенный аудиосигнал 44 и набор запаздываний 48 основного тона. Специалисты в данной области техники должны понимать, что взвешенные LPC-коэффициенты 42 и взвешенный аудиосигнал 44 могут быть сегментированы на кадры или субкадры. Сегментация может получаться посредством кодирования с взвешиванием аудиосигнала надлежащим образом.

В альтернативных вариантах осуществления, может предоставляться препроцессор, который выполнен с возможностью формировать взвешенные LPC-коэффициенты и взвешенный аудиосигнал на основе фильтрованной версии аудиосигнала. Взвешенные LPC-коэффициенты и взвешенный аудиосигнал, которые основаны на фильтрованной версии аудиосигнала, затем применяются к первому модулю оценки, чтобы оценивать первый показатель качества, вместо взвешенных LPC-коэффициентов 42 и взвешенного аудиосигнала 44.

В вариантах осуществления изобретения, могут использоваться квантованные LPC-коэффициенты или квантованные взвешенные LPC-коэффициенты. Таким образом, следует понимать, что термин "LPC-коэффициенты" также имеет намерение охватывать "квантованные LPC-коэффициенты", а термин "взвешенные LPC-коэффициенты" также имеет намерение охватывать "взвешенные квантованные LPC-коэффициенты". В этом отношении, необходимо отметить, что TCX-алгоритм USAC использует квантованные взвешенные LPC-коэффициенты, чтобы формировать MCDT-спектр.

Первый модуль 12 оценки принимает аудиосигнал 40, взвешенные LPC-коэффициенты 42 и взвешенный аудиосигнал 44, оценивает первый показатель 46 качества на их основе и выводит первый показатель качества в контроллер 16. Второй модуль 16 оценки принимает взвешенный аудиосигнал 44 и набор запаздываний 48 основного тона, оценивает второй показатель 50 качества на их основе и выводит второй показатель 50 качества в контроллер 16. Как известно специалистам в данной области техники, взвешенные LPC-коэффициенты 42, взвешенный аудиосигнал 44 и набор запаздываний 48 основно