Способ переключения скорости передачи битов при аудиодекодировании с масштабированием скорости передачи битов и масштабированием полосы пропускания
Иллюстрации
Показать всеИзобретение относится к способу переключения скорости передачи битов при декодировании аудиосигнала, кодированного с помощью системы аудиокодирования, причем упомянутое декодирование содержит этап последующей обработки, зависящий от скорости передачи битов. При переключении с исходной скорости передачи битов на конечную скорость передачи битов способ включает в себя этап переходного замирания, состоящий в непрерывном изменении от сигнала с исходной скоростью передачи битов на сигнал с конечной скоростью передачи битов, при этом один или оба упомянутых сигнала подвергают последующей обработке. Технический результат - обеспечение стабильного выходного качества. 4 н. и 10 з.п. ф-лы, 9 ил.
Реферат
Настоящее изобретение относится к способу переключения скорости передачи битов при декодировании аудиосигнала, кодированного в системе аудиокодирования, работающей с множеством скоростей передачи битов, более конкретно к системе аудиокодирования, масштабируемой по скорости передачи битов и, в случаях, когда это применимо, масштабируемой по полосе пропускания. Оно также относится к применению упомянутого способа к системе аудиодекодирования с масштабированием скорости передачи битов и масштабированием полосы пропускания и к аудиодекодеру с масштабированием скорости передачи битов и масштабированием полосы пропускания.
Особенно предпочтительно применять данное изобретение в области передачи речевых сигналов и/или сигналов в пакетных сетях передачи данных типа передачи голоса по IP (ПИ, протокол Интернет) для обеспечения качества, которое можно модифицировать, как функцию пропускной способности канала передачи данных.
Способ в соответствии с изобретением обеспечивает переходы без искажений между различными скоростями передачи битов аудиокодера/декодера (кодека) с масштабируемой скоростью передачи битов и масштабируемой полосой пропускания, более конкретно для переходов между телефонной полосой пропускания и широкой полосой пропускания в контексте аудиокодирования с масштабированием скорости передачи битов и масштабированием полосы пропускания, с основой с телефонной полосой пропускания, с последующей обработкой зависимой от скорости передачи битов и одним или больше уровнями расширения полосы пропускания.
Обычно термины "телефонная полоса пропускания" и "узкая полоса пропускания" относятся к полосе пропускания от 300 Герц (Гц) до 3400 Гц, и термин "широкая полоса пропускания" оставляют для полосы от 50 Гц до 7000 Гц.
В настоящее время существует множество методик преобразования сигнала звуковой частоты (речевого и/или звукового сигнала) в цифровой сигнал и обработки сигналов, преобразованных, таким образом, в цифровую форму.
Наиболее широко используемые методики представляют собой способы "кодирования формы колебаний", такие как кодирование РСМ (ИКМ, импульсно-кодовая модуляция) или ADPCM (АДИКМ, адаптивная дифференциальная импульсно-кодовая модуляция), "способы параметрического кодирования с помощью анализа по синтезу", такие как кодирование CELP (ЛПСК, линейное прогнозирование с кодированием), и способы "перцептуального кодирования в подполосах или путем преобразований". При узкополосном кодировании с ЛПСК обычно используют последующую обработку для улучшения качества. Эта последующая обработка обычно содержит последующую адаптивную фильтрацию и фильтрацию верхних частот. Стандартные методики, применяемые для кодирования аудиочастотных сигналов, описаны, например, в публикации "Speech Coding and Synthesis", W.B.Kleijn and K.K.Paliwal editors, Elsevier, 1995. Только методики, используемые при двунаправленной передаче сигналов звуковой частоты, относятся к настоящему описанию.
При обычном кодировании речи кодер генерирует поток битов с фиксированной скоростью передачи битов. Такое ограничение, связанное с фиксированной скоростью передачи битов, упрощает воплощение и использование кодера и декодера. Примеры таких систем могут быть представлены кодированием со скоростью 64 килобит в секунду (кбит/с) G 711 и кодированием со скоростью 8 кбит/с G 729.
В вариантах применения, таких как мобильная телефония, при передаче голоса по ПИ или при передаче в специальных сетях предпочтительно генерировать поток битов с переменной скоростью передачи битов, при этом значения скорости передачи битов выбирают из заданного набора. Существуют различные методики кодирования с переменной скоростью передачи битов:
- многорежимное кодирование, управляемое источником и/или каналом и используемое в системах AMR-NB (АМС-УП, адаптивный многоскоростной - узкополосный кодер), AMR-WB (АМС-ШП, адаптивный многоскоростной широкополосный кодер), SMV (МВС, музыка и видео Sony), или VMR-WB (РМР-ШП, широкополосное распознавание модуляции речевым сигналом).
- иерархическое кодирование, также известное как "масштабируемое" кодирование, которое генерирует поток битов, называемый иерархическим, поскольку он состоит из основного потока битов и одного или больше уровней расширения. Система G 722 со скоростью 48 кбит/с, 56 кбит/с и 64 кбит/с представляет собой простой пример кодирования с масштабированием скорости передачи битов. Кодек MPEG-4 ЛПСК является масштабируемым по скорости передачи битов и масштабируемым по полосе пропускания (см. Т.Numura et al., A bitrate and bandwidth scalable CELP coder, ICASSP 1998).
- кодирование с множеством описаний (см. A. Gersho, J.D.Gibson, V.Cuperman, Н.Dong, A multiple description speech coder based on AMR-WB for mobile ad hoc networks, ICASSP 2004).
При кодировании с множеством скоростей передачи битов необходимо удостовериться, что при переключении кодирования с одной скорости передачи битов на другую не генерируются ошибки или искажения.
Переключение скорости передачи битов осуществляется просто, если кодирование всех скоростей передачи битов основано на представлении с использованием одной и той же модели кодирования аудиосигнала в той же полосе пропускания. Например, в системе АМС-УП, сигнал определен как телефонная полоса пропускания (300 Гц 3400 Гц), и кодирование основано на модели ACELP (ЛПСКА, линейное прогнозирование с кодированием алгебраическим кодом), за исключением генерирования комфортного шума, который, тем не менее, обрабатывается моделью типа LPC (ЛПК, линейное предиктивное кодирование) которое совместимо с моделью ЛПСКА. Следует отметить, что при кодировании АМС-УП используется обычная последующая обработка в форме последующей адаптивной фильтрации и фильтрации высокой частоты, при этом коэффициенты последующей адаптивной фильтрации зависят от скорости передачи битов при декодировании. Однако здесь не предпринимаются какие-либо меры предосторожности для решения каких-либо проблем, связанных с использованием параметров последующей обработки, изменяющихся в соответствии со скоростью передачи битов. В отличие от этого при широкополосном кодировании с ЛПСК типа АМС-ШП не используется последующая обработка, в частности, по причинам ее сложности.
Переключение скорости передачи битов является еще более проблематичным при аудиокодировании с масштабированием скорости передачи битов и масштабированием полосы пропускания. Кодирование при этом основано на моделях и полосах пропускания, которые отличаются в соответствии со скоростью передачи битов.
Основная концепция иерархического аудиокодирования иллюстрируется, например, в публикации Y.Hiwasaki, Т.Mori, H.Ohmuro, J.Ikedo, D.Tokumoto, and A.Kataoka, Scalable Speech Coding Technology for High-Quality Ubiquitous Communications, NTT Technical Review, March 2004. При таком типе кодирования поток битов содержит основной уровень и один или больше уровней расширения. Основной уровень генерируют с помощью кодека с фиксированной скоростью передачи битов, называемого "основным кодеком", который гарантирует минимальное качество кодирования. Этот уровень должен быть принят декодером для поддержания приемлемого уровня качества. Уровни расширения используются для повышения качества. Хотя они все передаются кодером, они могут быть не все приняты декодером. Основное преимущество иерархического кодирования состоит в том, что оно обеспечивает возможность адаптации скорости передачи битов путем простого усечения потока передачи битов. Количество уровней, то есть количество возможных усечений потока битов, определяет гранулярность кодирования. Кодирование называется кодированием с сильной гранулярностью, если поток битов содержит небольшое количество уровней, порядка двух - четырех уровней, при этом кодирование с мелкой гранулярностью обеспечивает возможность приращения порядка 1 кбит/с.
Больший интерес здесь представляют собой методики иерархического кодирования, которые являются масштабируемыми по скорости передачи битов и масштабируемыми по полосе пропускания с основным кодером типа ЛПСК для телефонной полосы пропускания и одним или больше уровнями расширения полосы пропускания. Примеры таких систем приведены в публикации Н.Taddéi et al., AScalable Three Bitrate (8, 14.2 and 24 kbps) Audio Coder; 107th Convention AES, 1999 with strong granularity of 8, 14,2 and 24 kbps, и в публикации В. Kovesi, D. Massaloux, A. Sollaud, A scalable speech and audio coding scheme with continuous bitrate flexibility, ICASSP 2004 with fine granularity of 6.4 at 32 kbps, or MPEG-4 CELP coding.
Из наиболее подходящих документов ссылки, связанных с проблемой переключения скорости передачи битов в контексте аудиокодирования с возможностью масштабирования скорости передачи битов и масштабирования полосы пропускания, следует упомянуть международные заявки WO 01/48931 и WO 02/060075.
Однако методики, описанные в приведенных выше двух документах, связаны только с проблемами обеспечения взаимодействия между сетями передачи данных, использующими кодирование в телефонной полосе пропускания и широкополосное кодирование.
В частности, в международной заявке WO 02/060075 описана оптимизированная система децимации, предназначенная для преобразования из широкополосной в телефонную полосу пропускания.
Способ, предложенный в международной заявке WO 01/48931, представляет собой методику расширения полосы пропускания, которая генерирует псевдоширокополосный сигнал из сигнала телефонной полосы пропускания, в частности, путем выделения "спектрального профиля". Известные аналогичные методики предшествующего уровня техники, в основном, направлены на решение проблем, связанных с переключением широкой полосы пропускания на телефонную полосу пропускания, стремясь избежать уменьшения полосы пропускания, путем использования методики расширения полосы пропускания без передачи информации для генерирования широкополосного сигнала из принятого сигнала телефонной полосы пропускания. Следует отметить, что эти способы в действительности не направлены на управление переходом между полосами пропускания, и что они также имеют недостаток, связанный с тем, что они основаны на методиках расширения полосы пропускания с качеством, которое является в высокой степени переменным, и что, поэтому, они не могут гарантировать стабильное выходное качество.
Таким образом, техническая проблема, которая должна быть решена предметом настоящего изобретения, состоит в предоставлении способа переключения скорости передачи битов при декодировании аудиосигнала, кодированного с использованием системы аудиокодирования с переменной скоростью передачи битов, причем упомянутое декодирование включает в себя, по меньшей мере, один этап последующей обработки, зависящий от скорости передачи битов, причем этот способ обеспечивает возможность обработки перехода между разными скоростями передачи битов, для которых используемая последующая обработка зависит от скорости передачи битов декодирования, для устранения особо чувствительных искажений, в случае быстрых изменений скорости передачи битов при декодировании. Последующая обработка вводит сдвиг фазы для сигнала, и использование двух разных форм последующей обработки подразумевает возникновение проблем обеспечения непрерывности фазы во время переходов.
В соответствии с настоящим изобретением, решение упомянутой технической проблемы состоит в том, что во время переключения с исходной скорости передачи битов на конечную скорость передачи битов упомянутый способ включает в себя этап перехода с непрерывным изменением (переходом) от сигнала с исходной скоростью передачи битов на сигнал с конечной скоростью передачи битов, причем один или оба из упомянутых сигналов подвергают последующей обработке.
Таким образом, изобретение имеет преимущество, состоящее в том, что декодирование содержит последующую обработку, зависящую от скорости передачи битов, и непрерывное изменение от последующей обработки с исходной скоростью передачи битов к последующей обработке с конечной скоростью передачи битов осуществляется во время упомянутого этапа перехода. Такое свойство изобретения подробно описано ниже и соответствует возникновению "переходного замирания" при последующей обработке, применяемой к аудиосигналу, декодированному при исходной скорости передачи битов. Можно видеть, что такой подход является особенно преимущественным при переключении скорости передачи битов между телефонной полосой пропускания, при которой декодированный сигнал подвергают последующей обработке, и широкой полосой пропускания, при которой аудиосигнал обычно не подвергают последующей обработке.
В одном конкретном варианте воплощения упомянутое постоянное изменение осуществляют путем взвешивания, которое уменьшает вес сигнала при исходной скорости передачи битов и увеличивает вес сигнала при конечной скорости передачи битов.
Изобретение также охватывает ситуацию, в которой сигнал с исходной скоростью передачи битов и сигнал с конечной скоростью передачи битов оба подвергают последующей обработке.
Изобретение также направлено на компьютерную программу, содержащую кодовые инструкции для выполнения способа в соответствии с изобретением, когда упомянутую программу выполняют с помощью компьютера.
Изобретение дополнительно обеспечивает применение способа в соответствии с изобретением в системе аудиодекодирования с возможностью масштабирования скорости передачи битов.
Изобретение дополнительно предусматривает применение способа в соответствии с изобретением к системе аудиодекодирования с масштабируемой скоростью передачи битов и масштабируемой полосой пропускания, в которой исходную скорость передачи битов получают с применением первого уровня декодирования с первой полосой частот, и конечную скорость передачи битов получают с использованием второго уровня декодирования, которая называется уровнем, расширяющим упомянутую первую полосу частот до второй полосы частот, причем этап последующей обработки применяют для декодирования, выполняемого с исходной скоростью передачи битов.
Изобретение дополнительно направлено на применение способа в соответствии с изобретением в системе аудиодекодирования с масштабируемой скоростью передачи битов и масштабируемой полосой пропускания, в которой конечную скорость передачи битов получают с помощью первого уровня декодирования в первой полосе частот, и исходную скорость передачи битов получают с помощью второго уровня декодирования, называемого уровнем, расширяющим упомянутую первую полосу частот, во второй полосе частот, причем этап последующей обработки применяют для декодирования, выполняемого для конечной скорости передачи битов.
Конкретный пример "расширенной полосы" представляет собой определенную выше "широкую полосу", причем упомянутая первая полоса, при этом, представляет собой телефонную полосу пропускания.
Изобретение дополнительно направлено на аудиодекодер, работающий с множеством скоростей передачи битов, особенность которого состоит в том, что упомянутый декодер включает в себя этап последующей обработки, который зависит от скорости передачи битов, причем упомянутый этап последующей обработки адаптирован, при переключении с исходной скорости передачи битов на конечную скорость передачи битов, выполнять переход путем непрерывного изменения от сигнала с исходной скоростью передачи битов на сигнал с конечной скоростью передачи битов, и при этом, по меньшей мере, один из упомянутых сигналов подвергают последующей обработке.
В частности, упомянутый этап последующей обработки адаптирован к выполнению упомянутого непрерывного изменения путем взвешивания, которое уменьшает вес сигнала с исходной скоростью передачи битов и увеличивает вес сигнала с конечной скоростью передачи битов.
Следующее описание со ссылкой на приложенные чертежи, представленное в виде не ограничивающего примера, очевидно, поясняет, в чем состоит изобретение и как его можно выполнить на практике.
На фиг.1 показана схема 4-уровневого кодера с масштабируемой скоростью передачи битов и масштабируемой полосой пропускания.
На фиг.2 показана схема декодера в соответствии с изобретением, ассоциированного с кодером по фиг.1.
На фиг.3 показана структура потока битов, ассоциированного с кодером по фиг.1.
На фиг.4 показана блок-схема последовательности операций способа переключения между сигналом с последующей обработкой и сигналом без последующей обработки в телефонной полосе пропускания декодера в соответствии с изобретением.
На фиг.5 представлена блок-схема последовательности операций способа в соответствии с изобретением, предназначенного для переключения между телефонной полосой пропускания и широкой полосой пропускания с расширением полосы пропускания.
На фиг.6 показана блок-схема последовательности операций способа переключения в соответствии с изобретением, который предназначен для переключения между телефонной полосой пропускания и широкой полосой пропускания с уровнем декодирования с предиктивным преобразованием.
На фиг.7 показана блок-схема последовательности операций способа управления подсчетом принимаемых широкополосных фреймов для переключения между скоростями передачи битов и между полосами пропускания, с использованием способа в соответствии с настоящим изобретением.
На фиг.8 показана таблица, в которой сведены вместе операции, представленные в блок-схеме последовательности операций, показанной на фиг.7.
На фиг.9 показана таблица, в которой представлены коэффициенты адаптивной аттенюации для переключения с телефонной полосы пропускания на широкую полосу пропускания.
Изобретение описано ниже в контексте аудиокодера с масштабируемой скоростью передачи битов и масштабируемой полосой пропускания. Структура кодирования, выполненная с возможностью масштабирования по скорости передачи битов и масштабирования по полосе пропускания, которая рассматривается здесь, использует для по основного кодирования кодер с телефонной полосой пропускания типа ЛПСК, в одном конкретном примере которого используется кодер G 729 A, как описано в ITU-T Recommendation G.729, Coding of Speech at 8 kbit/s using Conjugate Structure Algebraic Code Excited Linear Prediction (CS-ACELP), март 1996 г.и в R. Salami et al., Description of ITU-T Recommendation G.729 Annex A: Reduced complexity 8 kbit/s CS-ACELP codec, ICASSP 1997.
Три этапа расширения добавлены к основному кодированию с ЛПСК, а именно расширение кодирования с ЛПСК с телефонной полосой пропускания, расширение полосы пропускания и кодирование с предиктивным преобразованием.
Рассматриваемое здесь переключение скорости передачи битов представляет собой переключение между телефонной полосой пропускания и широкой полосой пропускания.
На фиг.1 показана схема используемого кодера.
Аудиосигнал с аудиополосой 50 Гц-7000 Гц, с выборкой с частотой 16 кГц, разделяют на фреймы длительностью 20 миллисекунд (мс) по 320 выборок. Фильтрация 101 высокой частоты, с частотой среза 50 Гц, применяется для входного сигнала. Получаемый сигнал SWB используют в множестве ветвей кодера.
Вначале, в первой ветви, к сигналу S применяют низкочастотную фильтрацию и субдискретизацию с коэффициентом два, 102, с частоты 16 кГц на частоту 8 кГц. В результате этой операции получают сигнал с телефонной полосой пропускания, с выборкой с частотой 8 кГц. Этот сигнал обрабатывают с помощью основного кодера 103, используя кодирование типа ЛПСК. Здесь кодирование соответствует кодеру G.729 A, который генерирует основной поток битов, со скоростью передачи битов 8 кбит/с.
Первый уровень расширения затем вводит второй этап 103 кодирования ЛПСК. Этот второй этап состоит в применении новаторского словаря, который обеспечивает обогащение возбуждения ЛПСК и предлагает возможность улучшения качества, в частности, для не голосовых звуков. Скорость передачи битов этого второго этапа кодирования составляет 4 кбит/с, и ассоциированные параметры представляют собой положения и знаки импульсов, и усиление ассоциированного новаторского словаря для каждого подфрейма, состоящего из 40 выборок (5 мс при частоте 8 кГц).
Декодирование основного кодера и первого уровня расширения осуществляют для получения синтезированного сигнала 104 со скоростью 12 кбит/с в телефонной полосе пропускания. В результате избыточной выборки с коэффициентом два с 8 кГц до 16 кГц и фильтрации 105 низкой частоты, получают версию с выборкой на частоте 16 кГц из первых двух этапов кодера.
Третий уровень расширения обеспечивает расширение 106 полосы до широкой полосы пропускания. Входной сигнал SWB может быть подвергнут предварительной обработке с помощью фильтра предварительного выделения. Фильтр предварительного выделения формирует лучшее представление высоких частот из широкополосного фильтра с линейным прогнозированием. Затем при синтезе используют фильтр с обратным устранением выделения для компенсации эффекта фильтра предварительного выделения. В альтернативном варианте такой структуры кодирования и декодирования не используются фильтры предварительного выделения или устранения выделения.
На следующем этапе рассчитывают и дискретизируют широкополосные фильтры линейного прогнозирования. Фильтр линейного прогнозирования представляет собой фильтр 18-ого порядка, но также можно выбрать более низкий порядок прогнозирования, например прогнозирование 16-ого порядка. Фильтр линейного прогнозирования может быть рассчитан с помощью способа автокорреляции, в котором используется алгоритм Левинсона-Дурбина.
Такой широкополосный фильтр AWB(z) линейного прогнозирования квантуют с использованием прогнозирования коэффициентов из фильтра ÂWB(z) из основного кодера телефонной полосы пропускания. Коэффициенты затем могут быть квантованы с использованием, например, многокаскадного векторного квантования и с использованием деквантованных параметров LSF (ЧЛС, частоты линейного спектра) основного кодера телефонной полосы пропускания, как описано в публикации Н.Ehara, Т.Morii, М.Oshikiri, and К.Yoshida, Predictive VQ for bandwidth scalable LSP quantization, ICASSP 2005.
Широкополосное возбуждение получают из параметров возбуждения телефонной полосы пропускания основного кодера: задержка периода тона, ассоциированный коэффициент усиления и алгебраические возбуждения основного кодера, и первый слой обогащения возбуждения ЛПСК и ассоциированные коэффициенты усиления. Такое возбуждение генерируют с использованием версии с избыточной выборкой параметров возбуждения каскада телефонной полосы пропускания.
Широкополосное возбуждение затем фильтруют с помощью фильтра синтеза, который был рассчитан заранее. Если предварительное выделение применяют к входному сигналу, фильтр, устраняющий предварительное усиление, применяют к выходному сигналу фильтра синтеза. Полученный сигнал представляет собой широкополосный сигнал, энергия которого не была отрегулирована. Для расчета усиления, для подъема энергии высокочастотного диапазона (3400 Гц-7000 Гц), применяют фильтрацию высокой частоты к широкополосному сигналу синтеза. Параллельно с этим ту же фильтрацию высокой частоты применяют для сигнала ошибки, соответствующего разности между задержанным исходным сигналом и сигналом синтеза предыдущих двух каскадов. Эти два сигнала затем используют для расчета коэффициента усиления, который требуется применять для синтезированного широкополосного сигнала. Такой коэффициент усиления рассчитывают на основе соотношения энергии между двумя сигналами. Квантованный коэффициент gWB усиления затем применяют к сигналу S14 WB на уровне подфрейма, состоящего из 80 выборок (5 мс для 16 кГц), и сигнал, полученный таким образом, затем добавляют к синтезируемому сигналу из предыдущего каскада, для создания широкополосного сигнала, который соответствует скорости передачи битов 14 кбит/с.
Остальное кодирование выполняют в области частоты, с использованием схемы кодирования с предиктивным преобразованием. Задержанные входные сигналы 108 и сигналы 107 синтеза 14 кбит/с фильтруют с помощью перцептуального весового фильтра 109, 111 с характеристикой AWZ (z/y) * (1-µz), обычно у=0,92 и µ=0,68. Эти сигналы затем кодируют с использованием схемы кодирования преобразования с перекрытием TDAC (НСВО, нейтрализация ступенчатости во временной области), (Y.Mahieux and J.P.Petit, Transform coding of audio signals at 64 kbiVs, IEEE GLOBECOM 1990).
Модифицированное дискретное косинусное преобразование (MDCT, МДКП) применяют: как 110 для блоков 640 выборок взвешенного входного сигнала со степенью перекрытия 50% (обновление анализа МДКП каждые 20 мс), так и 112 для взвешенного сигнала синтеза из предыдущего каскада расширения полосы пропускания при скорости 14 кбит/с (та же длина блока и та же степень перекрытия). Спектр МДКП, который предназначен для кодирования, 113, соответствует разности между взвешенным входным сигналом и сигналом синтеза со скоростью 14 кбит/с для полосы пропускания от 0 до 3400 Гц и для взвешенного входного сигнала в диапазоне от 3400 Гц до 7000 Гц. Спектр ограничивают на уровне 7000 Гц путем установки в ноль последних 40 коэффициентов (только первые 280 коэффициентов кодируют). Спектр разделяют на 18 полос: одна полоса из восьми коэффициентов и 17 полос из 16 коэффициентов. Для каждой полосы спектра рассчитывают энергию коэффициентов МДКП (коэффициенты масштабирования). 18 коэффициентов масштабирования составляют спектральную огибающую взвешенного сигнала, которую затем квантуют, кодируют и передают во фрейме. На фиг.3 показан формат потока битов.
Динамическое выделение битов основано на энергии полос пропускания спектра из версии с устраненным квантованием спектральной огибающей. Это позволяет достичь совместимости между двоичным выделением кодера и декодером. Нормализованные (тонкая структура) коэффициенты МДКП в каждом диапазоне затем квантуют с помощью векторного квантования, с использованием словарей, с перемежением по размеру и измерению, при этом словари состоят из единичного блока кодов перестановки, как описано в публикации С.Lamblin et al., "Quantification vectorielle en dimension et resolution variables" ["Vector quantization with variable dimension and resolution"], patent PCT FR 04 00219, 2004. Наконец, информацию по основному кодеру, каскаду расширения телефонной полосы пропускания ЛПСК, каскаду широкой полосы пропускания ЛПСК и, наконец, спектральной огибающей и нормализованным кодированным коэффициентам мультиплексируют и передают во фреймах.
На фиг.2 показана блок-схема декодера, ассоциированного с кодером по фиг.1.
Модуль 2701 демультиплексирует параметры, содержащиеся в потоке битов. Существует множество случаев декодирования, как функции количества битов, принимаемых для одного фрейма, и четыре таких случая описаны со ссылкой на фиг.2:
1. Первый относится к приему декодером минимального количества битов для принимаемой скорости передачи битов 8 кбит/с.В этом случае декодируют только первый каскад. Таким образом, принимают и декодируют только поток битов, относящийся к основному декодеру 202 типа ЛПСК (G.729 A+). Этот синтез может быть обработан с использованием последующей адаптивной фильтрации 203 и последующей фильтрации 204 с применением фильтрации высокой частоты, с помощью декодера G.729. В данном варианте воплощения термин "последующая обработка" относится к комбинации этих двух операций. Однако очевидно, что термин "последующая обработка" также может относиться только к последующей адаптивной фильтрации или только к последующей обработке типа фильтрации высокой частоты. Для этого сигнала получают избыточную выборку, 206 и фильтруют 207, для получения сигнала с выборкой с частотой 16 кГц.
2. Второй случай относится к приему количества битов, относящихся к только первому и второму каскадам декодирования, для принимаемой скорости передачи битов 12 кбит/с. В этом случае декодируют основной декодер и первый каскад обогащения возбуждения ЛПСК. Такой синтез может быть обработан с использованием последующей обработки 203, 204 с применением декодера G.729. Как и ранее, для этого сигнала получают избыточную выборку 206 и фильтр 207, для получения сигнала с частотой выборки 16 кГц.
3. Третий случай соответствует приему количества битов, относящихся к первым трех каскадам декодирования, для принимаемой скорости передачи битов 14 кбит/с. В этом случае вначале выполняют первые два каскада декодирования, как в случае 2, за исключением того, что последующую обработку не применяют для выходного сигнала декодирования с ЛПСК, после чего модуль расширения полосы пропускания генерирует сигнал, с выборкой 16 кГц, после декодирования параметров в парах спектральных линий (ШП-ЧЛС) в широкой полосе пропускания 209, а также с использованием коэффициентов усиления, ассоциированных с возбуждением 213. Широкополосное возбуждение генерируют по параметрам основного кодера и первого каскада 208 обогащения ЛПСК. Такое возбуждение затем фильтруют с помощью фильтра 210 синтеза, и в соответствующем случае с помощью фильтра 211 удаления выделения, если фильтр предварительного выделения использовали в кодере. Фильтр 212 высокой частоты применяют для полученного сигнала, и энергию сигнала расширения полосы пропускания адаптируют с помощью ассоциированных коэффициентов 214 усиления каждые 5 мс. Этот сигнал затем добавляют к сигналу телефонной полосы пропускания, с выборкой на 16 кГц, полученному из первых двух каскадов 215 декодирования. С целью получения сигнала, ограниченного до 7000 Гц, такой сигнал фильтруют в области преобразования, путем установки в 0 последних 40 коэффициентов МДКП перед инверсным МДКП 220 и взвешенным фильтром 221 синтеза.
4. Этот последний случай соответствует декодированию всех каскадов декодера для принимаемой скорости передачи битов, большей чем или равной 16 кбит/с. Последний каскад состоит из декодера предиктивного преобразования. Каскад 3, описанный выше, выполняют первым. Затем, как функцию количества дополнительных принятых битов, адаптируют схему декодирования с предиктивным преобразованием:
- Если количество битов соответствует только части спектральной огибающей или всей огибающей, но без приема тонкой ее структуры, используется частичная или полная спектральная огибающая для регулировки энергии в полосах коэффициентов МДКП, 216 и 217, в диапазоне от 3400 Гц до 7000 Гц, 218, что соответствует сигналу, генерируемому в каскаде 215 расширения полосы пропускания. Такая система обеспечивает последовательное улучшение качества звука как функцию количества принимаемых битов.
- Если количество битов соответствует всей спектральной огибающей и части или всей тонкой структуры, но выделение битов выполнено таким же образом, как и в кодере.
В полосах пропускания, в которых была принята тонкая структура, декодированные коэффициенты МДКП рассчитывают по спектральной огибающей и деквантованной тонкой структуре. В спектральных полосах в диапазоне 3400 Гц к 7000 Гц, в которых тонкая структура не была принята, используют процедуру из предыдущего параграфа, то есть, коэффициенты МДКП рассчитывают по сигналу, полученному путем расширения полосы 216 и 217, регулируют по энергии на основе принятой спектральной огибающей 218. Спектр МДКП, используемый для синтеза, поэтому составлен из: как из синтезированного сигнала в первых двух каскадах декодирования, добавленных к декодированному сигналу ошибки, в полосах между 0 и 3400 Гц; так и для полос в диапазоне от 3400 Гц до 7000 Гц, с использованием коэффициентов МДКП, декодированных в полосах пропускания, в которых была принята тонкая структура, и коэффициенты МДКП в каскаде возбуждения полосы отрегулированы по энергии для других спектральных полос.
Затем применяют инверсный МДКП к декодированным коэффициентам МДКП, 220, и после фильтрации, с помощью взвешенного фильтра синтеза, 221, получают выходной сигнал.
Способ переключения в соответствии с изобретением описан ниже в контексте декодера по фиг.2.
В блоке 205 представлен модуль "переходного замирания". Если количество битов, принятых декодером, недостаточно для декодирования, кроме первого каскада или первого и второго каскадов, то есть для принятой скорости передачи битов 8 кбит/с или 12 кбит/с, эффективная полоса пропускания конечного выходного сигнала декодера будет представлять собой телефонную полосу пропускания. В этих обстоятельствах, для улучшения качества синтезированного сигнала, последующая обработка 203, 204 в широком смысле, то есть часть декодера G.729 A, применяется в телефонном диапазоне, перед избыточной выборкой.
В отличие от этого, если декодирование в широкополосных каскадах также применяется для принимаемой скорости передачи битов, большей чем или равной 14 кбит/с, такая последующая обработка не активируется, поскольку в кодере кодирование более высоких каскадов было рассчитано по версии без последующей обработки в телефонной полосе пропускания.
Последующая обработка, 203 и 204, вводит сдвиг фазы в сигнал. При переключении между режимами с последующей обработкой и без нее поэтому требуется предусмотреть мягкий переход. На фиг.4 показан вариант воплощения блока 205, который обеспечивает такой медленный переход между сигналом в телефонной полосе пропускания с последующей обработкой и без последующей обработки, применяя переходное замирание.
На этапе 401 исследуют, является ли текущий фрейм фреймом телефонной полосы пропускания или нет, то есть проверяют, составляет ли скорость передачи битов текущего фрейма 8 кбит/с или 12 кбит/с. В случае отрицательного ответа используют этап 402 для проверки, выполнялась ли предыдущая обработка для предыдущего фрейма или нет в телефонной полосе пропускания (что сводится к проверке, составляла ли скорость передачи битов предыдущего фрейма 8 кбит/с - 12 кбит/с или нет). В случае отрицательного ответа, на этапе 403, сигнал S1 без последующей обработки копируют в сигнал S3. В отличие от этого, при положительном ответе на проверку 402, на этапе 404, сигнал S3 будет содержать результат переходного замирания, где вес компонента S1 без последующей обработки увеличивается, в то время как вес компонента S2 с последующей фильтрацией уменьшается. После этапа 404 следует этап 405, который обновляет флаг prevPF, устанавливая его на величину 0.
В случае положительного ответа на этапе 401 выполняют проверку на этапе 406 в отношении того, была ли активной или нет в предыдущем фрейме последующая обработка в телефонной полосе пропускания. В случае положительного ответа, на этапе 408, сигнал S2 последующей обработкой копируют в сигнал S3. В отличие от этого, в случае, когда получают отрицательный ответ на этапе 406, рассчитывают сигнал S3, на этапе 407, в результате переходного замирания, причем на этот раз вес компонента S1 без последующей обработки уменьшается, тогда как вес компонента S2 последующей обработкой увеличивается. После этапа 407, выполняют этап 409, для обновления флага prevPF с установкой его на величину 1.
В варианте данного варианта воплощения, если количество битов, принимаемых декодером, позволяет декодировать только первый каскад или первый и второй каскад, то есть, для принимаемой скорости передачи битов 8 или 12 кбит/с, эффективная полоса пропускания конечного выхода декодера составляет телефонную полосу пропускания (сигнал S1). В этих обстоятельствах для повышения качества синтезированного сигнала применяют последующую обработку в телефонной полосе пропускания перед избыточной выборкой.
В отличие от этого, если также выполняется декодирование в широкополосном каскаде для принятой скорости передачи битов, большей чем или равной 14 кбит/с, другую последующую обработку активируют (сигнал S2) в кодере, при этом кодирование более высоких каскадов было рассчитано по версии этой последующей обработки в телефонной полосе пропускания.
Последующая обработка, используемая для скоростей передачи битов 8 или 12 кбит/с и последующей обработки, используемой для скорости передачи битов, большей чем или равной 14 кбит/с, в сигнал вводят разные сдвиги фазы. Поэтому при переключении между режимами с разными формами последующей обработки требуется предусмотреть мягкий переход. Такой медленный переход между сигналами телефонной полосы пропускания с различными формами последующей обработки используют путем применения переходного замирания (в результате чего получают сигнал S3).
Проверяют, является ли текущий фрейм фреймом с телефонной полосой пропускания или нет. В случае отрицательного ответа проверяют, был ли