Устройство кодирования речи, устройство декодирования речи, способ кодирования речи, способ декодирования речи, программа кодирования речи и программа декодирования речи

Патент 2498420

Авторы

Правообладатели

НТТ ДОКОМО, ИНК. (JP)

Классы МПК

G10L21/02 - усиление речи, например подавление шума, нейтрализация эхо-сигнала (подавление эхо-сигнала в громкоговорящих телефонных системах H04M 9/08, в аппаратах для людей с дефектами слуха H04R 15/00)

Устройство кодирования речи, устройство декодирования речи, способ кодирования речи, способ декодирования речи, программа кодирования речи и программа декодирования речи

Иллюстрации

Показать все

Изобретение относится к устройству кодирования речи, к устройству декодирования речи, к способам кодирования и декодирования речи и к программе кодирования и декодирования речи. Сущность изобретения состоит в том, что коэффициент линейного предсказания сигнала, представленного в частотной области, получают путем выполнения анализа по частоте с линейным предсказанием с использованием метода ковариации или метода автокорреляции. После того как скорректирована сила фильтра полученного коэффициента линейного предсказания, выполняют фильтрацию сигнала по частоте с использованием скорректированного коэффициента, посредством чего формируют временную огибающую сигнала. Технический результат - уменьшение возникающего опережающего эха и запаздывающего эха, что улучшает субъективное качество декодированного сигнала без значительного увеличения скорости передачи битов в способе расширения полосы частот в частотной области, представленном способом репликации спектральных полос (SBR). 6 н. и 1 з.п. ф-лы, 50 ил.

Реферат

ОБЛАСТЬ ТЕХНИКИ

Настоящее изобретение относится к устройству кодирования речи, к устройству декодирования речи, к способу кодирования речи, к способу декодирования речи, к программе кодирования речи и к программе декодирования речи.

Способы кодирования речевой и звуковой информации для сжатия объема данных из сигналов до нескольких десятых долей этого объема путем удаления информации, не являющейся необходимой для восприятия человеком, используя психоакустику, являются чрезвычайно важными при передаче и хранении сигналов. Примеры широко используемых способов перцепционного кодирования звуковой информации включают в себя способ "MPEG4 AAC", стандартизированный экспертной группой по движущимся изображениям Международной организации по стандартизации/Международной электротехнической комиссии (ISO/IEC MPEG).

В последние годы в качестве способа улучшения эффективности кодирования речи и получения высокого качества речевого сигнала при низкой скорости передачи битов широко использовался способ расширения полосы частот для генерации высокочастотных составляющих с использованием низкочастотных составляющих речевого сигнала. Типичные примеры способа расширения полосы частот включают в себя способ SBR (репликации спектральных полос), используемый в стандарте "MPEG4 AAC". В способе SBR высокочастотную составляющую генерируют путем преобразования сигнала в спектральную область с использованием набора QMF-фильтров (квадратурных зеркальных фильтров) и копирования спектральных коэффициентов из низкочастотного диапазона в высокочастотный диапазон относительно преобразованного сигнала, и высокочастотную составляющую корректируют путем коррекции огибающей спектра и тональности скопированных коэффициентов. Поскольку способ кодирования речи с использованием способа расширения полосы частот может обеспечивать воспроизведение высокочастотных составляющих сигнала с использованием лишь небольшого объема дополнительной информации, то он является эффективным для уменьшения скорости передачи битов при кодировании речи.

В способе расширения полосы частот в частотной области, представленном способом SBR, огибающую спектра и тональность спектральных коэффициентов, представленных в частотной области, корректируют путем регулировки усиления для спектральных коэффициентов, выполнения обратной фильтрации с линейным предсказанием во временной области и наложения шума на спектральный коэффициент. В результате выполнения этого способа коррекции, после кодирования сигнала, имеющего сильное изменение временной огибающей, такого как, например, речевой сигнал, аплодисменты или кастаньеты, в декодированном сигнале может восприниматься реверберационный шум, именуемый опережающим эхо или запаздывающим эхо. Эта проблема вызвана тем, что во время процедуры коррекции осуществляют преобразование временной огибающей высокочастотной составляющей, и во многих случаях после процедуры коррекции временная огибающая является более сглаженной, чем до процедуры коррекции. Временная огибающая высокочастотной составляющей после процедуры коррекции не совпадает с временной огибающей высокочастотной составляющей исходного сигнала до его кодирования, что, таким образом, вызывает возникновение опережающего эха и запаздывающего эха.

Проблема, аналогичная проблеме возникновения опережающего эха и запаздывающего эха, также имеет место при кодировании многоканального звука с использованием параметрического способа, представленного технологией объемного звучания "MPEG surround" и технологией "параметрическое стерео". Декодер, используемый при кодировании многоканального звука, включает в себя средство выполнения декорреляции декодированного сигнала с использованием реверберационного фильтра. Однако, во время декорреляции производят преобразование временной огибающей сигнала, что, тем самым, вызывает ухудшение качества воспроизводимого сигнала, аналогично опережающему эхо и запаздывающему эхо. Решения этой проблемы включают в себя способ TES (формирования временной огибающей) (патентная литература 1). В способе TES выполняют анализ сигнала, представленного в области QMF, декорреляция которого еще не была выполнена, по частоте с линейным предсказанием для получения коэффициентов линейного предсказания, и, используя коэффициенты линейного предсказания, выполняют синтезирующую фильтрацию сигнала, декорреляция которого уже была выполнена, по частоте с линейным предсказанием. Этот способ позволяет в способе TES извлекать временную огибающую сигнала, декорреляция которого еще не была выполнена, и корректировать временную огибающую сигнала, декорреляция которого уже была выполнена, в соответствии с извлеченной временной огибающей. Поскольку сигнал, декорреляция которого еще не была выполнена, имеет менее искаженную временную огибающую, то временную огибающую сигнала, декорреляция которого уже была выполнена, корректируют до менее искаженной формы, получая, таким образом, воспроизводимый сигнал, в котором улучшены опережающее эхо и запаздывающее эхо.

ПЕРЕЧЕНЬ ЦИТИРУЕМОЙ ЛИТЕРАТУРЫ

ПАТЕНТНАЯ ЛИТЕРАТУРА

Патентная литература 1: публикация заявки на патент США № 2006/0239473

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

ТЕХНИЧЕСКАЯ ЗАДАЧА

Описанный выше способ TES представляет собой способ, в котором используют тот факт, что сигнал, декорреляция которого еще не была выполнена, имеет менее искаженную временную огибающую. Однако, в SBR-декодере высокочастотную составляющую сигнала копируют вместе с низкочастотной составляющей сигнала. Соответственно, невозможно получить менее искаженную временную огибающую для высокочастотной составляющей. Одним из решений этой задачи является способ, в котором выполняют анализ высокочастотной составляющей входного сигнала в SBR-кодере, квантование коэффициентов линейного предсказания, полученных в результате анализа, и их мультиплексирование в поток битов, подлежащий передаче. Этот способ позволяет SBR-декодеру получать коэффициенты линейного предсказания, включающие в себя информацию с менее искаженной временной огибающей высокочастотной составляющей. Однако, в этом случае необходим большой объем информации для передачи квантованных коэффициентов линейного предсказания, что, таким образом, значительно увеличивает скорость передачи битов всего закодированного потока битов в целом. Таким образом, настоящее изобретение предназначено для уменьшения возникающего опережающего эха и запаздывающего эха и для повышения субъективного качества декодированного сигнала без значительного увеличения скорости передачи битов в способе расширения полосы частот в частотной области, представленном способом SBR.

РЕШЕНИЕ ЗАДАЧИ

В устройстве кодирования речи из настоящего изобретения дополнительная информация о временной огибающей предпочтительно представляет собой параметр, указывающий резкость изменения временной огибающей высокочастотной составляющей речевого сигнала в заданном интервале анализа.

Предпочтительно, чтобы устройство кодирования речи из настоящего изобретения дополнительно включало в себя средство преобразования частоты для преобразования речевого сигнала в частотную область, и чтобы средство вычисления дополнительной информации о временной огибающей вычисляло дополнительную информацию о временной огибающей на основании коэффициентов линейного предсказания для высоких частот, полученных путем выполнения анализа в частотном направлении коэффициентов на высоких частотах речевого сигнала, преобразованного в частотную область средством преобразования частоты, по частоте с линейным предсказанием.

В устройстве кодирования речи из настоящего изобретения средство вычисления дополнительной информации о временной огибающей предпочтительно выполняет анализ коэффициентов на низких частотах речевого сигнала, преобразованного в частотную область средством преобразования частоты, по частоте с линейным предсказанием для получения коэффициентов линейного предсказания для низких частот и вычисляет дополнительную информацию о временной огибающей на основании коэффициентов линейного предсказания для низких частот и коэффициентов линейного предсказания для высоких частот.

В устройстве кодирования речи из настоящего изобретения средство вычисления дополнительной информации о временной огибающей предпочтительно получает коэффициент усиления предсказания из каждого из коэффициентов линейного предсказания для низких частот и из коэффициентов линейного предсказания для высоких частот, и вычисляет дополнительную информацию о временной огибающей на основании величин этих двух коэффициентов усиления предсказания.

В устройстве кодирования речи из настоящего изобретения средство вычисления дополнительной информации о временной огибающей предпочтительно отделяет высокочастотную составляющую от речевого сигнала, получает информацию о временной огибающей, представленную во временной области, из высокочастотной составляющей и вычисляет дополнительную информацию о временной огибающей на основании величины изменения информации о временной огибающей во времени.

В устройстве кодирования речи из настоящего изобретения, дополнительная информация о временной огибающей предпочтительно включает в себя разностную информацию для получения коэффициентов линейного предсказания для высоких частот с использованием коэффициентов линейного предсказания для низких частот, полученных путем выполнения анализа в частотном направлении низкочастотной составляющей речевого сигнала по частоте с линейным предсказанием.

Предпочтительно, чтобы устройство кодирования речи из настоящего изобретения дополнительно включало в себя средство преобразования частоты для преобразования речевого сигнала в частотную область, и чтобы средство вычисления дополнительной информации о временной огибающей выполняло анализ каждой низкочастотной составляющей и высокочастотной составляющей речевого сигнала, преобразованного в частотную область средством преобразования частоты, по частоте с линейным предсказанием для получения коэффициентов линейного предсказания для низких частот и коэффициентов линейного предсказания для высоких частот, и получало разностную информацию путем получения разности между коэффициентами линейного предсказания для низких частот и коэффициентами линейного предсказания для высоких частот.

В устройстве кодирования речи из настоящего изобретения разностная информация предпочтительно представляет собой разность между коэффициентами линейного предсказания, по меньшей мере, в любой из следующих областей: LSP (Linear Spectrum Pair - пара спектральных линий), ISP (Immittance Spectrum Pair - спектральная пара иммитанса), LSF (Linear Spectrum Frequency - частота спектральных линий), ISF (Immittance Spectrum Frequency - спектральная частота иммитанса) и коэффициент PARCOR.

Устройство кодирования речи из настоящего изобретения представляет собой устройство кодирования речи для кодирования речевого сигнала и включает в себя: средство базового кодирования для кодирования низкочастотной составляющей речевого сигнала; средство преобразования частоты для преобразования речевого сигнала в частотную область; средство анализа с линейным предсказанием для выполнения анализа в частотном направлении коэффициентов на высоких частотах речевого сигнала, преобразованного в частотную область средством преобразования частоты, по частоте с линейным предсказанием для получения коэффициентов линейного предсказания для высоких частот; средство децимации коэффициентов предсказания для децимации коэффициентов линейного предсказания для высоких частот, полученных средством анализа с линейным предсказанием, во временной области; средство квантования коэффициентов предсказания для квантования коэффициентов линейного предсказания для высоких частот, подвергнутых децимации средством децимации коэффициентов предсказания; и средство мультиплексирования потока битов для генерации потока битов, в котором мультиплексированы, по меньшей мере, низкочастотная составляющая, закодированная средством базового кодирования, и коэффициенты линейного предсказания для высоких частот, квантованные средством квантования коэффициентов предсказания.

Устройство декодирования речи из настоящего изобретения представляет собой устройство декодирования речи для декодирования закодированного речевого сигнала и включает в себя: средство разделения потока битов для разделения потока битов, принятого извне устройства декодирования речи, который включает в себя закодированный речевой сигнал, на закодированный поток битов и на дополнительную информацию о временной огибающей; средство базового декодирования для декодирования закодированного потока битов, разделенного средством разделения потока битов, для получения низкочастотной составляющей; средство преобразования частоты для преобразования низкочастотной составляющей, полученной средством базового декодирования, в частотную область; средство генерации высоких частот для генерации высокочастотной составляющей путем копирования низкочастотной составляющей, преобразованной в частотную область средством преобразования частоты, из низкочастотных диапазонов в высокочастотные диапазоны; средство вычисления временной огибающей на низких частотах для вычисления низкочастотной составляющей, преобразованной в частотную область средством преобразования частоты, для получения информации о временной огибающей; средство коррекции временной огибающей для коррекции информации о временной огибающей, полученной средством анализа временной огибающей на низких частотах, с использованием дополнительной информации о временной огибающей, и средство формирования временной огибающей для формирования временной огибающей высокочастотной составляющей, сгенерированной средством генерации высоких частот с использованием информации о временной огибающей, скорректированной средством коррекции временной огибающей.

Предпочтительно, чтобы устройство декодирования речи из настоящего изобретения дополнительно включало в себя средство коррекции высоких частот для коррекции высокочастотной составляющей, и средство преобразования частоты может представлять собой 64-секционный набор QMF-фильтров с вещественным или с комплексным коэффициентом, и средство преобразования частоты, средство генерации высоких частот и средство коррекции высоких частот функционируют на основании декодера с репликацией спектральных полос (SBR-декодера) согласно стандарту "MPEG4 AAC", описанному в документе "ISO/TEC 14496-3".

В устройстве декодирования речи из настоящего изобретения предпочтительно, чтобы средство анализа временной огибающей на низких частотах получало информацию о временной огибающей речевого сигнала путем получения мощности низкочастотной составляющей, преобразованной в частотную область средством преобразования частоты, в каждом временном интервале, чтобы средство коррекции временной огибающей корректировало информацию о временной огибающей с использованием дополнительной информации о временной огибающей и чтобы средство формирования временной огибающей накладывало скорректированную информацию о временной огибающей на высокочастотную составляющую в частотной области, сгенерированную средством генерации высоких частот, для формирования временной огибающей высокочастотной составляющей.

В устройстве декодирования речи из настоящего изобретения предпочтительно, чтобы средство анализа временной огибающей на низких частотах получало информацию о временной огибающей речевого сигнала путем получения мощности каждой выборки низкочастотной составляющей в поддиапазоне QMF, преобразованной в частотную область средством преобразования частоты, чтобы средство коррекции временной огибающей корректировало информацию о временной огибающей с использованием дополнительной информации о временной огибающей, и чтобы средство формирования временной огибающей формировало временную огибающую высокочастотной составляющей путем умножения высокочастотной составляющей в частотной области, сгенерированной средством генерации высоких частот, на скорректированную информацию о временной огибающей.

В устройстве декодирования речи из настоящего изобретения дополнительная информация о временной огибающей предпочтительно представляет собой параметр силы фильтра, используемый для коррекции силы коэффициентов линейного предсказания.

В устройстве декодирования речи из настоящего изобретения дополнительная информация о временной огибающей предпочтительно представляет собой параметр, указывающий величину изменения информации о временной огибающей во времени.

В устройстве декодирования речи из настоящего изобретения дополнительная информация о временной огибающей предпочтительно включает в себя разностную информацию о коэффициентах линейного предсказания относительно коэффициентов линейного предсказания для низких частот.

В устройстве декодирования речи из настоящего изобретения разностная информация предпочтительно представляет собой разность между коэффициентами линейного предсказания, по меньшей мере, в любой из следующих областей: LSP (пара спектральных линий), ISP (спектральная пара иммитанса), LSF (частота спектральных линий), ISF (спектральная частота иммитанса) и коэффициент PARCOR.

В устройстве декодирования речи из настоящего изобретения предпочтительно, чтобы средство анализа временной огибающей на низких частотах выполняло анализ низкочастотной составляющей, преобразованной в частотную область средством преобразования частоты, по частоте с линейным предсказанием для получения коэффициентов линейного предсказания для низких частот и получало в частотной области мощность низкочастотной составляющей для каждого временного интервала для получения информации о временной огибающей речевого сигнала, чтобы средство коррекции временной огибающей корректировало коэффициенты линейного предсказания для низких частот с использованием дополнительной информации о временной огибающей и корректировало информацию о временной огибающей с использованием дополнительной информации о временной огибающей, и чтобы средство формирования временной огибающей выполняло в частотной области фильтрацию высокочастотной составляющей, сгенерированной средством генерации высоких частот, по частоте с линейным предсказанием с использованием коэффициентов линейного предсказания, скорректированных средством коррекции временной огибающей, для формирования временной огибающей речевого сигнала и формировало временную огибающую высокочастотной составляющей путем свертки высокочастотной составляющей в частотной области с информацией о временной огибающей, скорректированной средством коррекции временной огибающей.

В устройстве декодирования речи из настоящего изобретения предпочтительно, чтобы средство анализа временной огибающей на низких частотах выполняло анализ низкочастотной составляющей, преобразованной в частотную область средством преобразования частоты, по частоте с линейным предсказанием для получения коэффициентов линейного предсказания для низких частот и получало информацию о временной огибающей речевого сигнала путем получения мощности каждой выборки низкочастотной составляющей из поддиапазона QMF в частотной области, чтобы средство коррекции временной огибающей корректировало коэффициент линейного предсказания для низких частот с использованием дополнительной информации о временной огибающей и корректировало информацию о временной огибающей с использованием дополнительной информации о временной огибающей, и чтобы средство формирования временной огибающей выполняло в частотной области фильтрацию высокочастотной составляющей, сгенерированной средством генерации высоких частот, по частоте с линейным предсказанием с использованием коэффициентов линейного предсказания, скорректированных средством коррекции временной огибающей, для формирования временной огибающей речевого сигнала и формировало временную огибающую высокочастотной составляющей путем умножения высокочастотной составляющей в частотной области на информацию о временной огибающей, скорректированную средством коррекции временной огибающей.

В устройстве декодирования речи из настоящего изобретения, дополнительной информацией о временной огибающей является параметр, указывающий как силу фильтра коэффициентов линейного предсказания, так и величину изменения информации о временной огибающей во времени.

Способ кодирования речи из настоящего изобретения представляет собой способ кодирования речи с использованием устройства кодирования речи для кодирования речевого сигнала и включает в себя следующие операции: операцию базового кодирования, при которой устройство кодирования речи выполняет кодирование низкочастотной составляющей речевого сигнала; операцию преобразования частоты, при которой устройство кодирования речи осуществляет преобразование речевого сигнала в частотную область; операцию анализа с линейным предсказанием, при которой устройство кодирования речи получает коэффициенты линейного предсказания для высоких частот путем выполнения анализа в частотном направлении коэффициентов на высоких частотах речевого сигнала, преобразованного в частотную область при операции преобразования частоты, по частоте с линейным предсказанием; операцию децимации коэффициентов предсказания, при которой устройство кодирования речи выполняет децимацию коэффициентов линейного предсказания для высоких частот, полученных при операции анализа с линейным предсказанием во временной области; операцию квантования коэффициентов предсказания, при которой устройство кодирования речи квантует коэффициенты линейного предсказания для высоких частот, подвергнутые децимации при операции децимации коэффициентов предсказания; и операцию мультиплексирования потока битов, при которой устройство кодирования речи генерирует поток битов, в котором мультиплексированы, по меньшей мере, низкочастотная составляющая, закодированная при операции базового кодирования, и коэффициенты линейного предсказания для высоких частот, квантованные при операции квантования коэффициентов предсказания.

Способ декодирования речи из настоящего изобретения представляет собой способ декодирования речи с использованием устройства декодирования речи для декодирования закодированного речевого сигнала и включает в себя следующие операции: операцию разделения потока битов, при которой устройство декодирования речи разделяет поток битов, принятый извне устройства декодирования речи, который включает в себя закодированный речевой сигнал, на закодированный поток битов и на дополнительную информацию о временной огибающей; операцию базового декодирования, при которой устройство декодирования речи получает низкочастотную составляющую путем декодирования закодированного потока битов, разделенного при операции разделения потока битов; операцию преобразования частоты, при которой устройство декодирования речи осуществляет преобразование низкочастотной составляющей, полученной при операции базового декодирования, в частотную область; операцию генерации высоких частот, при которой устройство декодирования речи генерирует высокочастотную составляющую путем копирования низкочастотной составляющей, преобразованной в частотную область при операции преобразования частоты, из низкочастотного диапазона в высокочастотный диапазон; операцию анализа временной огибающей на низких частотах, при которой устройство декодирования речи получает информацию о временной огибающей путем анализа низкочастотной составляющей, преобразованной в частотную область при операции преобразования частоты; операцию коррекции временной огибающей, при которой устройство декодирования речи корректирует информацию о временной огибающей, полученную при операции анализа временной огибающей на низких частотах, с использованием дополнительной информации о временной огибающей; и операцию формирования временной огибающей, при которой устройство декодирования речи формирует временную огибающую высокочастотной составляющей, сгенерированной при операции генерации высоких частот, с использованием информации о временной огибающей, скорректированной при операции коррекции временной огибающей.

Программа кодирования речи из настоящего изобретения для кодирования речевого сигнала вызывает функционирование компьютерного устройства в качестве: средства базового кодирования для кодирования низкочастотной составляющей речевого сигнала; средства преобразования частоты для преобразования речевого сигнала в частотную область; средства анализа с линейным предсказанием для выполнения анализа в частотном направлении коэффициентов на высоких частотах речевого сигнала, преобразованного в частотную область средством преобразования частоты, по частоте с линейным предсказанием для получения коэффициентов линейного предсказания для высоких частот; средства децимации коэффициентов предсказания для децимации коэффициентов линейного предсказания для высоких частот, полученных средством анализа с линейным предсказанием, во временной области; средства квантования коэффициентов предсказания для квантования коэффициентов линейного предсказания для высоких частот, подвергнутых децимации средством децимации коэффициентов предсказания; и средства мультиплексирования потока битов для генерации потока битов, в котором мультиплексированы, по меньшей мере, низкочастотная составляющая, закодированная средством базового кодирования, и коэффициенты линейного предсказания для высоких частот, квантованные средством квантования коэффициентов предсказания.

Программа декодирования речи из настоящего изобретения для декодирования закодированного речевого сигнала вызывает функционирование компьютерного устройства в качестве: средства разделения потока битов для разделения потока битов, принятого извне программы декодирования речи, который включает в себя закодированный речевой сигнал в закодированном потоке битов и дополнительную информацию о временной огибающей; средства базового декодирования для декодирования закодированного потока битов, разделенного средством разделения потока битов, для получения низкочастотной составляющей; средства преобразования частоты для преобразования низкочастотной составляющей, полученной средством базового декодирования, в частотную область; средства генерации высоких частот для генерации высокочастотной составляющей путем копирования низкочастотной составляющей, преобразованной в частотную область средством преобразования частоты, из низкочастотного диапазона в высокочастотный диапазон; средства анализа временной огибающей на низких частотах для анализа низкочастотной составляющей, преобразованной в частотную область средством преобразования частоты, для получения информации о временной огибающей; средства коррекции временной огибающей для коррекции информации о временной огибающей, полученной средством анализа временной огибающей на низких частотах, с использованием дополнительной информации о временной огибающей; и средства формирования временной огибающей для формирования временной огибающей высокочастотной составляющей, сгенерированной средством генерации высоких частот, с использованием информации о временной огибающей, скорректированной средством коррекции временной огибающей.

В устройстве декодирования речи из настоящего изобретения средство формирования временной огибающей после выполнения в частотной области фильтрации в частотном направлении высокочастотной составляющей, сгенерированной средством генерации высоких частот, по частоте с линейным предсказанием предпочтительно регулирует мощность высокочастотной составляющей, полученной в результате фильтрации с линейным предсказанием, до величины, эквивалентной ее величине до фильтрации с линейным предсказанием.

В устройстве декодирования речи из настоящего изобретения средство формирования временной огибающей после выполнения в частотной области фильтрации в частотном направлении высокочастотной составляющей, сгенерированной средством генерации высоких частот, по частоте с линейным предсказанием предпочтительно регулирует мощность высокочастотной составляющей, полученной в результате фильтрации с линейным предсказанием, в определенном диапазоне частот до величины, эквивалентной ее величине до фильтрац