Устройство и способ кодирования, устройство и способ декодирования
Иллюстрации
Показать всеИзобретение относится к устройствам и способам кодирования и декодирования, используемым в системе связи, в которой сообщение кодируется и передается и принимается и декодируется. Техническим результатом является уменьшение объема кодированной информации, ошибки кодирования аудиосигнала, и улучшение качества декодированного сигнала аудио. Указанный результат достигается тем, что устройство кодирования содержит секцию преобразования входного речевого/аудио сигнала в частотную область для получения параметра частотной области; секцию выбора в качестве целевого диапазона квантования поддиапазона из множества поддиапазонов, причем множество поддиапазонов получено посредством деления параметра частотной области; секцию квантования формы параметра частотной области в целевом диапазоне квантования; секцию квантования коэффициента усиления параметра частотной области в целевом диапазоне квантования, чтобы получить кодированную информацию коэффициента усиления; и секцию определения, должно ли быть выполнено прогнозирующее кодирование, основанное на количестве первых поддиапазонов целевого диапазона квантования, которые являются общими для вторых поддиапазонов целевого диапазона квантования, выбранных в прошлом. 4 н. и 16 з.п. ф-лы, 29 ил.
Реферат
Область техники, к которой относится изобретение
[0001] Настоящее изобретение относится к устройству кодирования/устройству декодирования и способу кодирования/способу декодирования, используемым в системе связи, в которой сообщение кодируется и передается и принимается и декодируется.
Уровень техники
[0002] Когда речевой/аудио сигнал передается в мобильной системе связи или системе пакетной связи, символизируемой Интернет-связью, часто используется технология сжатия/кодирования, чтобы повысить эффективность передачи речевого/аудио сигнала. Кроме того, в последние годы был разработан способ масштабируемого кодирования/декодирования, который позволяет получить декодированный сигнал хорошего качества из части кодированной информации, даже если ошибка передачи имеет место во время передачи.
[0003] Одной вышеописанной технологией сжатия/кодирования является технология кодирования с прогнозированием во временной области, которая повышает эффективность сжатия посредством использования временной корреляции речевого сигнала и/или аудиосигнала (ниже названного "речевой/аудио сигнал"). Например, в патентном документе 1 сигнал текущего кадра предсказывается из сигнала прошлого кадра, и способ кодирования с прогнозированием переключается согласно ошибке предсказания. Кроме того, в непатентном документе 1 описывается технология, посредством которой способ кодирования с прогнозированием переключается согласно степени изменения во временной области речевого параметра, такого как LSF (Линейная Спектральная Частота) и состояния наличия ошибки кадра.
Патентный документ 1: японская выложенная патентная заявка № HEI 8-211900.
Непатентный документ 1: Thomas Eriksson, Jan Linden, and Jan Skoglund, "Exploiting Inter-frame Correlation In Spectral Quantization," "Acoustics, Speech, and Signal Processing," 1996. ICASSP-96. Conference Proceedings, 7-10 Мая 1996, Стр.: 765-768, том 2.
Раскрытие изобретения
Проблемы, которые должны быть решены изобретением
[0004] Однако в любой из вышеупомянутых технологий прогнозирующее кодирование (кодирование с предсказанием) выполняется на основании параметра временной области на покадровой основе, и прогнозирующее кодирование на основании параметра не временной области, такого как параметр частотной области, не упоминается. Если способ кодирования с прогнозированием, основанный на параметре временной области, такой как описан выше, просто применяется к кодированию параметра частотной области, нет никакой проблемы, если целевой диапазон квантования является одинаковым в прошлом кадре и текущем кадре, но если целевой диапазон квантования является различным в прошлом кадре и текущем кадре, ошибка кодирования и степень ухудшения качества декодированного аудиосигнала сильно увеличивается, и речевой/аудио сигнал может быть не в состоянии быть декодированным.
[0005] Задача настоящего изобретения - обеспечить устройство кодирования и т.д., способное к сокращению объема кодированной информации речевого/аудио сигнала, а также способное уменьшить ошибки кодирования речевого/аудио сигнала и ухудшение качества декодированного аудиосигнала, когда частотный компонент отличного диапазона делается целью квантования в каждом кадре.
Средство для решения упомянутых проблем
[0006] Устройство кодирования согласно настоящему изобретению использует конфигурацию, имеющую: секцию преобразования, которая преобразовывает входной сигнал в частотную область, чтобы получить параметр частотной области; секцию выбора, которая выбирает целевой диапазон квантования из множества поддиапазонов, полученных при делении частотной области, и генерирует информацию диапазона, указывающую целевой диапазон квантования; секцию квантования формы (сигнала), которая квантует форму (сигнала) параметра частотной области в целевом диапазоне квантования; и секцию квантования усиления, которая кодирует (коэффициент или значение) усиления параметра частотной области в целевом диапазоне квантования, чтобы получить кодированную информацию усиления.
[0007] Устройство декодирования согласно настоящему изобретению использует конфигурацию, имеющую: секцию приема, которая принимает информацию, указывающую целевой диапазон квантования, выбранный из множества поддиапазонов, полученных при делении частотной области входного сигнала; секцию деквантования формы (сигнала), которая декодирует информацию кодирования формы, в которой квантована форма параметра частотной области в целевом диапазоне квантования, чтобы сгенерировать декодированную форму (декодированный сигнал); секцию деквантования усиления, которая декодирует кодированную информацию усиления, в которой кодирован коэффициент усиления параметра частотной области в целевом диапазоне квантования, чтобы сгенерировать декодированный коэффициент усиления, и декодирует частотный параметр, используя декодированную форму и декодированный коэффициент усиления, чтобы сгенерировать декодированный параметр частотной области; и секцию преобразования во временную область, которая преобразовывает декодированный параметр частотной области во временную область, чтобы получить декодированный сигнал временной области.
[0008] Способ кодирования согласно настоящему изобретению имеет: этап преобразования входного сигнала в частотную область, чтобы получить параметр частотной области; этап выбора целевого диапазона квантования из множества поддиапазонов, полученных посредством деления частотной области, и генерирования информации диапазона, указывающей целевой диапазон квантования; и этап квантования формы параметра частотной области в целевом диапазоне квантования, чтобы получить форму кодированной информации; и кодирование коэффициента усиления параметра частотной области в целевом диапазоне квантования, чтобы получить кодированную информацию усиления.
[0009] Способ декодирования согласно настоящему изобретению имеет: этап приема информации, указывающей целевой диапазон квантования, выбранный из множества поддиапазонов, полученных при делении частотной области входного сигнала; этап декодирования кодированной информации формы, в которой квантована форма параметра частотной области в целевом диапазоне квантования, чтобы сгенерировать декодированную форму; этап декодирования кодированной информации усиления, в которой квантован коэффициент усиления параметра частотной области в целевом диапазоне квантования, чтобы сгенерировать декодированный коэффициент усиления, и декодирование параметра частотной области, используя декодированную форму и декодированный коэффициент усиления, чтобы сгенерировать декодированный параметр частотной области; и этап преобразования декодированного параметра частотной области во временную область, чтобы получить декодированный сигнал временной области.
Преимущества изобретения
[0010] Настоящее изобретение уменьшает объем кодированной информации речевого/аудио сигнала или подобного, и также может предотвратить резкое ухудшение качества декодированного сигнала, декодированной речи и т.д., и может уменьшить ошибку кодирования речевого/аудио сигнала или подобного и ухудшение качества декодированного сигнала.
Краткое описание чертежей
[0011] Фиг.1 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 1 настоящего изобретения;
фиг.2 - это чертеж, иллюстрирующий пример конфигурации областей, полученных секцией выбора диапазона, согласно Варианту осуществления 1 настоящего изобретения;
фиг.3 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 1 настоящего изобретения;
фиг.4 является блок-схемой, иллюстрирующей основную конфигурацию варианта устройства кодирования речи согласно Варианту осуществления 1 настоящего изобретения;
фиг.5 является блок-схемой, иллюстрирующей основную конфигурацию варианта устройства декодирования речи согласно Варианту осуществления 1 настоящего изобретения;
фиг.6 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 2 настоящего изобретения;
фиг.7 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции кодирования второго уровня согласно Варианту осуществления 2 настоящего изобретения;
фиг.8 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 2 настоящего изобретения;
фиг.9 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции декодирования второго уровня согласно Варианту осуществления 2 настоящего изобретения;
фиг.10 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 3 настоящего изобретения;
фиг.11 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 3 настоящего изобретения;
фиг.12 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 4 настоящего изобретения;
фиг.13 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 4 настоящего изобретения;
фиг.14 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 5 настоящего изобретения;
фиг.15 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции кодирования расширения диапазона согласно Варианту осуществления 5 настоящего изобретения;
фиг.16 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции кодирования корректирующего масштабного коэффициента согласно Варианту осуществления 5 настоящего изобретения;
фиг.17 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции кодирования второго уровня согласно Варианту осуществления 5 настоящего изобретения;
фиг.18 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 5 настоящего изобретения;
фиг.19 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции декодирования расширения диапазона согласно Варианту осуществления 5 настоящего изобретения;
фиг.20 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции декодирования второго уровня согласно Варианту осуществления 5 настоящего изобретения;
фиг.21 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 6 настоящего изобретения;
фиг.22 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции кодирования второго уровня согласно Варианту осуществления 6 настоящего изобретения;
фиг.23 является чертежом, иллюстрирующим пример конфигурации областей, полученных секцией выбора диапазона согласно Варианту осуществления 6 настоящего изобретения;
фиг.24 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 6 настоящего изобретения;
фиг.25 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции декодирования второго уровня согласно Варианту осуществления 6 настоящего изобретения;
фиг.26 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 7 настоящего изобретения;
фиг.27 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции кодирования второго уровня согласно Варианту осуществления 7 настоящего изобретения;
фиг.28 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 7 настоящего изобретения; и
фиг.29 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции декодирования второго уровня согласно Варианту осуществления 7 настоящего изобретения.
Лучший режим выполнения изобретения
[0012] В качестве краткого обзора примера настоящего изобретения, при квантовании частотного компонента различного диапазона в каждом кадре, если количество поддиапазонов, общих для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра, определяется как большее или равное заранее определенному значению, выполняется прогнозирующее кодирование в отношении параметра частотной области, и если количество общих поддиапазонов определяется как меньшее, чем заранее определенное значение, параметр частотной области кодируется непосредственно. Посредством этого, объем кодированной информации речевого/аудио сигнала или подобного сокращается, а также сильное ухудшение качества декодированного сигнала, декодированной речи и т.д. может быть предотвращено, и ошибка кодирования речевого/аудио сигнала или подобного и ухудшение качества декодированного сигнала и ухудшение качества декодированной аудиоречи, в частности, могут быть уменьшены.
[0013] Варианты осуществления настоящего изобретения описаны ниже подробно со ссылками на сопроводительные чертежи. В нижеследующих описаниях устройство кодирования речи и устройство декодирования речи используются как примеры устройства кодирования и устройства декодирования согласно настоящему изобретению.
[0014] Вариант осуществления 1
Фиг.1 является блок-схемой, иллюстрирующей основную конфигурацию устройства 100 кодирования речи согласно Варианту осуществления 1 настоящего изобретения.
[0015] На этом чертеже устройство 100 кодирования речи снабжается секцией 101 преобразования в частотную область, секцией 102 выбора диапазона, секцией 103 квантования формы (сигнала), секцией 104 определения выполнения/невыполнения прогнозирующего кодирования, секцией 105 квантования (коэффициента или значения) усиления и секцией 106 мультиплексирования.
[0016] Секция 101 преобразования в частотную область выполняет Модифицированное дискретное косинусное преобразование (MDCT) с использованием входного сигнала, чтобы вычислить коэффициент MDCT, который является параметром частотной области, и выводит его на секцию 102 выбора диапазона.
[0017] Секция 102 выбора диапазона делит введенный коэффициент MDCT из секции 101 преобразования в частотную область на множество поддиапазонов, выбирает диапазон в качестве целевого диапазона квантования из множества поддиапазонов и выводит информацию диапазона, указывающую выбранный диапазон, на секцию 103 квантования формы, секцию 104 определения выполнения/невыполнения прогнозирующего кодирования и секцию 106 мультиплексирования. Кроме того, секция 102 выбора диапазона выводит коэффициент MDCT на секцию 103 квантования формы. Ввод коэффициента MDCT на секцию 103 квантования формы также может быть выполнен непосредственно из секции 101 преобразования в частотную область отдельно от ввода из секции 101 преобразования в частотную область на секцию 102 выбора диапазона.
[0018] Секция 103 квантования формы выполняет квантование формы (сигнала), используя коэффициент MDCT, соответствующий диапазону, указанному посредством информации диапазона, введенной из секции 102 выбора диапазона, из числа коэффициентов MDCT, введенных из секции 102 выбора диапазона, и выводит полученную информацию кодированной формы в секцию 106 мультиплексирования. Кроме того, секция 103 квантования формы находит идеальное значение усиления квантования формы и выводит полученное идеальное значение усиления на секцию 105 квантования усиления.
[0019] Секция 104 определения выполнения/невыполнения прогнозирующего кодирования находит количество поддиапазонов, общих для целевого диапазона квантования текущего кадра и целевого диапазона квантования прошлого кадра, используя информацию диапазона, введенную из секции 102 выбора диапазона. Затем секция 104 определения выполнения/невыполнения прогнозирующего кодирования решает, что прогнозирующее кодирование должно быть выполнено в отношении коэффициента MDCT целевого диапазона квантования, указанного информацией диапазона, если количество общих поддиапазонов больше или равно заранее определенному значению, или решает, что прогнозирующее кодирование не должно быть выполнено в отношении коэффициента MDCT целевого диапазона квантования, указанного информацией диапазона, если количество общих поддиапазонов меньше, чем заранее определенное значение. Секция 104 определения выполнения/невыполнения прогнозирующего кодирования выводит результат этого определения на секцию 105 квантования усиления.
[0020] Если результат определения, введенный из секции 104 определения выполнения/невыполнения прогнозирующего кодирования, указывает, что должно быть выполнено прогнозирующее кодирование, секция 105 квантования усиления выполняет прогнозирующее кодирование усиления целевого диапазона квантования текущего кадра, используя значение усиления квантования прошлого кадра, сохраненное во внутреннем буфере, и внутреннюю кодовую книгу усиления, чтобы получить кодированную информацию усиления. С другой стороны, если результат определения, введенный из секции 104 определения выполнения/невыполнения прогнозирующего кодирования, указывает, что прогнозирующее кодирование не должно быть выполнено, секция 105 квантования усиления получает кодированную информацию усиления посредством прямого (непосредственного) квантования идеального значения усиления, введенного из секции 103 квантования формы. Секция 105 квантования усиления выводит полученную кодированную информацию усиления к секции 106 мультиплексирования.
[0021] Секция 106 мультиплексирования мультиплексирует информацию диапазона, введенную из секции 102 выбора диапазона, кодированную информацию формы, введенную из секции 103 квантования формы, и кодированную информацию усиления, введенную из секции 105 квантования усиления, и передают полученный битовый поток к устройству декодирования речи.
[0022] Устройство 100 кодирования речи, имеющее конфигурацию, такую как описана выше, разделяет входной сигнал на секции из N выборок (где N - натуральное число) и выполняет кодирование на покадровой основе с выборками N как один кадр. Работа каждой секции устройства 100 кодирования речи описывается подробно ниже. В нижеследующем описании входной сигнал кадра, который является целью кодирования, представляется xn (где n=0, 1…, N-1). Здесь n указывает индекс каждой выборки в кадре, который является целью кодирования.
[0023] Секция 101 преобразования в частотную область имеет N внутренних буферов, и сначала инициализирует каждый буфер, используя значение 0 в соответствии с Уравнением (1) ниже.
buf n =0 | (n=0, 1,…,N-1) | Уравнение 1 |
[0024] В этом уравнении buf n (n=0…, N-1) указывает (n+1)-й из N буферов в секции 101 преобразования в частотную область.
[0025] Затем секция 101 преобразования в частотную область находит коэффициент MDCT Xk посредством выполнения модифицированного дискретного косинусного преобразования (MDCT) входного сигнала xn в соответствии с Уравнением (2) ниже
, | (k=0,… N-1) | Уравнение 2 |
[0026] В этом уравнении k указывает индекс каждой выборки в одном кадре, и x'n - вектор, связывающий входной сигнал xn и bufn в соответствии с Уравнением (3) ниже.
Уравнение 3 |
[0027] Затем секция 101 преобразования в частотную область обновляет bufn (n=0…, N-1), как показано в Уравнении (4) ниже.
buf n =x n | (n=0,…, N-1) | Уравнение 4 |
[0028] Затем секция 101 преобразования в частотную область выдает коэффициенты MDCT Xk в секцию 102 выбора диапазона.
[0029] Секция 102 выбора диапазона сначала делит коэффициент MDCT Xk на множество поддиапазонов. Здесь описание будет дано, принимая случай, в котором коэффициент MDCT Xk делится равным образом на J поддиапазонов (где J - натуральное число) в качестве примера. Затем секция 102 выбора диапазона выбирает L последовательных поддиапазонов (где L - натуральное число) из числа J поддиапазонов, и получает М видов групп поддиапазонов (где М является натуральным числом). Ниже эти М видов групп поддиапазонов называются областями.
[0030] Фиг.2 является чертежом, иллюстрирующим пример конфигурации областей, полученных секцией 102 выбора диапазона.
[0031] В этом чертеже количество поддиапазонов равно 17 (J=17), количество видов областей равно восьми (M=8), и каждая область состоит из пяти последовательных поддиапазонов (L=5). Из них, например, область 4 состоит из поддиапазонов 6-10.
[0032] Затем секция 102 выбора диапазона вычисляет среднюю энергию E (m) каждого из М видов областей в соответствии с Уравнением (5) ниже.
(m=0,…,M-1) | Уравнение 5 |
[0033] В этом уравнении j указывает индекс каждого из J поддиапазонов, m указывает индекс каждой из М видов областей, S(m) указывает минимальное значение среди индексов L поддиапазонов, составляющих область m, B(j) указывает минимальное значение среди индексов множества коэффициентов MDCT, составляющих поддиапазон j, и W(j) указывает ширину полосы поддиапазона j. В нижеследующем описании случай, в котором значения ширина полосы J поддиапазонов все равны, то есть случай, в котором W(j) является константой, описан как пример.
[0034] Затем секция 102 выбора диапазона выбирает область, например диапазон, состоящий из поддиапазонов j''-j''+L-1, для которого средняя энергия E(m) является максимальной, в качестве диапазона, который является целью квантования (целевой диапазон квантования), и выводит индекс m_max, указывающий эту область, в качестве информации диапазона, на секцию 103 квантования формы, секцию 104 определения выполнения/невыполнения прогнозирующего кодирования, и секцию 106 мультиплексирования. Секция 102 выбора диапазона также выводит коэффициент MDCT Xk на секцию 103 квантования формы. В следующем описании индексы диапазона, указывающие целевой диапазон квантования, выбранные секцией 102 выбора диапазона, предполагаются равными j''-j''+L-1.
[0035] Секция 103 квантования формы выполняет квантование формы (сигнала) на основе поддиапазон-за-поддиапазоном в отношении коэффициента MDCT, соответствующего диапазону, указанному информацией диапазона m_max, введенной из секции 102 выбора диапазона. Более конкретно, секция 103 квантования формы ищет внутреннюю кодовую книгу формы, состоящую из количества SQ векторов кода формы, для каждого из L поддиапазонов, и находит индекс вектора кода формы, для которого результат Уравнения (6) ниже является максимальным.
Уравнение 6 |
[0036] В этом уравнении SCi k указывает вектор кода формы, составляющий кодовую книгу формы, i указывает индекс вектора кода формы, и k указывает индекс элемента вектора кода формы.
[0037] Секция 103 квантования формы выводит индекс S_max вектора кода формы, для которого результат Уравнения (6) выше максимума, к секции 106 мультиплексирования в качестве кодированной информации формы. Секция 103 квантования формы также вычисляет идеальное значение Gain_i(j) усиления в соответствии с Уравнением (7) ниже, и выводит его на секцию 105 квантования усиления.
Gain_i(j)= | Уравнение 7 |
[0038] Секция 104 определения выполнения/невыполнения прогнозирующего кодирования имеет внутренний буфер, который хранит информацию диапазона m_max, введенную из секции 102 выбора диапазона, в прошлом кадре. Ниже посредством примера описан случай, в котором секция 104 определения выполнения/невыполнения прогнозирующего кодирования имеет внутренний буфер, который хранит информацию диапазона m_max для трех прошлых кадров. Секция 104 определения выполнения/невыполнения прогнозирующего кодирования сначала находит количество поддиапазонов, общих для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра, используя информацию диапазона m_max, введенную из секции 103 квантования формы в прошлом кадре, и информацию диапазона m_max, введенную из секции 103 квантования формы в текущем кадре. Затем секция 104 определения выполнения/невыполнения прогнозирующего кодирования решает, что прогнозирующее кодирование должно быть выполнено, если количество общих поддиапазонов больше или равно заранее определенному значению, или решает, что прогнозирующее кодирование не должно быть выполнено, если количество общих поддиапазонов меньше, чем заранее определенное значение. Более конкретно, L поддиапазонов, указанные информацией диапазона m_max, введенных из секции 102 выбора диапазона на один кадр назад во времени, сравниваются с L поддиапазонами, указанными информацией диапазона m_max, введенной из секции 102 выбора диапазона в текущем кадре, и определяется, что прогнозирующее кодирование должно быть выполнено, если количество общих поддиапазонов равно P или больше, или определяется, что прогнозирующее кодирование не должно быть выполнено, если количество общих поддиапазонов меньше чем P. Секция 104 определения выполнения/невыполнения прогнозирующего кодирования выводит результат этого определения на секцию 105 квантования усиления. Затем секция 104 определения выполнения/невыполнения прогнозирующего кодирования обновляет внутренний буфер, хранящий информацию диапазона, используя информацию диапазона m_max, введенную из секции 102 выбора диапазона в текущем кадре.
[0039] Секция 105 квантования усиления имеет внутренний буфер, который хранит значение усиления квантования, полученное в прошлом кадре. Если результат определения, введенный из секции 104 определения выполнения/невыполнения прогнозирующего кодирования, указывает, что прогнозирующее кодирование должно быть выполнено, секция 105 квантования усиления выполняет квантование посредством предсказания значения усиления текущего кадра, используя значение Ct j квантования усиления прошлого кадра, сохраненное во внутреннем буфере. Более конкретно, секция 105 квантования усиления ищет внутреннюю кодовую книгу усиления, состоящую из количества GQ векторов кода усиления для каждого из L поддиапазонов, и находит индекс вектора кода усиления, для которого результатом Уравнения (8), приведенного ниже, является минимум.
Уравнение 8 |
[0040] В этом уравнении GCi j указывает вектор кода усиления, составляющий кодовую книгу усиления, i указывает индекс вектора кода усиления и j указывает индекс элемента вектора кода усиления. Например, если количество поддиапазонов, составляющих область, равно пяти (L=5), j имеет значение от 0 до 4. Здесь Ct j указывает значение усиления t кадров назад во времени, так что, когда t=l, например, Ct j указывает значение усиления одного кадра назад во времени. Кроме того, α является линейным коэффициентом предсказания 4-го порядка, сохраненным в секции 105 квантования усиления. Секция 105 квантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет квантование вектора.
[0041] Секция 105 квантования усиления выводит индекс G_min вектора кода усиления, для которого результатом Уравнения (8) выше является минимум, к секции 106 мультиплексирования, в качестве кодированной информации усиления. Если во внутреннем буфере нет значения усиления поддиапазона, соответствующего прошлому кадру, секция 105 квантования усиления заменяет значением усиления ближайшего поддиапазона по частоте во внутреннем буфере в Уравнении (8) выше.
[0042] С другой стороны, если результат определения, введенный из секции 104 определения выполнения/невыполнения прогнозирующего кодирования, указывает, что прогнозирующее кодирование не должно быть выполнено, секция 105 квантования усиления непосредственно квантует идеальное значение усиления Gain_i(j), введенное из секции 103 квантования формы, в соответствии с Уравнением (9) ниже. Здесь секция 105 квантования усиления обрабатывает идеальное значение усиления как L-мерный вектор, и выполняет квантование вектора.
Уравнение 9 |
[0043] Здесь индекс кодовой книги, который делает Уравнение (9) выше минимума, обозначается G_min.
[0044] Секция 105 квантования усиления выводит G_min на секцию 106 мультиплексирования в качестве кодированной информации усиления. Секция 105 квантования усиления также обновляет внутренний буфер в соответствии с Уравнением (10) ниже с использованием кодированной информации G_min усиления и значения Ct j квантования усиления, полученного в текущем кадре.
(j=0,…, L-1) | Уравнение 10 |
[0045] Секция 106 мультиплексирования мультиплексирует информацию m_max диапазона, введенную из секции 102 выбора диапазона, кодированную информацию S_max формы, введенную из секции 103 квантования формы, и кодированную информацию G_min усиления, введенную из секции 105 квантования усиления, и передают полученный битовый поток к устройству декодирования речи.
[0046] Фиг.3 является блок-схемой, иллюстрирующей основную конфигурацию устройства 200 декодирования речи согласно этому варианту осуществления.
[0047] В этом чертеже устройство 200 декодирования речи снабжено секцией 201 демультиплексирования, секцией 202 деквантования формы, секцией 203 определения выполнения/невыполнения прогнозирующего декодирования, секцией 204 деквантования усиления и секцией 205 преобразования во временную область.
[0048] Секция 201 демультиплексирования демультиплексирует информацию диапазона, кодированную информацию формы и кодированную информацию усиления из битового потока, переданного от устройства 100 кодирования речи, выводит полученную информацию диапазона на секцию 202 деквантования формы и секцию 203 определения выполнения/невыполнения прогнозирующего декодирования, выводит полученную кодированную информацию формы на секцию 202 деквантования формы, и выводит полученную кодированную информацию усиления на секцию 204 деквантования усиления.
[0049] Секция 202 деквантования формы находит значение формы коэффициента MDCT, соответствующего целевому диапазону квантования, указанному информацией диапазона, введенной из секции 201 демультиплексирования, посредством выполнения деквантования кодированной информации формы, введенной из секции 201 демультиплексирования, и выводит найденное значение формы на секцию 204 деквантования усиления.
[0050] Секция 203 определения выполнения/невыполнения прогнозирующего декодирования находит количество поддиапазонов, общих для текущего целевого диапазона квантования кадра и целевого диапазона квантования прошлого кадра, используя информацию диапазона, введенную из секции 201 демультиплексирования. Затем секция 203 определения выполнения/невыполнения прогнозирующего декодирования решает, что прогнозирующее декодирование должно быть выполнено в отношении коэффициента MDCT целевого диапазона квантования, указанного информацией диапазона, если количество общих поддиапазонов больше или равно заранее определенному значению, или решает, что прогнозирующее декодирование не должно быть выполнено в отношении коэффициента MDCT целевого диапазона квантования, указанного информацией диапазона, если количество общих поддиапазонов меньше, чем заранее определенное значение. Секция 203 определения выполнения/невыполнения прогнозирующего декодирования выводит результат этого определения на секцию 204 деквантования усиления.
[0051] Если результат определения, введенный из секции 203 определения выполнения/невыполнения прогнозирующего декодирования, указывает, что прогнозирующее декодирование должно быть выполнено, секция 204 деквантования усиления выполняет прогнозирующее декодирование в отношении кодированной информации усиления, введенной из секции 201 демультиплексирования, используя значение усиления прошлого кадра, сохраненное во внутреннем буфере, и внутреннюю кодовую книгу усиления, чтобы получить значение усиления. С другой стороны, если результат определения, введенный из секции 203 определения выполнения/невыполнения прогнозирующего декодирования, указывает, что прогнозирующее декодирование не должно быть выполнено, секция 204 деквантования усиления получает значение усиления посредством непосредственного выполнения деквантования кодированной информации усиления, введенной из секции 201 демультиплексирования, используя внутреннюю кодовую книгу усиления. Секция 204 деквантования усиления выводит полученное значение усиления к секции 205 преобразования во временную область. Секция 204 деквантования усиления также находит коэффициент MDCT целевого диапазона квантования, используя полученное значение усиления и значение формы, введенное из секции 202 деквантования формы, и выводит его к секции 205 преобразования во временную область в качестве декодированного коэффициента MDCT.
[0052] Секция 205 преобразования во временную область выполняет Обратное Модифицированное дискретное косинусное преобразование (IMDCT) в отношении декодированного коэффициента MDCT, введенного из секции 204 деквантования усиления, чтобы сгенерировать сигнал временной области, и выводит его в качестве декодированного сигнала.
[0053] Устройство 200 декодирования речи, имеющее конфигурацию, такую как описано выше, выполняет следующие операции.
[0054] Секция 201 демультиплексирования демультиплексирует информацию диапазона m_max, кодированную информацию S_max формы, и кодированную информацию G_min усиления из битового потока, переданного от устройства 100 кодирования речи, выводит полученную информацию диапазона m_max на секцию 202 деквантования формы и секцию 203 определения выполнения/невыполнения прогнозирующего декодирования, выводит полученную информацию кодирования S_max формы на секцию 202 деквантования формы и выводит полученную кодированную информацию усиления G_min на секцию 204 деквантования усиления.
[0055] Секция 202 деквантования формы имеет внутреннюю кодовую книгу формы, аналогичную кодовой книге формы, которой снабжена секция 103 квантования формы устройства 100 кодирования речи, и ищет вектор кода формы, для которого кодированная информация формы S_max, введенная из секции 201 демультиплексирования, является индексом. Секция 202 деквантования формы выводит найденный вектор кода на секцию 204 деквантования усиления в качестве значения формы коэффициента MDCT целевого диапазона квантования, указанного информацией диапазона m_max, введенной из секции 201 демультиплексирования. Здесь, вектор кода формы, найденный в качестве значения формы, обозначается как Shape_q(k) (k=B(j'')…, B(j''+L)-1).
[0056] Секция 203 определения выполнения/невыполнения прогнозирующего декодирования имеет внутренний буфер, который хранит информацию диапазона m_max, введенную из секции 201 демультиплексирования в прошлом кадре. Здесь описан случай посредством примера, в котором секция 203 определения выполнения/невыполнения прогнозирующего декодирования имеет внутренний буфер, который хранит информацию диапазона m_max для прошлых трех кадров. Секция 203 определения выполнения/невыполнения прогнозирующего декодирования сначала находит количество поддиапазонов, общих для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра, используя информацию диапазона m_max, введенную из секции 201 демультиплексирования в прошлом кадре, и информацию диапазона m_max, введенную из секции 201 демультиплексирования в текущем кадре. Затем секция 203 определения выполнения/невыпо