Устройство сглаживания спектра, устройство кодирования, устройство декодирования, устройство терминала связи, устройство базовой станции и способ сглаживания спектра
Иллюстрации
Показать всеИзобретение относится к средствам сглаживания спектра аудиосигнала. Технический результат заключается в уменьшении времени выполнения сглаживания спектра и увеличении качества выходного аудиосигнала. Разделяют входной спектр на множество подполос. Вычисляют репрезентативное значение для каждой подполосы с использованием среднего арифметического и среднего геометрического. Выполняют нелинейное преобразование по отношению к каждому репрезентативному значению. Усиливают характеристику нелинейного преобразования по мере возрастания значения. Сглаживают репрезентативное значение, которое было подвергнуто нелинейному преобразованию для каждой подполосы, в частотной области. 6 н.з. и 5 з.п. ф-лы, 15 ил.
Реферат
Область техники, к которой относится изобретение
Настоящее изобретение относится к устройству сглаживания спектра, устройству кодирования, устройству декодирования, устройству терминала связи, устройству базовой станции и способу сглаживания спектра, который состоит в сглаживании спектра речевых сигналов.
Уровень техники
Когда речевые/аудио сигналы передают в системе пакетной связи, такой как связь через Интернет и мобильная система связи, часто используют технологию сжатия/кодирования для улучшения скорости передачи речевых/аудио сигналов. Кроме того, в последние годы, в дополнение к требованию простоты кодирования речевых/аудио сигналов с низкими скоростями битов, все больше повышается потребность в технологии кодирования речевых/аудио сигналов с высоким качеством.
Для удовлетворения этой потребности выполняют исследования по развитию различных технологий выполнения ортогонального преобразования (то есть преобразования время-частота) речевых сигналов, для выделения частотных компонентов (то есть спектра) речевых сигналов и применения различной обработки, такой как линейное преобразование и нелинейное преобразование для вычисленного спектра, для улучшения качества декодированных сигналов (см., например, патентный документ 1). В соответствии со способом, раскрытым в патентном документе 1, вначале анализируют частотный спектр, содержащийся в речевом сигнале определенной длительности по времени, и затем выполняют обработку нелинейного преобразования для усиления больших значений мощности спектра для анализа спектра. Затем в частотной области выполняют обработку линейного сглаживания для спектра, подвергнутого обработке нелинейного преобразования. После этого выполняют обработку обратного нелинейного преобразования для компенсации характеристики нелинейного преобразования и, кроме того, выполняют обработку обратного сглаживания для компенсации характеристики сглаживания таким образом, чтобы были подавлены шумовые компоненты, включенные в речевой сигнал по всей полосе. Таким образом, с помощью способа, раскрытого в патентном документе 1, все выборки спектра, полученные из речевого сигнала, подвергают обработке нелинейного преобразования, и затем этот спектр сглаживают, чтобы получить речевой сигнал с хорошим качеством. В патентном документе 1 вводятся способы преобразования, такие как преобразование мощности и логарифмическое преобразование как примеры нелинейной обработки.
Список цитированных источников
Патентные документы:
Патентный документ 1 (PTL1) - Выложенная заявка на патент Японии № 2002-244695
Патентный документ 2 (PTL2) - WO 2007/037361
Непатентные документы:
NPL 1 - Yuichiro TAKAMIZAWA, Toshiyuki NOMURA and Masao IKEKAWA, "High-Quality and Processor-Efficient Implementation of and MPEG-2 AAC Encoder", IEICE TRANS. INF. &SYST., VOL.E86-D, No.3 MARCH 2003
Раскрытие изобретения
Техническая задача
Однако в способе, раскрытом в патентном документе 1, необходимо выполнять нелинейное преобразование для всех выборок спектра, полученных из речевого сигнала, и поэтому возникает проблема, связанная с огромным объемом обработки при вычислениях. Кроме того, если только часть выборок спектра выделяют для уменьшения количества обработки расчетов, достаточно высокое качество речи не всегда может достигнуто при простом выполнении сглаживания спектра после нелинейного преобразования.
На основе конфигурации для выполнения нелинейного преобразования значения спектра, рассчитанного из речевого сигнала и с последующим сглаживанием спектра, цель настоящего изобретения состоит в предоставлении устройства сглаживания спектра, устройства кодирования, устройства декодирования, устройства терминала связи, устройства базовой станции и способа сглаживания спектра, таким образом, что поддерживается хорошее качество речи, и которое позволяет существенно уменьшить объем вычислительной обработки.
Решение задачи
В устройстве сглаживания спектра в соответствии с настоящим изобретением используется конфигурация, которая включает в себя блок преобразования время-частота, который выполняет преобразование время-частота входного сигнала и генерирует частотный компонент; блок разделения на подполосы, который делит частотный компонент на множество подполос; блок вычисления репрезентативного значения, который вычисляет репрезентативное значение каждой разделенной подполосы путем вычисления среднего арифметического и путем использования вычисления с умножением, используя результат вычисления среднего арифметического; блок нелинейного преобразования, который выполняет нелинейное преобразование репрезентативных значений по подполосам; и блок сглаживания, который выполняет сглаживание репрезентативных значений после их нелинейного преобразования в частотной области.
Способ сглаживания спектра в соответствии с настоящим изобретением включает в себя этап преобразования время-частота, состоящий в выполнении преобразования время-частота для входного сигнала и генерировании частотного компонента; этап разделения подполосы, состоящий в разделении частотного компонента на множество подполос; этап вычисления репрезентативного значения, состоящий в вычислении репрезентативного значения каждой разделенной подполосы с помощью вычисления среднего арифметического и путем использования вычисления с умножением, с использованием результата вычисления среднего арифметического; этап нелинейного преобразования, состоящий в выполнении нелинейного преобразования репрезентативных значений подполос; и этап сглаживания, состоящий в сглаживании репрезентативных значений, подвергнутых нелинейному преобразованию в области частоты.
Положительные эффекты изобретения
С настоящим изобретение становится возможным поддерживать хорошее качество речи и существенно уменьшить объем вычислительной обработки.
Краткое описание чертежей
На фиг.1 представлены виды спектра, представляющие обзор обработки в соответствии с вариантом 1 осуществления настоящего изобретения;
на фиг.2 показана блок-схема, представляющая конфигурацию основных частей устройства сглаживания спектра в соответствии с вариантом 1 осуществления;
на фиг.3 показана блок-схема, представляющая конфигурацию основных частей блока вычисления репрезентативного значения в соответствии с вариантом 1 осуществления;
на фиг.4 представлен общий обзор, представляющий конфигурацию подполос и подгрупп входного сигнала в соответствии с вариантом 1 осуществления;
на фиг.5 показана блок-схема, представляющая конфигурацию системы связи, имеющую устройство кодирования и устройство декодирования в соответствии с вариантом 2 осуществления настоящего изобретения;
на фиг.6 показана блок-схема, представляющая внутренние основные части устройства кодирования в соответствии с вариантом 2 осуществления, показанным на фиг.5;
на фиг.7 показана блок-схема, представляющая внутренние основные части конфигурации блока кодирования второго уровня, в соответствии с вариантом 2 осуществления, показанным на фиг.6;
на фиг.8 показана блок-схема, представляющая конфигурацию основных частей устройства сглаживания спектра в соответствии с вариантом 2 осуществления, показанным на фиг.7;
на фиг.9 представлена схема для пояснения деталей обработки фильтрации в блоке фильтрации в соответствии с вариантом 2 осуществления, показанным на фиг.7;
на фиг.10 показана блок-схема последовательности операций, предназначенная для пояснения этапов обработки, для поиска оптимального Tp' коэффициента тона относительно подполосы SBP в блоке поиска в соответствии с вариантом 2 осуществления, показанным на фиг.7;
на фиг.11 показана блок-схема, представляющая внутреннюю конфигурацию основных частей устройства декодирования в соответствии с вариантом 2 осуществления, показанным на фиг.5; и
на фиг.12 показана блок-схема, представляющая внутреннюю конфигурацию основных частей блока декодирования второго уровня в соответствии с вариантом 2 осуществления, показанным на фиг.11.
Осуществление изобретения
Варианты осуществления настоящего изобретения будут подробно описаны со ссылкой на приложенные чертежи.
Вариант 1 осуществления
Вначале будет описан общий обзор способа сглаживания спектра в соответствии с вариантом осуществления настоящего изобретения, используя фиг.1. На фиг.1 показаны спектральные диаграммы для пояснения общего обзора способа сглаживания спектра в соответствии с настоящим вариантом осуществления.
На фиг.1A показан спектр входного сигнала. В настоящем варианте осуществления, вначале спектр входного сигнала делят на множество подполос. На фиг.1B показано, как спектр входного сигнала делят на множество подполос. Спектральная диаграмма на фиг.1 предназначена для пояснения общего обзора настоящего изобретения, и настоящее изобретение никоим образом не ограничено количеством подполос, показанным на чертеже.
Далее вычисляется репрезентативное значение каждой подполосы. Более конкретно, выборки в подполосах дополнительно делятся на множество подгрупп. Затем вычисляется среднее арифметическое абсолютных значений спектра для каждой подгруппы.
Далее вычисляется среднее геометрическое значений среднего арифметического отдельных подгрупп для подполосы. Такое среднее геометрическое значение еще не является точным средним геометрическим значением, и в этот момент вычисляется значение, получаемое путем простого умножения средних арифметических значений отдельных групп, и точное среднее геометрическое значение может быть определено после нелинейного преобразования (описано ниже). Представленная выше обработка предназначена для уменьшения объема вычислительной обработки, при этом в равной степени возможно определить точное среднее геометрическое значение.
Среднее геометрическое значение, найденное таким образом, можно использовать как репрезентативное значение каждой подполосы. На фиг.1C показаны репрезентативные значения отдельных подполос по спектру входного сигнала, представленному пунктирными линиями. Для простоты пояснения на фиг.1C показаны точные средние геометрические значения как репрезентативные значения, вместо значений, полученных путем простого умножения средних арифметических значений отдельных подгрупп.
Далее, обращаясь к каждому репрезентативному значению подполосы, выполняется нелинейное преобразование (например, логарифмическое преобразование) для спектра входного сигнала таким образом, что большие значения мощности спектра усиливаются, и затем выполняется сглаживание в области частоты. После этого выполняется обратное нелинейное преобразование (например, обратное логарифмическое преобразование), и вычисляется сглаженный спектр в каждой подполосе. На фиг.1D показан сглаженный спектр каждой подполосы по спектру входного сигнала, показанному пунктирными линиями.
В результате такой обработки становится возможным выполнить сглаживание спектра в логарифмической области при уменьшении деградации качества речи и путем существенного уменьшения объема вычислительной обработки. Далее будет описана конфигурация устройства сглаживания спектра, обеспечивающего описанное выше преимущество, в соответствии с вариантом осуществления настоящего изобретения.
Устройство сглаживания спектра в соответствии с настоящим вариантом осуществления сглаживает входной спектр и выводит спектр после сглаживания (ниже называется "сглаженным спектром") как выходной сигнал. Более конкретно, устройство сглаживания спектра делит входной сигнал через каждые N выборок (где N представляет собой натуральное число) и выполняет обработку сглаживания для каждого кадра, используя N выборок как один кадр. Здесь входной сигнал, подвергаемый обработке сглаживания, представлен как "xn" (n=0, N-1).
На фиг.2 показана конфигурация основных частей устройства 100 сглаживания спектра в соответствии с настоящим вариантом осуществления.
Устройство 100 сглаживания спектра, показанное на фиг.2, в основном, сформировано из блока 101 обработки преобразования время-частота, блока 102 разделения подполосы, блока 103 вычисления репрезентативного значения, блока 104 нелинейного преобразования, блока 105 сглаживая и блока 106 обратного нелинейного преобразования.
Блок 101 обработки преобразования время-частоты применяет быстрое преобразование Фурье (FFT, БПФ) для входного сигнала xn и позволяет находить спектр S1(k) частотного компонента (ниже называется "входным спектром").
Затем блок 101 обработки преобразования время-частота выводит входной спектр S1(k) в блок 102 разделения подполос.
Блок 102 разделения подполос делит входной спектр S1(k), принятый как входной сигнал из блока 101 обработки преобразования время-частота, на P подполос (где P представляет собой целое число, равное или большее 2). Теперь ниже будет описан случай, когда блок 102 разделения подполос разделяет входной спектр S1(k) таким образом, что каждая подполоса содержит одинаковое количество выборок. Количество выборок может изменяться между подполосами. Блок 102 разделения подполос выводит спектры, разделенные по подполосам (ниже называются "спектрами подполосы"), в блок 103 вычисления репрезентативного значения.
Блок 103 вычисления репрезентативного значения вычисляет репрезентативное значение для каждой подполосы входного спектра, разделенного на подполосы, принятые как входной сигнал, из блока 102 разделения подполос, и выводит репрезентативное значение, вычисленное для подполосы, в блок 104 нелинейного преобразования. Обработка в блоке 103 вычисления репрезентативного значения будет подробно описана ниже.
На фиг.3 показана внутренняя конфигурация блока 103 вычисления репрезентативного значения. Блок 103 вычисления репрезентативного значения, показанный на фиг.3, имеет блок 201 вычисления среднего арифметического и блок 202 вычисления среднего геометрического.
Вначале блок 102 разделения подполосы выводит спектр подполосы в блок 201 вычисления среднего арифметического.
Блок 201 вычисления среднего арифметического делит каждую подполосу спектра подполосы, принятого как входной сигнал, на Q подгрупп, состоящих из подгруппы 0, подгруппы Q-1 и т.д. (где Q представляет собой целое число, равное или большее 2). Ниже будет описан случай, где каждая из Q подгрупп сформирована с R выборками (R представляет собой целое число, равное или большее 2). Хотя ниже будет описан случай, где все Q подгрупп сформированы с R выборками, количество выборок может изменяться между подгруппами.
На фиг.4 показана примерная конфигурация подполос и подгрупп. На фиг.4 показан, в качестве примера, случай, когда количество выборок, которые должны составить одну подполосу, равно восьми, количество подгрупп Q, которые должны составлять одну подполосу, равно двум и количество выборок R в одной подгруппе равно четырем.
Далее для каждой из Q подгрупп, блок 201 вычисления среднего арифметического рассчитывает среднее арифметическое абсолютных значений спектров (коэффициентов FFT), содержащихся в каждой подгруппе, используя уравнение 1.
В уравнении 1, AVE1q представляет собой среднее арифметическое абсолютных значений спектров, содержащихся в подгруппе q, и BSq представляет индекс ведущей выборки в подгруппе q.
Далее блок 201 вычисления среднего арифметического выводит спектры среднего арифметического значения, вычисленные по подполосе, AVE1q (q=0~Q-1) (спектры среднего арифметического значения подполосы), в блок 202 вычисления среднего геометрического значения.
Блок 202 вычисления среднего геометрического значения умножает спектры AVE1q (q=0~Q-1) среднего арифметического значения всех подполос, принятых как входной сигнал из блока 201 вычисления среднего арифметического значения, как показано в уравнении 2, и рассчитывает репрезентативный спектр, AVE2P (p=0~P-1), для каждой подполосы.
В уравнении 2 P представляет собой количество подполос.
Затем блок 202 вычисления среднего геометрического значения выводит вычисленные спектры AVE2P (p=0~P-1) репрезентативного значения подполосы в блок 104 нелинейного преобразования.
Блок 104 нелинейного преобразования применяет нелинейное преобразование, имеющее характеристику выделения больших репрезентативных значений, в спектры AVE2P репрезентативного значения подполосы, принятые как входные сигналы, из блока 202 вычисления среднего геометрического значения, используя уравнение 3, и вычисляет спектры логарифмического репрезентативного значения первой подполосы, AVE3P (p=0~P-1). Здесь будет описан случай, в котором логарифмическое преобразование выполняется как обработка нелинейного преобразования.
Далее вычисляется спектр логарифмического репрезентативного значения второй подполосы, AVE4P (p=0~P-1), вычисленного путем умножения вычисленного спектра логарифмического репрезентативного значения первой подполосы, AVE3P (p=0~P-1) на обратное значение количества подгрупп Q, используя уравнение 4.
Хотя при обработке в уравнении 2 в блоке 202 вычисления среднего геометрического значения спектры AVE1p среднего арифметического значения подполосы отдельных подполос просто умножаются, при обработке в соответствии с уравнением 4 в блоке 104 нелинейного преобразования вычисляется среднее геометрическое значение. В соответствии с настоящим вариантом осуществления выполняется преобразование в логарифмическую область с использованием уравнения 3, и затем выполняется умножение на обратное значение количества подгрупп Q с использованием уравнения 4. Таким образом, вычисление корня, с которым связаны большие объемы вычислений, может быть заменено простым делением. Кроме того, когда количество подгрупп Q, постоянно, вычисление корня может быть заменено простым умножением с предварительным вычислением обратного значения Q, чтобы можно было дополнительно уменьшить объем вычислений.
Затем блок 104 нелинейного преобразования выводит спектры AVE4p (p=0~P-1) логарифмического репрезентативного значения второй подполосы, вычисленные в соответствии с уравнением 4, в блок 105 сглаживания.
Согласно фиг.2, блок 105 сглаживания выполняет сглаживание спектров AVE4P (p=0~P-1) логарифмического репрезентативного значения второй подполосы, принятых как входной сигнал из блока 104 нелинейного преобразования, в частотной области, используя уравнение 5, и вычисляет сглаженные логарифмические спектры AVE5P (p=0~P-1).
Уравнение 5 представляет обработку фильтрации сглаживания, и в этом уравнении 5 MA_LEN представляет собой порядок фильтрации сглаживания, и Wi представляет собой вес сглаживающего фильтра.
Кроме того, в уравнении 5 предусмотрен способ вычисления логарифмически сглаженного спектра, когда индекс p подполосы представляет собой p>=MA_LEN-1/2 и p<=P-1-MA_LEN-1/2. Когда индекс p подполосы выше или близок последнему спектры сглаживаются с использованием уравнения 6 и уравнения 7, учитывая граничные условия.
Кроме того, блок 105 сглаживания выполняет сглаживание на основе простого скользящего среднего значения, в качестве обработки сглаживания, используя обработку фильтрации сглаживания, как описано выше (когда Wi равно 1 для всех i, сглаживание выполняется на основе скользящего среднего значения). Для функции окна (веса) можно использовать окно Ханнинга или другие функции окна.
Далее блок 105 сглаживания выводит вычисленные сглаженные спектры AVE5P (p=0~P-1в) в блок 106 обратного нелинейного преобразования.
Блок 106 обратного нелинейного преобразования выполняет обратное логарифмическое преобразование как обратное нелинейное преобразование для логарифмических сглаженных спектров AVE5P (p=0~P-1), принятых как входные сигналы из блока 105 сглаживания. Блок 106 обратного нелинейного преобразования выполняет обратное логарифмическое преобразование для логарифмически сглаженных спектров AVE5P (p=0~P-1), используя уравнение 8, и вычисляет сглаженный спектр AVE6P (p=0~P-1).
Кроме того, блок 106 обратного нелинейного преобразования вычисляет сглаженный спектр всех выборок, используя значения выборок в каждой подполосе как значения спектра AVE6P (p=0~P-1), сглаженного в линейной области.
Блок 106 обратного нелинейного преобразования выводит значения сглаженного спектра для всех выборок как результат обработки устройства 100 сглаживания спектра.
Устройство сглаживания спектра и способ сглаживания спектра в соответствии с настоящим изобретением были описаны выше.
Как описано выше, в соответствии с настоящим вариантом осуществления, блок 102 разделения подполосы делит входной спектр на множество подполос, блок 103 вычисления репрезентативного значения вычисляет репрезентативное значение на подполосу, используя среднее арифметическое значение или среднее геометрическое значение, блок 104 нелинейного преобразования выполняет нелинейное преобразование, имеющее характеристику усиления больших значений для каждого репрезентативного значения, и блок 105 сглаживания сглаживает репрезентативные значения, подвергнутые нелинейному преобразованию, на каждую подполосу в области частоты.
Таким образом, все выборки спектра делятся на множество подполос, и для каждой подполосы находится репрезентативное значение путем комбинирования среднего арифметического с умножением или среднего геометрического, и выполняется последующее сглаживание после того, как репрезентативное значение подвергнуто нелинейному преобразованию, так что становится возможным поддерживать хорошее качество речи и существенно уменьшить объем обработки при вычислениях.
Как описано выше, в настоящем изобретении используется конфигурация для вычисления репрезентативных значений подполос путем комбинирования среднего арифметического значения и среднего геометрического значения выборок в подполосах, так что становится возможным предотвратить деградацию качества речи, которая может произойти из-за вариаций масштаба значений выборки в подполосе, когда средние значения в линейной области используют просто как репрезентативные значения подполос.
Хотя быстрое преобразование Фурье (FFT) пояснялось выше как пример обработки преобразования время-частота в соответствии с настоящим вариантом выполнения, настоящее изобретение никоим образом не ограничено этим, и другие способы преобразования время-частота помимо FFT в равной степени могут быть применимы. Например, в соответствии с патентным документом 1, после вычисления перцептуальных значений маскирования (см. фиг.2), модифицированное дискретное косинусное преобразование (MDCT), а не FFT, используется для вычисления частотных компонентов (спектра). Таким образом, настоящее изобретение применимо для конфигураций, в которых используется MDCT и другие способы преобразования время-частота в блоке обработки преобразования время-частота.
В описанной выше конфигурации блок 202 вычисления среднего геометрического значения умножает спектр AVE1q (g=0~Q-1) среднего арифметического значения и не вычисляет корни. То есть, строго говоря, блок 202 вычисления среднего геометрического значения не вычисляет средние геометрические значения, поскольку, как пояснялось выше, в блоке 104 нелинейного преобразования выполняется преобразование в логарифмическую область, используя уравнение 3 в качестве обработки нелинейного преобразования, с последующим умножением на обратную величину от количества подгрупп Q, используя уравнение 4, так что становится возможным заменить вычисление корня простым делением (умножением) и, как следствие, уменьшить объем вычислений.
Следовательно, настоящее изобретение не обязательно ограничивается описанной выше конфигурацией. Настоящее изобретение в равной степени применимо, например, к конфигурации для умножения, в блоке 202 вычисления среднего геометрического значения, спектров AVE1q (q=0~Q-1) среднего арифметического значения на значения спектров среднего арифметического значения для каждой подполосы, с последующим вычислением корня из количества подгрупп и вывода вычисленного корня в блок 104 нелинейного преобразования, в качестве спектров AVE2P (p=0~P-1) репрезентативного значения подполосы. В любом случае, блок 105 сглаживания выполнен с возможностью получения репрезентативного значения после обработки нелинейного преобразования на подполосу. В этом случае, вычисление уравнения 4 в блоке 104 нелинейного преобразования может быть исключено.
Выше был описан случай в настоящем варианте осуществления, когда репрезентативное значение каждой подполосы вычисляется так, что вначале выполняется вычисление среднего арифметического значения подгруппы, и затем определяется среднее геометрическое значение среди значений среднего арифметического значения по всем подгруппам в подполосе. Однако настоящее изобретение ни коим образом не ограничено этим и в равной степени применимо для случая, когда, например, количество выборок, которые составляют подгруппу, равно единице, то есть, для случая, когда среднее геометрическое значение для всех выборок в подполосе используется как репрезентативное значение подполосы, без вычисления среднего арифметического значения в каждой подгруппе. В такой конфигурации снова, как описано выше, вместо вычисления точного среднего геометрического значения, можно вычислять среднее геометрическое значение в логарифмической области путем выполнения нелинейного преобразования с последующим выполнением умножения на обратную величину количества подгрупп.
В приведенном выше описании все выборки в подполосе имеют одно и то же значение спектра в блоке 106 обратного нелинейного преобразования. Однако настоящее изобретение никоим образом не ограничено этим, и в равной степени возможно обеспечить блок обработки обратного сглаживания после блока 106 обратного нелинейного преобразования, так что блок обработки обратного сглаживания может назначать веса для выборок в каждой подполосе и выполнять обработку обратного сглаживания. Такая обработка обратного сглаживания не обязательно должна быть полностью противоположной обработке, выполняемой в блоке 105 сглаживания.
Хотя в приведенном выше описании был описан случай, когда блок 104 нелинейного преобразования выполняет обратное логарифмическое преобразование как обработку обратного нелинейного преобразования, и блок 106 обратного нелинейного преобразования выполняет обратное логарифмическое преобразование как обратную обработку для обработки нелинейного преобразования, это никоим образом не является ограничением, и в равной степени возможно использовать степенное преобразование и другие варианты и выполнять обратную обработку для нелинейного преобразования как обратную обработку для обработки нелинейного преобразования. Однако, учитывая, что вычисление корня может быть заменено простым делением (умножением) с использованием умножения на обратное число количества подгрупп Q по уравнению 4, тот факт, что блок 104 нелинейного преобразования выполняет логарифмическое преобразование как нелинейное преобразование, имеет преимущество, благодаря уменьшению объема вычислений. Следовательно, если обработка, которая отличается от обработки логарифмического преобразования, будет выполнена как обработка нелинейного преобразования, то в равной степени становится возможным вычислять репрезентативное значение в подполосе путем вычисления среднего геометрического значения для средних арифметических значений подгрупп и применения нелинейной обработки для этих репрезентативных значений.
Кроме того, что касается количества подполос и количества подгрупп, если, например, частота выборки входного сигнала составляет 32 кГц, и один кадр имеет длину 20 мс, то есть, если входной сигнал состоит из 640 выборок, становится возможным, например, установить количество подполос равным восьмидесяти, количество подгрупп равным двум, количество выборок на подгруппу равным четырем и порядок фильтрации сглаживания равным, например, семи. Настоящее изобретение никоим образом не ограничено этими установками и в равной степени применимо для случаев, где применяются другие значения.
Устройство сглаживания спектра и способ сглаживания спектра в соответствии с настоящим изобретением применимы для любых и всех устройств или компонентов сглаживания спектра, которые выполняют сглаживание в спектральной области, включая в себя устройство кодирования речи и способ кодирования речи, устройство декодирования речи и способ декодирования речи, устройство распознавания речи и способ распознавания речи. Например, хотя в соответствии с технологией расширения полосы пропускания, раскрытой в патентном документе 2, обработка для вычисления спектральной огибающей из LPC (ЛПК, линейные предикативные коэффициенты) и, на основе вычисленной таким образом спектральной огибающей, удаление спектральной огибающей из спектра низкой полосы используется для вычисления параметров для генерирования спектра высокой полосы, в равной степени можно использовать сглаженный спектр, вычисленный путем применения способа сглаживания спектра в соответствии с настоящим изобретением, для спектра низкой полосы вместо спектральной огибающей, используемой при обработке удаления спектральной огибающей в патентном документе 2.
Кроме того, хотя конфигурация пояснялась на основе настоящего варианта осуществления, где входной спектр S1(k) разделяется на P подполос (где P представляет собой целое число, равное или большее 2), и все они имеют одинаковое количество выборок, настоящее изобретение никоим образом не ограничено этим и в равной степени применимо для конфигурации, в которой количество выборок изменяется между подполосами. Например, возможна конфигурация, в которой подполосы разделяются таким образом, что подполоса на стороне низкой полосы имеет меньшее количество выборок, а подполоса на стороне высокой полосы имеет большее количество выборок. Вообще говоря, при восприятии человеком, разрешение частот понижается на стороне высокой полосы, так что более эффективное сглаживание спектра становится возможным при использовании описанной выше конфигурации. То же относится к подгруппам, которые составляют каждую подполосу. Хотя выше был описан случай в соответствии с настоящим вариантом осуществления, где все Q подгрупп сформированы с R выборками, настоящее изобретение никоим образом не ограничено этим и в равной степени применимо к конфигурациям, где подгруппы разделяются таким образом, что подгруппы на стороне низкой полосы имеют меньшее количество выборок, а подгруппы на стороне высокой полосы имеют большее количество выборок.
Хотя взвешенное скользящее среднее значение было описано как пример обработки сглаживания в соответствии с настоящим вариантом осуществления, настоящее изобретение никоим образом не ограничено этим и в равной степени применимо к различной обработке сглаживания. Например, как описано выше, в конфигурации, в которой количество выборок изменяется между подполосами (то есть, количество выборок увеличивается в более высокой полосе), становится возможным сделать количество выводов в фильтре скользящего среднего значения не одинаковым между левой и правой сторонами, и увеличить количество выводов в более высокой полосе. Когда количество выборок увеличивается в подполосах в высокой полосе, становится возможным выполнить перцептуально более адекватную обработку сглаживания путем использования фильтра скользящего среднего значения, имеющего малое количество выводов на стороне более высокой полосы. Настоящее изобретение применимо для случаев использования фильтра скользящего среднего, который выполнен асимметрично между левой и правой сторонами и имеет большее количество выводов на стороне высокой полосы.
Вариант 2 осуществления
Теперь будет описана конфигурация в соответствии с настоящим вариантом осуществления, где обработка сглаживания спектра, поясненная в варианте 1 осуществления, используется при предварительной обработке, после кодирования для расширения полосы, раскрытого в патентном документе 2.
На фиг.5 показана блок-схема, представляющая конфигурацию системы связи, имеющую устройство кодирования и устройство декодирования в соответствии с вариантом 2 осуществления. На фиг.5, система связи имеет устройство кодирования и устройство декодирования, которые осуществляют связь через канал передачи. Устройство кодирования и устройство декодирования обычно установлены в устройстве базовой станции и в устройстве терминала связи для использования.
Устройство 301 кодирования делит входной сигнал через каждые N выборок (где N представляет собой натуральное число), и выполняет кодирование на основе кадра, используя N выборок как один кадр. Входной сигнал, подвергаемый кодированию, представлен как xn (n=0, N-1). n представляет собой (n+1)-ый компонент сигнала во входном сигнале, разделенном на каждые N выборок. Входная информация после выполнения кодирования (кодированная информация) передается в устройство 303 декодирования через канал 302 передачи.
Устройство 303 декодирования принимает кодированную информацию, передаваемую из устройства 301 кодирования через канал 302 передачи, и в результате ее декодирования получает выходной сигнал.
На фиг.6 показана блок-схема, представляющая внутреннюю конфигурацию основных частей устройства 301 кодирования. Если частота выборки входного сигнала представляет собой SRinput, блок 311 обработки с понижением частоты выборки выполняет понижение частоты для частоты выборки входного сигнала с SRinput до SRbase (SRbase<SRinput) и выводит входной сигнал после понижения частоты в блок 312 кодирования первого уровня как входной сигнал с пониженной частотой выборки.
Блок 312 кодирования первого уровня генерирует кодированную информацию первого уровня путем кодирования входного сигнала после понижения частоты выборки, принятого как вход из блока 311 обработки с понижением частоты выборки, используя способ кодирования речи в соответствии со схемой CELP (ЛПК, линейное прогнозирование с кодовым возбуждением), и выводит сгенерированную кодированную информацию первого уровня в блок 313 декодирования первого уровня и в блок 317 интегрирования кодированной информации.
Блок 313 декодирования первого уровня генерирует декодированный сигнал первого уровня путем декодирования кодированной информации первого уровня, принятой как входной сигнал из блока 312 кодирования первого уровня, используя, например, способ декодирования речи CELP, и выводит сгенерированный декодированный сигнал первого уровня в блок 314 обработки с повышением частоты выборки.
Блок 314 обработки с повышением частоты выборки выполняет повышение частоты для частоты выборки входного сигнала, принятого как вход из блока 313 декодирования первого уровня, с SRbase до SRinput и выводит декодированный сигнал первого уровня после повышения частоты в блок 315 обработки преобразования время-частота как декодированный сигнал первого уровня с повышением частоты.
Блок 318 задержки вводит задержку заданной длины во входной сигнал. Эта задержка предназначена для коррекции задержки по времени в блоке 311 обработки с понижением частоты в блоке 312 кодирования первого уровня, в блоке 313 декодирования первого уровня и в блоке 314 обработки с повышением частоты выборки.
Блок 315 обработки информации преобразования время-частота имеет внутри буфер buf1n и buf2n (n=0,..., N-1) и применяет модифицированное дискретное косинусное преобразование (MDCT) к входному сигналу xn и к декодированному сигналу yn первого уровня с повышением частоты выборки, при