Устройство для расширения полосы частот
Иллюстрации
Показать всеИзобретение относится к средствам для расширения полосы частот. Технический результат заключается в улучшении восприятия расширенного звукового сигнала. Генерируют сигнал возбуждения на основе звукового сигнала, при этом звуковой сигнал содержит множество частотных компонентов. Выделяют вектор признаков из звукового сигнала, при этом вектор признаков содержит по меньшей мере один признак компонента в частотной области и по меньшей мере один признак компонента во временной области. Определяют по меньшей мере один параметр формы спектра на основе вектора признаков, при этом по меньшей мере один параметр формы спектра соответствует сигналу поддиапазона, содержащему частотные компоненты, которые принадлежат дополнительному множеству частотных компонентов. Генерируют сигнал поддиапазона путем фильтрации сигнала возбуждения с помощью банка фильтров и взвешивания отфильтрованного сигнала возбуждения с использованием по меньшей мере одного параметра формы спектра. 3 н. и 18 з.п. ф-лы, 10 ил.
Реферат
ОБЛАСТЬ ТЕХНИКИ
Настоящее изобретение относится к устройству и способу, которые предназначены для улучшения качества звукового сигнала. В частности, настоящее изобретение относится к устройству и способу, которые предназначены для расширения полосы частот звукового сигнала.
УРОВЕНЬ ТЕХНИКИ
Звуковые сигналы, такие как речь или музыка, могут кодироваться для обеспечения возможности эффективной передачи или хранения.
Полоса частот звуковых сигналов может быть ограничена, и ее размер обычно определяется доступной пропускной способностью системы передачи и емкостью носителя информации. Однако в некоторых случаях желательно воспринимать декодированный звуковой сигнал в более широкой полосе частот по сравнению с той, что использовалась при первоначальном кодировании этого звукового сигнала. В этих случаях в декодере могут быть реализованы средства искусственного расширения полосы частот, которые могут расширять полосу частот декодируемого звукового сигнала с использованием информации, определяемой исключительно на основе этого декодируемого сигнала.
Одной из областей, в которой применяется такое искусственного расширения полосы частот, является область мобильной связи. Обычно в системе мобильной связи, такой как глобальная система для мобильной связи (GSM, Global System for Mobile Communications), речевой сигнал может ограничиваться полосой частот, меньшей чем 4 кГц, другими словами, этот сигнал является узкополосным речевым сигналом. Однако в естественной речи могут содержаться существенные частотные компоненты с частотой до 10 кГц. Дополнительные высокочастотные компоненты могут улучшать общее качество и разборчивость речевого сигнала, в результате чего формируется более четкий и привлекательный звук по сравнению с эквивалентным узкополосным сигналом.
В существующих способах улучшения качества и разборчивости узкополосного речевого сигнала путем искусственного расширения полосы частот может применяться кодовый словарь для генерации дополнительных высокочастотных компонентов. Кодовый словарь может содержать частотные векторы различных спектральных характеристик, которые в совокупности перекрывают диапазон представляющих интерес частот. Диапазон частот может расширяться по кадрам путем выбора оптимального вектора и добавления к нему спектральных компонентов из принятого декодированного сигнала.
Кроме того, в способах искусственного расширения полосы частот может применяться технология повышающей дискретизации для создания альтернативных копий принятого сигнала на высокочастотных компонентах. Затем амплитуда уровней энергии альтернативных частотных компонентов может регулироваться для создания репрезентативных высоких частот речевого сигнала.
Однако существующие способы искусственного расширения полосы частот могут характеризоваться плохим качеством и неэффективностью.
Например, в некоторых способах искусственного расширения полосы частот может применяться система, классифицирующая входящие речевые кадры по их фонетическому содержимому, для того чтобы определить огибающую высокочастотного диапазона. Затем огибающая может использоваться для формирования частотного спектра, создаваемого путем наложения низких частот.
Однако высокочастотные диапазоны, которые сгенерированы с помощью этого подхода, могут не всегда звучать натурально. Это может происходить частично потому, что переход между различными фонемами в речевом сигнале естественным образом осуществляется плавно. В то же время, использование системы классификации фонем может привести к нарушению непрерывности на границах принятия решений.
Кроме того, и другие факторы при использовании вышеупомянутого подхода к искусственному расширению полосы частот могут привести к возникновению неестественного звучания, например, некорректная классификация входящих кадров речевого сигнала и неточная оценка формы спектра верхнего диапазона.
КРАТКОЕ ОПИСАНИЕ НЕКОТОРЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ
Настоящее изобретение исходит из того, что использование существующих схем искусственного расширения полосы частот может привести в целом к ухудшению воспринимаемой естественности расширенного звукового сигнала. Это ухудшение в особенности может распространяться на общее восприятие шипящих звуков.
ВАРИАНТЫ ОСУЩЕСТВЛЕНИЯ, НАПРАВЛЕННЫЕ НА РЕШЕНИЕ УКАЗАННОЙ ВЫШЕ ПРОБЛЕМЫ
В соответствии с первым аспектом некоторых вариантов осуществления настоящего изобретения предлагается способ, включающий: генерацию сигнала возбуждения на основе звукового сигнала, при этом звуковой сигнал содержит множество частотных компонентов; выделение вектора признаков из звукового сигнала, при этом вектор признаков содержит по меньшей мере один признак компонента в частотной области и по меньшей мере один признак компонента во временной области; определение по меньшей мере одного параметра формы спектра на основе вектора признаков, при этом по меньшей мере один параметр формы спектра соответствует сигналу поддиапазона, содержащему частотные компоненты, которые принадлежат дополнительному множеству частотных компонентов; и генерацию сигнала поддиапазона путем фильтрации сигнала возбуждения с помощью банка фильтров и взвешивания отфильтрованного сигнала возбуждения с использованием по меньшей мере одного параметра формы спектра.
В соответствии с вариантом осуществления способ при генерации сигнала возбуждения может включать генерацию остаточного сигнала путем фильтрации звукового сигнала с использованием инверсного фильтра с линейным предсказанием; фильтрацию остаточного сигнала с использованием секции постфильтра, содержащей фильтр авторегрессионного скользящего среднего, основанный на фильтре с линейным предсказанием; и генерацию сигнала возбуждения путем повышающей дискретизации и спектрального свертывания выходного сигнала секции постфильтра.
Секция постфильтра также может содержать фильтр спектрального наклона и фильтр гармоник.
Частотные компоненты сигнала поддиапазона могут распределяться согласно психоакустической шкале, разбитой на множество перекрывающихся диапазонов, и частотные характеристики банка фильтров могут соответствовать распределению частотных компонентов сигнала поддиапазона.
Перекрывающиеся диапазоны могут распределяться согласно Mel-шкале, и при этом сигнал поддиапазона может быть маскирован с использованием треугольной функции маскирования.
В альтернативном варианте перекрывающиеся диапазоны могут распределяться согласно Mel-шкале, и при этом сигнал поддиапазона может быть маскирован с использованием трапецеидальной функции маскирования.
Процедура определения по меньшей мере одного параметра формы спектра на основе вектора признаков может включать: использование нейронной сети для определения по меньшей мере одной формы спектра на основе вектора признаков, при этом вектор признаков, выделенный из звукового сигнала, может формировать входной целевой вектор для нейронной сети, и нейронная сеть может обучаться с целью предоставления параметра формы спектра поддиапазона для входного целевого вектора.
Параметр формы спектра может представлять собой значение уровня энергии поддиапазона.
Параметр формы спектра может представлять собой коэффициент усиления поддиапазона, основанный на значении уровня энергии поддиапазона.
Значение уровня энергии поддиапазона может ослабляться, если мощность звукового сигнала достигает оценочного значения уровня шумов в звуковом сигнале.
По меньшей мере один признак компонента в частотной области в векторе признаков может включать по меньшей мере одно из следующих значений: группу, состоящую из множества уровней энергии звукового сигнала, при этом каждый из уровней энергии звукового сигнала соответствует энергии перекрывающегося диапазона звукового сигнала; значение, представляющее центроид спектра в частотной области звукового сигнала; и значение, представляющее степень равномерности спектра в частотной области.
По меньшей мере один признак компонента во временной области в векторе признаков может включать по меньшей мере одно из следующих значений: индекс градиента, основанный на сумме градиентов в точках звукового сигнала, в которых изменяется направление формы волны звукового сигнала; отношение энергии кадра звукового сигнала к энергии предыдущего кадра звукового сигнала, и классификацию звукового сигнала как активного или неактивного детектором речевой активности.
Способ может также включать объединение сигнала поддиапазона со звуковым сигналом для формирования звукового сигнала с расширенной полосой частот.
В соответствии со вторым аспектом некоторых вариантов осуществления настоящего изобретения предлагается устройство, содержащее по меньшей мере один процессор и по меньшей мере одну память, в которой хранится компьютерный код, при этом по меньшей мере одна память и компьютерный код сконфигурированы таким образом, чтобы при взаимодействии по меньшей мере с одним процессором устройство выполняло по меньшей мере следующие операции: генерацию сигнала возбуждения на основе звукового сигнала, при этом звуковой сигнал содержит множество частотных компонентов; выделение вектора признаков из звукового сигнала, при этом вектор признаков содержит по меньшей мере один признак компонента в частотной области и по меньшей мере один признак компонента во временной области; определение по меньшей мере одного параметра формы спектра на основе вектора признаков, при этом по меньшей мере один параметр формы спектра соответствует сигналу поддиапазона, содержащему частотные компоненты, которые принадлежат дополнительному множеству частотных компонентов; и генерацию сигнала поддиапазона путем фильтрации сигнала возбуждения с помощью банка фильтров и взвешивания отфильтрованного сигнала возбуждения с использованием по меньшей мере одного параметра формы спектра.
В соответствии с вариантом осуществления, устройство, в котором по меньшей мере одна память и компьютерный код сконфигурированы таким образом, чтобы при взаимодействии по меньшей мере с одним процессором устройство выполняло генерацию сигнала возбуждения, также может быть сконфигурировано для выполнения следующих операций: генерация остаточного сигнала путем фильтрации звукового сигнала с использованием инверсного фильтра с линейным предсказанием; фильтрация остаточного сигнала с использованием секции постфильтра, содержащей фильтр авторегрессионного скользящего среднего, основанный на фильтре с линейным предсказанием; и генерация сигнала возбуждения путем повышающей дискретизации и спектрального свертывания выходного сигнала секции постфильтра.
Секция постфильтра также может содержать фильтр спектрального наклона и фильтр гармоник.
Частотные компоненты сигнала поддиапазона могут распределяться согласно психоакустической шкале, разбитой на множество перекрывающихся диапазонов, и частотные характеристики банка фильтров могут соответствовать распределению частотных компонентов сигнала поддиапазона.
Перекрывающиеся поддиапазоны могут распределяться согласно Mel-шкале, при этом сигнал поддиапазона может быть маскирован с использованием треугольной функции маскирования.
В альтернативном варианте перекрывающиеся диапазоны могут распределяться согласно Mel-шкале, при этом сигнал поддиапазона может быть маскирован с использованием трапецеидальной функции маскирования.
По меньшей мере одна память и компьютерный код, сконфигурированные таким образом, чтобы при взаимодействии по меньшей мере с одним процессором устройство выполняло определение по меньшей мере одного параметра формы спектра на основе вектора признаков, также могут быть сконфигурированы для: использования нейронной сети для определения по меньшей мере одной формы спектра на основе вектора признаков, при этом вектор признаков, выделенный из звукового сигнала, формирует входной целевой вектор для нейронной сети, и нейронная сеть обучается с целью предоставления параметра формы спектра поддиапазона для входного целевого вектора.
Параметр формы спектра может представлять собой значение уровня энергии поддиапазона.
Параметр формы спектра может представлять собой коэффициент усиления поддиапазона, основанный на значении уровня энергии поддиапазона.
Значение уровня энергии поддиапазона может ослабляться, если мощность звукового сигнала достигает оценочного значения уровня шумов в звуковом сигнале.
По меньшей мере один признак компонента в частотной области в векторе признаков может включать по меньшей мере одно из следующих значений: группу, состоящую из множества уровней энергии звукового сигнала, при этом каждый из уровней энергии звукового сигнала соответствует энергии перекрывающегося диапазона звукового сигнала; значение, представляющее центроид спектра в частотной области звукового сигнала; и значение, представляющее степень равномерности спектра в частотной области.
По меньшей мере один признак компонента во временной области может включать по меньшей мере одно из следующих значений: индекс градиента, основанный на сумме градиентов в точках звукового сигнала, в которых изменяется направление формы волны звукового сигнала; отношение энергии кадра звукового сигнала к энергии предыдущего кадра звукового сигнала и классификацию звукового сигнала как активного или неактивного детектором речевой активности.
По меньшей мере одна память и компьютерный код также сконфигурированы для выполнения объединения сигнала поддиапазона со звуковым сигналом для формирования звукового сигнала с расширенной полосой частот.
В соответствии с третьим аспектом некоторых вариантов осуществления настоящего изобретения предлагается компьютерное программное изделие, в котором на машиночитаемом носителе хранится программный код, который при исполнении процессором реализует следующие операции: генерацию сигнала возбуждения на основе звукового сигнала, при этом звуковой сигнал содержит множество частотных компонентов; выделение вектора признаков из звукового сигнала, при этом вектор признаков содержит по меньшей мере один признак компонента в частотной области и по меньшей мере один признак компонента во временной области; определение по меньшей мере одного параметра формы спектра на основе вектора признаков, при этом по меньшей мере один параметр формы спектра соответствует сигналу поддиапазона, содержащему частотные компоненты, которые принадлежат дополнительному множеству частотных компонентов; и генерацию сигнала поддиапазона путем фильтрации сигнала возбуждения с помощью банка фильтров и взвешивания отфильтрованного сигнала возбуждения с использованием по меньшей мере одного параметра формы спектра.
В соответствии с вариантом осуществления настоящего изобретения если код компьютерного программного изделия при исполнении процессором реализует операцию генерации сигнала возбуждения, то этот код может также реализовать следующие операции: генерацию остаточного сигнала путем фильтрации звукового сигнала с использованием инверсного фильтра с линейным предсказанием; фильтрацию остаточного сигнала с использованием секции постфильтра, содержащей фильтр авторегрессионного скользящего среднего, основанный на фильтре с линейным предсказанием; и генерацию сигнала возбуждения путем повышающей дискретизации и спектрального свертывания выходного сигнала секции постфильтра.
Секция постфильтра также может содержать фильтр спектрального наклона и фильтр гармоник.
Частотные компоненты сигнала поддиапазона могут распределяться согласно психоакустической шкале, разбитой на множество перекрывающихся диапазонов, и частотные характеристики банка фильтров могут соответствовать распределению частотных компонентов сигнала поддиапазона.
Перекрывающиеся поддиапазоны могут распределяться согласно Mel-шкале, при этом сигнал поддиапазона может быть маскирован с использованием треугольной функции маскирования.
В альтернативном варианте перекрывающиеся диапазоны могут распределяться согласно Mel-шкале, при этом сигнал поддиапазона может быть маскирован с использованием трапецеидальной функции маскирования.
Код, исполняемый процессором и реализующий операцию определения по меньшей мере одного параметра формы спектра на основе вектора признаков, также может реализовать следующие операции: использование нейронной сети для определения по меньшей мере одной формы спектра на основе вектора признаков, при этом вектор признаков, выделенный из звукового сигнала, может формировать входной целевой вектор для нейронной сети, и нейронная сеть может обучаться с целью предоставления параметра формы спектра поддиапазона для входного целевого вектора.
Параметр формы спектра может представлять собой значение уровня энергии поддиапазона.
Параметр формы спектра может представлять собой коэффициент усиления поддиапазона, основанный на значении уровня энергии поддиапазона.
Значение уровня энергии поддиапазона может ослабляться, если мощность звукового сигнала достигает оценочного значения уровня шумов в звуковом сигнале.
По меньшей мере один признак компонента в частотной области в векторе признаков может включать по меньшей мере одно из следующих значений: группу, состоящую из множества уровней энергии звукового сигнала, при этом каждый из уровней энергии звукового сигнала соответствует энергии перекрывающегося диапазона звукового сигнала; значение, представляющее центроид спектра в частотной области звукового сигнала; и значение, представляющее степень равномерности спектра в частотной области.
По меньшей мере один признак компонента во временной области может включать по меньшей мере одно из следующих значений: индекс градиента, основанный на сумме градиентов в точках звукового сигнала, в которых изменяется направление формы волны звукового сигнала; отношение энергии кадра звукового сигнала к энергии предыдущего кадра звукового сигнала и классификацию звукового сигнала как активного или неактивного детектором речевой активности.
Код может также реализовать операцию объединения сигнала поддиапазона со звуковым сигналом для формирования звукового сигнала с расширенной полосой частот.
В соответствии с четвертым аспектом некоторых вариантов осуществления настоящего изобретения предлагается устройство, содержащее: генератор сигнала возбуждения, сконфигурированный для генерации сигнала возбуждения на основе звукового сигнала, при этом звуковой сигнал содержит множество частотных компонентов; блок выделения признаков, сконфигурированный для выделения вектора признаков из звукового сигнала, при этом вектор признаков содержит по меньшей мере один признак компонента в частотной области и по меньшей мере один признак компонента во временной области; блок определения спектральных параметров, сконфигурированный для определения по меньшей мере одного параметра формы спектра на основе вектора признаков, при этом по меньшей мере один параметр формы спектра соответствует сигналу поддиапазона, содержащему частотные компоненты, которые принадлежат дополнительному множеству частотных компонентов; и банк фильтров, сконфигурированный для генерации сигнала поддиапазона путем фильтрации сигнала возбуждения и взвешивания отфильтрованного сигнала возбуждения с использованием по меньшей мере одного параметра формы спектра.
Генератор сигнала возбуждения может содержать: инверсный фильтр с линейным предсказанием, сконфигурированный для генерации остаточного сигнала путем фильтрации звукового сигнала; секцию постфильтра, включающую фильтр авторегрессионного скользящего среднего, сконфигурированный для фильтрации остаточного сигнала, при этом фильтр авторегрессионного скользящего среднего зависит от инверсного фильтра с линейным предсказанием; и повышающий дискретизатор, сконфигурированный для генерации сигнала возбуждения путем повышающей дискретизации и спектрального свертывания выходного сигнала секции постфильтра.
Секция постфильтра может также содержать: фильтр спектрального наклона и фильтр гармоник.
Частотные компоненты сигнала поддиапазона могут распределяться согласно психоакустической шкале, разбитой на множество перекрывающихся диапазонов, и частотные характеристики банка фильтров соответствуют распределению частотных компонентов сигнала поддиапазона.
Перекрывающиеся поддиапазоны могут распределяться согласно Mel-шкале, при этом сигнал поддиапазона может быть маскирован с использованием треугольной и/или трапецеидальной функции маскирования.
Блок определения спектральных параметров может содержать: нейронную сеть, сконфигурированную для определения по меньшей мере одной формы спектра на основе вектора признаков, при этом вектор признаков, выделенный из звукового сигнала, формирует входной целевой вектор для нейронной сети, и нейронная сеть обучается с целью предоставления параметра формы спектра поддиапазона для входного целевого вектора.
Параметр формы спектра может представлять собой значение уровня энергии поддиапазона.
Параметр формы спектра может представлять собой коэффициент усиления поддиапазона, основанный на значении уровня энергии поддиапазона.
Банк фильтров может содержать аттенюатор, сконфигурированный для ослабления значения уровня энергии поддиапазона, если мощность звукового сигнала достигает оценочного значения уровня шумов в звуковом сигнале.
По меньшей мере один признак компонента в частотной области в векторе признаков может включать по меньшей мере одно из следующих значений: группу, состоящую из множества уровней энергии звукового сигнала, при этом каждый из уровней энергии звукового сигнала соответствует энергии перекрывающегося поддиапазона звукового сигнала; значение, представляющее центроид спектра в частотной области звукового сигнала; и значение, представляющее степень равномерности спектра в частотной области.
По меньшей мере один признак компонента во временной области в векторе признаков может включать по меньшей мере одно из следующих значений: индекс градиента, основанный на сумме градиентов в точках звукового сигнала, в которых изменяется направление формы волны звукового сигнала; отношение энергии кадра звукового сигнала к энергии предыдущего кадра звукового сигнала и классификацию звукового сигнала как активного или неактивного детектором речевой активности.
Устройство может также содержать объединитель сигналов, сконфигурированный для объединения сигнала поддиапазона со звуковым сигналом с целью формирования звукового сигнала с расширенной полосой частот.
Электронный прибор может включать в свой состав описанное выше устройство.
Набор микросхем может включать в свой состав описанное выше устройство.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Для лучшего понимания сути настоящего изобретения далее в примерах приводятся ссылки на прилагаемые чертежи, на которых:
на фиг.1 схематично показан электронное устройство, в котором используются варианты осуществления настоящего изобретения;
на фиг.2 схематично показана система декодера, в которой используются варианты осуществления настоящего изобретения;
на фиг.3 схематично показан декодер, с помощью которого реализуется первый вариант осуществления настоящего изобретения;
на фиг.4 схематично показано устройство расширения полосы частот в соответствии с некоторыми вариантами осуществления настоящего изобретения;
на фиг.5 показаны преимущества применения критических диапазонов и слухового маскирования к входному звуковому сигналу устройства для расширения полосы частот для упрощения выполнения процесса выделения признаков;
на фиг.6 показаны преимущества применения критических диапазонов для упрощения выполнения процесса генерации сигнала с искусственно расширенной полосой частот;
на фиг.7 показаны преимущества применения банка фильтров, в котором поддиапазоны определяются критическими диапазонами;
на фиг.8 показан алгоритм, иллюстрирующий работу устройства для расширения полосы частот в соответствии с некоторыми вариантами осуществления настоящего изобретения;
на фиг.9 показан алгоритм, более подробно иллюстрирующий ряд операций, выполняемых устройством для расширения полосы частот в варианте осуществления, представленном на фиг.4; и
на фиг.10 показан алгоритм, более подробно иллюстрирующий ряд дополнительных операций, выполняемых устройством в варианте осуществления, представленном на фиг.4.
НЕКОТОРЫЕ ВАРИАНТЫ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ
Далее более подробно описываются возможные механизмы реализации искусственного расширения полосы частот декодированного звукового сигнала. Вначале со ссылкой на фиг.1 рассматривается блок-схема типового электронного устройства 10, которое может включать в свой состав кодек, соответствующий варианту осуществления настоящего изобретения.
Электронное устройство 10 может, например, представлять собой мобильный терминал или пользовательское оборудование системы беспроводной связи. В некоторых иных вариантах осуществления настоящего изобретения устройство 10 может представлять собой любой подходящий компонент звуковой системы или подсистемы в составе электронного устройства, такого как аудиоплеер (также называемый МР3-плеер) или медиаплеер (также называемый МР4-плеер).
Электронное устройство 10 содержит микрофон 11, который через аналого-цифровой преобразователь (ADC, analogue-to-digital converter) 14 соединяется с процессором 21. Процессор 21 далее через цифроаналоговый преобразователь (DAC, digital-to-analogue converter) 32 соединяется с громкоговорителем (громкоговорителями) 33. Процессор 21 также соединяется с приемопередатчиком (RX/TX) 13, пользовательским интерфейсом (UI, user interface) 15 и памятью 22.
Процессор 21 может быть сконфигурирован для исполнения различных программных кодов. Выполняемые программные коды 23 могут содержать коды для декодирования звукового или речевого сигнала. Выполняемые программные коды 23 могут храниться, например, в памяти 22, из которой они при необходимости считываются процессором 21. В памяти 22 также может быть отведен раздел 24 для хранения данных, например, данных, закодированных в соответствии с вариантами осуществления настоящего изобретения.
Код для декодирования в соответствии с вариантами осуществления настоящего изобретения может быть реализован в виде электронных схем аппаратного или микропрограммного обеспечения.
Пользовательский интерфейс 15 позволяет пользователю вводить команды, управляющие электронным устройством 10, например, с помощью клавиатуры, и/или получать информацию от электронного устройства 110, например, на дисплее. Приемопередатчик 13 позволяет осуществлять связь с другими электронными устройствами, например, через сеть беспроводной связи.
Следует понимать, что структура электронного устройства 10 может быть дополнена и изменена различными способами.
В состав электронного устройства 10 может входить микрофон 11, используемый для ввода речевого сигнала, который должен передаваться в некоторые другие электронные устройства или сохраняться в разделе 24 данных памяти 22. С этой целью пользователем через пользовательский интерфейс 15 активизируется соответствующее приложение. Это приложение, которое может запускаться процессором 21, инициирует исполнение процессором 21 кода, хранящегося в памяти 22.
Аналого-цифровой преобразователь 14 преобразует входной аналоговый звуковой сигнал в цифровой звуковой сигнал и подает этот сигнал в процессор 21.
Электронное устройство 10 может через свой приемопередатчик 13 принимать от другого электронного устройства битовый поток, содержащий соответствующим образом закодированные данные. В альтернативном варианте закодированные данные могут сохраняться в секции 24 данных, расположенной в памяти 22, например, для последующего их представления электронным устройством 10. В обоих случаях процессор 21 может исполнять программный код для декодирования, хранимый в памяти 22. Процессор 21 декодирует принятые данные, например, таким образом, как это описано со ссылкой на фиг.3 и 4, и подает декодированные данные в цифроаналоговый преобразователь 32. Цифроаналоговый преобразователь 32 преобразует цифровые закодированные данные в аналоговые звуковые данные и выводит их через громкоговоритель (громкоговорители) 33. Исполнение программного кода для декодирования может инициироваться приложением, вызванным пользователем из среды пользовательского интерфейса 15.
Кроме того, принятые закодированные данные могут не сразу выводиться через громкоговорители 33, а могут сохраняться в разделе 24 данных памяти 22, например, для последующего предоставления или пересылки в другое электронное устройство.
Необходимо принимать во внимание, что схематические структуры, показанные на фиг.3 и 4, и шаги способа, показанные на фиг.8, 9 и 10, представляют только часть операций, выполняемых устройством для расширения полосы частот, пример реализации которого в электронном устройстве изображен на фиг.1.
Основные операции, выполняемые кодеками речевого и звукового сигналов, известны на существующем уровне техники, поэтому функции таких кодеков, не относящиеся к разъяснению сущности вариантов осуществления настоящего изобретения, подробно не описываются.
Далее описываются варианты осуществления настоящего изобретения со ссылками на фиг.2-10.
Основные операции, выполняемые декодерами речевого и звукового сигналов согласно вариантам осуществления настоящего изобретения, показаны на фиг.2. На фиг 2 схематично показана основная система 102 декодирования. Система 102 может содержать память или медиа-канал 106 (также называемый каналом связи) и декодер 108.
Декодер 108 распаковывает битовый поток 112 и формирует выходной звуковой сигнал 114. Скорость передачи битового потока 112 и качество выходного звукового сигнала 114 относительно входного сигнала 110 являются основными характеристиками, которые определяют рабочие параметры системы 102 кодирования.
На фиг.3 схематично показан декодер 108 в соответствии с некоторыми вариантами осуществления настоящего изобретения. Декодер 108 содержит вход 302, с которого закодированный поток 112 может приниматься через медиа-канал 106. Вход 302 в некоторых вариантах осуществления подключается к декодеру 301 звукового сигнала. Декодер 301 звукового сигнала в таких вариантах осуществления сконфигурирован для приема закодированных данных, поступающих из медиа-канала или канала связи, в результате чего принятые данные могут быть сохранены и распакованы. Декодер 301 звукового сигнала в таких вариантах осуществления также сконфигурирован для декодирования закодированных данных, поступающих из медиа-канала 106, с целью формирования выходного потока 304, основанного на выборках звукового сигнала. Выходной поток звукового сигнала из декодера 301 звукового сигнала может подаваться на вход устройства 303 искусственного расширения полосы частот. Устройство 303 для расширения полосы частот в некоторых вариантах осуществления настоящего изобретения может быть настроено для расширения полосы частот поступающего на вход потока 304 звукового сигнала с целью формирования выходного звукового сигнала 306 с расширенной полосой частот.
Звуковой сигнал 306 с расширенной полосой частот может в некоторых вариантах осуществления настоящего изобретения формировать выходной звуковой сигнал 114, передаваемый из декодера 108.
Следует принимать во внимание, что декодер 301 звукового сигнала может специальным образом настраиваться для декодирования входных закодированных данных, передаваемых с входа 302. Другими словами, технология декодирования звукового сигнала, применяемая декодером 301 звукового сигнала, может определяться технологией кодирования звукового сигнала, используемой для формирования закодированных данных.
Кроме того, следует иметь в виду, что в некоторых вариантах осуществления настоящего изобретения декодер 301 звукового сигнала может настраиваться для декодирования либо звуковых, либо речевых закодированных данных.
Например, в некоторых вариантах осуществления настоящего изобретения декодер 301 звукового сигнала может быть сконфигурирован для декодирования речевого сигнала, который может быть кодирован в соответствии со стандартом адаптивного многоскоростного кодирования речи (AMR, Adaptive multirate).
Подробное описание кодека AMR содержится, например, в технических спецификациях 3GPP TS 26.090.
Далее со ссылкой на фиг.4 более подробно описывается устройство 303 для расширения полосы частот звукового сигнала в соответствии с некоторыми вариантами осуществления настоящего изобретения.
Устройство 303 искусственного расширения полосы частот имеет вход 401, который может быть сконфигурирован для приема выходного потока 304 выборок звукового сигнала из декодера 301 звукового сигнала.
Следует иметь в виду, что декодированный поток выборок звукового сигнала, поступающий в устройство 303 для расширения полосы частот, может рассматриваться как сигнал нижнего диапазона частот. Устройство 303 для расширения полосы частот в некоторых вариантах осуществления настоящего изобретения затем может проанализировать сигнал нижнего диапазона частот для идентификации определенных признаков. Идентифицированные признаки в таких вариантах осуществления настоящего изобретения затем могут использоваться для создания звукового сигнала верхнего диапазона, который затем можно объединить со звуковым сигналом нижнего диапазона для формирования звукового сигнала 306 с расширенной полосой частот.
Кроме того, необходимо принимать во внимание, что компонент верхнего диапазона частот звукового сигнала с расширенной полосой частот в вариантах осуществления настоящего изобретения может формироваться без необходимости получения дополнительной информации из кодера.
В некоторых вариантах осуществления настоящего изобретения входной сигнал нижнего диапазона частот может характеризоваться полосой частот телефонной линии, составляющей от 300 до 3400 Гц, с частотой дискретизации 8 кГц. В этих вариантах осуществления настоящего изобретения устройство 303 для расширения полосы частот может преобразовать входной звуковой сигнал в широкополосный звуковой сигнал с частотой дискретизации, составляющей 16 кГц, и с диапазоном частот, который может превышать диапазон частот входного сигнала.
Следует принимать во внимание, что в данном случае термин «верхний диапазон» может означать расширенные частотные компоненты, генерированные устройством 303 для расширения полосы.
Для того чтобы лучше понять суть изобретения, далее более подробно описывается функционирование устройства 303 для расширения полосы частот со ссылкой на алгоритм, показанный на фиг.8.
В некоторых вариантах осуществления устройство 303 для расширения полосы частот звукового сигнала содержит сборщик 403 кадров.
Вход 401 в некоторых вариантах осуществления подключается к сборщику 403 кадров, с помощью которого входной звуковой сигнал (называемый также потоком выборок звукового сигнала) разделяется и объединяется в непрерывную последовательность звуковых кадров.
В некоторых вариантах осуществления настоящего изобретения количество выборок звукового сигнала, объединяемых в кадр, может зависеть от частоты дискретизации входного звукового сигнала.
Например, в некоторых вариантах осуществления настоящего изобретения частота дискретизации входного звукового сигнала 304 может составлять 8 кГц. В таких вариантах осуществления сборщик 403 кадров может настраиваться для разделения входного звукового сигнала на множество звуковых кадров, каждый из которых занимает временной интервал, равный 12 мс. Другими словами, в таком варианте осуществления настоящего изобретения каждый звуковой кадр сод