Системы, способы и устройство для широкополосного кодирования и декодирования активных кадров
Иллюстрации
Показать всеИзобретение относится к обработке речевых сигналов. Описаны применения методик понизить-и-пакетировать к кодированию широкополосных речевых сигналов. Также описывается реконструкция части кадра более высокого диапазона широкополосного речевого сигнала, используя информацию от предыдущего кадра. Технический результат - улучшение разборчивости речи путем расширения диапазона, поддерживаемого речевым кодером, до более высоких частот. 4 н. и 8 з.п. ф-лы, 46 ил.
Реферат
Связанные заявки
Настоящая заявка испрашивает приоритет предварительной заявки на патент США №60/834,683, поданной 31 июля 2006 и названной "DIM AND BURST SIGNALLING FOR 4GV WIDEBAND". Настоящая заявка также относится к заявке на патент США №11/830,842, номер в реестре поверенного 061658, поданной 30 июля 2007 и названной "SYSTEMS, METHODS, AND APPARATUS FOR WIDEBAND ENCODING AND DECODING OF INACTIVE FRAMES".
Область техники
Настоящая заявка относится к обработке речевых сигналов.
Уровень техники
Передача голоса цифровыми методиками стала широко распространенной, особенно в междугородной телефонии, телефонии с пакетной коммутацией, такой как речь по IP (также названной VoIP, где IP обозначает Интернет-протокол), и цифровой радиотелефонной связи, такой как сотовая телефонная связь. Такой быстрый рост вызвал интерес к сокращению объема информации, используемой для передачи речевой связи по каналу передачи, в то же время поддерживая воспринимаемое качество восстановленной речи.
Устройства, которые конфигурируются для сжатия речи посредством извлечения параметров, которые относятся к модели генерации человеческой речи, называют «речевыми кодерами». Речевой кодер (также называемый речевым кодеком или вокодером) обычно включает в себя речевой кодер и речевой декодер. Речевой кодер обычно разделяет входящий речевой сигнал (цифровой сигнал, представляющий аудиоинформацию) на сегменты времени, названные "кадрами", анализирует каждый кадр, чтобы извлечь некоторые релевантные параметры, и квантует параметры в закодированный кадр. Кодированные кадры передаются по каналу передачи (то есть проводному или беспроводному сетевому соединению) на приемник, который включает в себя речевой декодер. Речевой декодер принимает и обрабатывает кодированные кадры, деквантует их, чтобы получить параметры, и заново создает речевые кадры, используя эти деквантованные параметры.
Речевые кодеры обычно конфигурируются так, чтобы отличать кадры речевого сигнала, которые содержат речь ("активные кадры") от кадров речевого сигнала, которые содержат только тишину (молчание) или фоновый шум ("неактивные кадры"). Речевой кодер может быть конфигурирован так, чтобы использовать различные режимы и/или скорости кодирования, чтобы кодировать активные и неактивные кадры. Например, речевые кодеры обычно конфигурируются для использования меньше битов для кодирования неактивного кадра, чем кодирования активного кадра. Речевой кодер может использовать более низкую скорость передачи в битах для неактивных кадров, и/или различные скорости передачи в битах для различных типов активных кадров, чтобы поддерживать передачу речевого сигнала с более низкой средней скоростью передачи в битах с от малой до не воспринимаемой потерей качества.
Речевая связь по коммутируемой телефонной сети общего пользования (PSTN) была традиционно ограничена по ширине полосы частот частотными диапазонами 300-3400 килогерц (кГц). Более недавние сети для речевой связи, такие как сети, которые используют сотовую телефонную связь и/или VoIP, могут не иметь тех же самых пределов ширины полосы частот, и может быть желательно для устройства, использующего такие сети, иметь способность передавать и принимать речевые сигналы, которые включают в себя широкополосный частотный диапазон. Например, для такого устройства может быть желательно поддерживать диапазон аудиочастот, который опускается вниз до 50 Гц и/или до 7 или 8 кГц. Может также быть желательно для такого устройства поддерживать другие приложения, такие как высококачественное аудио или аудио/видео конференцию, доставка мультимедийных услуг, таких как музыка и/или телевидение, и т.д., которые могут иметь речевой аудио контент в диапазонах вне традиционных пределов PSTN.
Расширение диапазона, поддерживаемого речевым кодером, до более высоких частот, может улучшить разборчивость (речи). Например, информация в речевом сигнале, которая дифференцирует фрикативные звуки, такие как 's' и 'f', находится в значительной степени в высоких частотах. Расширение в более высокие частоты может также улучшить другие качества декодированного речевого сигнала, такие как присутствие. Например, даже произнесенная гласная может иметь спектральную энергию намного выше частотного диапазона PSTN.
Сущность изобретения
Способ обработки речевого сигнала согласно конфигурации включает в себя формирование, на основании первого активного кадра речевого сигнала, первого речевого пакета, который включает в себя описание спектральной огибающей по (A) первому диапазону частот и (B) второму диапазону частот, который располагается выше первого диапазона частот, части речевого сигнала, которая включает в себя первый активный кадр. Этот способ также включает в себя формирование, на основании второго активного кадра речевого сигнала, второго речевого пакета, который включает в себя описание спектральной огибающей, по первому диапазону частот, части речевого сигнала, которая включает в себя второй активный кадр. В этом способе второй речевой пакет не включает в себя описание спектральной огибающей по второму диапазону частот.
Речевой кодер согласно другой конфигурации включает в себя кодер пакетов и форматер (средство форматирования) кадра. Кодер пакетов конфигурируется для формирования, на основании первого активного кадра речевого сигнала и в ответ на первое состояние сигнала управления скоростью передачи, первого речевого пакета, который включает в себя описание спектральной огибающей по (1) первому диапазону частот и (2) второму диапазону частот, который располагается выше первого диапазона частот. Кодер пакетов также конфигурируется для формирования, на основании второго активного кадра речевого сигнала и в ответ на второе состояние сигнала управления скоростью передачи, отличное от первого состояния, второго речевого пакета, который включает в себя описание спектральной огибающей по первому диапазону частот. Форматер кадра выполнен с возможностью принимать первый и второй речевые пакеты. Форматер кадра конфигурируется для формирования, в ответ на первое состояние сигнала управления «понижением», первого кодированного кадра, который содержит этот первый речевой пакет. Форматер кадра также конфигурируется, чтобы сформировать, в ответ на второе состояние сигнала управления «понижением», отличное от первого состояния, второй закодированный кадр, который содержит второй речевой пакет и пачку информационного сигнала, который является отдельным от речевого сигнала. В этом кодере первый и второй кодированные кадры имеют одинаковую длину, при этом первый речевой пакет занимает по меньшей мере восемьдесят процентов первого закодированного кадра, второй речевой пакет занимает не больше чем половину второго кодированного кадра, и второй активный кадр начинается сразу после первого активного кадра в речевом сигнале.
Способ обработки речевых пакетов согласно другой конфигурации включает в себя получение, на основании информации из первого речевого пакета из кодированного речевого сигнала, описания спектральной огибающей первого кадра речевого сигнала по (A) первому диапазону частот и (B) второму диапазону частот, отличному от первого диапазона частот. Этот способ также включает в себя получение, на основании информации из второго речевого пакета из кодируемого речевого сигнала, описания спектральной огибающей второго кадра речевого сигнала по первому диапазону частот. Этот способ также включает в себя получение, на основании информации от первого речевого пакета, описания спектральной огибающей второго кадра по второму диапазону частот. Этот способ также включает в себя получение, на основании информации из второго речевого пакета, информации, относящейся к компоненту основного тона второго кадра для первого диапазона частот.
Речевой декодер согласно другой конфигурации конфигурируется так, чтобы вычислять декодированный речевой сигнал, основанный на кодируемом речевом сообщении. Этот речевой декодер включает в себя логику управления и декодер пакетов. Логика управления конфигурируется, чтобы сгенерировать сигнал управления, содержащий последовательность значений, которая основана на кодировании индексов речевых пакетов из кодированного речевого сигнала, причем каждое значение последовательности соответствует периоду кадра декодированного речевого сигнала. Декодер пакетов конфигурируется, чтобы вычислять, в ответ на значение сигнала управления, имеющего первое состояние, соответствующего декодированного кадра на основании описания спектральной огибающей декодированного кадра по (1) первому диапазону частот и (2) второму диапазону частот, который располагается выше первого диапазона частот, причем описание основано на информации из речевого пакета из кодированного речевого сигнала. Декодер пакетов также конфигурируется, чтобы вычислять, в ответ на значение сигнала управления, имеющего второе состояние, отличное от первого состояния, соответствующего декодированного кадра, на основании (1) описания спектральной огибающей декодированного кадра по первому диапазону частот, причем это описание основано на информации из речевого пакета из кодируемого речевого сигнала, и (2) описания спектральной огибающей декодированного кадра по второму диапазону частот, причем это описание основано на информации по меньшей мере из одного речевого пакета, который имеется в кодируемом речевом сообщении перед этим речевым пакетом.
Краткое описание чертежей
Фиг.1 показывает схему системы беспроводного телефона, которая сопряжена с PSTN.
Фиг.2 иллюстрирует диаграмму системы беспроводного телефона, которая сопряжена с Интернетом.
Фиг.3 иллюстрирует блок-схему двух пар кодера/декодера речи.
Фиг.4 иллюстрирует один пример дерева решений, которое речевой кодер или способ кодирования речи могут использовать для выбора скорости передачи в битах.
Фиг.5А иллюстрирует график трапециевидной функции вырезания окна, которая может быть использована для вычисления значения формы (сигнала) усиления.
Фиг.5B показывает применение функции вырезания окна согласно Фиг.6A к каждому из пяти подкадров кадра.
Фиг.6A показывает один пример схемы неперекрывающихся диапазонов частот, которая может использоваться кодером с разбиением диапазона, чтобы закодировать широкополосный речевой контент.
Фиг.6B показывает один пример схемы перекрывающихся диапазонов частот, которая может использоваться кодером с разбиением диапазона, чтобы закодировать широкополосный речевой контент.
Фиг.7A-7C показывают три различных формата для 192-битного кодированного кадра.
Фиг.8A иллюстрирует блок-схему для способа M110 согласно общей конфигурации.
Фиг.8B иллюстрирует блок-схему для реализации M110 способа M100.
Фиг.9 иллюстрирует операцию кодирования двух последовательных активных кадров речевого сигнала, используя реализацию способа M100.
Фиг.10 иллюстрирует работу задач T100 и T120 способа M100.
Фиг.11 иллюстрирует операции по реализации задачи T112 и задачи T120 способа M110.
Фиг.12 иллюстрирует таблицу, которая показывает один набор из четырех различных схем кодирования, который может использовать речевой кодер, сконфигурированный для выполнения реализации способа M100.
Фиг.13 - таблица, описывающая распределения битов 171-битового широкополосного пакета FCELP.
Фиг.14 - таблица, описывающая распределения битов 80-битового узкополосного пакета HCELP.
Фиг.15A показывает блок-схему речевого кодера 100 согласно общей конфигурации.
Фиг.15B показывает блок-схему реализации 122 кодера 120 пакетов.
Фиг.15C показывает блок-схему реализации 142 вычислителя 140 описания спектральной огибающей.
Фиг.16A показывает блок-схему реализации 124 кодера 122 пакетов.
Фиг.16B показывает блок-схему реализации 154 вычислителя 152 описания временной информации.
Фиг.17A показывает блок-схему реализации 102 речевого кодера 100, который конфигурируется, чтобы кодировать широкополосный речевой сигнал согласно схеме кодирования с разбиением диапазона.
Фиг.17B показывает блок-схему реализации 128 кодера 126 пакетов.
Фиг.18A показывает блок-схему реализации 129 кодера 126 пакетов.
Фиг.18B показывает блок-схему реализации 158 вычислителя 156 временного описания.
Фиг.19A показывает блок-схему способа M200 согласно общей конфигурации.
Фиг.19B показывает блок-схему реализации M220 способа M200.
Фиг.19C показывает блок-схему реализации M230 способа M200.
Фиг.20 иллюстрирует применение способа M200.
Фиг.21 иллюстрирует соотношение между способами M100 и M200.
Фиг.22 иллюстрирует применение реализации M210 способа M200.
Фиг.23 иллюстрирует применение способа M220.
Фиг.24 иллюстрирует применение способа M230.
Фиг.25 иллюстрирует применение реализации M240 способа M200.
Фиг.26A показывает блок-схему речевого декодера 200 согласно общей конфигурации.
Фиг.26B показывает блок-схему реализации 202 речевого декодера 200.
Фиг.26C показывает блок-схему реализации 204 речевого декодера 200.
Фиг.27A показывает блок-схему реализации 232 первого модуля 230.
Фиг.27B показывает блок-схему реализации 272 декодера 270 описания спектральной огибающей.
Фиг.28A показывает блок-схему реализации 242 второго модуля 240.
Фиг.28B показывает блок-схему реализации 244 второго модуля 240.
Фиг.28C показывает блок-схему реализации 246 второго модуля 242.
В чертежах и сопроводительном описании одни и те же ссылочные позиции относятся к одним и тем же или аналогичным элементам или сигналам.
Подробное описание
Конфигурации, описанные ниже, принадлежат системе радиотелефонной связи, сконфигурированной для использования эфирного интерфейса CDMA. Однако специалистам в данной области техники понятно, что способ и устройство, имеющие признаки, которые описаны в настоящем описании, могут принадлежать любой из различных систем связи, использующих широкий диапазон технологий, известных специалистам, например, системы, использующие (протокол) Речь по IP (VoIP) по проводному и/или беспроводному (например, CDMA, TDMA, FDMA, и/или TD-SCDMA) каналам передачи. Явно рассматривается и тем самым раскрыто, что такие конфигурации могут быть адаптированы для использования в сетях с пакетной коммутацией (например, проводных и/или беспроводных сетях, способных передавать сигналы речи согласно протоколам, таким как VoIP) и/или с коммутацией каналов.
Конфигурации, описанные здесь, могут быть применены в широкополосной системе кодирования речи, чтобы поддержать понижение активных кадров. Например, такие конфигурации могут быть применены для поддержки использования методик понизить-и-пакетировать для того, чтобы передать сигнализацию и/или трафик вторичной информации в широкополосной системе кодирования речи.
Если явно не ограничен своим контекстом, термин "вычисление" используется здесь, чтобы указать любое из его обычных значений, таких как вычисление, оценка, формирование и/или выбор из ряда значений. Если явно не ограничен своим контекстом, термин "получение" используется для указания любого из его обычных значений, таких как вычисление, выведение, прием (например, от внешнего устройства) и/или извлечение (например, из массива элементов памяти). Где термин "содержащий" используется в настоящем описании и формуле изобретения, он не исключает другие элементы или операции. Термин "A основан на В" используется для указания любого из его обычных значений, включая случаи (i) "A основано на по меньшей мере В", и (ii) "A равно В" (если приемлемо в конкретном контексте).
Если не указано иначе, любое раскрытие речевого кодера, имеющее конкретный признак, также явно предназначено для раскрытия способа кодирования речи, имеющего аналогичный признак (и наоборот), и любое раскрытие речевого кодера согласно конкретной конфигурации также явно предназначено для раскрытия способа кодирования речи согласно аналогичной конфигурации (и наоборот). Если не указано иначе, любое раскрытие речевого декодера, имеющего конкретный признак, также явно предназначено для раскрытия способа декодирования речи, имеющего аналогичный признак (и наоборот), и любое раскрытие речевого декодера согласно конкретной конфигурации также явно предназначено для раскрытия способа декодирования речи согласно аналогичной конфигурации (и наоборот).
Как проиллюстрировано на Фиг.1, система беспроводного телефона CDMA обычно включает в себя множество модулей 10 мобильного абонента, сконфигурированных, чтобы обмениваться беспроводным образом с сетью радиодоступа, которая включает в себя множество базовых станций 12 и один или более контроллеров 14 базовых станций (BSC, КБС). Такая система также обычно включает в себя центр коммутации мобильной связи (MSC, ЦКМС) 16, подсоединенный к контроллерам 14 базовых станций, и который сконфигурирован, чтобы связать с помощью интерфейса сеть радиодоступа с обычной коммутируемой телефонной сетью общего пользования (PSTN) 18 (возможно через медиа-шлюз). Контроллеры BSC 14 базовых станций подсоединяются к базовым станциям 12 через линии с обратным соединением. Линии с обратным соединением могут быть конфигурированы, чтобы поддерживать любой из нескольких известных интерфейсов, включая, например, El/Tl, ATM, IP, PPP, Frame Relay, HDSL, ADSL, или xDSL.
Каждая базовая станция 12 предпочтительно включает в себя по меньшей мере один сектор (не показан), причем каждый сектор содержит всенаправленную антенну или антенну, направленную в конкретном направлении радиально от базовой станции 12. Альтернативно, каждый сектор может содержать две антенны для разнесенного приема. Каждая базовая станция 12 может быть предпочтительно предназначена, чтобы поддерживать множество назначений частот. Пересечение сектора и назначения частот может быть названо как канал CDMA. Базовые станции 12 могут быть также известны как подсистемы приемопередатчика базовой станции (BTS, ППБС) 12. Альтернативно, "базовая станция" может использоваться в промышленности, чтобы ссылаться вместе на BSC 14 и одну или более BTS 12. BTS 12 могут быть также обозначены как "ячейки" 12. Альтернативно, индивидуальные сектора данной BTS 12 могут называться как ячейки. Модули 10 мобильного абонента обычно являются сотовыми телефонами или телефонами системы 10 персональной мобильной связи. Такая система может быть конфигурирована для использования в соответствии с одной или более версиями стандарта IS-95 (например, IS-95, IS-95A, IS-95B, cdma2000; как опубликовано Telecommunications Industry Alliance, Arlington, VA).
Во время обычной работы системы мобильных телефонов базовые станции 12 принимают наборы сигналов обратной линии связи от наборов модулей 10 мобильного абонента. Модули 10 мобильного абонента передают телефонные вызовы или другие сигналы. Каждый сигнал обратной линии связи, принятый данной базовой станцией 12, обрабатывается в этой базовой станции 12. Результирующие данные направляются к контроллерам BSC 14. Контроллеры BSC 14 обеспечивают распределение ресурсов вызова и функциональные возможности управления мобильностью, включая гармоничное сочетание мягких передач обслуживания между базовыми станциями 12. Контроллеры BSC 14 также маршрутизируют принятые данные к MSC 16, который оказывает дополнительные услуги маршрутизации для интерфейса с PSTN 18. Точно так же PSTN 18 сопрягается с MSC 16, и MSC 16 сопрягается с контроллерами BSC 14, которые в свою очередь управляют базовыми станциями 12 для передачи наборов сигналов прямой линии связи к наборам модулей 10 мобильного абонента.
Элементы сотовой системы телефонной связи, как показано на Фиг.1, могут также быть конфигурированы, чтобы поддерживать передачи данных с коммутацией пакетов. Как показано на Фиг.2, трафик пакетных данных обычно маршрутизируется между модулями 10 мобильного абонента и внешней сетью передачи данных (например, сетью общего пользования, такой как Интернет), используя узел обслуживания пакетных данных (PDSN), который соединяется с маршрутизатором шлюза, соединенным с сетью передачи данных. PDSN в свою очередь маршрутизирует данные к одному или более функциональным блокам управления пакетами (БУП, PCF), каждый из которых обслуживает один или более BSC и действует как линия связи между сетью передачи данных и сетью радиодоступа. Такая система может быть конфигурирована, чтобы передавать телефонный вызов или другую коммуникационную информацию в качестве трафика пакетных данных между модулями мобильного абонента по различным сетям радиодоступа (например, посредством одного или более протоколов, таких как VoIP), даже без входа в PSTN.
Фиг.3A показывает первый речевой кодер 30a, который выполнен с возможностью принимать оцифрованный речевой сигнал s1(n) и кодировать сигнал для передачи по коммуникационному каналу 50 (например, по среде передачи) на первый речевой декодер 40a. Первый речевой декодер 40a выполнен с возможностью декодировать кодированный речевой сигнал и синтезировать выходной речевой сигнал ssynth1(n) Фиг.3B показывает второй речевой кодер 30b, выполненный с возможностью кодировать оцифрованный речевой сигнал s2(n) для передачи в противоположном направлении по коммуникационному каналу 60 (например, по той же самой или отличной среде передачи) на второй речевой декодер 40b. Речевой декодер 40b выполнен с возможностью декодировать этот кодированный речевой сигнал, генерируя синтезированный выходной речевой сигнал ssynth2(n). Первый речевой кодер 30a и второй речевой декодер 40b (точно так же второй речевой кодер 30b и первый речевой декодер 40a) могут использоваться вместе в любом устройстве связи для передачи и приема речевых сигналов, включая, например, абонентские блоки, BTS или BSC, описанные выше со ссылками на Фиг.1 и 2.
Речевые сигналы s1(n), и s2(n) представляют аналоговые сигналы, которые были оцифрованы и квантованы в соответствии с любым из различных способов, известных в технике, таким как импульсно-кодовая модуляция (ИКМ), компандированный mu-закон, или A-закон. Как известно в уровне техники, речевой кодер принимает цифровые выборки речевого сигнала в качестве кадров входных данных, причем каждый кадр содержит заранее определенное количество выборок. Кадры речевого сигнала обычно являются короткими, достаточными для того, что спектральная огибающая сигнала, как можно ожидать, останется относительно постоянной по кадру. Одна типичная длина кадра составляет двадцать миллисекунд, хотя может использоваться любая длина кадра, которую считают подходящей для конкретного применения. Длина кадра в двадцать миллисекунд соответствует 140 выборкам при частоте дискретизации семь килогерц (кГц), 160 выборок при частоте дискретизации восемь кГц, и 320 выборок при частоте дискретизации 16 кГц, хотя может использоваться любая частота дискретизации считала, подходящая для конкретного применения. Другой пример частоты дискретизации, которая может использоваться для кодирования речи, составляет 12,8 кГц, и другие примеры включают в себя другие скорости в диапазоне от 12,8 кГц до 38,4 кГц.
Обычно все кадры речевого сигнала имеют одну и ту же длину, и одинаковая длина кадра предполагается в конкретных примерах, описанных в настоящем описании. Однако также явно рассматривается и тем самым раскрыто, что могут использоваться неодинаковые длины кадра. В некоторых применениях кадры не перекрываются, в то время как в других применениях используется схема перекрывающихся кадров. Например, для речевого кодера обычно использовать схему перекрывающихся кадров в кодере и схему не перекрывающихся кадров в декодере. Также можно для кодера использовать различные схемы кадра для различных задач. Например, речевой кодер или способ кодирования речи могут использовать одну схему перекрывающихся кадров для кодирования описания спектральной огибающей кадра и отличную схему перекрывающихся кадров для кодирования описания временной информации этого кадра.
Может быть желательно конфигурировать речевой кодер, чтобы использовать различные скорости передачи в битах для кодирования активных кадров и неактивных кадров. Может быть также желательно для речевого кодера использовать различные скорости передачи в битах для кодирования различных типов активных кадров. В таких случаях более низкие скорости передачи в битах могут выборочно использоваться для кадров, содержащих относительно меньше речевой информации. Примеры скоростей передачи в битах, обычно используемых для кодирования активных кадров, включают в себя 171 бит на кадр, восемьдесят битов на кадр и сорок битов на кадр; и примеры скоростей передачи в битах, обычно используемых для кодирования неактивных кадров, включают в себя шестнадцать битов на кадр. В контексте сотовых систем телефонной связи (особенно системы, которые совместимы с Промежуточным Стандартом (IS)-95, как провозглашено Telecommunications Industry Association, Arlington, VA, или аналогичным отраслевым стандартом), эти четыре скорости передачи в битах также называют "полная скорость", "половинная скорость", "чертвертная скорость" и "одна восьмая скорости" соответственно.
Может быть желательно классифицировать каждый из активных кадров речевого сигнала как один из нескольких различных типов. Эти различные типы могут включать в себя кадры произнесенной (озвученной) речи (например, речь, представляющая гласный звук), переходные кадры (например, кадры, которые представляют начало или конец слова), и кадры непроизнесенной (неозвученной) речи (например, речь, представляющая фрикативный звук). Может быть желательно конфигурировать речевой кодер, чтобы использовать различные режимы кодирования для кодирования различных типов речевых кадров. Например, кадры озвученной речи имеют тенденцию иметь периодическую структуру, которая является долговременной (то есть, который продолжается больше одного периода кадра), и относится к основному тону, и обычно более эффективно кодировать озвученный кадр (или последовательность озвученных кадров), используя режим кодирования, который кодирует описание этой долговременной спектральной особенности. Примеры таких режимов кодирования включают в себя линейное предсказание с кодовым возбуждением (CELP) и период основного тона прототипа (PPP). Неозвученные кадры и неактивные кадры, с другой стороны, обычно испытывают недостаток в любой существенной долговременной спектральной особенности, и речевой кодер может быть конфигурирован так, чтобы кодировать эти кадры, используя режим кодирования, который не пытается описать такую особенность. Линейное предсказание с возбуждением шумом (NELP) является одним примером такого режима кодирования.
Речевой кодер или способ речевого кодирования могут быть сконфигурированы так, чтобы осуществлять выбор среди различных комбинаций скоростей передачи в битах и режимов кодирования (также называемых "схемами кодирования"). Например, речевой кодер может быть сконфигурирован, чтобы использовать полноскоростную схему CELP для кадров, содержащих озвученную речь и для переходных кадров, полускоростную схему NELP для кадров, содержащих неозвученную речь, и схему с одной восьмой скоростью NELP для неактивных кадров. Альтернативно, такой речевой кодер может быть конфигурирован для использования полноскоростной схемы PPP для кадров, содержащих озвученную речь.
Речевой кодер может также быть конфигурирован, чтобы поддерживать множественные скорости кодирования для одной или более схем кодирования, такие как полноскоростная и полускоростная схемы CELP и/или полноскоростная и четвертьскоростная схема PPP. Кадры в последовательности, которая включает в себя период стабильной озвученной речи, имеют тенденцию быть в значительной степени избыточными, например, так что по меньшей мере некоторые из них могут быть закодированы при меньшей, чем полная, скорости без значимой потери перцепционного качества.
Многосхемные кодеры речи (включая речевые кодеры, которые поддерживают множественные скорости кодирования и/или режимы кодирования) обычно обеспечивают эффективное кодирование речи при низких скоростях передачи в битах. Специалистам понятно, что увеличение числа схем кодирования допускает большую гибкость при выборе схемы кодирования, которая может привести к более низкой средней скорости передачи в битах. Однако увеличение количества схем кодирования соответственно может увеличивать сложность во всей системе. Конкретную комбинацию доступных схем, используемых в любой данной системе, будут диктовать доступные системные ресурсы и конкретная сигнальная среда. Примеры многосхемных способов кодирования описаны, например, в патенте US6,691,084, названном "VARIABLE RATE SPEECH CODING," и в заявке на патент 11/625,788 (Manjunath и другие), названной "ARBITRARY AVERAGE DATA RATES FOR VARIABLE RATE CODERS".
Многосхемный кодер речи обычно включает в себя модуль принятия решения с разомкнутым контуром, который проверяет входной кадр речи и принимает решение относительно того, какую схему кодировании применить к кадру. Этот модуль обычно конфигурируется, чтобы классифицировать кадры как активные или неактивные и может также быть конфигурирован, чтобы классифицировать активный кадр как один из двух или более различных типов, таких как озвученный, не озвученный или переходный. Классификация кадров может быть основана на одной или более особенностях текущего кадра, и/или одном или более предыдущих кадров, таких как полная энергия кадра, энергия кадра в каждом из двух или более различных диапазонов частот, отношение сигнал-шум (SNR), периодичность, и частота пересечения нуля. Такая классификация может включать в себя сравнение значения или величины такого фактора с пороговым значением и/или сравнение величины изменения в таком факторе с пороговым значением.
Фиг.4 иллюстрирует один пример дерева решений, которое модуль принятия решения с разомкнутым контуром может использовать для выбора скорости передачи в битах для кодирования конкретного кадра согласно типу речи, который содержит кадр. В других случаях скорость передачи в битах, выбранная для конкретного кадра, может также зависеть от таких критериев, как требуемая средняя скорость передачи в битах, требуемый шаблон скоростей передачи в битах по последовательности кадров (который может быть использован для поддержки требуемой средней скорости передачи в битах), и/или скорость передачи в битах, выбранная для предыдущего кадра.
Мультисхемный кодер речи может также выполнить решение кодирования с замкнутым контуром, в котором одно или более измерений производительности кодирования получают после полного или частичного кодирования, используя выбранную скорость передачи в битах с разомкнутым контуром. Измерения производительности, которые могут быть рассмотрены в тесте с замкнутым контуром, включают в себя, например, SNR, предсказание с SNR в схемах кодирования, таких как кодер речи PPP, SNR квантования с предсказанием ошибок, SNR фазового квантования, SNR квантования по амплитуде, перцепционный SNR, и нормализованная кросс-корреляция между текущим и прошлым кадрами как мера стационарности. Если измерение производительности падает ниже порогового значения, скорость кодирования и/или режим могут быть изменены на тот, который, как ожидают, даст лучшее качество. Примеры схем классификации с замкнутым контуром, которые могут быть использованы для подтверждения качества кодера речи с переменной скоростью передачи в битах, описаны в заявке на патент США № 09/191,643, «CLOSED-LOOP VARIABLE-RATE MULTIMODE PREDICTIVE SPEECH CODER», поданной 13 ноября 1998, и в патенте US 6330532.
Речевой кодер обычно конфигурируется для кодирования кадра речевого сигнала как речевого пакета, где размер и формат речевого пакета соответствуют конкретной схеме кодирования, выбранной для этого кадра. Речевой пакет обычно содержит набор параметров речи, из которых может быть восстановлен соответствующий кадр речевого сигнала. Этот набор параметров речи обычно включает в себя спектральную информацию, такую как описание распределения энергии в кадре по частотному спектру. Такое распределение энергии также называют "частотной огибающей" или "спектральной огибающей" кадра. Описание спектральной огибающей кадра может иметь различную форму и/или длину в зависимости от конкретной схемы кодирования, используемой для кодирования соответствующего кадра.
Речевой кодер обычно конфигурируется для вычисления описания спектральной огибающей кадра как упорядоченная последовательность значений. В некоторых случаях речевой кодер конфигурируется для вычисления упорядоченной последовательности таким образом, что каждое значение указывает амплитуду или величину сигнала на соответствующей частоте или по соответствующей спектральной области. Один пример такого описания есть упорядоченная последовательность коэффициентов преобразования Фурье.
В других случаях речевой кодер конфигурируется для вычисления описания спектральной огибающей как упорядоченная последовательность значений параметров модели кодирования, например, набор значений коэффициентов анализа кодирования с линейным предсказанием (LPC). Упорядоченная последовательность значений коэффициентов LPC обычно компонуется как один или более векторов, и речевой кодер может быть реализован для вычисления этих значений как коэффициентов фильтра или как коэффициентов отражения. Количество значений коэффициентов в наборе также называют "порядком" анализа LPC, и примеры типичного порядка анализа LPC, который выполняется речевым кодером коммуникационного устройства (такого как мобильный телефон), включают в себя четыре, шесть, восемь, десять, 12, 16, 20, 24, 28, и 32.
Речевой кодер обычно конфигурируется для передачи описания спектральной огибающей через канал передачи в квантованной форме (например, как один или более индексов в соответствующих поисковых таблицах или "кодовых книгах"). Соответственно, может быть желательно для речевого кодера вычислить ряд значений коэффициентов LPC в форме, которая может быть эффективно квантована, например набор значений пар спектральных линий (LSP), линейные спектральные частоты (LSF), иммиттансные спектральные пары (ISP), иммиттансные спектральные частоты (ISF), коэффициенты косинусного преобразования Фурье или области логарифмических соотношений. Речевой кодер может также быть конфигурирован для выполнения других операций, таких как перцепционное взвешивание, в отношении упорядоченной последовательности значений перед преобразованием и/или квантованием.
В некоторых случаях описание спектральной огибающей кадра также включает в себя описание временной информации кадра (например, как в упорядоченной последовательности коэффициентов преобразования Фурье). В других случаях набор параметров речи речевого пакета может также включать в себя описание временной информации кадра. Форма описания временной информации может зависеть от конкретного режима кодирования, используемого для кодирования кадра. Для некоторых режимов кодирования (например, для режима кодирования CELP) описание временной информации может включать в себя описание сигнала возбуждения, который должен быть использован речевым декодером для возбуждения модели LPC (например, как определено в соответствии с описанием спектральной огибающей). Описание сигнала возбуждения обычно проявляется в речевом пакете в квантованной форме (например, как один или более индексов в соответствующих кодовых книгах). Описание временной информации может также включать в себя информацию, относящуюся к по меньшей мере одному компоненту основного тона сигнала возбуждения. Для режима кодирования PPP, например, кодированная временная информация может включать в себя описание прототипа, который должен использоваться речевым декодером, чтобы воспроизвести компонент основного тона сигнала возбуждения. Описание информации, относящейся к компоненту основного тона, обычно проявляется в речевом пакете в квантованной форме (например, как один или более индексов в соответствующих кодовых книгах).
Для других режимов кодирования (например, для режима кодирования NELP) описание временной информации может включать в себя описание временной огибающей кадра (также названной "огибающей энергии" или "огибающей усиления" кадра). Описание временной огибающей может включать в себя значение, которое основано на средней энергии кадра. Такое значение обычно представляется как значение усиления, котор