Кодирование сигнала с использованием кодирования с регуляризацией основных тонов и без регуляризации основных тонов
Иллюстрации
Показать всеИзобретение относится к кодированию аудиосигналов, в частности к кодированию сигнала с использованием кодирования с регуляризацией основных тонов (PR) и без PR. Сущность кодирования состоит в том, что первый кадр аудиосигнала кодируют согласно схеме кодирования с PR, второй кадр, следующий за первым кадром в аудиосигнале, кодируют согласно схеме кодирования без PR. Кодирование первого кадра включает в себя временное модифицирование, на основании сдвига во времени, сегмента первого сигнала, основанного на первом кадре. Временное модифицирование включает в себя одно из (А) временного сдвига сегмента первого кадра согласно сдвигу во времени и (В) изменения шкалы времени сегмента первого сигнала на основании сдвига во времени. Временное модифицирование сегмента первого сигнала включает в себя изменение положения импульса основного тона сегмента относительно другого импульса основного тона первого сигнала. Кодирование второго кадра включает в себя временное модифицирование, на основании сдвига во времени, сегмента второго сигнала, основанного на втором кадре. Временное модифицирование включает в себя одно из (А) временного сдвига сегмента второго кадра согласно сдвигу во времени и (В) изменения шкалы времени сегмента второго сигнала на основании сдвига во времени. Технический результат - повышение воспринимаемого качества аудиосигнала во время переходов между схемами кодирования с PR и без PR в многорежимной системе кодирования аудио. 8 н. и 63 з.п. ф-лы, 44 ил.
Реферат
Настоящая заявка на патент испрашивает приоритет по предварительной заявке № 60/943558, озаглавленной «METHOD AND APPARATUS FOR MODE SELECTION IN A GENERALIZED AUDIO CODING SYSTEM INCLUDING MULTIPLE CODING MODES» («СПОСОБ И УСТРОЙСТВО ДЛЯ ВЫБОРА РЕЖИМА В ОБОБЩЕННОЙ СИСТЕМЕ КОДИРОВАНИЯ АУДИО, ВКЛЮЧАЮЩЕЙ В СЕБЯ МНОГОЧИСЛЕННЫЕ РЕЖИМЫ КОДИРОВАНИЯ»), поданной 13 июня 2007 года, права на которую принадлежат правообладателю данной заявки.
УРОВЕНЬ ТЕХНИКИ
Область техники
Это раскрытие относится к кодированию аудиосигналов.
Уровень техники
Передача аудиоинформации, такой как речь и/или музыка, посредством цифровых технологий стала широко распространенной, в частности, в телефонии дальней связи, телефонии с коммутацией пакетов, такой как передача голоса по IP (также называемая VoIP, где IP обозначает протокол сети Интернет), и цифровой радиотелефонии, такой как сотовая телефония. Такое распространение создало заинтересованность в уменьшении объема информации, используемой для передачи речевых сообщений через канал передачи, наряду с сохранением воспринимаемого качества восстановленного речевого сигнала. Например, желательно сделать эффективным использование имеющейся в распоряжении ширины полосы системы (особенно в системах беспроводной связи). Один из путей для эффективного использования ширины полосы системы состоит в том, чтобы применять технологии сжатия сигнала. Для систем, которые переносят речевые сигналы, технологии сжатия речи (или «кодирования речевого сигнала») широко применяются для этой цели.
Устройства, которые сконфигурированы для сжатия речи посредством извлечения параметров, которые относятся к модели формирования человеческой речи, часто называются аудиокодерами, голосовыми кодерами, кодеками, вокодерами или речевыми кодерами, и в нижеследующем описании эти термины используются взаимозаменяемо. Аудиокодер обычно включает в себя кодер и декодер. Кодер типично принимает цифровой аудиосигнал в качестве последовательности блоков выборок, называемых «кадрами», анализирует каждый кадр для извлечения определенных существенных параметров и квантует параметры для создания соответствующей последовательности кодированных кадров. Кодированные кадры передаются по каналу передачи (то есть проводному или беспроводному сетевому соединению) в приемник, который включает в себя декодер. В качестве альтернативы, кодированный аудиосигнал может сохраняться для повторного извлечения и декодирования в более позднее время. Декодер принимает и обрабатывает кодированные кадры, деквантует их, чтобы сформировать параметры, и воссоздает кадры речевого сигнала с использованием деквантованных параметров.
Линейное предсказание с кодовым возбуждением («CELP») является схемой кодирования, которая пытается подобрать волновой (колебательный) сигнал для исходного аудиосигнала. Может быть желательным кодировать кадры речевого сигнала, особенно вокализованные кадры, с использованием варианта CELP, который назван ослабленным CELP («RCELP»). В схеме кодирования RCELP ограничения подбора волновых сигналов ослаблены. Схема кодирования RCELP является схемой кодирования с регуляризацией основных тонов, в которой изменение между периодами основных тонов сигнала (также называемое «профилем задержки») подвергается регуляризации, обычно посредством изменения относительных положений импульсов основных тонов, чтобы подбирать или аппроксимировать более гладкий синтетический профиль задержки. Регуляризация основных тонов типично обеспечивает возможность кодировать информацию об основных тонах с меньшим количеством битов и малым и даже отсутствующим снижением воспринимаемого качества. Типично, в декодер не передается никакой информации, предписывающей величины регуляризации. Следующие документы описывают системы кодирования, которые включают в себя схему кодирования RCELP: документ C.S0030-0, v3.0, Проекта 2 партнерства третьего поколения («3GPP2»), озаглавленный «Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems» («Вариант услуги вокодера с выбираемым режимом (SMV) для широкополосных систем связи с расширенным спектром»), январь 2004 года (имеющийся в распоряжении в режиме прямого доступа на www.3gpp.org); и документ C.S0014-C, v1.0, 3GPP2, озаглавленный «Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems» («Улучшенный кодек с переменной скоростью кодирования, Варианты 3, 60 и 70 речевой услуги для широкополосной цифровой системы с расширенным спектром»), январь 2007 года (имеющийся в распоряжении в режиме прямого доступа на www.3gpp.org). Другие схемы кодирования для вокализованных кадров, включающие в себя схемы интерполяции волновым сигналом-прототипом («PWI»), такой как период основного тона прототипа («PPP»), также могут быть реализованы в качестве PR (например, как описано в части 4.2.4.3 документа C.S0014-C 3GPP2, указанного ссылкой выше). Обычные диапазоны частоты основного тона для говорящих абонентов-мужчин включают в себя от 50 или 70 до 150 или 200 Гц, а обычные диапазоны частоты основного тона для говорящих абонентов-женщин включают в себя от 120 или 140 до 300 или 400 Гц.
Аудиосвязь по коммутируемой телефонной сети общего пользования («PSTN») традиционно была ограничена по ширине полосы частотным диапазоном 300-3400 килогерц (кГц). Более новые сети для аудиосвязи, такие как сети, которые используют сотовую телефонию и/или VoIP, могут не иметь прежних ограничений ширины полосы, и может быть желательно, чтобы устройство, использующее такие сети, имело возможность передавать и принимать аудиосообщения, которые включают в себя широкополосный частотный диапазон. Например, может быть желательно, чтобы такое устройство поддерживало аудиочастотный диапазон, который тянется вниз до 50 Гц и/или вверх до 7 или 8 кГц. Также может быть желательно, чтобы такое устройство поддерживало другие применения, такие как высококачественное воспроизведение аудио или проведение аудио/видеоконференций, доставка мультимедийных услуг, таких как музыка и/или телевидение, и т.д., которые могут содержать речевой контент в диапазонах вне традиционных ограничений PSTN.
Расширение диапазона, поддерживаемого речевым кодером, до более высоких частот может улучшить разборчивость. Например, информация в речевом сигнале, которая отличает фрикативные звуки, такие как 's' и 'f', в значительной степени находится на высоких частотах. Широкополосное расширение также может улучшить другие качества декодированного речевого сигнала, такие как эффект присутствия. Например, даже вокализованный гласный звук может иметь спектральную энергию гораздо выше частотного диапазона PSTN.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
Способ обработки кадров аудиосигнала согласно общей конфигурации включает в себя кодирование первого кадра аудиосигнала согласно схеме кодирования с регуляризацией основных тонов («PR») и кодирование второго кадра аудиосигнала согласно схеме кодирования без PR. В этом способе второй кадр сопровождает и является следующим за первым кадром в аудиосигнале, а кодирование первого кадра включает в себя временное модифицирование, на основании сдвига во времени, сегмента первого сигнала, который основан на первом кадре, где временное модифицирование включает в себя одно из (A) временного сдвига сегмента первого кадра согласно сдвигу во времени и (B) изменения шкалы времени сегмента первого сигнала на основании сдвига во времени. В этом способе временное модифицирование сегмента первого сигнала включает в себя изменение положения импульса основного тона сегмента относительно другого импульса основного тона первого сигнала. В этом способе кодирование второго кадра включает в себя временное модифицирование, на основании сдвига во времени, сегмента второго сигнала, который основан на втором кадре, где временное модифицирование включает в себя одно из (A) временного сдвига сегмента второго кадра согласно сдвигу во времени и (B) изменения шкалы времени сегмента второго сигнала на основании сдвига во времени. К тому же описаны машиночитаемые носители, содержащие команды для обработки кадров аудиосигнала таким образом, а также устройство и системы для обработки кадров аудиосигнала подобным образом.
Способ обработки кадров аудиосигнала согласно еще одной общей конфигурации включает в себя кодирование первого кадра аудиосигнала согласно первой схеме кодирования и кодирование второго кадра аудиосигнала согласно схеме кодирования с PR. В этом способе второй кадр следует и является следующим за первым кадром в аудиосигнале, а первая схема кодирования является схемой кодирования без PR. В этом способе кодирование первого кадра включает в себя временное модифицирование, на основании первого сдвига во времени, сегмента первого сигнала, который основан на первом кадре, где временное модифицирование включает в себя одно из (A) временного сдвига сегмента первого сигнала согласно первому сдвигу во времени и (B) изменения шкалы времени сегмента первого сигнала на основании первого сдвига во времени. В этом способе кодирование второго кадра включает в себя временное модифицирование, на основании второго сдвига во времени, сегмента второго сигнала, который основан на втором кадре, где временное модифицирование включает в себя одно из (A) временного сдвига сегмента второго сигнала согласно второму сдвигу во времени и (B) изменения шкалы времени сегмента второго сигнала на основании второго сдвига во времени. В этом способе временное модифицирование сегмента второго сигнала включает в себя изменение положения импульса основного тона сегмента относительно другого импульса основного тона второго сигнала, а второй сдвиг во времени основан на информации из подвергнутого временному модифицированию сегмента первого сигнала. К тому же описаны машинно-читаемые носители, содержащие команды для обработки кадров аудиосигнала таким образом, а также устройство и системы для обработки кадров аудиосигнала подобным образом.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Фиг. 1 иллюстрирует пример системы беспроводной телефонной связи.
Фиг. 2 иллюстрирует пример системы сотовой телефонии, которая сконфигурирована для поддержки передачи данных с коммутацией пакетов.
Фиг. 3a иллюстрирует структурную схему системы кодирования, которая включает в себя аудиокодер AE10 и аудиодекодер AD10.
Фиг. 3b иллюстрирует структурную схему пары систем кодирования.
Фиг. 4a иллюстрирует структурную схему многорежимной реализации AE20 аудиокодера AE10.
Фиг. 4b иллюстрирует структурную схему многорежимной реализации AD20 аудиодекодера AD10.
Фиг. 5a иллюстрирует структурную схему реализации AE22 аудиокодера AE20.
Фиг. 5b иллюстрирует структурную схему реализации AE24 аудиокодера AE20.
Фиг. 6a иллюстрирует структурную схему реализации AE25 аудиокодера AE24.
Фиг. 6b иллюстрирует структурную схему реализации AE26 аудиокодера AE20.
Фиг. 7a иллюстрирует блок-схему последовательности операций способа M10 кодирования кадра аудиосигнала.
Фиг. 7b иллюстрирует структурную схему устройства F10, сконфигурированного для кодирования кадра аудиосигнала.
Фиг. 8 иллюстрирует пример остатка до и после изменения масштаба времени по профилю задержки.
Фиг. 9 иллюстрирует пример остатка до и после кусочного модифицирования.
Фиг. 10 иллюстрирует блок-схему последовательности операций способа RM100 кодирования RCELP.
Фиг. 11 иллюстрирует блок-схему последовательности операций реализации RM110 способа RM100 кодирования RCELP.
Фиг. 12a иллюстрирует структурную схему реализации RC100 кодера 34c кадров RCELP.
Фиг. 12b иллюстрирует структурную схему реализации RC110 кодера RC100 RCELP.
Фиг. 12c иллюстрирует структурную схему реализации RC105 кодера RC100 RCELP.
Фиг. 12d иллюстрирует структурную схему реализации RC115 кодера RC110 RCELP.
Фиг. 13 иллюстрирует структурную схему реализации R12 формирователя R10 остатка.
Фиг. 14 иллюстрирует структурную схему устройства для кодирования RCELP, RF100.
Фиг. 15 иллюстрирует блок-схему последовательности операций реализации RM120 способа RM100 кодирования RCELP.
Фиг. 16 иллюстрирует три примера типичной синусоидальной формы окна для схемы кодирования MDCT.
Фиг. 17a иллюстрирует структурную схему реализации ME100 кодера 34d MDCT.
Фиг. 17b иллюстрирует структурную схему реализации ME200 кодера 34d MDCT.
Фиг. 18 иллюстрирует один из примеров технологии оконной обработки, которая является иной, чем технология оконной обработки, проиллюстрированная на фиг. 16.
Фиг. 19a иллюстрирует блок-схему последовательности операций способа M100 обработки кадров аудиосигнала согласно общей конфигурации.
Фиг. 19b иллюстрирует блок-схему последовательности операций способа для реализации T112 этапа T110.
Фиг. 19c иллюстрирует блок-схему последовательности операций способа для реализации T114 этапа T112.
Фиг. 20a иллюстрирует структурную схему реализации ME110 кодера ME100 MDCT.
Фиг. 20b иллюстрирует структурную схему реализации ME210 кодера ME200 MDCT.
Фиг. 21a иллюстрирует структурную схему реализации ME120 кодера ME100 MDCT.
Фиг. 21b иллюстрирует структурную схему реализации ME130 кодера ME100 MDCT.
Фиг. 22 иллюстрирует структурную схему реализации ME140 кодеров ME120 и ME130 MDCT.
Фиг. 23a иллюстрирует блок-схему последовательности операций способа кодирования MDCT, MM100.
Фиг. 23b иллюстрирует структурную схему устройства для кодирования MDCT, MF100.
Фиг. 24a иллюстрирует блок-схему последовательности операций способа M200 обработки кадров аудиосигнала согласно общей конфигурации.
Фиг. 24b иллюстрирует блок-схему последовательности операций способа для реализации T622 этапа T620.
Фиг. 24c иллюстрирует блок-схему последовательности операций способа для реализации T624 этапа T620.
Фиг. 24d иллюстрирует блок-схему последовательности операций способа для реализации T626 этапов T622 и T624.
Фиг. 25a иллюстрирует пример области перекрытия и сложения, которая является следствием применения окон MDCT к следующим друг за другом кадрам аудиосигнала.
Фиг. 25b иллюстрирует пример применения сдвига во времени к последовательности кадров без PR.
Фиг. 26 иллюстрирует структурную схему устройства для аудиосвязи 1108.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ
Системы, способы и устройство, описанные в материалах настоящей заявки, могут использоваться для поддержки повышенного воспринимаемого качества во время переходов между схемами кодирования с PR и без PR в многорежимной системе кодирования аудио, особенно для систем кодирования, которые включают в себя схему кодирования без PR с перекрытием и сложением, такую как схема кодирования с модифицированным дискретным косинусным преобразованием («MDCT»). Конфигурации, описанные ниже, предположительно располагаются в системе связи беспроводной телефонии, сконфигурированной для применения эфирного интерфейса множественного доступа с кодовым разделением («CDMA»). Тем не менее, специалистам в данной области техники было бы понятно, что способ и устройство, имеющие признаки, подобные описанным в материалах настоящей заявки, могут находиться в любой из различных систем связи, применяющих широкий диапазон технологий, известных специалистам в данной области техники, таких как системы, применяющие передачу голоса по IP («VoIP») по проводным и/или беспроводным каналам передачи (например, CDMA, TDMA (множественного доступа с временным разделением), FDMA (множественного доступа с частотным разделением), и/или TD-SCDMA (множественного доступа с синхронизированными режимами временного и кодового разделения).
В настоящей заявке явным образом предусматривается и раскрывается, что конфигурации, раскрытые в материалах заявки, могут быть приспособлены для использования в сетях, которые могут быть сетями с коммутацией пакетов (например, проводных и/или беспроводных сетях, выполненных с возможностью передачи аудио согласно протоколам, таким как VoIP) и/или с коммутацией каналов. Также в настоящей заявке явным образом предусматривается и раскрывается, что конфигурации, раскрытые в материалах заявки, могут быть приспособлены для использования в узкополосных системах кодирования (например, системах, которые кодируют аудиочастотный диапазон около четырех или пяти килогерц) и для использования в широкополосных системах кодирования (например, системах, которые кодируют аудиочастоты больше, чем пять килогерц), в том числе широкополосных системах кодирования с целиковой полосой и широкополосных системах кодирования с расщеплением полосы.
Пока иное не оговаривается явным образом контекстом, термин «сигнал» используется в материалах настоящей заявки для указания любого из его обычных значений, в том числе состояния ячейки памяти (или набора ячеек памяти), которое представлено в проводном, шинном или другом носителе передачи. Если иное не указывается явным образом контекстом, термин «формирование» используется в материалах настоящей заявки для указания любого из его обычных значений, таких как вычисление или создание иным образом. Если иное не указывается явным образом контекстом, термин «расчет» используется в материалах настоящей заявки для указания любого из его обычных значений, таких как вычисление, оценивание, сглаживание и/или выбор из множества значений. Если иное не указывается явным образом контекстом, термин «получение» используется в материалах настоящей заявки для указания любого из его обычных значений, таких как расчет, вывод, прием (например, из внешнего устройства) и/или извлечение (например, из массива элементов запоминающего устройства). В тех случаях, когда термин «содержащий» используется в настоящем описании и формуле изобретения, он не исключает другие элементы или операции. Выражение «A основано на B» используется для указания любого из его обычных значений, в том числе случаев (i) «A основано на по меньшей мере B» и (ii) «A равно B» (если уместно в конкретном контексте).
Пока не указан иной образ действий, любое раскрытие работы устройства, имеющего конкретный признак, также явным образом подразумевается как раскрытие способа, имеющего аналогичный признак (и наоборот), а любое раскрытие работы устройства согласно конкретной конфигурации также явным образом подразумевается как раскрытие способа согласно аналогичной конфигурации (и наоборот). Например, пока не указан иной образ действий, любое раскрытие аудиокодера, имеющего конкретный признак, также явным образом подразумевается как раскрытие способа кодирования аудио, имеющего аналогичный признак (и наоборот), и любое раскрытие аудиокодера согласно конкретной конфигурации также явным образом подразумевается как раскрытие способа кодирования аудио согласно аналогичной конфигурации (и наоборот).
Любое включение в состав посредством ссылки на часть документа также должно пониматься как включение в состав определений терминов или переменных, которые указываются ссылкой в этой части, в независимости от того, где такие определения появляются в настоящем документе.
Термины «кодер», «кодек» и «система кодирования» взаимозаменяемо используются для обозначения системы, которая включает в себя по меньшей мере один кодер, сконфигурированный для приема кадра аудиосигнала (возможно, после одной или более операций предварительной обработки, таких как перцепционное (воспринимаемое) взвешивание и/или другая операция фильтрации), и соответствующий декодер, сконфигурированный для создания декодированного представления кадра.
Как проиллюстрировано на фиг. 1, система беспроводной телефонной связи (например, система CDMA, TDMA, FDMA и/или TD-SCDMA) обычно включает в себя множество мобильных абонентских узлов 10, сконфигурированных для поддержания связи беспроводным образом с сетью радиодоступа, которая включает в себя множество базовых станций 12 (BS) и один или более контроллеров 14 базовых станций (BSC). Такая система также обычно включает в себя центр 16 коммутации мобильной связи (MSC), присоединенный к BSC 14, который сконфигурирован для взаимодействия сети радиодоступа с традиционной коммутируемой телефонной сетью 18 общего пользования (PSTN). Чтобы поддерживать такой интерфейс, MSC может включать в себя или иным образом поддерживать связь с медиа-шлюзом, который действует в качестве узла трансляции между сетями. Медиа-шлюз сконфигурирован для осуществления преобразований между разными форматами, такими как технологии передачи и/или кодирования (например, для преобразований между голосовым сигналом, подвергнутым мультиплексированию с временным разделением («TDM») и VoIP сигналом), и также может быть сконфигурирован для выполнения функций потоковой передачи медиа-данных, таких как эхо-подавление, двухтональный многочастотный набор («DTMF») и отправка тонов. BSC 14 присоединены к базовым станциям 12 через линии транзитных соединений. Линии транзитных соединений могут быть сконфигурированы для поддержки любого из некоторых известных интерфейсов, в том числе, например, E1/T1 (высокоскоростных цифровых магистралей 2,048/1,544 Мбит/с), ATM (асинхронного режима передачи), IP (протокола сети Интернет), PPP (протокола двухточечного соединения), Frame Relay (ретрансляции кадров), HDSL (высокоскоростной цифровой абонентской линии), ADSL (асимметричной цифровой абонентской линии), или технологии xDSL. Совокупность базовых станций 12, BSC 14, MSC 16 и медиа-шлюзов, если таковые имеют место, также упоминаются как «инфраструктура».
Каждая из базовых станций 12 может включать в себя один или более секторов, каждый сектор имеет всенаправленную антенну или антенну, направленную в конкретном направлении радиально от базовой станции 12. В качестве альтернативы, каждый сектор может содержать две или более антенн для разнесенного приема. Каждая базовая станция 12 преимущественно может быть предназначена для поддержки множества назначений частот. Пересечение сектора и назначения частоты могут упоминаться как канал CDMA. Базовые станции 12 также могут быть известны как приемопередающие подсистемы 12 базовых станций (BTS). В качестве альтернативы, термин «базовая станция» может использоваться в данной отрасли промышленности, чтобы в собирательном значении указывать на BSC 14 и одну или более BTS 12. BTS 12 также могут обозначаться «узлами сотовой связи» 12. В качестве альтернативы, отдельные секторы данной BTS 12 могут называться узлами сотовой связи. Мобильные абонентские узлы 10 типично включают в себя сотовые телефоны и/или телефоны службы персональной связи («PCS»), персональные цифровые секретари («PDA») и/или другие устройства, обладающие функциональной возможностью мобильного телефона. Такой узел 10 может включать в себя внутренние громкоговоритель и микрофон, проводную телефонную гарнитуру или гарнитуру, которая включает в себя громкоговоритель и микрофон (например, телефонную трубку USB (универсальной последовательной шины)), или беспроводную гарнитуру, которая включает в себя громкоговоритель и микрофон (например, гарнитуру, которая передает аудиоинформацию на узел с использованием варианта протокола Bluetooth, который представляется Консорциумом по технологии Bluetooth, Беллвью, штат Вашингтон). Такая система может быть сконфигурирована для использования в соответствии с одним или более вариантами стандарта IS-95 (например, IS-95, IS-95A, IS-95B, cdma2000; который опубликован Ассоциацией телекоммуникационной промышленности, Арлингтон, штат Вирджиния).
Далее описана типичная работа сотовой телефонной системы. Базовые станции 12 принимают набор сигналов обратной линии связи с набора мобильных абонентских узлов 10. Мобильные абонентские узлы 10 проводят телефонные вызовы или другой обмен информацией. Каждый сигнал обратной линии связи, принятый данной базовой станцией 12, обрабатывается в такой базовой станции 12, а получающиеся, в результате, данные пересылаются в BSC 14. BSC 14 обеспечивает выделение ресурсов вызова и функциональные возможности управления мобильностью, в том числе управление мягкими передачами обслуживания между базовыми станциями 12. BSC 14 также маршрутизируют принимаемые данные в MSC 16, который обеспечивает дополнительные услуги маршрутизации для взаимодействия с PSTN 18. Аналогично, PSTN 18 взаимодействует с MSC 16, а MSC 16 взаимодействует с BSC 14, который, в свою очередь, управляет базовыми станциями 12 для передачи наборов сигналов прямой линии связи на наборы мобильных абонентских узлов 10.
Элементы системы сотовой телефонии, как показано на фиг. 1, также могут быть сконфигурированы для поддержки передачи данных с коммутацией пакетов. Как показано на фиг. 2, поток обмена пакетными данными обычно маршрутизируется между мобильными абонентскими узлами 10 и внешней сетью 24 с коммутацией пакетов (например, сетью общего пользования, такой как сеть Интернет) с использованием узла 22 обслуживания пакетных данных (PDSN), который соединен со шлюзовым маршрутизатором, соединенным с сетью с коммутацией пакетов. PDSN 22, в свою очередь, маршрутизирует данные в одну или более функций 20 управления пакетами (PCF), каждая из которых обслуживает один или более BSC 14 и действует в качестве линии связи между сетью с коммутацией пакетов и сетью радиодоступа. Сеть 24 с коммутацией пакетов также может быть реализована так, чтобы включать в себя локальную сеть («LAN»), университетскую сеть («CAN»), региональную сеть («MAN»), глобальную сеть («WAN»), кольцевую сеть, звездообразную сеть, кольцевую сеть с маркерным доступом и т. д. Терминал пользователя, присоединенный к сети 24, может быть PDA, дорожным компьютером, персональным компьютером, игровым устройством (примеры такого устройства включают в себя XBOX и XBOX 360 (корпорация Майкрософт, Редмонд, штат Вашингтон), Playstation 3 и Playstation Portable (корпорация Сони, Токио, Япония), и Wii и DS (Нинтдендо, Кийото, Япония), и/или любое устройство, имеющее возможность аудиообработки, и может быть сконфигурирован для поддержки телефонного вызова или другой связи с использованием одного или более протоколов, таких как VoIP. Такой терминал может включать в себя внутренние громкоговоритель и микрофон, проводную гарнитуру, которая включает в себя громкоговоритель и микрофон (например, телефонную трубку USB (универсальной последовательной шины)), или беспроводную гарнитуру, которая включает в себя громкоговоритель и микрофон (например, гарнитуру, которая передает звуковую информацию на терминал с использованием варианта протокола Bluetooth, который представляется Консорциумом по технологии Bluetooth, Беллвью, штат Вашингтон). Такая система может быть сконфигурирована для передачи телефонного вызова или другой связи в качестве потока обмена пакетными данными между мобильными абонентскими узлами по разным сетям радиодоступа (например, посредством одного или более протоколов, таких как VoIP), между мобильным абонентским узлом и немобильным терминалом пользователя, или между двумя немобильными терминалами пользователей, без входа в PSTN. Мобильный абонентский узел 10 или другой терминал пользователя также может называться «терминалом доступа».
Фиг. 3a иллюстрирует аудиокодер AE10, который выполнен с возможностью принимать оцифрованный аудиосигнал S100 (например, в виде последовательности кадров) и создавать соответствующий кодированный сигнал S200 (например, в виде последовательности соответствующих кодированных кадров) для передачи по каналу C100 связи (например, проводной, оптической и/или беспроводной линии связи) в аудиодекодер AD10. Аудиодекодер AD10 выполнен с возможностью декодировать принятый вариант S300 кодированного аудиосигнала S200 и синтезировать соответствующий выходной речевой сигнал S400.
Аудиосигнал S100 представляет собой аналоговый сигнал (например, такой,как зафиксированный микрофоном), который был оцифрован и квантован в соответствии с любым из различных способов, известных в данной области техники, таких как импульсно-кодовая модуляция («ИКМ», «PCM»), компадирование с мю-характеристикой, А-характеристикой. Сигнал также может подвергаться другим операциям предварительной обработки в аналоговой и/или цифровой области, таким как подавление шумов, перцепционное взвешивание и/или другие операции фильтрации. Дополнительно или в качестве альтернативы, такие операции могут выполняться в аудиокодере AE10. Экземпляр аудиосигнала S100 также может представлять собой комбинацию аналоговых сигналов (например, как зафиксированные комплектом микрофонов), которые были оцифрованы и квантованы.
Фиг. 3b иллюстрирует первый вариант AE10a аудиокодера AE10, который выполнен с возможностью принимать первый вариант S110 оцифрованного аудиосигнала S100 и создавать соответствующий вариант S210 кодированного сигнала S200 для передачи по первому варианту C110 канала C100 связи в первый вариант AD10a аудиодекодера AD10. Аудиодекодер AD10a выполнен с возможностью декодировать принятый вариант S310 кодированного аудиосигнала S210 и синтезировать соответствующий вариант S410 выходного речевого сигнала S400.
Фиг. 3b также иллюстрирует второй вариант AE10b аудиокодера AE10, который выполнен с возможностью принимать второй вариант S120 оцифрованного аудиосигнала S100 и создавать соответствующий вариант S220 кодированного сигнала S200 для передачи по второму варианту C120 канала C100 связи во второй вариант AD10b аудиодекодера AD10. Аудиодекодер AD10b выполнен с возможностью декодировать принятый вариант S320 кодированного аудиосигнала S220 и синтезировать соответствующий вариант S420 выходного речевого сигнала S400.
Аудиокодер AE10a и аудиодекодер AD10b (аналогично, аудиокодер AE10b и аудиодекодер AD10a) могут использоваться совместно в любом устройстве связи для передачи и приема речевых сигналов, в том числе, например, абонентских узлах, терминалах пользователя, медиа-шлюзах, BTS или BSC, описанных выше со ссылкой на фиг. 1 и 2. Как описано в материалах настоящей заявки, аудиокодер AE10 может быть реализован многими различными способами, и аудиокодеры AE10a и AE10b могут быть вариантами разных реализаций аудиокодера AE10. Аналогично, аудиодекодер AD10 может быть реализован многими разными способами, и аудиодекодеры AD10a и AD10b могут быть вариантами разных реализаций аудиодекодера AD10.
Аудиокодер (например, аудиокодер AE10) обрабатывает цифровые выборки аудиосигнала в качестве последовательности кадров входных данных, при этом каждый кадр содержит предопределенное количество выборок. Эта последовательность обычно реализована в качестве неперекрывающейся последовательности, хотя операция обработки кадра или сегмента кадра (также называемого подкадром) также может включать в себя сегменты одного или более соседних кадров на своем входе. Кадры аудиосигнала типично достаточно коротки, чтобы огибающая спектра сигнала могла предполагаться остающейся относительно постоянной в течение кадра. Кадр типично соответствует от пяти до тридцати пяти миллисекундам аудиосигнала (или приблизительно от сорока до двухсот отсчетам), причем двадцать миллисекунд являются обычным размером кадра для применений в телефонии. Другие примеры обычного размера кадра включают в себя десять и тридцать миллисекунд. Типично, все кадры аудиосигнала имеют одинаковую длину, и постоянная длина кадра предполагается в конкретных примерах, описанных в материалах настоящей заявки. Однако в настоящей заяке также явным образом предусматривается и раскрывается, что могут использоваться и непостоянные длины кадров.
Длина кадра в двадцать миллисекунд соответствует 140 выборкам при частоте выборки в семь килогерц (кГц), 160 выборкам при частоте выборки в восемь кГц (одной из типичных частот выборки для узкополосной системы кодирования), и 320 выборкам при частоте выборки в 16 кГц (одной из типичных частот выборки для широкополосной системы кодирования), хотя может использоваться любая частота выборки, считающаяся пригодной для конкретного применения. Еще одним примером частоты выборки, которая может использоваться для кодирования речевого сигнала, является 12,8 кГц, и дополнительные примеры включают в себя другие частоты в диапазоне от 12,8 кГц до 38,4 кГц.
В типичном сеансе аудиосвязи, таком как телефонный вызов, каждый говорящий абонент молчит приблизительно в течение шестидесяти процентов времени. Аудиокодер для такого применения обычно будет сконфигурирован для проведения различия между кадрами аудиосигналов, которые содержат речь или другую информацию («активных кадров»), и кадрами аудиосигнала, которые содержат только фоновый шум или безмолвие («неактивных кадров»). Может быть желательным реализовать аудиокодер AE10 для использования разных режимов кодирования и/или битовых скоростей для кодирования активных кадров и неактивных кадров. Например, аудиокодер AE10 может быть реализован для использования меньшего количества бит (то есть более низкой битовой скорости) для кодирования неактивного кадра, чем для кодирования активного кадра. Также может быть желательным, чтобы аудиокодер AE10 использовал разные битовые скорости для кодирования разных типов активных кадров. В таких случаях более низкие битовые скорости могут избирательно использоваться для кадров, содержащих в себе относительно меньшее количество речевой информации. Примеры битовых скоростей, обычно используемых для кодирования активных кадров, включают в себя 171 бит на кадр, восемьдесят бит на кадр и сорок бит на кадр; а примеры битовых скоростей, обычно используемых для кодирования неактивных кадров, включают в себя шестнадцать бит на кадр. В контексте систем сотовой телефонии (особенно систем, которые совместимы с временным стандартом (IS)-95, который представляется Ассоциацией телекоммуникационной промышленности, Арлингтон, штат Вирджиния, или подобным промышленным стандартом), эти четыре битовые скорости также обозначаются как «полная скорость», «половинная скорость», «четвертная скорость» и «одна восьмая скорость», соответственно.
Может быть желательным, чтобы аудиокодер AE10 классифицировал каждый активный кадр аудиосигнала в качестве одного из нескольких разных типов. Эти разные типы могут включать в себя кадры вокализованной речи (например, речи, представляющей гласный звук), переходные кадры (например, кадры, которые представляют начало или конец слова), кадры невокализованной речи (например, речи, представляющей фрикативный звук) и кадры неречевой информации (например, музыки, такой как пение и/или музыкальные инструменты, или другой аудио контент). Также может быть желательным реализовать аудиокодер AE10 для использования разных режимов кодирования для кодирования разных типов кадров. Например, кадры вокализованной речи имеют тенденцию иметь периодическую структуру, которая является долговременной (то есть продолжается в течение более чем одного периода кадров) и имеет отношение к основному тону, и типично, эффективнее кодировать вокализованные кадры (или последовательность вокализованных кадров) с использованием режима кодирования, который кодирует описание этого долговременного спектрального признака. Примеры таких режимов кодирования включают в себя линейное предсказание с кодовым возбуждением («CELP»), интерполяцию волновым сигналом-прототипом («PWI») и период основного тона прототипа («PPP»). Невокализованные кадры и неактивные кадры, с другой стороны, обычно не имеют никакого значащего долговременного спектрального признака, и аудиокодер может быть сконфигурирован для кодирования этих кадров с использованием режима кодирования, который не пытается описывать такой признак. Линейное предсказание с шумовым возбуждением («NELP») является одним из примеров такого режима кодирования. Кадры музыки обычно содержат смеси разных тонов, и аудиокодер может быть сконфигурирован для кодирования этих кадров (или остатков операций разложения LPC (кодированием с линейным предсказанием) над этими кадрами) с использованием способа, основанного на синусоидальном разложении, таком как преобразование Фурье или косинусное преобразование. Одним из таких примеров является режим кодирования, основанный на модифицированном дискретном косинусном преобразовании («MDCT»).
Аудиокодер AE10 или соответствующий способ аудио кодирования могут быть реализованы для выбора среди разных комбинаций битовых скоростей и режимов кодирования (также называемых «схемами кодирования»). Например, аудиокодер AE10 может быть реализован для использования схемы CELP полной скорости для кадров, содержащих в себе вокализованную речь и для переходных кадров, схему NELP половинной скорости для кадров, содержащих в себе невокализованную речь, схему NELP с одной восьмой скорости для неактивных кадров и схему MDCT полной скорост