Помехоустойчивая классификация режимов кодирования речи

Иллюстрации

Показать все

Изобретение относится к средствам помехоустойчивой классификации режимов кодирования речи. Технический результат заключается в повышении эффективности классификации режимов речи для повышения эффективности многорежимного кодирования с переменной скоростью передачи данных. Параметры классификации вводятся в классификатор речи из внешних компонентов. Внутренние параметры классификации формируются в классификаторе речи из по меньшей мере одного из входных параметров. Устанавливается пороговое значение нормированной функции коэффициентов автокорреляции. Анализатор параметров выбирается согласно среде распространения сигнала. Классификация режима речи определяется на основании оценки шума многочисленных кадров входной речи. 4 н. и 39 з.п. ф-лы, 11 ил., 6 табл.

Реферат

РОДСТВЕННЫЕ ЗАЯВКИ

Эта заявка является родственной и испрашивает приоритет по предварительной заявке на выдачу патента США под порядковым № 61/489,629, поданной 24 мая 2011 года, в отношении «Помехоустойчивой классификации режимов кодирования речи» («Noise-Robust Speech Coding Mode Classification»).

ОБЛАСТЬ ТЕХНИКИ

Настоящее раскрытие в целом относится к области обработки речи. Конкретнее, раскрытые конфигурации относятся к помехоустойчивой классификации режимов кодирования речи.

УРОВЕНЬ ТЕХНИКИ

Передача голоса посредством цифровых технологий стала широко распространенной, особенно в применениях дальней связи и цифровых радиотелефонных применениях. Это, в свою очередь, породило заинтересованность в определении минимального количества информации, которое может отправляться по каналу наряду с сохранением воспринимаемого качества реконструированной речи. Если речь передается посредством простой выборки отсчетов и преобразования в цифровую форму, скорость передачи данных порядка 64 килобит в секунду (кбит/с) требуется для достижения качества речи традиционного аналогового телефона. Однако благодаря использованию анализа речи, сопровождаемого надлежащими кодированием, передачей и повторного синтеза в приемнике, может достигаться значительное снижение скорости передачи данных. Чем точнее может выполняться анализ речи, тем уместнее могут кодироваться данные, таким образом, снижая скорость передачи данных.

Устройства, которые используют технологии для сжатия речи посредством извлечения параметров, которые относятся к модели генерации речи человеком, называются речевыми кодерами. Речевой кодер делит входящий речевой сигнал на блоки времени или кадры анализа. Речевые кодеры типично содержат кодер и декодер, или кодек. Кодер анализирует входящий речевой кадр, чтобы извлекать определенные значимые параметры, а затем квантует параметры в двоичное представление, то есть в набор битов или пакет двоичных данных. Пакеты данных передаются по каналу связи в приемник и декодер. Декодер обрабатывает пакеты данных, деквантует их, чтобы вырабатывать параметры, а затем повторно синтезирует речевые кадры с использованием деквантованных параметров.

Современные речевые кодеры могут использовать подход многорежимного кодирования, который классифицирует входные кадры на разные типы согласно различным признакам входной речи. Многорежимные кодеры используют классификацию речевого сигала, чтобы точно захватывать и кодировать высокий процент речевых сегментов с использованием минимального количества битов на кадр. Более точная классификация речи порождает более низкую скорость передачи кодированных битов и более высококачественную декодированную речь. Раньше, технологии классификации речи рассматривали минимальное количество параметров только для изолированных кадров речи, вырабатывая немного и неточные классификации режима речи. Таким образом, есть необходимость в классификаторе речи с высокой производительностью для правильной классификации многочисленных режимов речи в меняющихся условиях окружающей среды, для того чтобы обеспечить максимальную производительность технологий многорежимного кодирования с переменной скоростью передачи данных.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Фиг. 1 - структурная схема, иллюстрирующая систему для беспроводной связи;

фиг. 2A - структурная схема, иллюстрирующая систему классификатора, которая может использовать помехоустойчивую классификацию режимов кодирования речи;

фиг. 2B - структурная схема, иллюстрирующая еще одну систему классификатора, которая может использовать помехоустойчивую классификацию режимов кодирования речи;

фиг. 3 - блок-схема последовательности операций способа, иллюстрирующая способ помехоустойчивой классификации речи;

фиг. 4A-4C иллюстрируют конфигурации процесса осуществления выбора режима для помехоустойчивой классификации речи;

фиг. 5 - схема последовательности операций, иллюстрирующая способ для настройки пороговых значений для классификации речи;

фиг. 6 - структурная схема, иллюстрирующая классификатор речи для помехоустойчивой классификации речи;

фиг. 7 - график временной последовательности, иллюстрирующий одну из конфигураций принятого речевого сигнала с ассоциированными значениями параметров и классификациями режимов речи; и

фиг. 8 иллюстрирует некоторые компоненты, которые могут быть включены в электронное устройство/беспроводное устройство.

ПОДРОБНОЕ ОПИСАНИЕ

Функция речевого кодера состоит в том, чтобы сжимать оцифрованный речевой сигнал в сигнал с низкой скоростью передачи битов посредством удаления всех естественных избыточностей, присущих речи. Цифровое сжатие достигается посредством представления входного речевого кадра набором параметров и применения квантования для представления параметров набором битов. Если входной речевой кадр имеет количество Ni битов, а пакет данных, вырабатываемый речевым кодером, имеет количество No битов, коэффициент сжатия, достигаемый речевым кодером, имеет значение Cr=Ni/No. Задача состоит в том, чтобы сохранять высокое качество голоса декодированной речи наряду с достижением целевого коэффициента сжатия. Производительность речевого кодера зависит от (1) того, насколько хороша модель речи, или насколько хорошо работает комбинация последовательности операций анализа и синтеза, описанная выше, и (2) того, насколько хорошо выполняется последовательность операций квантования на целевой скорости передачи битов No битов на кадр. Цель модели речи, таким образом, состоит в том, чтобы зафиксировать отличительные признаки речевого сигнала, или целевое качество голоса, с помощью небольшого набора параметров на каждый кадр.

Речевые кодеры могут быть реализованы в качестве кодеров временной области, которые пытаются захватывать форму речи во временной области, применяя обработку с высоким временным разрешением для кодирования небольших сегментов речи (типично, подкадров по 5 миллисекунд (мс)) во времени. Для каждого подкадра, обнаруживается образец высокой точности из пространства кодового словаря посредством различных алгоритмов поиска. В качестве альтернативы, речевые кодеры могут быть реализованы в качестве кодеров частотной области, которые пытаются захватывать краткосрочный спектр речи входного речевого кадра с набором параметров (аналитическим разложением) и применять соответствующую последовательность операций синтеза для создания формы речи из спектральных параметров. Квантователь параметров сохраняет параметры, представляя их хранимыми представлениями кодовых векторов, в соответствии с технологиями квантования, описанными в А. Гершо и Р. М. Грей, Векторное квантование и сжатие сигналов (1992 год)) (A. Gersho & R.M. Gray, Vector Quantization and Signal Compression (1992)).

Одним из возможных речевых кодеров временной области является кодер для кодирования методом линейного предсказания с кодовым возбуждением (CELP), описанный в Л. Б. Рабинер и Р. В. Шафер, Цифровая обработка речевых сигналов 396-453 (1978 год) (L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals 396-453 (1978)), которая полностью включена в материалы настоящей заявки посредством ссылки. В кодере CELP, краткосрочные корреляции или избыточности в речевом сигнале удаляются посредством анализа линейного предсказания (LP), который находит коэффициенты краткосрочного формантного фильтра. Применение фильтра с краткосрочным предсказанием к входящему речевому кадру формирует остаточный сигнал LP, который дополнительно моделируется и квантуется с помощью параметров фильтра с краткосрочным предсказанием и являющегося результатом стохастического кодового словаря. Таким образом, кодирование CELP делит задачу кодирования формы речи во временной области на отдельные задачи кодирования коэффициентов краткосрочного фильтра LP и кодирования остатка LP. Кодирование во временной области может выполняться с постоянной скоростью (то есть с использованием одного и того же количества битов, N0, для каждого кадра) или с переменной скоростью (при которой разные скорости передачи битов используются для разных типов содержимого кадра). Кодеры переменной скорости пытаются использовать количество битов, необходимых для кодирования параметров кодека только до уровня, достаточного для получения целевого качества. Один из возможных кодеров CELP переменной скорости описан в патенте США под № 5,414,796, который переуступлен правопреемнику раскрытых некоторое время спустя конфигураций и полностью включен в материалы настоящей заявки посредством ссылки.

Кодеры временной области, такие как кодер CELP, типично полагаются на большое количество битов, N0, на каждый кадр, чтобы сохранять точность формы речи во временной области. Такие кодеры типично выдают превосходное качество голоса при условии, что количество битов, N0, на каждый кадр является относительно большим (например, 8 кбит/с или выше). Однако на низких скоростях передачи битов (4 кбит/с и ниже), кодеры временной области перестают удерживать высокое качество и устойчивую производительность вследствие ограниченного количества имеющихся в распоряжении битов. На низких скоростях передачи битов, ограниченное пространство кодового словаря ужимает возможности подгонки формы сигнала традиционных кодеров временной области, которые так успешно применяются в коммерческих применениях с более высокими скоростями.

Типично, схемы CELP применяют фильтр с краткосрочным предсказанием (STP) и фильтр с долгосрочным предсказанием (LTP). Подход анализа через синтез (AbS) применяется в кодере, чтобы находить задержки и коэффициенты усиления LTP, а также наилучшие вероятностные коэффициенты усиления и индексы кодового словаря. Современные кодеры CELP последних достижений, такие как усовершенствованный кодер переменной скорости (EVRC), могут добиваться синтезированного речевого сигала с хорошим качеством на скорости передачи данных приблизительно 8 килобит в секунду.

Более того, невокализованная речь не демонстрирует периодичность. Полоса пропускания, расходуемая при кодировании фильтра LTP в традиционных схемах CELP, используется для невокализованной речи не настолько эффективно, как для вокализованной речи, где периодичность речи сильна, и значима фильтрация LTP. Поэтому, в большей степени эффективная схема кодирования (например, с более низкой скоростью передачи битов) желательна для невокализованной речи. Точная классификация речи необходима для выбора наиболее эффективных схем кодирования и достижения низшей скорости передачи данных.

Для кодирования на более низких скоростях передачи битов, были разработаны различные способы спектрального, или в частотной области, кодирования речи, в которых речевой сигнал анализируется в качестве меняющейся во времени оценки спектров. Например, смотрите Р.Дж. Макаулэй и Т.Ф. Куатиери, Синусоидальное кодирование в кодировании и синтезе речи, гл. 4 (под редакцией В.Б. Клейна и К.К. Паливала, 1995 г.) (R.J. McAulay & T.F. Quatieri, Sinusoidal Coding, in Speech Coding and Synthesis ch. 4 (W.B. Kleijn & K.K. Paliwal eds., 1995)). В спектральных кодерах, цель состоит в том, чтобы моделировать или предсказывать краткосрочный спектр речи каждого входного кадра речи набором спектральных параметров вместо того, чтобы точно копировать меняющуюся во времени форму речи. Спектральные параметры затем кодируется и выходной речевой кадр создается с декодированными параметрами. Получающаяся в результате синтезированная речь не совпадает с исходной формой входной речи, но предлагает подобное воспринимаемое качество. Примеры кодеров частотной области включают в себя кодеры с многополосным возбуждением (MBE), кодеры с синусоидальным преобразованием (STC) и гармонические кодеры (HC). Такие кодеры частотной области предлагают высококачественную параметрическую модель, имеющую компактный набор параметров, которые могут точно квантоваться с низким количеством битов, имеющимся в распоряжении на низких скоростях передачи битов.

Тем не менее, кодирование с низкой скоростью передачи битов устанавливает критический сдерживающий фактор ограниченного разрешения кодирования или ограниченного пространства кодового словаря, которые ограничивают эффективность единого механизма кодирования, создавая кодер, не способный представлять различные типы сегментов речи в различных исходных условиях с равной точностью. Например, традиционные кодеры частотной области с низкой скоростью передачи битов не передают информацию о фазе для речевых кадров. Взамен, информация о фазе реконструируется посредством использования случайного, искусственно сформированного значения начальной фазы и технологий линейной интерполяции. Например, смотрите Х. Янг и др., Квадратичная фазовая интерполяция для синтеза вокализованной речи в модели MBE, в журнале по электронике, 29, стр. 856-57 (Май 1993 г.) (H. Yang et al., Quadratic Phase Interpolation for Voiced Speech Synthesis in the MBE Model, in 29 Electronic Letters 856-57 (May 1993)). Так как информация о фазе формируется искусственно, даже если амплитуды синусоид превосходно сохранены посредством последовательности операций квантования-деквантования, выходная речь, вырабатываемая кодером частотной области не выровнена с исходной входной речью (то есть большинство пульсаций не будут синхронными). Поэтому, оказалось трудным перенять какую-нибудь рабочую характеристику с обратной связью, например, такую как отношение сигнал/шум (SNR) или воспринимаемое SNR, в кодерах частотной области.

Одной из эффективных технологий для эффективного кодирования речи на низкой скорости передачи битов является многорежимное кодирование. Технологии многорежимного кодирования применялись для выполнения кодирования речи низкой скорости вместе с последовательностью операций выбора режима без обратной связи. Одна из таких технологий многорежимного кодирования описана в Амитава Даз и др., Многорежимное кодирование речи с переменной скоростью, в Кодирование и синтез речи, глава 7 (под редакцией В.Б. Клейна и К.К. Паливала, 1995 г.) (Amitava Das et al., Multi-mode and Variable-Rate Coding of Speech, in Speech Coding and Synthesis ch. 7 (W.B. Kleijn & K.K. Paliwal eds., 1995)). Традиционные многорежимные кодеры применяют разные режимы, или алгоритмы кодирования-декодирования, к разным типам входных речевых кадров. Каждый режим, или последовательность операций кодирования-декодирования, настраивается в соответствии с индивидуальными требованиями, чтобы представлять определенный тип сегмента речи, например, такой как вокализованная речь, невокализованная речь или фоновый шум (отсутствие речи) наиболее эффективным образом. Успех таких технологий многорежимного кодирования является сильно зависимым от правильного выбора режимов или классификаций речи. Внешний механизм выбора режима без обратной связи исследует входной речевой кадр и принимает решение касательно того, какой режим применять к кадру. Выбор режима без обратной связи типично выполняется посредством извлечения некоторого количества параметров из входного кадра, оценки параметров в отношении определенных временных и спектральных характеристик, и базирования выбора режима на оценке. Выбор режима, таким образом, осуществляется без заблаговременного знания точного состояния выходной речи, то есть насколько близким будет выходная речь к входной речи с точки зрения качества или других характеристик. Один из возможных выборов режима без обратной связи для речевого кодека описан в патенте США под № 5414796, который переуступлен правопреемнику настоящего изобретения и полностью включен в материалы настоящей заявки посредством ссылки.

Многорежимное кодирование может происходить с постоянной скоростью, используя одинаковое количество битов, N0, для каждого кадра, или с переменной скоростью, при которой разные скорости передачи битов используются для разных режимов. Цель кодирования с переменной скоростью состоит в том, чтобы использовать количество битов, необходимых для кодирования параметров кодека только до уровня, достаточного для получения целевого качества. Как результат, такое же целевое качество голоса, как у кодека постоянной скорости с более высокой скоростью, может получаться на значительно более низкой средней скорости с использованием технологий с переменной скоростью передачи битов (VBR). Один из возможных речевых кодеров переменной скорости описан в патенте США под № 5414796. В настоящее время есть всплеск изыскательского интереса и мощная коммерческая потребность в том, чтобы разработать высококачественный речевой кодер, работающий на от средних до низких скоростях передачи битов (то есть в диапазоне от 2,4 до 4 кбит/с и ниже). Области применения включают в себя беспроводную телефонию, спутниковую связь, интернет-телефонию, различные мультимедийные и применения и применения потоковой передачи голоса, голосовую почту и другие системы хранения голоса. Движущими силами являются необходимость высокой пропускной способности и потребность в надежном функционировании в ситуациях потери пакетов. Различные недавние усилия по стандартизации кодирования речи являются еще одной непосредственной движущей силой, стимулирующей опытно-конструкторские работы по алгоритмам кодирования речи низкой скорости. Речевой кодер низкой скорости создает большее количество каналов, или пользователей, для допустимой прикладной полосы пропускания. Речевой кодер низкой скорости, соединенный с дополнительным уровнем подходящего канального кодирования, может соответствовать общему битовому запасу по техническим условиям кодера и давать устойчивую производительность в условиях ошибок в канале.

Многорежимное кодирование речи VBR поэтому является эффективным механизмом для кодирования речи на низкой битовой скорости. Традиционные многорежимные схемы требуют разработки эффективных схем кодирования, или режимов, для различных сегментов речи (например, невокализованного, вокализованного, переходного), а также режима для фонового шума или молчания. Общая производительность речевого кодера зависит от устойчивости к внешним воздействиям классификации режимов и того, насколько хорошо работает каждый режим. Средняя скорость кодера зависит от скоростей передачи битов разных режимов для невокализованных, вокализованных и других сегментов речи. Для того чтобы добиваться целевого качества на низкой средней скорости, необходимо правильно определять режим речи в меняющихся условиях. Типично, вокализованные и невокализованные сегменты речи захватываются на высоких скоростях передачи битов, а сегменты фонового шума или молчания представляются режимами, работающими на значительно более низкой скорости. Многорежимные кодеры требуют правильной классификации речевого сигала, чтобы точно захватывать и кодировать высокий процент речевых сегментов с использованием минимального количества битов на кадр. Более точная классификация речи порождает более низкую скорость передачи кодированных битов и более высококачественную декодированную речь.

Другими словами, при управляемом источником кодировании с переменной скоростью, производительность этого классификатора кадров определяет среднюю скорость передачи битов на основании признаков входной речи (энергии, вокализованности, спектрального наклона, контура основного тона, и т. д.). Производительность классификатора речи может ухудшаться, когда входная речь искажена шумом. Это может вызывать нежелательные воздействия на качество и скорость передачи битов. Соответственно, способы для выявления присутствия шума и соответственной настройки логики классификации могут использоваться для обеспечения надежной работы в случаях использования в реальных условиях работы. Более того, технологии классификации речи раньше учитывали минимальное количество параметров только для изолированных кадров речи, вырабатывая немного и неточные классификации режимов речи. Таким образом, есть необходимость в классификаторе речи с высокой производительностью для правильной классификации многочисленных режимов речи в меняющихся условиях окружающей среды, для того чтобы обеспечить максимальную производительность технологий многорежимного кодирования с переменной скоростью передачи данных.

Раскрытые конфигурации предусматривают способ и устройство для улучшенной классификации речи в применениях вокодера. Параметры классификации могут анализироваться для создания классификаций речи с относительно высокой точностью. Последовательность операций осуществления выбора используется для классификации речи на основе кадр за кадром. Параметры, выведенные из исходного входной речи, могут использоваться основанным на состоянии принимающим решение, чтобы точно классифицировать различные режимы речи. Каждый кадр речи может классифицироваться посредством анализа прошлых и будущих кадров, а также текущего кадра. Режимы речи, которые могут классифицироваться раскрытыми конфигурациями, содержат по меньшей мере переход, переходы в активную речь и на конце слов, вокализованный, невокализованный и молчание.

Для того чтобы гарантировать устойчивость логики классификации, настоящие системы и способы могут использовать показатель оценки фонового шума по многочисленным кадрам (который типично выдается стандартными расположенными выше по потоку компонентами кодирования речи, такими как детектор голосовой активности) и настраивать логику классификации на основании этого. В качестве альтернативы, SNR может использоваться логикой классификации, если оно включает в себя информацию о более чем одном кадрах, например, если оно усредняется по многочисленным кадрам. Другими словами, любая оценка шума, которая относительно устойчива на протяжении многочисленных кадров, может использоваться логикой классификации. Настройка логики классификации может включать в себя изменение одного или более пороговых значений, используемых для классификации речи. Более точно, энергетический порог для классификации кадра в качестве «невокализованного» может повышаться (отражая высокий уровень кадров «молчания»), пороговое значение вокализованности для классификации кадра в качестве «невокализованного» может повышаться (отражая искажение информации о вокализованности в силу шума), пороговое значение вокализованности для классификации кадра в качестве «вокализованного» может снижаться (вновь отражая искажение информации о вокализованности), или некоторая комбинация этого. В случае, когда шум отсутствует, изменения могут не вноситься в логику классификации. В одной из конфигураций с высоким шумом (например, SNR 20 дБ, типично, низшим SNR, проверяемым при стандартизации речевых кодеков), энергетический порог невокализованного сигнала может повышаться на 10 дБ, пороговое значение вокализованности для невокализованного сигнала может повышаться на 0,06, а пороговое значение вокализованности для вокализованного сигнала может понижаться на 0,2. В этой конфигурации, случаи с промежуточным шумом могут обрабатываться посредством интерполяции между «чистыми» и «шумными» регулировками на основании показателя входного шума или с использованием жесткого порогового значения, установленного для некоторого промежуточного уровня шумов.

Фиг. 1 - структурная схема, иллюстрирующая систему 100 для беспроводной связи В системе 100, первый кодер 110 принимает оцифрованные отсчеты s(n) речи и кодирует отсчеты s(n) для передачи в среде 112 передачи, или канале 112 связи, в первый декодер 114. Декодер 114 декодирует кодированные отсчеты речи и синтезирует выходной речевой сигнал sSYNTH(n). Для передачи в противоположном направлении, второй кодер 116 кодирует оцифрованные отсчеты s(n) речи, которые передаются по каналу 118 связи. Второй декодер 120 принимает и декодирует кодированные отсчеты речи, формируя синтезированный выходной речевой сигнал sSYNTH(n).

Отсчеты речи, s(n), представляют собой речевые сигналы, которые были оцифрованы и квантованы в соответствии с любым из различных способов, в том числе, например, импульсно-кодовой модуляции (PCM), µ-закономерности с компандированием или A-закономерности. В одной из конфигураций, отсчеты речи, s(n), организованы в кадры входных данных, при этом каждый кадр содержит предварительно определенное количество оцифрованных отсчетов s(n) речи. В одной из конфигураций, применяется частота выборки отсчетов 8 кГц, причем, каждый кадр 20 мс содержит 160 отсчетов. В конфигурациях, описанных ниже, скорость передачи данных может меняться, на основе от кадра к кадру, с 8 кбит/с (полной скорости) до 4 кбит/с (половинной скорости), до 2 кбит/с (четвертичной скорости), до 1 кбит/с (восьмеричной скорости). В качестве альтернативы, могут использоваться другие скорости передачи данных. В качестве используемых в материалах настоящей заявки, термины «полная скорость» или «высокая скорость», в целом обозначают скорости передачи данных, которые являются большими чем или равными 8 кбит/с, а термины «половинная скорость» или «низкая скорость» в целом обозначают скорости передачи данных, которые являются меньшими чем или равными 4 кбит/с. Изменение скорости передачи данных является благоприятным, так как более низкие битовые скорости могут избирательно использоваться для кадров, содержащих в себе относительно меньшее количество речевой информации. Несмотря на то, что специфичные скорости описаны в материалах настоящей заявки, любые пригодные частоты выборки отсчетов, размеры кадра и скорости передачи данных могут использоваться с настоящими системами и способами.

Первый кодер 110 и второй декодер 120 вместе могут составлять первый речевой кодер или речевой кодек. Подобным образом, второй кодер 116 и первый декодер 114 вместе составляют второй речевой кодер. Речевые кодеры могут быть реализованы цифровым сигнальным процессором, (DSP), специализированной интегральной схемой (ASIC), дискретной вентильной логикой, встроенными программами или любым традиционным программируемым модулем программного обеспечения или микропроцессором. Модуль программного обеспечения мог бы находиться в памяти RAM, флэш-памяти, регистрах или любой другой форме записываемого запоминающего носителя. В качестве альтернативы, традиционные процессор, контроллер или конечный автомат могли бы быть заменены на микропроцессор. Возможные ASIC, спроектированные специально для кодирования речи, описаны в патентах США под №№ 5727123 и 5784532, переуступленных правопреемнику настоящего изобретения и полностью включены в материалы настоящей заявки посредством ссылки.

В качестве примера, без ограничения, речевой кодер может находиться в беспроводном устройстве связи. В качестве используемого в материалах настоящей заявки, термин «беспроводное устройство связи» обозначает электронное устройство, которое может использоваться для передачи голоса и/или данных через систему беспроводной связи. Примеры беспроводных устройств связи включают в себя сотовые телефоны, персональные цифровые секретари (PDA), карманные устройства, беспроводные модемы, дорожные компьютеры, персональные компьютеры, планшеты, и т.д. Беспроводное устройство связи, в качестве альтернативы, может обозначаться как терминал доступа, мобильный терминал, мобильная станция, удаленная станция, пользовательский терминал, терминал, абонентский блок, абонентская станция, мобильное устройство, беспроводное устройство, пользовательское оборудование (UE) или некоторая другая подобная терминология.

Фиг. 2A - структурная схема, иллюстрирующая систему 200a классификатора, которая может использовать помехоустойчивую классификацию режимов кодирования речи. Система 200a классификатора по фиг. 2A может находиться в кодерах, проиллюстрированных на фиг. 1. В еще одной конфигурации, система 200a классификатора может быть отдельно стоящей, выдающей выходной сигнал 246a режима классификации речи в устройства, такие как кодеры, проиллюстрированные на фиг. 1.

На фиг. 2A входная речь 212a выдается в шумоподавитель 202. Входная речь 212a может формироваться посредством аналого-цифрового преобразования голосового сигнала. Шумоподавитель 202 отфильтровывает шумовые составляющие из входной речи 212a, создавая подвергнутый шумоподавлению выходной речевой сигнал 214a. В одной из конфигураций, устройство классификации речи по фиг. 2A может использовать усовершенствованный КОДЕК переменной скорости (EVRC). Как показано, эта конфигурация может включать в себя встроенный шумоподавитель 202, который определяет оценку 216a шума и информацию 218 об SNR.

Оценка 216a шума и выходной речевой сигнал 214a могут вводиться в классификатор 210a речи. Выходной речевой сигнал 214a шумоподавителя 202 также может вводиться в детектор 204a голосовой активности, анализатор 206a LPC и блок 208a оценки основного тона без обратной связи. Оценка 216a шума также может подаваться в детектор 204a голосовой активности с информацией 218 о SNR из шумоподавителя 202. Оценка 216a шума может использоваться классификатором 210a речи, чтобы устанавливать пороговые значения периодичности и проводить различие между чистой и зашумленной речью.

Один из возможных способов для классификации речи состоит в том, чтобы использовать информацию 218 о SNR. Однако классификатор 210a речи настоящих систем и способов может использовать оценку 216a шума вместо информации 218 о SNR. В качестве альтернативы, информация 218 о SNR может использоваться, если она является относительно устойчивой на многочисленных кадрах, например, метрикой, которая включает в себя информацию 218 о SNR для многочисленных кадров. Оценка 216a шума может быть относительно долгосрочным индикатором шума, заключенного во входном речевом сигнале. Оценка 216a шума в дальнейшем обозначается как ns_est. Выходная речь 214a в дальнейшем обозначается как ns_est. Если, в одной из конфигураций, шумоподавитель 202 отсутствует, или выключен, оценка 216a шума, ns_est, может быть предварительно установлена в значение по умолчанию.

Одно из преимуществ использования оценки 216a шума вместо информации 218 о SNR состоит в том, что оценка шума может быть относительно устойчивой на основе кадр за кадром. Оценка 216a шума является оценивающей только уровень фонового шума, который имеет тенденцию быть относительно постоянным в течение длительных периодов времени. В одной из конфигураций, оценка 216a шума может использоваться для определения SNR 218 для конкретного кадра. В противоположность, SNR 218 может быть покадровым показателем, который может включать в себя относительно большие качания амплитуды в зависимости от мгновенной энергии голоса, например, SNR может раскачиваться на многие дБ между кадрами молчания и кадрами активной речи. Поэтому, если информация 218 о SNR используется для классификации, она может усредняться на более чем одном кадре входной речи 212a. Относительная устойчивость оценки 216a шума может быть полезной при проведении различия ситуаций высокого шума от просто безмолвных кадров. Даже при нулевом шуме, SNR 218 по-прежнему может быть очень низким в кадрах, где говорящий не является разговаривающим, и значит, логика выбора режима, использующая информацию 218 о SNR, может вводиться в действие в таких кадрах. Оценка 216a шума может быть относительно постоянной, если окружающие шумовые условия не изменяются, тем самым избегая проблем.

Детектор 204a голосовой активности может выводить информацию 220a о голосовой активности для текущего речевого кадра в классификатор 210a речи, например, на основании выходной речи 214a, оценки 216a шума и информации 218 о SNR. Выходной сигнал 220a информации о голосовой активности указывает, является ли текущая речь активной или неактивной. В одной из конфигураций, выходной сигнал 220a информации о голосовой активности может быть двоичным, то есть активным или неактивным. В еще одной конфигурации, выходной сигнал 220a информации о голосовой активности может быть многозначным. Параметр 220a информации о голосовой активности в материалах настоящей заявки обозначается как vad.

Анализатор 206a LPC выводит коэффициенты 222a отражения LPC для текущей выходной речи в классификатор 210a речи. Анализатор 206a LPC также может выводить другие параметры, такие как коэффициенты LPC (не показанные). Параметр 222a коэффициентов отражения LPC в материалах настоящей заявки обозначается как refl.

Блок 208a оценки основного тона без обратной связи выводит значение 224a нормированной функции коэффициентов автокорреляции (NACF) и значения 226a NACF около основного тона в классификатор 210a речи. Параметр 224a NACF в дальнейшем обозначается как nacf, а параметр 226a NACF около основного тона в дальнейшем обозначается как nacf_at_pitch. В большей степени периодический речевой сигнал дает более высокое значение nacf_at_pitch 226a. Более высокое значение nacf_at_pitch 226a более вероятно должен быть ассоциирован со стационарным типом голосовой выходной речи. Классификатор 210a речи поддерживает массив значений 226a nacf_at_pitch, которые могут вычисляться на основе подкадра. В одной из конфигураций, две оценки основного тона без обратной связи измеряются для каждого кадра выходной речи 214a посредством измерения двух подкадров за кадр. NACF около основного тона (nacf_at_pitch), 226a, может вычисляться из оценки основного тона без обратной связи для каждого подкадра. В одной из конфигураций, пятимерный массив значений 226a nacf_at_pitch (то есть nacf_at_pitch[4]) содержит в себе значения для двух с половиной кадров выходной речи 214a. Массив nacf_at_pitch обновляется для каждого кадра выходной речи 214a. Использование массива для параметра 226a nacf_at_pitch снабжает классификатор 210a речи способностью использовать информацию о текущем, прошлом и предстоящем (будущем) сигнале, чтобы осуществлять более точный и помехоустойчивый выбор режимов речи.

В дополнение к информации, введенной в классификатор 210a речи из внешних компонентов, классификатор 210a речи внутренне формирует выведенные параметры 282a из выходной речи 214a для использования в последовательности операций осуществления выбора режима речи.

В одной из конфигураций, классификатор 210a речи внутренне формирует параметр 228a скорости пересечения нуля, в дальнейшем обозначаемый как zcr. Параметр 228a zcr текущей выходной речи 214a определяется в качестве количества изменений знака в речевом сигнале за кадр речи. В вокализованной речи, значение 228a zcr является низким, тогда как невокализованная речь (или шум) имеет высокое значение 228a zcr, так как сигнал является сильно случайным. Параметр 228a zcr используется классификатором 210a речи для классификации вокализованной и невокализованной речи.

В одной из конфигураций, классификатор 210a речи внутренне формирует параметр 230a энергии текущего кадра, в дальнейшем обозначаемый как E. E 230a может использоваться классификатором 210a речи, чтобы идентифицировать переходную речь посредством сравнения энергии в текущем кадре с энергией в прошлом и будущем кадрах. Параметр vEprev является энергией предыдущего кадра, выведенным из E 230a.

В одной из конфигураций, классификатор 210a речи внутренне формирует параметр 232a энергии предстоящего кадра, в дальнейшем обозначаемый как Enext. Enext 232a может содержать значения энергии из части текущего кадра и части следующего кадра выходной речи. В одной из конфигураций, Enext 232a представляет энергию во второй половине текущего кадра и энергию в первой половине следующего кадра выходной речи. Enext 232a используется классификатором 210a речи для идентификации переходной речи. В конце речи, энергия следующего кадра 232a значительно падает по сравнению с энергией текущего кадра 230a. Классификатор 210a речи может сравнивать энергию текущего кадра 230a и энергию следующего кадра 232a, чтобы идентифицировать условия конца речи и начала речи, или переходный с повышением и переходный с понижением режимы речи.

В одной из конфигураций, классификатор 210a речи внутренне формирует параметр 234a отношения энергии полос, определенный в качестве log2(EL/EH), где EL - энергия текущего кадра в нижней полосе 0 до 2 кГц, а EH - энергия текущего кадра в верхней полосе от 2 кГц до 4 кГц. Параметр 234a отношения энергии полос в дальнейшем обозначается как bER. Параметр bER 234a предоставляет классификатору 210a речи возможность идентифицировать режимы вокализованной речи и невокализованной речи, так как вообще, вокализованная речь сосредотачивает энергию в нижней полосе, тогда как зашумленная невокализованная речь сосредотачивает энергию в верхней полосе.

В одной из конфигураций, классификатор 210a речи внутренне формирует параметр 236a уср