Оценка периода основного тона

Иллюстрации

Показать все

Изобретение относится к оценке периода основного тона в аудиосигналах. Автокорреляционные величины определяют как основу для оценки периода основного тона в сегменте аудиосигнала. Первый рассматриваемый диапазон задержки для автокорреляционных вычислений делят на первый набор секций, и первые автокорреляционные величины определяют для задержек в множестве секций этого первого набора секций. Второй рассматриваемый диапазон задержки для автокорреляционных вычислений делят на второй набор секций таким образом, что секции первого набора и секции второго набора перекрываются. Вторые автокорреляционные величины определяют для задержек в множестве секций этого второго набора секций. Технический результат - обеспечение эффективности оценки основного тона аудиосигнала. 5 н. и 26 з.п. ф-лы, 6 ил.

Реферат

ОБЛАСТЬ ТЕХНИКИ

Настоящее изобретение относится к оценке периода основного тона в аудиосигналах.

УРОВЕНЬ ТЕХНИКИ

Основной тон - это фундаментальная частота речевого сигнала. Это один из ключевых параметров в кодировании и обработке речи. Приложения, использующие определение основного тона, включают: улучшение речи, автоматическое распознавание и интерпретацию речи, анализ и моделирование просодии, а также кодирование речи, в частности низкоскоростное кодирование речи. Надежность определения основного тона часто является определяющим фактором для общего качества всей системы.

Обычно речевые кодеки обрабатывают речь сегментами по 10-30 мс. Эти сегменты называются кадрами. Для различных целей кадры часто далее разделяются на сегменты, имеющие длину 5-10 мс, называемые субкадрами.

Высота основного тона прямо связана с периодом основного тона, который является продолжительностью периода сигнала на фундаментальной частоте. Период основного тона может быть определен, например, с помощью автокорреляционных вычислений на сегменте аудиосигнала. В этих автокорреляционных вычислениях выборки исходного сегмента аудиосигнала перемножаются с выровненными выборками того же сегмента аудиосигнала, которые задержаны на соответствующее значение. Сумма произведений, полученная на выборках с определенной относительной задержкой, является величиной корреляции. Наибольшая величина корреляции будет при задержке, соответствующей периоду основного тона. Период основного тона также называется задержкой основного тона.

Перед определением наибольшей величины корреляции из множества таких величин они могут быть подвергнуты предварительной обработке для увеличения точности результата. Диапазон используемых задержек может также быть разделен на секции, и величины корреляции могут быть определены для задержек во всех или некоторых из этих секций. Автокорреляционные вычисления могут различаться между секциями, например, по числу используемых выборок. Кроме того, секционирование может быть использовано при предварительной обработке, применяемой к величинам корреляции перед определением наибольшей величины корреляции.

Трек основного тона - это последовательность вычисленных периодов основного тона для последовательности сегментов аудиосигнала.

Структура реализуемой системы аудиообработки устанавливает требования для определения основного тона. Сложность и требования к задержке часто являются жесткими, особенно для решений кодирования разговорной речи. Кроме того, точность оценки основного тона и стабильность трека основного тона - важная проблема во многих системах аудиообработки.

Точная оценка основного тона является сложной задачей. Несложный метод определения основного тона может дать в основном весьма надежную оценку основного тона, и такой метод часто неспособен обеспечить стабильное отслеживание основного тона; весьма эффективная оценка основного тона может быть достигнута сложными методами, но они часто генерируют треки основного тона, которые не совсем оптимальны в используемой структуре и/или дают слишком большую задержку для разговорных приложений.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Данное изобретение предназначено для улучшения традиционных принципов оценок основного тона.

Предлагаемый способ включает определение первых автокорреляционных величин для сегмента аудиосигнала. Первый рассматриваемый диапазон задержки делится на первый набор секций, и первые автокорреляционные величины определяются для задержек в множестве секций этого первого набора секций. Способ также содержит определение вторых автокорреляционных величин для сегмента аудиосигнала. Второй рассматриваемый диапазон задержки делится на второй набор секций таким образом, что секции первого набора и секции второго набора перекрываются. Вторые автокорреляционные величины определяются для задержек в множестве секций этого второго набора секций. Этот способ также содержит предоставление вычисленных первых автокорреляционных величин и вычисленных вторых автокорреляционных величин для оценки периода основного тона в сегменте аудиосигнала.

Предлагаемое устройство содержит коррелятор. Коррелятор сконфигурирован для определения первых автокорреляционных величин для сегмента аудиосигнала, где первый рассматриваемый диапазон задержки делится на первый набор секций, и первые автокорреляционные величины определяются для задержек в множестве секций этого первого набора секций. Коррелятор также сконфигурирован для определения вторых автокорреляционных величин для указанного сегмента аудиосигнала, где второй рассматриваемый диапазон задержки делится на второй набор секций таким образом, что секции первого набора и секции второго набора перекрываются, и вторые автокорреляционные величины определяются для задержек в множестве секций этого второго набора секций. Коррелятор также сконфигурирован для предоставления вычисленных первых автокорреляционных величин и вычисленных вторых автокорреляционных величин для оценки периода основного тона в сегменте аудиосигнала.

Устройство может быть, например, анализатором основного тона (например, анализатором основного тона с разомкнутой петлей обратной связи), аудиокодером или объектом, содержащим аудиокодер.

Заметим, что коррелятор и другие опциональные компоненты устройства могут быть реализованы аппаратно и/или программно. При аппаратной реализации устройство может быть, например, чипом или набором чипов (например, интегральной схемой). При программной реализации компоненты могут быть модулями компьютерного программного кода. В этом случае устройство также может быть, например, памятью, хранящей компьютерный программный код.

Кроме того, предлагается устройство, которое содержит описанное выше устройство и дополнительно компонент для ввода аудиоданных.

Это устройство может быть, например, беспроводным терминалом или базовой станцией беспроводной сети связи, а также практически любым другим устройством, выполняющим аудиообработку, для которой требуется оценка основного тона. Компонент для ввода аудиоданных может быть, например, микрофоном или интерфейсом к другому устройству, обеспечивающему аудиоданные.

Кроме того, предлагается система, которая содержит аудиокодер, включающий предложенное устройство, и аудиодекодер.

Наконец, предлагается компьютерное программное изделие, в котором программный код хранится на читаемом компьютером носителе. Программный код реализует предлагаемый способ при выполнении этого кода процессором.

Компьютерное программное изделие может быть, например, отдельным устройством памяти, или памятью, которая интегрирована в электронное устройство.

Данное изобретение включает также компьютерный программный код, независимый от компьютерного программного изделия и читаемого компьютером носителя.

Данное изобретение исходит из того, что секционирование диапазона задержки при автокорреляционных вычислениях, применяемых к сегментам аудиосигнала, может не только давать преимущества при оценке основного тона, но и вносит разрывы на границах между секциями. Поэтому предлагается обеспечить два параллельных набора секций диапазона задержки с определением автокорреляционных величин для задержек в секциях обоих наборов. Если секции одного набора перекрываются с секциями другого набора, то область разрыва между секциями в одном наборе всегда покрывается секцией другого набора.

Как результат, может быть достигнута улучшенная точность оценки основного тона и улучшенная стабильность отслеживания основного тона. Улучшенная характеристика оценки основного тона также повышает общее качество всей обработки, для которой применяется оценка основного тона.

Данное изобретение может быть использовано в рамках различных принципов оценок основного тона. Несмотря на то что нужно определять больше корреляционных величин, чем в существующих принципах оценок основного тона, использующих подобное секционирование без перекрытия, многие вычисления могут быть использованы повторно (в силу принципа перекрытий секций), и в результате увеличение сложности может оставаться минимальным.

Данное изобретение может быть использовано, например, в новом аудиокодеке или для улучшения существующего аудиокодека, например, известного кодека CELP (линейное предсказание с кодовым возбуждением). В речевых кодерах CELP оценка основного тона обычно выполняется в 2 этапа: анализ с разомкнутой петлей обратной связи для поиска области корректного основного тона и анализ с замкнутой петлей для выбора оптимального индекса адаптивной кодовой книги в области оценки с разомкнутой петлей. Данное изобретение подходит, например, для обеспечения улучшения анализа с разомкнутой петлей в таком речевом кодере CELP.

В примере реализации аудиосигнал делится на последовательность кадров, и каждый кадр далее делится на первый полукадр и второй полукадр. Первый полукадр может быть первым сегментом аудиосигнала, для которого определяют первые и вторые автокорреляционные величины, в то время как второй полукадр может быть вторым сегментом аудиосигнала, для которого также определяют первые и вторые автокорреляционные величины. В дополнение первый полукадр последующего кадра может быть третьим сегментом аудиосигнала, для которого могут быть определены первые и вторые автокорреляционные величины. Первый полукадр последующего кадра функционирует как кадр предпросмотра для текущего кадра.

Первый набор секций и второй набор секций могут содержать любое подходящее количество секций. Число секций в обоих наборах может быть одинаковым или различным. Далее диапазон задержки, охватываемый обоими наборами, может быть одинаковым или несколько различным. Кроме того, автокорреляционные величины могут быть определены для каждой секции набора либо только для некоторых секций набора. В некоторых ситуациях, например, при очень высоких фундаментальных частотах, соотносящихся с секцией с минимальными задержками, это может быть некритично для качества системы. В примере осуществления оба набора содержат четыре секции, и автокорреляционные величины определяются для задержек по меньшей мере в трех секциях каждого набора секций.

В примере осуществления изобретения выбирается сильнейшая из получаемых автокорреляционных величин в каждой секции каждого набора. Ассоциированные задержки могут затем быть приняты в качестве выбранных кандидатов для периода основного тона.

Перед выбором сильнейшей автокорреляционной величины в каждой секции каждого набора секций автокорреляционные величины могут быть усилены на базе периодов основного тона, оцененных для предыдущих кадров.

После выбора сильнейшей автокорреляционной величины в каждой секции каждого набора секций выбранные автокорреляционные величины могут быть усилены на базе обнаружения повторений (кратных значений) периода основного тона в соответствующем наборе секций. Диапазон задержки может быть разделен так, чтобы секция не содержала повторений периода основного тона. То есть наибольшая задержка в секции будет меньше, чем удвоенная наименьшая задержка в этой же секции. Это гарантирует, что повторения периода основного тона могут быть найдены только между данной и последующей секцией.

После выбора сильнейшей автокорреляционной величины в каждой секции каждого набора секций и опционально - перед некоторой дальнейшей обработкой выбранных автокорреляционных величин или после нее, выбранные автокорреляционные величины, стабильные между сегментами аудиосигнала, могут быть усилены. Сегменты, считающиеся стабильными, могут быть двумя последовательными сегментами, а также двумя сегментами, имеющими один или более других сегментов между ними. Стабильность может рассматриваться, например, среди сегментов в некотором кадре и в кадре предпросмотра. Автокорреляционные величины, которые стабильны в одной и той же секции среди сегментов аудиосигнала, могут быть усилены больше, чем автокорреляционные величины, которые стабильны в различных секциях среди сегментов аудиосигнала.

Такое посекционное усиление стабильности увеличивает стабильность выходного сигнала без включения в трек некорректных кандидатов для периода основного тона.

Стабильность среди сегментов может быть определена, например, путем определения когерентности между соответствующей парой автокорреляционных величин в двух сегментах. То есть наличие стабильности может быть принято в том случае, если эти величины отличаются одна от другой меньше, чем на заранее заданное значение.

В случае если автокорреляционные величины определяются на базе различного количества выборок для различных секций, или, по-другому, для различных задержек, может быть целесообразным нормализовать величины прямо перед любым сравнением автокорреляций, ассоциированных с различными секциями или задержками, соответственно.

Нужно отметить, что признаки и этапы всех представленных вариантов осуществления могут быть скомбинированы любым подходящим способом.

Далее нужно отметить, что аспект посекционного усиления может быть также реализован независимо от использования двух наборов секций для автокорреляционных вычислений.

Это может быть выполнено способом, содержащим определение автокорреляционных величин для сегмента аудиосигнала, где определенный диапазон задержки разделяется на секции, и автокорреляционные величины определяются для задержек в множестве этих секций; выбор из получаемых автокорреляционных величин сильнейшей автокорреляционной величины в каждой секции; усиление выбранных автокорреляционных величин, которые являются стабильными среди сегментов аудиосигнала, где автокорреляционные величины, стабильные в одинаковой секции среди сегментов аудиосигнала усиливают больше, чем автокорреляционные величины, стабильные в различных секциях среди сегментов аудиосигнала; и предоставление получаемых автокорреляционных величин для оценки периода основного тона в сегменте аудиосигнала.

Соответствующее компьютерное программное изделие может хранить программный код, осуществляющий этот способ при исполнении процессором. Соответствующие устройства и система могут содержать коррелятор, сконфигурированный для выполнения таких автокорреляционных вычислений, или средство для выполнения таких автокорреляционных вычислений; компонент для выбора, сконфигурированный для выполнения такого выбора, или средство для выполнения такого выбора; и компонент для усиления, сконфигурированный для выполнения такого усиления и для предоставления получаемых автокорреляционных величин, или средство для выполнения такого усиления и для предоставления получаемых автокорреляционных величин.

Другие цели и признаки настоящего изобретения станут понятными из следующего подробного описания вместе с соответствующими чертежами. Понятно, однако, что эти чертежи приведены исключительно для иллюстративных целей, а не для определения границ данного изобретения, описанного в прилагаемой формуле изобретения. Также понятно, что чертежи не выполнены в масштабе и предназначены для концептуальной иллюстрации описанных здесь структур и процедур.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Фиг.1 - схематическая блок-схема системы в соответствии с примером осуществления данного изобретения;

Фиг.2 - схематическая блок-схема, иллюстрирующая пример кодера в системе на фиг.1;

Фиг.3 - блок-схема, иллюстрирующая функционирование кодера на фиг.2;

Фиг.4 - схема, иллюстрирующая перекрывающиеся секции и посекционный выбор периода основного тона, использующийся кодером на фиг.2;

Фиг.5 - графики, представляющие сравнение между характеристиками стандартизованной оценки основного тона VMR-WB и оценки основного тона, использующегося в варианте осуществления данного изобретения; и

Фиг.6 - схематическая блок-схема устройства в соответствии с примером осуществления данного изобретения.

ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

Хотя данное изобретение может быть реализовано с помощью различных структур, первый вариант осуществления данного изобретения будет представлен путем примера улучшения кодирования речи, определенного в стандарте 3GPP2 C.S0052-0, версия 1.0: "Source-Controlled Variable-Rate Multimode Wideband Speech Codec (VMR-WB), Service Option 62 for Spread Spectrum Systems", 11 июня 2004 г. Техника кодирования, реализованная в соответствии с этим стандартом на полной или половинной скорости кадров, основана на кодировании Алгебраический CELP (ACELP).

Фиг.1 - схематическая блок-схема системы, позволяющей обеспечить улучшенное отслеживание основного тона в соответствии с первым вариантом осуществления данного изобретения. В контексте настоящего документа отслеживание основного тона относится преимущественно к принципу определения основного тона, который обеспечивает более надежные оценки основного тона путем комбинирования временной информации основного тона для последовательных сегментов аудиосигнала. Однако для облегчения некоторых методов кодирования и для устранения артефактов также желателен набор оценок основного тона с результатом в виде стабильного общего трека основного тона во время вокализованной речи.

Система содержит первое электронное устройство 110 и второе электронное устройство 120. Одним из устройств 110, 120 может быть, например, беспроводной терминал, а другое устройство 120, 110 может быть, например, базовой станцией беспроводной сети связи, которая может быть доступна через беспроводной терминал посредством радиоинтерфейса. Такая беспроводная сеть связи может быть, например, мобильной сетью связи, но также беспроводной локальной сетью (WLAN) и т.д. Соответственно, такой беспроводной терминал может быть, например, мобильным терминалом, а также любым устройством, подходящим для доступа к WLAN и т.п.

Первое электронное устройство 110 содержит источник 111 аудиоданных, который связан посредством кодера 112 с передающим компонентом (ТХ) 114. Понятно, что указанные соединения могут быть осуществлены посредством различных других (не показанных) элементов.

Если первое электронное устройство 110 является беспроводным терминалом, то источник 111 аудиоданных может быть, например, микрофоном, позволяющим пользователю вводить аналоговый аудиосигнал. В этом случае источник 111 аудиоданных может быть связан с кодером 112 посредством обрабатывающих компонентов, включающих аналого-цифровой преобразователь. Если первое электронное устройство 110 является базовой станцией, источник 111 аудиоданных может быть, например, интерфейсом к другим сетевым компонентам беспроводной сети связи, обеспечивающим цифровые аудиосигналы; в обоих случаях источник 111 аудиоданных может быть также памятью, хранящей цифровые аудиосигналы.

Кодер 112 может быть схемой, которая реализована в интегральной схеме (IC) 113. Другие компоненты, например декодер, аналого-цифровой преобразователь или цифроаналоговый преобразователь и т.д., могут быть реализованы в той же интегральной схеме 113.

Второе электронное устройство 120 содержит приемный компонент (RX) 121, который связан посредством декодера 122 с приемником 123 аудиоданных. Понятно, что указанные соединения могут быть осуществлены посредством различных других (не показанных) элементов.

Если второе электронное устройство 120 является беспроводным терминалом, то приемник 123 аудиоданных может быть, например, громкоговорителем, выводящим аналоговый аудиосигнал. В этом случае декодер 122 может быть связан с приемником 123 аудиоданных посредством обрабатывающих компонентов, включающих цифроаналоговый преобразователь. Если второе электронное устройство 120 является базовой станцией, то приемник 123 аудиоданных может быть, например, интерфейсом к другим сетевым компонентам беспроводной сети связи, которым перенаправляется цифровой аудиосигнал. В обоих случаях приемник 123 аудиоданных может быть также памятью, хранящей цифровые аудиосигналы.

Фиг.2 - схематическая блок-схема, представляющая детали кодера 112 первого электронного устройства 110.

Кодер 112 содержит первый блок 210, объединяющий различные компоненты, которые в этом документе не рассматриваются подробно.

Первый блок 210 связан с анализатором 220 основного тона с разомкнутой петлей обратной связи, который сконфигурирован в соответствии с вариантом осуществления данного изобретения. Анализатор 220 основного тона с разомкнутой петлей содержит коррелятор 221, компонент 222 усиления и выбора, компонент 223 усиления и селектор 224 периода основного тона.

Анализатор 220 основного тона с разомкнутой петлей, кроме того, связан со следующим блоком 230, объединяющим различные компоненты, которые в этом документе также не рассматриваются подробно.

Компоненты первого блока 210 также связаны непосредственно с компонентами следующего блока 230.

Кодер 112, интегральная схема 113 или анализатор 220 основного тона с разомкнутой петлей могут рассматриваться как примеры устройств, выполненных в соответствии с изобретением, и первое электронное устройство 110 может быть рассмотрено как пример устройства, выполненного в соответствии с изобретением.

Работа системы на фиг.1 будет теперь описана со ссылкой на фиг.3. Фиг.3 - блок-схема, показывающая работу анализатора 220 основного тона с разомкнутой петлей в составе кодера 112 первого электронного устройства 110.

Когда базовая станция (действующая как первое электронное устройство 110) принимает из беспроводной сети связи цифровой аудиосигнал посредством интерфейса (действующего как источник 111 аудиоданных) для передачи к беспроводному терминалу (действующему как второе электронное устройство 120), она предоставляет цифровой аудиосигнал кодеру 112. Подобным же образом, когда беспроводной терминал (действующий как первое электронное устройство 110) принимает входные аудиоданные посредством микрофона (действующего как источник 111 аудиоданных) для передачи поставщику услуг или другому беспроводному терминалу (действующему как второе электронное устройство 120), он преобразует аналоговый аудиосигнал в цифровой аудиосигнал и предоставляет цифровой аудиосигнал кодеру 112.

Компоненты первого блока 210 обеспечивают предварительную обработку принятого цифрового аудиосигнала, включая преобразование частоты дискретизации, высокочастотную фильтрацию и спектральную коррекцию. Компоненты первого блока 210 также выполняют спектральный анализ, который вычисляет энергию в критических полосах дважды за кадр. Кроме того, эти компоненты осуществляют обнаружение голосовой активности (VAD), уменьшение шума и анализ с линейным предсказанием (LP), с результатом в виде коэффициентов фильтра для синтеза с линейным предсказанием (LP). Дополнительно выполняется перцептуальное взвешивание путем фильтрации цифрового аудиосигнала фильтром перцептуального взвешивания, полученного по коэффициентам фильтра для синтеза с линейным предсказанием (LP), с получением взвешенного речевого сигнала. Подробности этих этапов обработки могут быть найдены в вышеуказанном стандарте C.S0052-0.

Первый блок 210 предоставляет взвешенный речевой сигнал и другую информацию для анализатора 220 основного тона с разомкнутой петлей.

Анализатор 220 основного тона с разомкнутой петлей выполняет анализ основного тона с разомкнутой петлей для взвешенного сигнала, децимированного (прореженного) в 2 раза (этапы 301-310). В этом анализе основного тона с разомкнутой петлей анализатор 220 основного тона вычисляет 3 оценки периода основного тона для каждого кадра, одну оценку в каждом полукадре текущего кадра и одну оценку в первом полукадре следующего кадра, который используется как кадр предпросмотра. Эти три полукадра соответствуют соответствующему сегменту аудиосигнала в настоящем варианте осуществления данного изобретения.

В соответствии со стандартом C.S0052-0 диапазон задержек основного тона (децимированный в 2 раза) разделяется на четыре секции [10, 16], [17, 31], [32, 61] и [62, 115], и корреляционные величины определяются для каждого из трех полукадров по меньшей мере для задержек в последних трех секциях.

Анализ основного тона с разомкнутой петлей в настоящем изобретении отличается тем, что диапазон задержек основного тона разделяется на четыре секции дважды, и эти секции перекрываются. Таким образом, область разрыва между секциями в одном наборе всегда покрывается секцией из другого набора. Первый набор секций может содержать, например, те же секции, которые определены в стандарте C.S0052-0, обозначенные [10, 16], [17, 31], [32, 61] и [62, 115]. Второй набор секций может содержать, например, секции [12, 21], [22, 40], [41, 77] и [78, 115]. Понятно, что оба набора могут быть основаны на разной сегментации.

Двойная сегментация диапазона задержек основного тона показана на фиг.4. Секционирование, используемое для первого полукадра, представлено с левой стороны, секционирование, используемое для второго полукадра, представлено в центре, а секционирование, используемое для кадра предпросмотра, представлено с правой стороны. Одинаковое секционирование используется для каждого из трех полукадров.

Первый набор из четырех секций S1-1, S2-1, S3-1, основанный на стандарте C.S0052-0, представлен для каждого полукадра четырьмя прямоугольниками, размещенными один над другим. Второй набор из четырех секций S1-2, S2-2, S3-2 представлен для каждого полукадра четырьмя прямоугольниками, также размещенными один над другим. Для целей иллюстрации соответствующий второй набор S1-2, S2-2, S3-2 немного сдвинут вправо по сравнению с соответствующим первым набором S1-1, S2-1, S3-1. Задержка, охватываемая секциями, увеличивается снизу вверх. Можно видеть, что секции в соответствующем первом наборе S1-1, S2-1, S3-1 и соответствующем втором наборе S1-2, S2-2, S3-2 имеют разные границы, и, таким образом, секции перекрываются.

В стандарте C.S0052-0 секции выбраны так, что они не могут содержать повторений (кратных значений) периода основного тона. Если этот принцип предотвращения потенциальных повторений периода основного тона в любой секции соблюдается для обоих наборов секций настоящего варианта осуществления изобретения, то секции в одном из наборов не будут покрывать все кандидатуры значений задержки основного тона. Более конкретно, в одном из наборов секция с наименьшими задержками не будет покрывать те задержки, которые соответствуют наивысшим частотам основного тона, которые способен найти оцениватель. В представленном выше примере второго набора, например, наименьшие задержки в 10 и 11 выборок не покрываются первой секцией. Тестирование показало, однако, что это искусственное ограничение не влияет на характеристики системы. Более того, также возможно преодолеть это ограничение путем добавления одной секции ко второму набору секций, для охвата также наивысших частот основного тона. Однако в случае стандарта C.S0052-0 или любого подобного метода, добавочная секция во втором наборе секций требует адаптации своего диапазона задержек для решения об использовании секции с минимальной задержкой.

В анализаторе 220 основного тона с разомкнутой петлей коррелятор принимает взвешенные выборки сигнала и применяет автокорреляционные вычисления отдельно для каждого из двух полукадров одного кадра и для кадра предпросмотра. То есть эти выборки каждого полукадра умножаются на задержанные выборки того же входного сигнала, и результаты умножений суммируются для получения корреляционной величины. Задержанные выборки могут быть, например, из того же полукадра, из предыдущего полукадра, или даже из предпредыдущего полукадра, или из комбинации всех этих кадров. В дополнение диапазон корреляции может включать также некоторые выборки из последующего полукадра.

Задержки для автокорреляционных вычислений по каждому полукадру с одной стороны выбирают из второй, третьей и четвертой секции первого набора секций S1-1, S2-1, S3-1 (этап 301).

Задержки для автокорреляционных вычислений по каждому полукадру с другой стороны выбирают из второй, третьей и четвертой секции второго набора секций S1-2, S2-2, S3-2 (этап 302).

В специальных случаях может быть учтена также первая секция каждого набора.

Корреляционные величины могут быть вычислены для каждого набора секций, например, согласно уравнению, приведенному в стандарте C.S0052-0. Здесь корреляционная величина вычисляется для каждой задержки в соответствующей секции по формуле:

где Swd(n) - взвешенный децимированный речевой сигнал, d - различные задержки в секции, C(d) - корреляция при задержке d, и Lsec - предел суммирования, который может зависеть от секции, к которой относится задержка.

Поскольку корреляционная величина определяется в двух наборах секций, общее число получающихся корреляционных величин C(d) почти в 2 раза больше, чем число корреляционных величин C(d), получающихся в соответствии со стандартом C.S0052-0.

Далее компонент 222 селекции и усиления выполняет первое усиление корреляционных величин для каждого набора секций каждого полукадра. При первом усилении корреляционные величины взвешиваются для корректировки корреляционных величин, соответствующих задержкам, близким к периодам основного тона, определенным для предыдущего кадра (этап 303). Далее для каждой секции каждого набора выбирается максимум из взвешенных корреляционных величин, и ассоциированные задержки идентифицируются как кандидаты на период основного тона. Кроме того, выбранные корреляционные величины нормализуются для компенсации различных пределов суммирования Lsec, которые могут быть использованы в автокорреляционных вычислениях для различных секций. Примеры подробностей взвешивания, выбора и нормализации для одного набора секций могут быть взяты из стандарта C.S0052-0.

Оставшаяся обработка выполняется с использованием только нормализованных корреляционных величин.

На фиг.4 восемнадцать выбранных корреляционных величин показаны точками (черными и белыми) на ассоциированных (приведены в качестве примера) позициях задержки, с одной корреляционной величиной для каждой второй, третьей и четвертой секции в обоих наборах секций каждого полукадра.

Например, для первого набора первого полукадра корреляционная величина С1-1-2 остается для второй секции, корреляционная величина С1-1-3 остается для третьей секции и корреляционная величина С1-1-4 остается для четвертой секции. Для второго набора первого полукадра величина С1-2-2 остается для второй секции, корреляционная величина С1-2-3 остается для третьей секции и корреляционная величина С1-2-4 остается для четвертой секции и т.д.

Число выбранных корреляционных величин в 2 раза больше, чем число корреляционных величин, остающихся на этом этапе в соответствии со стандартом C.S0052-0.

Далее компонент 222 селекции и усиления выполняет второе усиление корреляционных величин для каждого полукадра для устранения выбора кратных значений периода основного тона (этап 304). При этом втором усилении выбранные корреляционные величины, ассоциированные с задержкой в нижней секции, дополнительно корректируются, если есть кратное значение этой задержки по соседству с задержкой, ассоциированной с выбранной корреляционной величиной в верхней секции того же набора секций. Примеры подробностей такого усиления для одного набора секций могут быть взяты из стандарта C.S0052-0.

Компонент 223 усиления выполняет третье усиление корреляционных величин, которое отличается от третьего усиления, определенного в стандарте C.S0052-0.

Стандарт C.S0052-0 определяет, что если корреляционная величина в одном полукадре имеет когерентную корреляционную величину в любой секции другого полукадра, то она усиливается.

Корреляционные величины двух полукадров считаются когерентными, если выполняется следующее условие:

(max_value < 1.4 min_value)AND((max_value - min_value) < 14)

где max_value и min_value означают максимум и минимум двух корреляционных величин соответственно.

Проблема, возникающая при таком подходе, - потенциальная возможность выбора второго наилучшего трека для текущего кадра, когда этот наилучший трек пересекает границу секции. Поскольку пересечение может вызвать разрыв одного из треков, это может привести к усилению и, таким образом, выбору некорректной корреляционной величины.

Компонент 223 усиления на фиг.2, напротив, корректирует выбранную корреляционную величину посекционно для усиления кандидатов на задержку основного тона, что дает наиболее стабильное отслеживание основного тона для текущего кадра.

Если рассматриваемая корреляционная величина в секции одного полукадра когерентна с максимальной корреляционной величиной того же набора в другом полукадре, и эта максимальная корреляционная величина относится к той же секции, что и рассматриваемая корреляционная величина, то эта рассматриваемая корреляционная величина значительно усиливается (этапы 305, 306). Если рассматриваемая корреляционная величина в секции одного полукадра когерентна с максимальной корреляционной величиной того же набора в другом полукадре, и эта максимальная корреляционная величина относится к другой секции, чем рассматриваемая корреляционная величина, или если рассматриваемая корреляционная величина когерентна с максимальной корреляционной величиной другого набора в другом полукадре, то эта рассматриваемая корреляционная величина усиливается незначительно (этапы 305, 307, 308). Кандидаты, не имеющие когерентности с максимальной корреляционной величиной либо в том же наборе, либо в другом наборе другого полукадра, не усиливаются (этапы 305, 307, 309).

Посекционное измерение стабильности, таким образом, применяет большее усиление для тех соседних кандидатов, которые лежат в той же секции, что и сильнейшие кандидаты каждого полукадра, в то время как более умеренное усиление применяется к тем кандидатам, которые находятся в других секциях. Таким путем все соседние кандидаты, показывающие стабильность по отношению к сильнейшему кандидату, получают положительный вес для финального выбора, и гарантируется, что больший вес дается тем кандидатам, которые полагаются приемлемыми, чем тем кандидатам, которые потенциально некорректны.

Точки на фиг.4 представляют все выбранные корреляционные величины, а белые точки означают наивысшие корреляционные величины в каждом наборе каждого полукадра после третьего усиления. В первом полукадре такими являются, например, корреляционные величины С1-1-2 для первого набора S1-1 и корреляционные величины С1-2-2 для второго набора S2-1.

Без посекционной схемы обеспечения стабильности наивысшие корреляционные величины могут быть в некоторых случаях корреляционной величиной, ассоциированной с субоптимальной задержкой (с точки зрения стабильного трека основного тона), как, например корреляционная величина С3-1-2 в первом наборе S3-1 кадра предпросмотра. Напротив, когда используется посекционная схема обеспечения стабильности, оптимальный период основного тона, ассоциированный с корреляционной величиной С3-1-3 в первом наборе S3-1 кадра предпросмотра, имеет больше шансов быть выбранным.

Окончательно селектор 224 периода основного тона выбирает для каждого полукадра максимальную корреляционную величину из всех секций в обоих наборах секций (этап 310). Селектор 224 периода основного тона обеспечивает три задержки, ассоциированные с тремя финальными корреляционными величинами, как финальные периоды основного тона для второго блока 230. Эти три финальных периода основного тона формируют трек основного тона для текущего кадра.

Компоненты второго блока 230 выполняют оценку шума и обеспечивают соответствующую обратную связь к первому блоку 210. Кроме того, они производят модификацию сигнала, которая модифицирует исходный сигнал для упрощения голосовых типов кодирования и которая содержит собственный классификатор для классификации таких кадров, которые подходят для голосового кодирования на половинной скорости. Компоненты второго блока 230 также выполняют выбор скорости с определением других техник кодирования. Кроме того, эти компоненты обрабатывают активную речь в петле субкадра, используя соответствующую технику кодирования. Эта обработка содерж