Обнаружение активности сложного сигнала для усовершенствованной классификации речи/шума в аудиосигнале
Иллюстрации
Показать всеИзобретение относится к системам сжатия аудиосигнала, в частности, к системам классификации речи/шума при сжатии аудиосигнала. Техническим результатом является создание способа и устройства для достоверного обнаружения наличия важной с точки зрения восприятия информации в сложных сигналах. Технический результат достигается тем что, выполняют первое определение того, содержит ли рассматриваемый аудиосигнал информацию, представляющую собой речь или шум, причем выполняют второе определение того, содержит ли аудиосигнал неречевую информацию, являющуюся важной для восприятия слушающим субъектом, и осуществляют выборочную отмену результата первого определения, соответствующего шуму, в ответ на результат второго определения, соответствующий неречевой информации, являющейся важной для восприятия слушающим субъектом. 3 с. и 17 з.п.ф-лы, 13 ил.
Реферат
Данная заявка на изобретение, согласно статье 35 USC 119(е)(1) свода законов США, имеет приоритет находящей в процессе одновременного рассмотрения предварительной заявки на патент США №60/109556 с датой подачи 23 ноября 1998 г.
Область техники
Изобретение относится, в общем случае, к сжатию аудиосигнала и, более конкретно, к классификации речи/шума при сжатии аудиосигнала.
Предшествующий уровень техники
Радиопередающие устройства и радиоприемные устройства обычно имеют устройства кодирования речи и устройства декодирования речи, которые совместно обеспечивают речевую (голосовую) связь между указанными передатчиком и приемником по линии радиосвязи. Совокупность устройства кодирования речи и устройства декодирования речи часто называют кодер-декодером речи. Примером обычного устройства связи является радиотелефон мобильной связи (например, сотовый телефон), который обычно имеет радиопередающее устройство, содержащее устройство кодирования речи, и радиоприемное устройство, содержащее устройство декодирования речи.
В обычных устройствах кодирования речи на основе блочного кодирования входной речевой сигнал разделяется на блоки, называемые кадрами. Для обычной телефонной связи с шириной полосы частот 4 кГц длина кадров обычно равна 20 миллисекундам (мс) или 160 выборкам. Кадры дополнительно разделены на суб-кадры, длина которых обычно равна 5 мс или 40 выборкам.
При сжатии входного аудиосигнала в устройствах кодирования речи обычно используют усовершенствованные способы сжатия информации с потерями. Информация сжатого (или кодированного) сигнала передается в устройство декодирования через канал связи, например, по линии радиосвязи. Затем устройство декодирования пытается воспроизвести входной аудиосигнал исходя из информации сжатого сигнала. Если известны определенные характеристики входного аудиосигнала, то скорость передачи двоичной информации в канале связи может поддерживаться настолько низкой, насколько это возможно. Если аудиосигнал содержит информацию, существенную для слушающего субъекта, то эта информация должна быть сохранена. Однако если аудиосигнал содержит только информацию, не являющуюся существенной (например, фоновый шум), то ширина полосы частот может быть сэкономлена за счет передачи только ограниченного объема информации о сигнале. Для многих сигналов, которые содержат только несущественную информацию, высокую степень сжатия часто можно обеспечить при очень низкой скорости передачи двоичной информации. В крайнем случае синтез входного сигнала может осуществляться в устройстве декодирования без какого-либо обновления информации по каналу связи до тех пор, пока не будет обнаружено, что входной аудиосигнал снова содержит существенную информацию.
Типичными сигналами, достаточно точное воспроизведение которых может быть обычно осуществлено при очень низких скоростях передачи двоичной информации, являются, в том числе, стационарный шум, автомобильный шум, а также, в некоторой степени, шум от перекрестных помех. Для обеспечения точного воспроизведения устройством декодирования более сложных сигналов, не являющихся речевыми, например музыки или совокупности речи и музыки, необходимы более высокие скорости передачи двоичной информации.
Для многих обычных типов фонового шума достаточно хорошую модель сигнала получают при значительно меньшей скорости передачи двоичной информации, чем та, которая необходима для речевого сигнала. В существующих системах мобильной связи используют этот факт, выполняя регулировку скорости передачи двоичной информации путем ее снижения на время фонового шума. Например, в обычных системах, в которых применяют способы непрерывной передачи, в устройстве кодирования речи с переменной скоростью передачи (ПСП) может быть использована наиболее низкая скорость передачи двоичной информации.
В обычных схемах прерывистой передачи (ПРП) передатчик прекращает передачу кодированных кадров речевого сигнала при отсутствии активности говорящего субъекта. Через одинаковые или неодинаковые промежутки времени (обычно через каждые 500 мс) передатчик осуществляет передачу надлежащих параметров речевого сигнала для генерации комфортного шума в устройстве декодирования обычным способом. Кодирование этих параметров для генерации комфортного шума (ГКШ) обычно осуществляют в виде кадров, которые иногда называют кадрами дескриптора тишины (ДТШ). В находящемся в приемнике устройстве декодирования параметры комфортного шума, прием которых осуществлен в виде кадров ДТШ, используют для выполнения синтеза искусственного шума посредством обычного алгоритма введения комфортного шума (ВКШ).
При осуществлении генерации комфортного шума в устройстве декодирования обычной системы ПРП шум часто воспринимается как в высокой степени статический и существенно отличающийся от фонового шума, формируемого в активном (не ПРП) режиме. Причина такого восприятия заключается в том, что передачу кадров ДТШ при ПРП выполняют реже, чем обычных кадров речевого сигнала. В обычных кодер-декодерах с линейным предсказанием посредством анализа через синтез (ЛПАС), имеющих режим ПРП, обычно осуществляют оценочные вычисления (например, усреднение) спектра и энергии фонового шума по нескольким кадрам, а затем вычисленные параметры квантуют и передают в виде кадров ДТШ по каналу связи в устройство декодирования.
Передача кадров ДТШ с относительно низкой скоростью обновления вместо передачи обычных кадров речевого сигнала имеет двойное преимущество. Вследствие снижения потребляемой мощности продлевают ресурс аккумулятора, например, в приемопередатчике мобильной радиосвязи, и снижают помехи, создаваемые передатчиком, посредством чего обеспечивают более высокую пропускную способность системы.
В том случае, когда сжатие сложного сигнала, такого как музыка, осуществлено с использованием слишком простой модели сжатия, а соответствующая скорость передачи двоичной информации является слишком низкой, воспроизведенный в устройстве декодирования сигнал резко отличается от того результата, который получают с использованием лучшего (более высококачественного) способа сжатия. Использование слишком простой схемы сжатия может быть вызвано ошибочной классификацией типа сложного сигнала как шума. Результатом такой ошибочной классификации является не только плохое воспроизведение сигнала, получаемого на выходе устройства декодирования. Ошибочная классификация типа сигнала обуславливает переключение со схемы сжатия, обеспечивающей более высокое качество, на схему сжатия, обеспечивающую более низкое качество. Для исправления ошибочной классификации типа сигнала необходимо обратное переключение на схему, обеспечивающую более высокое качество. Если такое переключение между схемами сжатия происходит часто, то оно обычно отчетливо прослушивается и может являться раздражающим фактором для слушающего субъекта.
Из изложенного выше видно, что желательно уменьшить возможность возникновения ошибок при классификации типа сигналов, относящихся к субъектам, при сохранении, по возможности, низкой скорости передачи двоичной информации (высокой степени сжатия), например при сжатии фонового шума во время молчания говорящего субъекта. Могут быть использованы способы с очень высокой степенью сжатия, при условии, что их не воспринимают в качестве раздражающего фактора. Примерами способа с высокой степенью сжатия является описанное выше использование параметров комфортного шума для систем ПРП, а также обычное кодирование с линейным предсказанием (КПП) при низкой скорости передачи с использованием способов случайного возбуждения. Обычно посредством подобных способов кодирования с использованием высокой степени сжатия может быть осуществлено точное воспроизведение только простых для восприятия типов шумов, таких как стационарный автомобильный шум, уличный шум, шум в ресторане (невнятный шум от многих источников) и другие подобные им сигналы.
Обычные способы классификации для определения того, действительно ли входной аудиосигнал содержит существенную информацию, основаны, главным образом, на относительно простом анализе стационарности входного аудиосигнала. Если определено, что входной сигнал является стационарным, то полагают, что он представляет собой шумоподобный сигнал. Однако сам по себе этот обычный анализ стационарности может привести к тому, что в случае сложных сигналов, являющихся в достаточной степени стационарными, но фактически содержащими существенную с точки зрения восприятия информацию, их тип будет ошибочно классифицирован как шум. Такая ошибочная классификация типа сигналов является недостатком и приводит к возникновению описанных выше проблем.
Поэтому желательно создать способ классификации типа сигнала, посредством которого осуществляют достоверное обнаружение наличия существенной с точки зрения восприятия информации в сложных сигналах описанного выше типа.
Согласно настоящему изобретению предложен способ обнаружения активности сложного сигнала, посредством которого осуществляют достоверное обнаружение сложных сигналов, не являющихся речевыми, которые содержат существенную информацию, то есть важную с точки зрения ее восприятия слушающим субъектом. Примерами сложных сигналов, не являющихся речевыми, которые могут быть достоверно обнаружены, являются, в том числе, музыка, музыка в режиме паузы при телефонном разговоре, совокупность речи и музыки, музыка, служащая в качестве фона, и другие тональные или гармонические звуки.
Краткое описание чертежей
Фиг.1 - схематичное представление блоков, входящих в состав примерного варианта устройства кодирования речи согласно изобретению.
Фиг.2 - пример варианта осуществления устройства обнаружения активности сложного сигнала по Фиг.1.
Фиг.3 - пример варианта осуществления устройства обнаружения активности речевого сигнала по Фиг.1.
Фиг.4 - пример варианта осуществления логического устройства, принимающего решение с учетом предыдущих состояний, по Фиг.1.
Фиг.5 - примерный вариант операций, выполняемых устройством генерации параметров по Фиг.2.
Фиг.6 - примерный вариант операций, выполняемых в устройстве управления счетчиком по Фиг.2.
Фиг.7 - примерный вариант операций, выполняемых в части устройства по Фиг.2.
Фиг.8 - примерный вариант операций, выполняемых в остальной части устройства по Фиг.2.
Фиг.9 - примерный вариант операций, выполняемых в части устройства по Фиг.3.
Фиг.10 - примерный вариант операций, выполняемых в устройстве управления счетчиком по Фиг.3.
Фиг.11 - примерный вариант операций, выполняемых в остальной части устройства по Фиг.3.
Фиг.12 - примерный вариант операций, которые могут быть реализованы в вариантах осуществления по Фиг.1 - Фиг.11.
Фиг.13 - альтернативный вариант осуществления устройства обнаружения активности сложного сигнала по Фиг.2.
Подробное описание
На Фиг.1 схематично показаны блоки, входящие в состав примерного варианта устройства кодирования речи согласно изобретению. Устройство кодирования речи может быть предусмотрено, например, в приемопередатчике радиосвязи, который осуществляет передачу аудиоинформации по каналу радиосвязи. Одним из примеров такого приемопередатчика радиосвязи является радиотелефонный аппарат мобильной связи, например сотовый телефон.
Согласно фиг.1, входной аудиосигнал подается в устройство обнаружения активности сложного сигнала (УОАС), а также в устройство обнаружения активности речевого сигнала (УОАР). Устройство обнаружения активности сложного сигнала (УОАС) реагирует на входной аудиосигнал для выполнения анализа соответствия, при котором определяют, содержит ли в себе входной сигнал информацию, которая является существенной с точки зрения восприятия соответствующим слушающим субъектом, и набора параметров соответствия сигнала для формирования для УОАР. УОАР использует эти параметры соответствия сигнала совместно с принятым входным аудиосигналом для определения того, является ли входной аудиосигнал речевым или шумовым. УОАР функционирует в качестве устройства классификации типа сигнала речь/шум и формирует на выходе указатель того, является ли сигнал речевым или же представляет собой шум (указатель речь/шум). Указатель речь/шум подается на вход УОАС. В ответ на указатель речь/шум и входной аудиосигнал на выходе УОАС формируется набор флагов сложного сигнала, которые подаются в блок логического устройства, принимающего решение с учетом предыдущих состояний, которое также принимает указатель речь/шум, сформированный посредством УОАР.
В ответ на получение флагов сложного сигнала и указателя речь/шум логическое устройство, принимающее решение с учетом предыдущих состояний, формирует выходной сигнал, указывающий, содержит ли входной аудиосигнал информацию, являющуюся существенной с точки зрения восприятия слушающим субъектом, который прослушивает в приемнике на другом конце канала связи воспроизведенный аудиосигнал, полученный на выходе устройства декодирования. Выходной сигнал логического устройства, принимающего решение с учетом предыдущих состояний, может быть надлежащим образом использован для управления, например, функционированием ПРП (в системе ПРП) или скоростью передачи двоичной информации (в устройстве кодирования с переменной скоростью передачи (ПСП)). В том случае, если выходной сигнал логического устройства, принимающего решение с учетом предыдущих состояний, указывает, что входной аудиосигнал не содержит существенной информации, то может быть осуществлена генерация комфортного шума (в системе ПРП) или же может быть снижена скорость передачи двоичной информации (в устройстве кодирования с ПСП).
УОАС осуществляет анализ входного сигнала (который может быть предварительно обработан) путем извлечения из каждого кадра информации о корреляции сигнала в конкретной полосе частот. Это может быть выполнено путем фильтрации сигнала посредством надлежащего фильтра, например полосового фильтра или фильтра верхних частот. Этот фильтр присваивает весовые коэффициенты тем полосам частот, которые содержат большую часть энергии, используемой при анализе. Обычно для ослабления сильного низкочастотного содержимого, например, автомобильного шума, необходимо отфильтровывать низкочастотную область. Отфильтрованный сигнал может затем быть передан для выполнения корреляционного анализа с долгосрочным предсказанием (ДСП) без обратной связи. В результате анализа с ДСП формируют вектор значений корреляционной функции или нормированных значений усиления; по одному значению для каждого корреляционного сдвига. Диапазон сдвига может быть равным, например, [20, 147] как и при обычном анализе с ДСП. Простой альтернативный способ реализации обнаружения искомого соответствия состоит в использовании сигнала без фильтрации при вычислении корреляционной функции и в изменении значений корреляционной функции посредством алгоритмической обработки, подобной процессу фильтрации, подробное описание которой приведено ниже.
Для каждого анализируемого кадра осуществляют выбор и буферизацию наибольшего по величине нормированного значения корреляционной функции (значения усиления). Сдвиг (соответствующий задержке выбранного значения корреляционной функции при ДСП) не используют. Затем производят анализ значений и формируют вектор параметров соответствия сигнала, который передается в УОАР для использования в процессе оценки фонового шума. Также выполняют обработку буферизованных значений корреляционной функции и используют их для принятия окончательного решения о том, является ли сигнал существенным (то есть, важен ли он с точки зрения восприятия) и является ли решение, принятое УОАР, достоверным. Для указания того, что существует значительная вероятность ошибочной классификации типа сигнала посредством УОАР, то есть определения типа сигнала как шум при фактическом наличии информации, существенной с точки зрения восприятия, создают набор флагов и .
Параметры соответствия сигнала, вычисленные при анализе соответствия в УОАС, используют для улучшения рабочих характеристик схемы УОАР. Схема УОАР пытается определить, является ли сигнал речевым сигналом (возможно, имеющим ухудшенное качество, обусловленное шумом окружающей среды) или же шумовым сигналом. Для обеспечения возможности отличить сигнал "речь + шум" от шума УОАР обычно выполняет оценку шума. Для обеспечения принятия наилучшего решения при определении типа сигнала речь + шум УОАР должно осуществлять обновление выполненных им самим оценок фонового шума. Для определения того, в какой степени следует обновлять полученные посредством УОАР оценочные значения фонового шума и активности сигнала, используют параметры соответствия, полученные из УОАС.
Если считается, что решение УОАР является достоверным, логическое устройство, принимающее решение с учетом предыдущих состояний, корректирует окончательное решение о типе сигнала посредством использования предыдущей информации о том, что сигнал является существенным, и предыдущих решений, принятых УОАР. Выходной сигнал логического устройства, принимающего решения с учетом предыдущих состояний, представляет собой окончательное решение о том, содержит ли сигнал существенную или несущественную информацию. В том случае, когда сигнал содержит существенную информацию, кодирование может быть осуществлено с использованием низкой скорости передачи двоичной информации. В системе ПРП эту существенную/несущественную информацию используют для принятия решения о том, следует ли осуществлять кодирование текущего кадра обычным способом (в случае существенной информации), или же вместо этого кодирование кадра следует осуществлять с параметрами комфортного шума (в случае несущественной информации).
В одном из вариантов осуществления УОАС с высокой эффективностью и низкой сложностью предусматривается в устройстве кодирования речи с использованием структуры линейного предсказания посредством анализа через синтез (ЛПАС). При помощи обычных средств (фильтрации верхних частот, нормирования и т.д.) осуществляют формирование сигнала, подаваемого на вход устройства кодирования речи. Затем сформированный сигнал s(n) фильтруют посредством обычного адаптивного взвешивающего фильтра подавления помех, используемого в устройствах кодирования с ЛПАС. Взвешенный речевой sw(n) подается в средство анализа с ДСП без обратной связи. При анализе с ДСП осуществляется вычисление и запоминание значений корреляционной функции для каждого сдвига в интервале [Lмин, Lмакс] где, например, Lмин=18, а Lмакс=147. Для каждого значения задержки (сдвига) L внутри этого интервала корреляция Rxx(k,l) для значения 1 задержки вычисляется следующим образом:
(Уравнение 1)
где К - длина анализируемого кадра. Если задано, что k равно нулю, то это уравнение может быть записано в виде функции, зависящей только от задержки 1:
(Уравнение 2)
Также можно определить:
(Уравнение 3)
Exx(L)=Rxx(L,L)
Эти процедуры обычно выполняют в качестве предварительного поиска при адаптивном поиске по таблице кодирования в устройстве кодирования ЛПАС, и, следовательно, на их выполнение не затрачивают каких-либо дополнительных вычислительных ресурсов.
Оптимальный коэффициент усиления для прогнозирующего устройства с одиночным отводом получают путем минимизации искажения D в уравнении:
(Уравнение 4)
Оптимальный коэффициент усиления (являющийся, на самом деле, нормированным значением корреляционной функции) представляет собой такое значение g в Уравнении 4, при котором D является минимальным, и задан уравнением:
(Уравнение 5)
где L - задержка, при которой искажение D (Уравнение 4) является минимальным, a Exx(L) - энергия. Устройство обнаружения сложного сигнала вычисляет оптимальное усиление () для отфильтрованного посредством фильтра верхних частот варианта взвешенного сигнала sw. Фильтр верхних частот может представлять собой, например, простой фильтр первого порядка с коэффициентами фильтрации [h0, h1]. В одном из вариантов осуществления вместо фильтрации верхних частот взвешенного сигнала перед вычислением корреляционной функции, минимизацию D осуществляют по упрощенной формуле (см. Уравнение 4) с использованием отфильтрованного сигнала .
Отфильтрованный посредством фильтра верхних частот сигнал имеет вид:
(Уравнение 7)
В этом случае ( отфильтрованного сигнала) получают в виде:
(Уравнение 8)
Следовательно, вместо вычисления нового Rxx для отфильтрованного сигнала , вычисление параметра может быть выполнено согласно Уравнению 8 с использованием уже имеющихся вышеуказанных значений Rxx и Ехх, полученных из нефильтрованного сигнала sw.
Если коэффициенты фильтрации [h0, h1] выбраны равными [1, -1], а задержка Lзнам, посредством которой осуществляют нормировку знаменателя, задана равной Lзнам=0, то процедура вычисления сводится к следующему выражению:
(Уравнение 9)
Дальнейшее упрощение осуществляют посредством использования в знаменателе Уравнения (8) значения Lзнам=(Lмин+1) (вместо оптимальной , то есть, оптимальной задержки, в Уравнении 4), и ограничения максимального значения L значением Lмакс-1, а минимального значения Lмин при поиске максимума -значением (Lмин+1). В этом случае при анализе с ДСП без обратной связи не требуется никаких дополнительных процедур вычисления значений корреляционной функции помимо уже имеющихся значений Rxx(1).
Для каждого кадра запоминают наибольшее по величине значение усиления. Сглаженный вариант g_f(i) может быть получен посредством фильтрации значения g_макс, получаемого для каждого кадра, согласно формуле g_f(i)=b0*g_макс(i)-a1*g_f(i-1). В некоторых вариантах осуществления коэффициенты фильтрации b0 и а1 могут изменяться во времени, а также могут зависеть от состояния и от входного сигнала во избежание проблем насыщения состояния. Например, b0 и а1 могут быть выражены в виде соответствующих функций, зависящих от времени: g_макс(i) и g_f(i-1). То есть, b0=fb(t, g_макс(i), g_f(i-1)) и a1=fa(t, g_макс(i), g_f(i-1)).
Сигнал g_f(i) является основным объектом для анализа в УОАС наличия существенной информации. Посредством анализа состояния и предыстории g_f(i) можно осуществить содействие адаптации УОАР, а для блока логического устройства, принимающего решение с учетом предыдущих состояний, формируются указатели, обеспечивающие его функционирование.
На Фиг.2 показаны примеры вариантов осуществления описанного выше устройства обнаружения активности сложного сигнала (УОАС) по Фиг.1. Блок 21 предварительной обработки выполняет предварительную обработку входного сигнала и формирует вышеуказанный взвешенный сигнал sw(n). Сигнал sw(n) подается в обычное устройство 23 корреляционного анализа, например, в устройство корреляционного анализа с долгосрочным предсказанием (ДСП) без обратной связи. Выходной сигнал 22 устройства 23 корреляционного анализа обычным образом подается в качестве входного сигнала для адаптивного поиска по таблице кодирования, осуществляемого в блоке 24. Как указано выше, согласно изобретению для вычисления g_f(i) могут быть использованы значения Rxx и Ехх, применяемые в обычном устройстве 23 корреляционного анализа.
Значения Rxx и Ехх, полученные в точке 25, подают в устройство 20 вычисления максимального нормированного усиления, которое вычисляет значение g_макс так, как описано выше. Устройство 20 вычисления производит выбор наибольшего по величине (максимального по величине) значения g_макс для каждого кадра и сохраняет его в буфере 26. Затем, как описано выше, буферизованные значения подаются в сглаживающий фильтр 27. Выходной сигнал сглаживающего фильтра 21 равен g_f(i).
Сигнал g_f(i) подается на вход устройства 28 генерации параметров. В ответ на поступление входного сигнала g_f(i) устройство 28 генерации параметров формирует два выходных сигнала complex_high (сложный_высок) и complex_low (сложный_низк), которые подаются в УОАР в качестве параметров соответствия сигнала (см. Фиг.1). Устройство 28 генерации параметров также создает выходной сигнал complex_timer (таймер_сложного сигнала), который подают на вход устройства 29 управления счетчиком, осуществляющего управление счетчиком 201. Выходной сигнал complex_hang_count (отсчет_последействия_сложного сигнала) из счетчика 201 подается в УОАР в качестве параметра соответствия сигнала, а также на вход компаратора 203, выходной сигнал VAD_fail_long (неудача_УОАР_долг) которого представляет собой флаг сложного сигнала, который подается в логическое устройство, принимающее решение с учетом предыдущих состояний (см. Фиг.1). Сигнал g_f(i) также подается в компаратор 205, выход 208 которого соединен с входом логического элемента 207 "И".
Устройство обнаружения активности сложного сигнала по Фиг.2 также получает из УОАР указатель речь/шум (см. Фиг.1), а именно, сигнал sp_vad_prim (sр_УОАР_исходный) (например, равный 0 для шума и равный 1 для речи). Этот сигнал подается на вход буфера 202, выход которого соединен с компаратором 204. Выходной выход 206 компаратора 204 соединен с другим входом логического элемента 207 "И". Выходной сигнал VAD_fail_short (неудача_УОАР_кратк) логического элемента 207 "И" представляет собой флаг сложного сигнала, который подается на вход логического устройства, принимающего решение с учетом предыдущих состояний, из Фиг.1.
На Фиг.13 изображен пример альтернативного варианта устройства по Фиг.2, в котором вычисление значений g_опт из приведенного выше Уравнения 5 осуществляют посредством устройства 23 корреляционного анализа для варианта сигнала sw(n), отфильтрованного фильтром верхних частот, то есть, для сигнала sw_f(n), полученного на выходе фильтра 131 верхних частот. В этом случае в блоке 26 по Фиг.2 осуществляется буферизация вместо g_макс наибольшего по величине значение g_опт для каждого кадра. Так же, как и на Фиг.2, устройство 23 корреляционного анализа формирует из сигнала sw_(n) обычный выходной сигнал 22.
На Фиг.3 изображены блоки, соответствующие варианту осуществления УОАР по Фиг.1. Как описано выше применительно к Фиг.2, УОАР получает из УОАС параметры соответствия сигнала complex_high (сложный_высок), complex_low (сложный_низк), и complex hang_count (отсчет_последействия_сложного_сигнала). Параметры complex_high (сложный_высок) и complex_low (сложный_низк) подают на вход соответствующих буферов 30 и 31, выходы которых соединены соответственно с компараторами 32 и 33. Выходы компараторов 32 и 33 соединены с соответствующими входами логического элемента 34 "ИЛИ", который осуществляет вывод сигнала complex warning (предупреждение_о_сложном_сигнале) и подачу его в устройство 35 управления счетчиком. В ответ на поступление сигнала complex_warning (предупреждение_о_сложном_сигнале) устройство 35 управления счетчиком осуществляет управление счетчиком 36.
Входной аудиосигнал подается на вход устройства 38 оценки шума, а также на вход устройства 39 определения речи/шума. Устройство 39 определения речи/шума также обычным образом осуществляет прием оценочного значения 303 фонового шума из устройства 38 оценки шума. Устройство определения речи/шума реагирует на входной аудиосигнал и информацию об оценочном значении шума, полученную в точке 303, и формирует указатель sp_vad_prim (sр_УОАР_исходный) наличия речи/шума, который подается в УОАС и в логическое устройство, принимающее решение с учетом предыдущих состояний, по Фиг.1.
Сигнал complex hang count (отсчет_последействия_сложного сигнала) подается на вход компаратора 37, выход которого соединен со входом УМЕНЬШЕНИЕ устройства 38 оценки шума. При активации входа УМЕНЬШЕНИЕ устройство оценки шума может корректировать получаемое в нем оценочное значение шума только в сторону понижения или оставлять его неизменным, то есть любое новое оценочное значение шума должно указывать наличие меньшего уровня шума или же того же самого уровня шума по сравнению с предыдущим оценочным значением. В других вариантах осуществления активация входа УМЕНЬШЕНИЕ позволяет устройству оценки шума корректировать получаемое в нем оценочное значение шума в сторону повышения таким образом, что оно будет указывать наличие большего уровня шума, но при этом необходимо обеспечивать значительное уменьшение скорости (интенсивности) обновления.
Устройство 38 оценки шума также имеет вход ЗАДЕРЖКА, на который подается выходной сигнал, сформированный счетчиком 36, а именно stat_count (отсчет_стац). В обычных устройствах оценки шума в УОАР после получения указателя, свидетельствующего о том, что входной сигнал является, например, нестационарным, либо представляет собой сигнал основного тона или тональный сигнал, обычно вводится задержка на некоторый период времени. В течение этого периода задержки не может быть произведено обновление оценочного значения шума в сторону его увеличения. Это способствует предотвращению возникновения ошибочных откликов на сигналы, не являющиеся шумовыми, на скрытые в шуме или стационарные голосовые сигналы. По истечении периода времени задержки устройство оценки шума может осуществлять обновление получаемых в нем оценочных значений шума в сторону их увеличения даже в том случае, если в течение некоторого времени было указано наличие речевого сигнала. Это предотвращает блокировку всего алгоритма УОАР в состоянии, указывающем на наличие активности, при внезапном повышении уровня шума.
Согласно изобретению управление входом ЗАДЕРЖКА осуществляют посредством сигнала stat_count (отсчет_стац) таким образом, что в том случае, когда сигнал содержит в слишком высокой степени существенную информацию и не позволяет осуществить "быстрое" увеличение оценочного значения шума, в устройстве оценки шума устанавливается нижний предел вышеуказанного периода задержки (то есть требуется более длительная задержка, чем та, которая необходима в обычном случае). Если УОАС обнаруживает в высокой степени существенную информацию в течение довольно длительного времени (например, в течение 2-х секунд), сигнал stat_count (отсчет_стац) может обеспечивать задержку увеличения оценочного значения шума на достаточно длительное время (например, на 5 секунд). В одном из вариантов осуществления, когда УОАС указывает на наличие в высокой степени существенной информации, то сигнал stat_count (отсчет_стац) используется для уменьшения скорости (интенсивности) обновления оценочного значения шума.
Устройство 39 определения речи/шума имеет выход 301, который соединен с входом устройства 35 управления счетчиком, а также соединен с устройством 38 оценки шума, причем наличие этого последнего соединения является общепринятым. Если посредством устройство определения речи/шума определяет, что данный кадр входного аудио-сигнала представляет собой, например, сигнал основного тона, тональный сигнал или нестационарный сигнал, выходной сигнал 301 указывает на это устройству 35 управления счетчиком, которое, в свою очередь, устанавливает требуемое значение выходного сигнала stat_count (отсчет стац) счетчика 36. Если выходной сигнал 301 указывает на наличие стационарного сигнала, то устройство управления 35 может уменьшить показание счетчика 36.
На Фиг.4 показан пример варианта осуществления логического устройства, принимающего решение с учетом предыдущих состояний, по Фиг.1. Согласно Фиг.4, флаги сложного сигнала VAD_fail_short (неудача_УОАР_кратк) и VAD_fail_long (неудача_УОАР_долг) подаются на вход логического элемента 41 "ИЛИ", выходной сигнал которого поступает на вход другого логического элемента 43 "ИЛИ". Указатель наличия речи/шума sp_vad_prim (sр_УОАР_исходный) из УОАР подается на вход находящегося в УОАР обычного логического устройства 45, принимающего решение с учетом предыдущих состояний. Сигнал sp_vad (sр_УОАР), полученный на выходе находящегося в УОАР логического устройства, принимающего решение с учетом предыдущих состояний, подается на второй вход логического элемента 43 "ИЛИ". Если какой-либо из флагов сложного сигнала VAD_fail_short (неудача_УОАР_кратк) или VAD_fail_long (неудача_УОАР_долг) является активным, то выходной сигнал логического элемента 41 "ИЛИ" приводит к тому, что логический элемент 43 "ИЛИ" будет указывать на наличие входного сигнала, содержащего существенную информацию.
В том случае, когда ни один из флагов сложного сигнала не является активным, то указателем существенности/несущественности является решение о наличии речи/шума, принятое находящимся в УОАР логическим устройством 45, принимающим решение с учетом предыдущих состояний, а именно сигнал sp_vad (sр_УОАР). Если сигнал sp_vad (sр_УОАР) является активным, что, следовательно, означает наличие речевого сигнала, то выходной сигнал логического элемента 43 "ИЛИ" указывает на наличие сигнала, содержащего в себе существенную информацию. В противном случае, если sp_vad (sр_УОАР) не является активным, что означает наличие шума, то выходной сигнал логического элемента 43 "ИЛИ" указывает на наличие сигнала, содержащего в себе несущественную информацию. Указатель существенности/несущественности из логического элемента 43 "ИЛИ" может подаваться, например, в блок управления ПРП системы ПРП или в блок управления скоростью передачи двоичной информации системы ПСП.
Фиг.5 иллюстрирует операции, выполняемые устройством 28 генерации параметров по Фиг.2 для формирования сигналов complex_high (сложный_высок), complex_low (сложный_низк), и complex_timer (таймер_сложного_сигнала). Индекс i на Фиг.5 (и на Фиг.6-Фиг.11) задает текущий кадр входного аудиосигнала. Как показано на Фиг.5, каждый из вышеуказанных сигналов имеет значение 0 в том случае, если сигнал g_f(i) не превышает соответствующее пороговое значение, а именно, ПЗв (THh) для сигнала complex_high (сложный_высок) на этапах 51-52, ПЗн (THl) для сигнала complex_low (сложный_низк) на этапах 54-55, или ПЗт (THt) для сигнала complex_timer (таймер сложного сигнала) на этапах 57-58. В том случае, если на этапе 51 g_f(i) превышает пороговое значение ПЗв (ТНh), то на этапе 53 значение complex_high (сложный_высок) устанавливается равным 1, а если на этапе 54 g_f(i) превышает пороговое значение ПЗн (THl), то на этапе 56 значение complex low (сложный_низк) устанавливается равным 1. Если на этапе 57 g_f(i) превышает пороговое значение ПЗт (THt), то на этапе 59 осуществляется приращение значения complex_timer (таймер_сложного_сигнала) на 1. Приведенные в качестве примера на Фиг.5 пороговые значения представляют собой ПЗв (ТНh), равное 0,6; ПЗн (THl), равное 0,5, и ПЗт (THt), равное 0,7. Из Фиг.5 видно, что значение complex_timer (таймер_сложного_сигнала) представляет собой то количество последовательных кадров, в которых g_f(i) превышает ПЗт (THt).
Фиг.6 иллюстрирует операции, которые могут быть выполнены посредством устройства 29 управления счетчиком и счетчика 201 по Фиг.2. Если на этапе 61 значение complex_timer (таймер_сложного_сигнала) превышает пороговое значение ПЗтс (THct), то на этапе 62 устройство 29 управления счетчиком устанавливает значение выходного сигнала complex hang count (отсчет_последействия_сложного_сигнала) счетчика 201 равным Н. Если на этапе 61 значение complex_timer (таймер сложного_сигнала) не превышает пороговое значение ПЗтс (THct), но на этапе 63 установлено, что оно больше нуля, то на этапе 64 устройство 29