Оценивание фонового шума в аудиосигналах
Иллюстрации
Показать всеИзобретение относится к средствам для оценивания фонового шума в аудиосигнале. Технический результат заключается в повышении точности оценивания, содержит ли аудиосигнал активную речь или музыку или нет. Получают по меньшей мере один параметр, ассоциированный с сегментом аудиосигнала, такой как кадр или часть кадра, на основе: первого коэффициента усиления линейного предсказания, вычисленного как соотношение между остаточным сигналом из линейного предсказания 0-го порядка и остаточным сигналом из линейного предсказания 2-го порядка для сегмента аудиосигнала; и второго коэффициента усиления линейного предсказания, вычисленного как соотношение между остаточным сигналом из линейного предсказания 2-го порядка и остаточным сигналом из линейного предсказания 16-го порядка для сегмента аудиосигнала. Определяют, содержит ли сегмент аудиосигнала паузу, на основе полученного по меньшей мере одного параметра. Обновляют оценку фонового шума на основе сегмента аудиосигнала, когда сегмент аудиосигнала содержит паузу. 7 н. и 16 з.п. ф-лы, 24 ил.
Реферат
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Варианты осуществления настоящего изобретения относятся к обработке аудиосигнала, и, в частности, к оцениванию фонового шума, например, для поддержки заключения по активности звука.
УРОВЕНЬ ТЕХНИКИ
В системах связи, использующих прерывистую передачу (DTX), важно найти баланс между эффективностью и не уменьшением качества. В таких системах используется детектор активности для указания активных сигналов, например, речи или музыки, которые должны активно кодироваться, и сегментов с фоновыми сигналами, которые могут быть заменены комфортным шумом, сгенерированным на стороне приемника. Если детектор активности слишком эффективен в определении неактивности, он будет вносить усечение в активный сигнал, которое тогда воспринимается как субъективное ухудшение качества, когда усеченный активный сегмент заменяется комфортным шумом. В то же время, эффективность DTX уменьшается, если детектор активности недостаточно эффективен и классифицирует сегменты фонового шума как активные и затем активно кодирует фоновый шум вместо вхождения в DTX-режим с комфортным шумом. В большинстве случаев проблема усечения рассмотрена плохо.
Фиг. 1 показывает обзорную блок-схему обобщенного детектора активности звука, SAD или детектора активности голоса, VAD, который принимает аудиосигнал в качестве ввода и выдает заключение по активности в качестве вывода. Входной сигнал делится на кадры данных, т.е. сегменты аудиосигнала, например, по 5-30 мс, в зависимости от реализации, и одно заключение по активности по каждому кадру выдается в качестве вывода.
Первичное заключение, "первичное", делается первичным детектором, проиллюстрированным на Фиг. 1. Первичное заключение является по существу лишь сравнением признаков текущего кадра с признаками фона, которые оцениваются исходя из предыдущих входных кадров. Разность между признаками текущего кадра и признаками фона, которая больше, чем порог, вызывает первичное заключение по активности. Блок добавления размытия используется для расширения первичного заключения на основе прошлых первичных заключений для формирования итогового заключения, "флага". Причина для использования размытия состоит главным образом в уменьшении/устранении риска усечения средней и задней частей всплеска активности. Как указано на Фиг.1, контроллер операций может регулировать порог(и) для первичного детектора и длительность добавления размытия согласно характеристикам входного сигнала. Блок оценщика фона используется для оценивания фонового шума во входном сигнале. Фоновый шум в настоящем документе может также называться "фоном" или "признаком фона".
Оценивание признака фона может быть сделано согласно двум принципиально разным принципам, либо посредством использования первичного заключения, т.е. с обратной связью заключения (принятия решения) или метрики заключения, которое указано штрихпунктирной линией на Фиг. 1, или посредством использования некоторых других характеристик входного сигнала, т.е. без обратной связи заключения. Также возможно использовать комбинации двух стратегий.
Примером кодека, использующего обратную связь заключения для оценивания фона, является AMR-NB (адаптированный многоскоростной узкополосный кодек), и примерами кодеков, где обратная связь заключения не используется, являются EVRC (усовершенствованный кодек с переменной скоростью) и G.718.
Есть некоторое число разных характеристик или признаков сигнала, которые могут быть использованы, но одним общим признаком, используемым в VAD, являются частотные характеристики входного сигнала. Широко используемым типом частотных характеристик является энергия кадра поддиапазона, из-за его низкой сложности и надежного функционирования при низком SNR. Вследствие этого предполагается, что входной сигнал разбивается на разные частотные поддиапазоны, и уровень фона оценивается для каждого из поддиапазонов. Таким образом, одним из признаков фонового шума является вектор со значениями энергии для каждого поддиапазона. Это значения, которые характеризуют фоновый шум во входном сигнале в частотной области.
Для достижения отслеживания фонового шума обновление актуальной оценки фонового шума может совершаться по меньшей мере тремя разными способами. Одним способом является использование авторегрессивного, AR, процесса по каждому частотному элементу для осуществления обновления. Примерами таких кодеков являются AMR-NB и G.718. В основном, для этого типа обновления, размер шага обновления пропорционален наблюдаемой разности между текущим вводом и текущей оценкой фона. Другим способом является использование мультипликативного масштабирования текущей оценки с ограничением, что оценка никогда не может быть больше, чем текущий ввод, или меньше, чем минимальное значение. Это означает, что оценка увеличивается с каждым кадром, пока она не станет выше, чем текущий ввод. В этой ситуации текущий ввод используется как оценка. EVRC является примером кодека, использующего этот способ для обновления оценки фона для функции VAD. Следует отметить, что EVRC использует разные оценки фона для VAD и подавления шума. Следует отметить, что VAD может быть использован в других контекстах, нежели DTX. Например, кодеках с переменной скоростью, таких как EVRC, VAD может быть использован как часть функции определения скорости.
Третьим способом является использование так называемого способа минимума, где оценка имеет минимальное значение в течение скользящего временного окна предыдущих кадров. Это в основном дает минимальную оценку, которая масштабируется, с использованием компенсационного коэффициента, чтобы получить и аппроксимировать среднюю оценку для стационарного шума.
В случаях с высоким SNR, где уровень сигнала для активного сигнала гораздо выше, чем фоновый сигнал, может быть достаточно просто сделать заключение о том, является ли входной аудиосигнал активным или неактивным. Однако, очень трудно разделить активные и неактивные сигналы в случаях с низким SNR, и в частности, когда фон является нестационарным или даже схожим с активным сигналом по своим характеристикам.
Эксплуатационные характеристики VAD зависят от способности оценщика фонового шума отслеживать характеристики фона, в частности, когда это касается нестационарных фонов. При лучшем отслеживании возможно сделать VAD более эффективным без увеличения риска усечения речи.
Хотя корреляция является важными признаком, который используется для обнаружения речи, в основном, голосовой части речи, есть также сигналы шума, которые показывают высокую корреляцию. В этих случаях шум с корреляцией будет препятствовать обновлению оценок фонового шума. Результатом является высокая активность, так как речь и фоновый шум кодируются как активный контент. Хотя для высоких SNR (приблизительно > 20 дБ) будет возможно уменьшить проблему с использованием обнаружения паузы на основе энергии, это ненадежно для SNR-диапазона 20 дБ - 10 дБ или возможно 5 дБ. Оно находится в таком диапазоне, что решение, описанное в настоящем документе, имеет влияние.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Было бы желательно достичь улучшенного оценивания фонового шума в аудиосигналах. "Улучшенное" здесь может предполагать выдачу более точного заключения (решения) в отношении того, содержит аудиосигнал активную речь или музыку или нет, и таким образом более частое оценивание, например, обновление предыдущей оценки, причем фоновый шум в сегментах аудиосигнала фактически свободен от активного контента, такого как речь и/или музыка. Здесь предусматривается улучшенный способ генерирования оценки фонового шума, который может обеспечить, например, детектору активности звука возможность делать более адекватные заключения.
Для оценивания фонового шума в аудиосигналах важно иметь возможность нахождения надежных признаков для идентификации характеристик сигнала фонового шума, также когда входной сигнал содержит неизвестную смесь активных и фоновых сигналов, где активные сигналы могут содержать речь и/или музыку.
Изобретатель понял, что признаки, относящиеся к остаточным энергиям для разных порядков моделей линейного предсказания, могут быть использованы для обнаружения пауз в аудиосигналах. Эти остаточные энергии могут быть извлечены, например, из анализа линейного предсказания, что является общим для кодеков речи. Признаки могут быть отфильтрованы и объединены, чтобы сделать набор признаков или параметров, которые могут быть использованы для обнаружения фонового шума, что делает решение подходящим для использования при оценивании шума. Решение, описанное в настоящем документе, является частично эффективным для условий, когда SNR находится в диапазоне 10-20 дБ.
Другим признаком, предусмотренным в настоящем документе, является показатель спектральной близости к фону, который может быть сделан, например, посредством использования энергий поддиапазона частотной области, которые используются, например, в поддиапазоне SAD. Показатель спектральной близости может также быть использован, чтобы сделать заключение, содержит ли аудиосигнал паузу или нет.
Согласно первому аспекту, предусматривается способ оценивания фонового шума. Способ содержит получение по меньшей мере одного параметра, ассоциированного с сегментом аудиосигнала, таким как кадр или часть кадра, на основе первого коэффициента усиления линейного предсказания, вычисленного как соотношение между остаточным сигналом из линейного предсказания 0-го порядка и остаточным сигналом из линейного предсказания 2-го порядка для сегмента аудиосигнала; и, второго коэффициента усиления линейного предсказания, вычисленного как соотношение между остаточным сигналом из линейного предсказания 2-го порядка и остаточным сигналом из линейного предсказания 16-го порядка для сегмента аудиосигнала. Способ дополнительно содержит определение, содержит ли сегмент аудиосигнала паузу, на основе, по меньшей мере, полученного по меньшей мере одного параметра; и, обновление оценки фонового шума на основе сегмента аудиосигнала, когда сегмент аудиосигнала содержит паузу.
Согласно второму аспекту предусматривается оценщик фонового шума. Оценщик фонового шума выполнен с возможностью получения по меньшей мере одного параметра, ассоциированного с сегментом аудиосигнала, на основе первого коэффициента усиления линейного предсказания, вычисленного как соотношение между остаточным сигналом из линейного предсказания 0-го порядка и остаточным сигналом из линейного предсказания 2-го порядка для сегмента аудиосигнала; и, второго коэффициента усиления линейного предсказания, вычисленного как соотношение между остаточным сигналом из линейного предсказания 2-го порядка и остаточным сигналом из линейного предсказания 16-го порядка для сегмента аудиосигнала. Оценщик фонового шума дополнительно выполнен с возможностью определения, содержит ли сегмент аудиосигнала паузу, на основе, по меньшей мере, упомянутого полученного по меньшей мере одного параметра; и, обновления оценки фонового шума на основе сегмента аудиосигнала, когда сегмент аудиосигнала содержит паузу.
Согласно третьему аспекту предусматривается SAD, который содержит оценщик фонового шума согласно второму аспекту.
Согласно четвертому аспекту предусматривается кодек, который содержит оценщик фонового шума согласно второму аспекту.
Согласно пятому аспекту предусматривается устройство связи, которое содержит оценщик фонового шума согласно второму аспекту.
Согласно шестому аспекту предусматривается узел сети, который содержит оценщик фонового шума согласно второму аспекту.
Согласно седьмому аспекту предусматривается компьютерная программа, содержащая инструкции, которые при исполнении, по меньшей мере, на одном процессоре предписывают по меньшей мере одному процессору осуществить способ согласно первому аспекту.
Согласно восьмому аспекту предусматривается носитель, который содержит компьютерную программу согласно седьмому аспекту.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Вышеприведенные и другие объекты, признаки и преимущества технологии, раскрытой в настоящем документе, будут понятны из нижеследующего более конкретного описания вариантов осуществления, которые проиллюстрированы на прилагаемых чертежах. Чертежи необязательно находятся в масштабе, акцент вместо этого смещен на иллюстрацию принципов технологии, раскрытой в настоящем документе.
Фиг. 1 является блок-схемой, иллюстрирующей детектор активности и логику определения размытия.
Фиг. 2 является схемой последовательности операций, иллюстрирующей способ оценивания фонового шума, согласно примерному варианту осуществления.
Фиг. 3 является блок-схемой, иллюстрирующей вычисление признаков, относящихся к остаточным энергиям для линейного предсказания порядка 0 и 2, согласно примерному варианту осуществления.
Фиг. 4 является блок-схемой, иллюстрирующей вычисление признаков, относящихся к остаточным энергиям для линейного предсказания порядка 2 и 16, согласно примерному варианту осуществления.
Фиг. 5 является блок-схемой, иллюстрирующей вычисление признаков, относящихся к показателю спектральной близости, согласно примерному варианту осуществления.
Фиг. 6 является блок-схемой, иллюстрирующей поддиапазон оценщика фона на основе энергии поддиапазона.
Фиг. 7 является схемой последовательности операций, иллюстрирующей логику заключения по обновлению фона, исходя из решения, описанного в Приложении A.
Фиг. 8-10 являются схемами, иллюстрирующими поведение разных параметров, представленных в настоящем документе, при вычислении для аудиосигнала, содержащего два всплеска речи.
Фиг. 11a-11c и 12-13 являются блок-схемами, иллюстрирующими разные реализации оценщика фонового шума, согласно примерным вариантам осуществления.
Фиг. A2-A9 на страницах с Фигурами, отмеченных как "Приложение A", ассоциированы с Приложением A, и на них ссылаются в упомянутом Приложении A с помощью номера, следующего за буквой "A", т.е. 2-9.
ПОДРОБНОЕ ОПИСАНИЕ
Решение, раскрытое в настоящем документе, относится к оцениванию фонового шума в аудиосигналах. В обобщенном детекторе активности, проиллюстрированном на Фиг. 1, функция оценивания фонового шума выполняется блоком, обозначенным как "оценщик фона". Некоторые варианты осуществления решения, описанного в настоящем документе, можно увидеть в отношении решений, описанных ранее в WO 2011/049514, WO 2011/049515, которые включены в настоящий документ посредством ссылки, и также в Приложении A (Приложении A). Решение, раскрытое в настоящем документе, будет сравниваться с реализациями этих ранее описанных решений. Даже если решения, раскрытые в WO 2011/049514, WO 2011/049515 и Приложении A, являются хорошими решениями, решение, представленное в настоящем документе, все равно имеет преимущества относительно этих решений. Например, решение, представленное в настоящем документе, является даже более адекватным в своем отслеживании фонового шума.
Эксплуатационные характеристики VAD зависят от способности оценщика фонового шума отслеживать характеристики фона, в частности, когда это касается нестационарных фонов. При лучшем отслеживании, можно сделать VAD более эффективным без увеличения риска усечения речи.
Одна проблема с текущим способом оценивания шума состоит в том, что для того, чтобы достичь хорошего отслеживания фонового шума при низком SNR, требуется надежный детектор паузы. Для ввода только речи, можно использовать частоту следования слогов или тот факт, что человек не может говорить все время, чтобы находить паузы в речи. Такие решения могут предусматривать, что спустя достаточное время не совершения обновлений фона, требования для обнаружения паузы "ослабляются", так чтобы вероятность обнаружить паузу в речи была больше. Это обеспечивает возможность для ответа на резкие изменения в уровне или характеристиках шума. Некоторыми примерами такой логики восстановления шума являются условия: 1. Так как фрагменты речи содержат сегменты с высокой корреляцией, обычно безопасно предполагать, что в речи есть пауза после достаточного числа кадров без корреляции. 2. Когда соотношение сигнал-шум SNR > 0, энергия речи выше, чем фоновый шум, так, если энергия кадра близка к минимальной энергии в течение длительного времени, например 1-5 секунд, также безопасно предположить, что энергия кадра находится в паузе речи. Хотя предыдущие способы хорошо работают с вводом только речи, они недостаточны, когда музыка считается активным вводом. В музыке могут быть длинные сегменты с низкой корреляцией, которые все равно являются музыкой. К тому же, динамика энергии в музыке может также запустить обнаружение ложной паузы, что может привести к нежелательным, ошибочным обновлениям оценки фонового шума.
В идеальном случае обратная функция детектора активности, или то, что будет называться "детектором возникновения паузы", потребуется для управления оцениванием шума. Это будет гарантировать, что обновление характеристик фонового шума совершено, только когда в текущем кадре нет активного сигнала. Однако, как указано выше, определение, содержит ли сегмент аудиосигнала активный сигнал или нет, является непростой задачей.
Обычно, когда было известно, что активный сигнал является речевым сигналом, детектор активности назывался детектором активности голоса (VAD). Термин VAD для детекторов активности часто используется также, когда входной сигнал может содержать музыку. Однако, в современных кодеках, детектор активности также обычно называют детектором активности звука (SAD), когда также музыка должна обнаруживаться как активный сигнал.
Оценщик фона, проиллюстрированный на Фиг. 1, использует обратную связь от первичного детектора и/или блок размытия для локализации неактивных сегментов аудиосигнала. При разработке технологии, описанной в настоящем документе, было желание устранить, или по меньшей мере уменьшить, зависимость от такой обратной связи. Для раскрытого в настоящем документе оценивания фона, вследствие этого изобретателем было идентифицировано, что важно иметь возможность нахождения надежных признаков для идентификации характеристик фоновых сигналов, когда доступен только входной сигнал с неизвестной смесью активного и фонового сигнала. Изобретатель кроме того понял, что нельзя предполагать, что входной сигнал начинается с сегмента шума, или даже что входной сигнал является речью, смешанной с шумом, так как может быть, что активный сигнал является музыкой.
Один аспект состоит в том, что даже если текущий кадр может иметь такой же уровень энергии как и текущая оценка шума, частотные характеристики могут быть очень разными, что делает нежелательным выполнение обновления оценки шума с использованием текущего кадра. Представленный признак близости, имеющий отношение к обновлению фонового шума, может быть использован для препятствования обновлению в этих случаях.
К тому же, во время инициализации желательно обеспечить возможность начала оценивания шума как можно раньше, при этом избегая неправильных заключений, так как это может привести к усечению от SAD, если обновление фонового шума совершается с использованием активного контента. Использование характерной для инициализации версии признака близости во время инициализации может по меньшей мере частично решить эту проблему.
Решение, описанное в настоящем документе относится к способу оценивания фонового шума, в частности к способу обнаружения пауз в аудиосигнале, который хорошо выполняется в ситуациях со сложным SNR. Решение будет описано ниже со ссылкой на Фиг. 2-5.
В области кодирования речи широко используется так называемое линейное предсказание для анализа спектральной формы входного сигнала. Анализ обычно делается два раза на кадр, и для улучшенной точности по времени результаты затем интерполируются, вследствие чего есть фильтр, сгенерированный для каждого 5 мс блока входного сигнала.
Линейное предсказание является математической операцией, где будущие значения дискретного по времени сигнала оцениваются как линейная функция предыдущих выборок. При цифровой обработке сигналов, линейное предсказание часто называется кодированием с линейным предсказанием (LPC) и таким образом может рассматриваться как поднабор теории фильтров. В линейном предсказании в кодере речи, фильтр линейного предсказания A(z) применяется к входному речевому сигналу. A(z) является фильтром с одними нулями, который при применении к входному сигналу, удаляет избыточность, которая может быть смоделирована с использованием фильтра A(z) из входного сигнала. Вследствие этого выходной сигнал из фильтра имеет меньшую энергию, чем входной сигнал, когда фильтр успешен в моделировании некоторого аспекта или аспектов входного сигнала. Этот выходной сигнал обозначен как "остаток", "остаточная энергия" или "остаточный сигнал". Такие фильтры линейного предсказания, в качестве альтернативы обозначение остаточными фильтрами, могут иметь разный порядок моделей, имеющий разное число коэффициентов фильтра. Например, для того, чтобы правильно смоделировать речь, может потребоваться фильтр линейного предсказания с порядком модели 16. Таким образом, в кодере речи может быть использован фильтр линейного предсказания A(z) с порядком модели 16.
Изобретатель понял, что признаки, относящиеся к линейному предсказанию, могут быть использованы для обнаружения пауз в аудиосигналах в SNR-диапазоне 20 дБ - 10 дБ или возможно 5дБ. Согласно вариантам осуществления решения, описанного в настоящем документе, отношение между остаточными энергиями для разных порядков моделей для аудиосигнала используется для обнаружения пауз в аудиосигнале. Используемое отношение является соотношением между остаточной энергией более низкого порядка модели и более высокого порядка модели. Соотношение между остаточными энергиями может называться "коэффициентом усиления линейного предсказания", так как оно является указателем того, сколько энергии сигнала фильтр линейного предсказания имеет возможность смоделировать, или удалить, между одним порядком модели и другим порядком модели.
Остаточная энергия будет зависеть от порядка модели M фильтра линейного предсказания A(z). Общим способом вычисления коэффициентов фильтра для фильтра линейного предсказания является алгоритм Левинсона-Дарбина. Этот алгоритм является рекурсивным и будет в процессе создания фильтра A(z) предсказания порядка M также, в качестве "побочного продукта", производить остаточные энергии более низких порядков моделей. Этот факт может быть использован согласно вариантам осуществления данного изобретения.
Фиг. 2 показывает примерный общий способ оценивания фонового шума в аудиосигнале. Способ может быть выполнен оценщиком фонового шума. Способ содержит получение 201 по меньшей мере одного параметра, ассоциированного с сегментом аудиосигнала, таким как кадр или часть кадра, на основе первого коэффициента усиления линейного предсказания, вычисленного как соотношение между остаточным сигналом из линейного предсказания 0-го порядка и остаточным сигналом из линейного предсказания 2-го порядка для сегмента аудиосигнала; и, второго коэффициента усиления линейного предсказания, вычисленного как соотношение между остаточным сигналом из линейного предсказания 2-го порядка и остаточным сигналом из линейного предсказания 16-го порядка для сегмента аудиосигнала.
Способ дополнительно содержит определение 202, содержит ли сегмент аудиосигнала паузу, т.е. свободен от активного контента, такого как речь и музыка, на основе по меньшей мере полученного по меньшей мере одного параметра; и, обновление 203 оценки фонового шума на основе сегмента аудиосигнала, когда сегмент аудиосигнала содержит паузу. То есть, способ содержит обновление оценки фонового шума, когда в сегменте аудиосигнала обнаружена пауза, на основе, по меньшей мере, полученного по меньшей мере одного параметра.
Коэффициенты усиления линейного предсказания могут быть описаны как первый коэффициент усиления линейного предсказания, относящийся к линейному предсказанию, начиная с 0-го порядка до 2-го порядка, для сегмента аудиосигнала; и второй коэффициент усиления линейного предсказания, относящийся к линейному предсказанию, начиная со 2-го порядка до 16-го порядка, для сегмента аудиосигнала. К тому же, получение по меньшей мере одного параметра может в качестве альтернативы быть описано как определение, вычисление, выведение или создание. Остаточные энергии, относящиеся к линейным предсказаниям порядка модели 0, 2 и 16, могут быть получены, приняты или извлечены, т.е. предоставлены каким-то образом, из части кодера, где линейное предсказание выполняется как часть обычного процесса кодирования. Тем самым, вычислительная сложность решения, описанного в настоящем документе, может быть уменьшена, в сравнении с тем, когда остаточные энергии должны быть выведены специально для оценивания фонового шума.
По меньшей мере один параметр, описанный на основе признаков линейного предсказания, может обеспечить независимый от уровня анализ входного сигнала, который улучшает заключение, выполнять ли обновление фонового шума или нет. Решение особенно полезно в SNR-диапазоне 10-20 дБ, где SAD на основе энергии имеют ограниченные эксплуатационные характеристики из-за нормального динамического диапазона речевых сигналов.
Здесь, среди прочего, переменные E(0), …,E(m), …, E(M) представляют остаточные энергии для порядков моделей от 0 до M для M+1 фильтров Am(z). Следует отметить, что E(0) является просто входной энергией. Анализ аудиосигнала согласно решению, описанному в настоящем документе, предоставляет несколько новых признаков или параметров посредством анализа коэффициента усиления линейного предсказания, вычисленного как соотношение между остаточным сигналом из линейного предсказания 0-го порядка и остаточным сигналом из линейного предсказания 2-го порядка, и коэффициента усиления линейного предсказания, вычисленного как соотношение между остаточным сигналом из линейного предсказания 2-го порядка и остаточным сигналом из линейного предсказания 16-го порядка. То есть, коэффициент усиления линейного предсказания, начиная с линейного предсказания 0-го порядка до 2-го порядка, является таким же, как и "остаточная энергия" E(0) (для 0-го порядка модели), деленная на остаточную энергию E(2) (для 2-го порядка модели). Соответственно, коэффициент усиления линейного предсказания, начиная с линейного предсказания 2-го порядка до линейного предсказания 16-го порядка, является таким же, как и остаточная энергия E(2) (для 2-го порядка модели), деленная на остаточную энергию E(16) (для 16-го порядка модели). Примеры параметров и определение параметров на основе коэффициентов усиления предсказания будут дополнительно подробно рассмотрены ниже. По меньшей мере один параметр, полученный согласно основному варианту осуществления, описанному выше, может образовать часть критерия заключения, используемого для оценивания, обновить ли оценку фонового шума или нет.
Для того, чтобы улучшить долгосрочную стабильность по меньшей мере одного параметра или признака, может быть вычислена ограниченная версия коэффициента усиления предсказания. То есть, получение по меньшей мере одного параметра может содержать ограничение коэффициентов усиления линейного предсказания, относящихся к линейному предсказанию начиная с 0-го порядка до 2-го порядка и со 2-го порядка до 16-го порядка, чтобы принять значения в предварительно заданном интервале. Например, коэффициенты усиления линейного предсказания могут быть ограничены так, чтобы принимать значения между 0 и 8, как проиллюстрировано, например, в Ур. 1 и Ур. 6 ниже.
Получение по меньшей мере одного параметра может дополнительно содержать создание по меньшей мере одной долгосрочной оценки каждого из первого и второго коэффициента усиления линейного предсказания, например, посредством низкочастотной фильтрации. Такая по меньшей мере одна долгосрочная оценка будет дополнительно основываться на соответствующих коэффициентах усиления линейного предсказания, ассоциированных по меньшей мере с одним предшествующим сегментом аудиосигнала. Может быть создана более, чем одна долгосрочная оценка, где например, первая и вторая долгосрочная оценка, относящиеся к коэффициенту усиления линейного предсказания, по-разному реагируют на изменения в аудиосигнале. Например, первая долгосрочная оценка может реагировать на изменения быстрее, чем вторая долгосрочная оценка. Такая первая долгосрочная оценка может в качестве альтернативы обозначаться как краткосрочная оценка.
Получение по меньшей мере одного параметра может дополнительно содержать определение разности, такой как абсолютная разность Gd_0_2 (Ур. 3), описанная ниже, между одним из коэффициентов усиления линейного предсказания, ассоциированным с сегментом аудиосигнала, и долгосрочной оценкой упомянутого коэффициента усиления линейного предсказания. В качестве альтернативы или в дополнение, может быть определена разность между двумя долгосрочными оценками, так как в Ур. 9 ниже. Термин "определение" может в качестве альтернативы быть заменен на "вычисление", "создание" или "выведение".
Получение по меньшей мере одного параметра может, как указано выше, содержать низкочастотную фильтрацию коэффициентов усиления линейного предсказания, таким образом выведение долгосрочных оценок, некоторые из которых могут в качестве альтернативы быть обозначены как краткосрочные оценки, в зависимости от того, сколько сегментов, которые учитываются в оценке. Коэффициенты фильтра по меньшей мере одного низкочастотного фильтра могут зависеть от отношения между коэффициентом усиления линейного предсказания, относящимся, например, только к текущему сегменту аудиосигнала, и средним, обозначенным, например, долгосрочным средним, или долгосрочной оценкой, соответствующего коэффициента усиления предсказания, полученного на основе множества предшествующих сегментов аудиосигнала. Это может быть выполнено для создания, например, дополнительно, долгосрочных оценок коэффициентов усиления предсказания. Низкочастотная фильтрация может быть выполнена за два или более этапов, где каждый этап может дать в результате параметр, или оценку, который используется для выдачи заключения в зависимости от присутствия паузы в сегменте аудиосигнала. Например, разные долгосрочные оценки (такие как G1_0_2 (Ур. 2) и Gad_0_2 (Ур. 4), и/или, G1_2_16 (Ур. 7), G2_2_16 (Ур. 8) и Gad_2_16 (Ур. 10), описанные ниже), которые отражают изменения в аудиосигнале разным образом, можно проанализировать или сравнить, для того, чтобы обнаружить паузу в текущем сегменте аудиосигнала.
Определение 202, содержит ли сегмент аудиосигнала паузу или нет, может дополнительно основываться на показателе спектральной близости, ассоциированном с сегментом аудиосигнала. Показатель спектральной близости будет указывать, как близко уровень энергии "по каждому частотному диапазону" для обрабатываемого в текущий момент сегмента аудиосигнала находится к уровню энергии "по каждому частотному диапазону" для текущей оценки фонового шума, например, первоначального значения или оценки, которая является результатом предыдущего обновления, сделанного до анализа текущего сегмента аудиосигнала. Пример определения или выведения показателя спектральной близости приведен ниже в уравнениях Ур. 12 и Ур. 13. Показатель спектральной близости может быть использован для препятствования обновлениям шума на основе кадров с низкой энергией с большой разностью в частотных характеристиках, по сравнению с текущей оценкой фона. Например, средняя энергия по частотным диапазонам может быть в равной степени низкой для текущего сегмента сигнала и текущей оценки фонового шума, но показатель спектральной близости будет выявлен, если энергия по-разному распределяется по частотным диапазонам. Такая разность в распределении энергии может предполагать, что текущий сегмент сигнала, например, кадр, может быть контентом с низким уровнем активности, и обновление оценки фонового шума на основе кадра может, например, препятствовать обнаружению будущих кадров с аналогичным контентом. Так как поддиапазон SNR наиболее чувствителен к увеличениям энергии, использование даже контента с низким уровнем активности может привести к большому обновлению оценки фона, если этот конкретный частотный диапазон не существует в фоновом шуме, как например, высокочастотная часть речи в сравнении с низкочастотным шумом автомобиля. После такого обновления будет гораздо сложнее обнаружить речь.
Как уже предложено выше, показатель спектральной близости может быть выведен, получен или вычислен на основе энергий для набора частотных диапазонов, в качестве альтернативы обозначенных как поддиапазоны, анализируемого в текущий момент сегмента аудиосигнала, и текущей оценки фонового шума, соответствующей набору частотных диапазонов. Это будет также приведено в качестве примера и дополнительно описано более подробно ниже, и проиллюстрировано на Фиг. 5.
Как указано выше, показатель спектральной близости может быть выведен, получен или вычислен посредством сравнения текущего уровня энергии по каждому частотному диапазону для обрабатываемого в текущий момент сегмента аудиосигнала с уровнем энергии по каждому частотному диапазону для текущей оценки фонового шума. Однако, для начала, т.е. во время первого периода или первого числа кадров в начале анализа аудиосигнала, может не быть надежной оценки фонового шума, например, так как еще не было выполнено надежное обновление оценки фонового шума. Вследствие этого, период инициализации может быть применен для определения значения спектральной близости. Во время такого периода инициализации, уровни энергии по каждому частотному диапазону для текущего сегмента аудиосигнала будут вместо этого сравниваться с первоначальной оценкой фона, которая может иметь, например, конфигурируемое постоянное значение. Дополнительно в примерах ниже, этой первоначальной оценке фонового шума задается примерное значение Emin=0,0035. После периода инициализации процедура может переключиться на нормальную операцию, и сравнить текущий уровень энергии по каждому частотному диапазону для обрабатываемого в текущий момент сегмента аудиосигнала с уровнем энергии по каждому частотному диапазону для текущей оценки фонового шума. Длительность периода инициализации может быть сконфигурирована, например, на основе симуляций или тестов, указывающих время, которое оно занимает до предоставления, например, надежной и/или удовлетворяющей оценки фонового шума. Используемый ниже пример сравнения с первоначальной оценкой фонового шума (вместо с "реальной" оценкой, выведенной на основе текущего аудиосигнала) выполняется во время первых 150 кадров.
По меньшей мере одним параметром может быть параметр, приведенный в качестве примера дополнительно ниже в коде, обозначенный NEW_POS_BG, и/или один или более из множества параметров, описанных дополнительно ниже, приводящих к образованию критерия заключения или компонента в критерии заключения для обнаружения паузы. Другими словами, по меньшей мере один параметр, или признак, полученный 201 на основе коэффициентов усиления линейного предсказания, может быть одним или более из параметров, описанных ниже, может содержать один или более из параметров, описанных ниже, и/или основываться на одном или более из параметров, описанных ниже.
Признаки или параметры, относящиеся к остаточным энергиям E(0) и E(2)
Фиг. 3 показывает обзорную блок-схему выведения признаков или параметров, относящихся к E(0) и E(2), согласно примерному варианту осуществления. Как может быть видно на Фиг. 3, коэффициент усиления предсказания сначала вычисляется как E(0)/E(2). Ограниченная версия коэффициента усиления предсказания вычисляется как
G_0_2=max(0,min(8,E(0)/E(2))) | (Ур. 1) |
где E(0) представляет собой энергию входного сигнала, и E(2) является остаточной энергией после лин