Ослабление шума при передаче аудиосигналов
Иллюстрации
Показать всеИзобретение относится к области обработки речевых аудиосигналов. Технический результат заключается в обеспечении ослабления шума при приеме аудиосигналов. Технический результат достигается за счет обеспечения двух таблиц кодирования, которые содержат варианты полезного сигнала, представляющие возможный компонент полезного сигнала, и возможные варианты долей шумового сигнала, представляющие возможные доли шума, сегментации аудиосигнала на временные сегменты, и для каждого временного сегмента формирования возможных вариантов оцененного сигнала в качестве комбинации масштабированной версии возможного варианта полезного сигнала и взвешенной комбинации возможных вариантов долей шумового сигнала, минимизации функции затрат, указывающей разность между возможным вариантом оцененного сигнала и аудиосигналом во временном сегменте, определения варианта сигнала для временного сегмента из возможных вариантов оцененного сигнала и компенсации аудиосигнала шума на основе этого возможного варианта сигнала. 2 н. и 12 з.п. ф-лы, 3 ил.
Реферат
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Изобретение относится к ослаблению шума при передаче аудиосигналов и, в частности, но не только, к ослаблению шума для речевых сигналов.
УРОВЕНЬ ТЕХНИКИ
Ослабление шума в аудиосигналах требуется во множестве вариантов применения для того, чтобы дополнительно улучшать или выделять компонент полезного сигнала. Например, улучшение речи при наличии фонового шума привлекает большое внимание вследствие своей практической значимости. Очень перспективным вариантом применения является уменьшение уровня шума от одного микрофона в мобильной телефонной связи. Низкие затраты устройства с одним микрофоном приводят к его привлекательности на развивающихся рынках. С другой стороны, отсутствие нескольких микрофонов не позволяет решениям на основе формирователя диаграммы направленности подавлять высокие уровни шума, который может присутствовать.
Подход на основе одного микрофона, который хорошо работает в нестационарных условиях, в силу этого является коммерчески желательным. Алгоритмы ослабления шума от одного микрофона также являются значимыми в вариантах применения с несколькими микрофонами, в которых формирование диаграммы направленности аудио является непрактичным или предпочтительным либо в дополнение к такому формированию диаграммы направленности. Например, такие алгоритмы могут быть полезными для систем проведения аудио- и видеоконференций на основе громкой связи в реверберирующих и рассеянных нестационарных шумовых полях, либо когда присутствует ряд создающих помехи источников. Технологии пространственной фильтрации, к примеру, формирование диаграммы направленности, позволяют достигать только ограниченного успеха в таких сценариях, и дополнительное подавление шума должно быть выполнено для вывода модуля формирования диаграммы направленности на этапе постобработки.
Предложены различные алгоритмы ослабления шума, включающие в себя системы, которые основаны на знаниях или допущениях касательно характеристик компонента полезного сигнала. В частности, продемонстрировано, что основанные на знаниях способы улучшения речи, такие как схемы на базе таблиц кодирования, хорошо работают в нестационарных условиях шума, даже при управлении сигналом из одного микрофона. Примеры таких способов представляются в следующих работах: S. Srinivasan, J. Samuelsson и W. B. Kleijn, "Codebook driven short-term predictor parameter estimation for speech enhancement", IEEE Trans. Speech, Audio and Language Processing, издание 14, № 1, стр. 163-176, январь 2006 года, и S. Srinivasan, J. Samuelsson и W. B. Kleijn, "Codebook based Bayesian speech enhancement for non-stationary environments", IEEE Trans. Speech Audio Processing, издание 15, № 2, стр. 441-452, февраль 2007 года.
Эти способы основываются на обученных таблицах кодирования спектральных форм речи и шума, которые параметризуются, например, посредством линейных прогнозирующих (LP) коэффициентов. Использование таблицы кодирования речи является интуитивным и легко поддается практической реализации. Таблица кодирования речи может быть либо независимой от говорящего (обученной с использованием данных от нескольких говорящих), либо зависимой от говорящего. Второй случай является полезным, например, для приложений для мобильных телефонов, поскольку они чаще всего являются персональными и зачастую используются преимущественно одним говорящим. Тем не менее, использование таблиц кодирования шума в практической реализации является перспективным вследствие множества типов шума, которые могут встречаться на практике. Как результат, типично используется очень большая таблица кодирования шума.
Обычно такие алгоритмы на основе таблиц кодирования направлены на нахождение записи таблицы кодирования речи и записи таблицы кодирования шума, которые при комбинировании наиболее близко совпадают с захваченным сигналом. Когда надлежащие записи таблицы кодирования найдены, алгоритмы компенсируют принимаемый сигнал на основе записей таблицы кодирования. Тем не менее, чтобы идентифицировать надлежащие записи таблицы кодирования, поиск выполняется по всем возможным комбинациям записей таблицы кодирования речи и записей таблицы кодирования шума. Это приводит к очень ресурсоемкому в вычислительном отношении процессу, который зачастую является непрактичными для устройств с очень низкой сложностью. Кроме того, большие таблицы кодирования шума являются громоздкими при формировании и хранении, и большое число возможных вариантов шума может увеличивать риск ошибочной оценки, что приводит к неоптимальному ослаблению шума.
Следовательно, был бы желателен улучшенный подход к ослаблению шума, в частности был бы желателен подход, обеспечивающий повышенную гибкость, уменьшенные требования по объему вычислений, упрощенную реализацию и/или работу, сокращенные затраты и/или повышенную производительность.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Следовательно, изобретение предпочтительно нацелено на уменьшение, облегчение или устранение одного или более вышеуказанных недостатков по отдельности или в любой комбинации.
Согласно аспекту изобретения предусмотрено устройство ослабления шума, содержащее: приемное устройство для приема аудиосигнала, содержащего компонент полезного сигнала и компонент шумового сигнала; первую таблицу кодирования, содержащую множество возможных вариантов полезного сигнала для компонента полезного сигнала, причем каждый возможный вариант полезного сигнала представляет возможный компонент полезного сигнала; вторую таблицу кодирования, содержащую множество возможных вариантов долей шумового сигнала, причем каждый возможный вариант доли шумового сигнала представляет возможную долю шума для компонента шумового сигнала; модуль сегментации для сегментации аудиосигнала на временные сегменты; ослабитель шума, выполненный с возможностью для каждого временного сегмента выполнять этапы: формирования множества возможных вариантов оцененного сигнала посредством для каждого из возможных вариантов полезного сигнала первой таблицы кодирования формирования возможного варианта оцененного сигнала в качестве комбинации масштабированной версии возможного варианта полезного сигнала и взвешенной комбинации возможных вариантов долей шумового сигнала, причем масштабирование возможного варианта полезного сигнала и весовые коэффициенты взвешенной комбинации определяются таким образом, чтобы минимизировать функцию затрат, указывающую разность между возможным вариантом оцененного сигнала и аудиосигналом во временном сегменте, формирования возможного варианта сигнала для аудиосигнала во временном сегменте из возможных вариантов оцененного сигнала и ослабления шума аудиосигнала во временном сегменте в ответ на возможный вариант сигнала.
Изобретение позволяет предоставлять улучшенное и/или упрощенное ослабление шума. Во многих вариантах осуществления требуются существенно уменьшенные вычислительные ресурсы. Подход позволяет обеспечивать более эффективное ослабление шума во многих вариантах осуществления, которое может приводить к более быстрому ослаблению шума. Во многих сценариях подход может обеспечивать или давать возможность ослабления шума в реальном времени.
Существенно меньшая таблица кодирования шума (вторая таблица кодирования) может быть использована во многих вариантах осуществления по сравнению с традиционными подходами. Это позволяет уменьшать требования к запоминающему устройству.
Во многих вариантах осуществления множество возможных вариантов долей шумового сигнала может не отражать знания или допущение касательно характеристик компонента шумового сигнала. Возможные варианты долей шумового сигнала могут представлять собой общие возможные варианты долей шумового сигнала и, в частности, могут представлять собой фиксированные, предварительно определенные, статические, постоянные и/или необученные возможные варианты долей шумового сигнала. Это позволяет обеспечивать упрощенную работу и/или позволяет упрощать формирование и/или распределение второй таблицы кодирования. В частности, фаза обучения может исключаться во многих вариантах осуществления.
Каждый из возможных вариантов полезного сигнала может иметь длительность, соответствующую длительности временного сегмента. Каждый из возможных вариантов долей шумового сигнала может иметь длительность, соответствующую длительности временного сегмента.
Каждый из возможных вариантов полезного сигнала может быть представлен посредством набора параметров, который характеризует компонент сигнала. Например, каждый возможный вариант полезного сигнала может содержать набор коэффициентов линейного прогнозирования для модели линейного прогнозирования. Каждый возможный вариант полезного сигнала может содержать набор параметров, характеризующий спектральное распределение, такой как, например, спектральная плотность мощности (PSD).
Каждый из возможных вариантов долей шумового сигнала может быть представлен посредством набора параметров, который характеризует компонент сигнала. Например, каждый возможный вариант доли шумового сигнала может содержать набор параметров, характеризующий спектральное распределение, такой как, например, спектральная плотность мощности (PSD). Число параметров для возможных вариантов долей шумового сигнала может быть ниже числа параметров для возможных вариантов полезного сигнала.
Компонент шумового сигнала может соответствовать любому компоненту сигнала, не составляющему часть компонента полезного сигнала. Например, компонент шумового сигнала может включать в себя белый шум, цветной шум, детерминированный шум из источников нежелательного шума, шум от реализации и т.д. Компонент шумового сигнала может быть нестационарным шумом, который может изменяться для различных временных сегментов. Обработка каждого временного сегмента посредством ослабителя шума может быть независимой для каждого временного сегмента.
Ослабитель шума может, в частности, включать в себя процессор, схему, функциональный модуль или средство для формирования множества возможных вариантов оцененного сигнала посредством, для каждого из возможных вариантов полезного сигнала первой таблицы кодирования, формирования возможного варианта оцененного сигнала в качестве комбинации масштабированной версии возможного варианта полезного сигнала и взвешенной комбинации возможных вариантов долей шумового сигнала, причем масштабирование возможного варианта полезного сигнала и весовые коэффициенты взвешенной комбинации определяются таким образом, чтобы минимизировать функцию затрат, указывающую разность между возможным вариантом оцененного сигнала и аудиосигналом во временном сегменте; процессор, схему, функциональный модуль или средство для формирования возможного варианта сигнала для аудиосигнала во временном сегменте из возможных вариантов оцененного сигнала; и процессор, схему, функциональный модуль или средство для ослабления шума аудиосигнала во временном сегменте в ответ на возможный вариант сигнала.
В соответствии с необязательным признаком изобретения функция затрат является одной из функции затрат на основе максимального правдоподобия и функции затрат на основе минимальной среднеквадратической ошибки.
Это позволяет предоставлять очень эффективное и высокопроизводительное определение масштабирования и весовых коэффициентов.
В соответствии с необязательным признаком изобретения ослабитель шума выполнен с возможностью вычислять масштабирование и весовые коэффициенты из уравнений, отражающих производную функции затрат относительно масштабирования и весовых коэффициентов, равных нулю.
Это позволяет предоставлять очень эффективное и высокопроизводительное определение масштабирования и весовых коэффициентов. Во многих вариантах осуществления это позволяет обеспечивать работу, в которой масштабирование и весовые коэффициенты могут быть непосредственно вычислены из уравнений в замкнутой форме. Во многих вариантах осуществления это позволяет обеспечивать прямое вычисление масштабирования и весовых коэффициентов без необходимости рекурсивных итераций или операций поиска.
В соответствии с необязательным признаком изобретения возможные варианты полезного сигнала имеют более высокое частотное разрешение, чем взвешенная комбинация.
Это позволяет обеспечивать практическое ослабление шума с высокой производительностью. В частности, это позволяет обеспечивать выделение значимости возможного варианта полезного сигнала относительно значимости возможного варианта доли шумового сигнала при определении возможных вариантов оцененного сигнала.
Степени свободы при задании возможных вариантов полезного сигнала могут быть выше степеней свободы при формировании взвешенной комбинации. Число параметров, задающих возможные варианты полезного сигнала, может быть выше числа параметров, задающих возможные варианты долей шумового сигнала.
В соответствии с необязательным признаком изобретения множество возможных вариантов долей шумового сигнала покрывает частотный диапазон, при этом каждый возможный вариант доли шумового сигнала из группы возможных вариантов долей шумового сигнала предоставляет доли только в поддиапазоне частотного диапазона, причем поддиапазоны различных возможных вариантов долей шумового сигнала из группы возможных вариантов долей шумового сигнала отличаются.
Это позволяет обеспечивать упрощенную работу с меньшей сложностью и/или повышенную производительность в некоторых вариантах осуществления. В частности, это позволяет обеспечивать упрощенную и/или улучшенную адаптацию возможного варианта оцененного сигнала к аудиосигналу посредством регулирования весовых коэффициентов.
В соответствии с необязательным признаком изобретения поддиапазоны группы возможных вариантов долей шумового сигнала являются неперекрывающимися.
Это позволяет обеспечивать упрощенную работу с меньшей сложностью и/или повышенную производительность в некоторых вариантах осуществления.
В некоторых вариантах осуществления поддиапазоны группы возможных вариантов долей шумового сигнала могут быть перекрывающимися.
В соответствии с необязательным признаком изобретения поддиапазоны группы возможных вариантов долей шумового сигнала имеют неравные размеры.
Это позволяет обеспечивать упрощенную работу с меньшей сложностью и/или повышенную производительность в некоторых вариантах осуществления.
В соответствии с необязательным признаком изобретения каждый из возможных вариантов долей шумового сигнала из группы возможных вариантов долей шумового сигнала соответствует по существу плоскому частотному распределению.
Это позволяет обеспечивать упрощенную работу с меньшей сложностью и/или повышенную производительность в некоторых вариантах осуществления. В частности, это позволяет обеспечивать упрощенную и/или улучшенную адаптацию возможного варианта оцененного сигнала к аудиосигналу посредством регулирования весовых коэффициентов.
В соответствии с необязательным признаком изобретения устройство ослабления шума дополнительно содержит модуль оценки шума для формирования оценки шума для аудиосигнала во временном интервале, по меньшей мере, частично за пределами временного сегмента и для формирования, по меньшей мере, одного из возможных вариантов долей шумового сигнала в ответ на оценку шума.
Это позволяет обеспечивать упрощенную работу с меньшей сложностью и/или повышенную производительность в некоторых вариантах осуществления. В частности, во многих вариантах осуществления это может обеспечивать более точную оценку компонента шумового сигнала, в частности, для систем, в которых шум может иметь стационарный или медленно изменяющийся компонент. Оценка шума, например, может представлять собой оценку шума, сформированную из аудиосигнала в одном или более предыдущих временных сегментов.
В соответствии с необязательным признаком изобретения взвешенная комбинация представляет собой взвешенное суммирование.
Это позволяет предоставлять очень эффективную реализацию и может, в частности, уменьшать сложность и, например, обеспечивать упрощенное определение весовых коэффициентов для взвешенного суммирования.
В соответствии с необязательным признаком изобретения, по меньшей мере, один из возможных вариантов полезного сигнала первой таблицы кодирования и возможных вариантов долей шумового сигнала второй таблицы кодирования представляется посредством набора параметров, содержащего не более 20 параметров.
Это обеспечивает низкую сложность. Изобретение во многих вариантах осуществления и сценариях может обеспечивать эффективное ослабление шума даже для относительно приблизительных оценок сигнала и компонентов шумового сигнала.
В соответствии с необязательным признаком изобретения, по меньшей мере, один из возможных вариантов полезного сигнала первой таблицы кодирования и возможных вариантов долей шумового сигнала второй таблицы кодирования представляется посредством спектрального распределения.
Это позволяет предоставлять очень эффективную реализацию и может, в частности, уменьшать сложность.
В соответствии с необязательным признаком изобретения компонент полезного сигнала представляет собой компонент речевого сигнала.
Изобретение позволяет предоставлять преимущественный подход для улучшения речи.
Подход может быть, в частности, подходящим для улучшения речи. Возможные варианты полезного сигнала могут представлять компоненты сигнала, совместимые с речевой моделью.
Согласно аспекту изобретения предусмотрен способ ослабления шума, содержащий: прием аудиосигнала, содержащего компонент полезного сигнала и компонент шумового сигнала; предоставление первой таблицы кодирования, содержащей множество возможных вариантов полезного сигнала для компонента полезного сигнала, причем каждый возможный вариант полезного сигнала представляет возможный компонент полезного сигнала; предоставление второй таблицы кодирования, содержащей множество возможных вариантов долей шумового сигнала, причем каждый возможный вариант доли шумового сигнала представляет возможную долю шума для компонента шумового сигнала; сегментацию аудиосигнала на временные сегменты; и для каждого временного сегмента выполнение этапов: формирования множества возможных вариантов оцененного сигнала посредством для каждого из возможных вариантов полезного сигнала первой таблицы кодирования формирования возможного варианта оцененного сигнала в качестве комбинации масштабированной версии возможного варианта полезного сигнала и взвешенной комбинации возможных вариантов долей шумового сигнала, причем масштабирование возможного варианта полезного сигнала и весовые коэффициенты взвешенной комбинации определяются таким образом, чтобы минимизировать функцию затрат, указывающую разность между возможным вариантом оцененного сигнала и аудиосигналом во временном сегменте, формирования возможного варианта сигнала для временного сегмента из возможных вариантов оцененного сигнала и ослабления шума аудиосигнала во временном сегменте в ответ на возможный вариант сигнала.
Эти и другие аспекты, признаки и преимущества изобретения должны становиться очевидными и должны истолковываться со ссылкой на описанные далее варианты осуществления.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Варианты осуществления изобретения описаны далее только в качестве примера со ссылкой на чертежи, на которых:
Фиг. 1 является иллюстрацией примера элементов устройства ослабления шума в соответствии с некоторыми вариантами осуществления изобретения;
Фиг. 2 является иллюстрацией способа ослабления шума в соответствии с некоторыми вариантами осуществления изобретения; и
Фиг. 3 является иллюстрацией примера элементов ослабителя шума для устройства ослабления шума по фиг. 1.
ПОДРОБНОЕ ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ
Нижеприведенное описание фокусируется на вариантах осуществления изобретения, применимых к улучшению речи посредством ослабления шума. Тем не менее, следует принимать во внимание, что изобретение не ограничено этим вариантом применения и может применяться ко многим другим сигналам.
Фиг. 1 иллюстрирует пример ослабителя шума в соответствии с некоторыми вариантами осуществления изобретения.
Ослабитель шума содержит приемное устройство 101, которое принимает сигнал, который содержит как полезный компонент, так и неполезный компонент. Неполезный компонент упоминается в качестве шумового сигнала и может включать в себя любой компонент сигнала, не составляющий часть компонента полезного сигнала.
В системе по фиг. 1 сигнал представляет собой аудиосигнал, который, в частности, может быть сформирован из сигнала микрофона, захватывающего аудиосигнал в данном аудиоокружении. Нижеприведенное описание фокусируется на вариантах осуществления, в которых компонент полезного сигнала представляет собой речевой сигнал от требуемого говорящего. Компонент шумового сигнала может включать посторонний шум в окружении, аудио из нежелательных источников звука, шум от реализации и т.д.
Приемное устройство 101 соединяется с модулем 103 сегментации, который сегментирует аудиосигнал на временные сегменты. В некоторых вариантах осуществления временные сегменты могут быть неперекрывающимися, но в других вариантах осуществления временные сегменты могут быть перекрывающимися. Дополнительно, сегментация может быть выполнена посредством применения взвешивающей функции подходящей формы, и, в частности, устройство ослабления шума может использовать известную технологию суммирования с перекрытием для сегментации с использованием подходящей взвешивающей функции, к примеру, взвешивающей функции Хеннинга или Хэмминга. Длительность временного сегмента должна зависеть от конкретной реализации, но во многих вариантах осуществления должна составлять порядка 10-100 мс.
Модуль 103 сегментации подает результат в ослабитель 105 шума, который выполняет посегментное ослабление шума, чтобы выделять компонент полезного сигнала относительно неполезного компонента шумового сигнала. Результирующие сегменты после ослабления шума подаются в процессор 107 вывода, который предоставляет непрерывный аудиосигнал. Процессор вывода может, в частности, выполнять десегментацию, например, посредством выполнения функции суммирования с перекрытием. Следует принимать во внимание, что в других вариантах осуществления выходной сигнал может предоставляться в качестве сегментированного сигнала, например в вариантах осуществления, в которых дополнительная посегментная обработка сигналов выполняется для сигнала после ослабления шума.
Ослабление шума основано на подходе на основе таблиц кодирования, который использует отдельные таблицы кодирования, связанные с компонентом полезного сигнала и с компонентом шумового сигнала. Соответственно, ослабитель 105 шума соединяется с первой таблицей 109 кодирования, которая представляет собой таблицу кодирования полезных сигналов и в конкретном примере представляет собой таблицу кодирования речи. Ослабитель 105 шума дополнительно соединяется со второй таблицей 111 кодирования, которая представляет собой таблицу кодирования долей шумового сигнала.
Ослабитель 105 шума выполнен с возможностью выбирать записи таблицы кодирования из таблицы кодирования речи и таблицы кодирования шума, так что комбинация компонентов сигнала, соответствующих выбранным записям, наиболее близко напоминает аудиосигнал в этом временном сегменте. После того как надлежащие записи таблицы кодирования найдены (наряду с их масштабированием), они представляют оценку отдельного компонента речевого сигнала и компонента шумового сигнала в захваченном аудиосигнале. В частности, компонент сигнала, соответствующий выбранной записи таблицы кодирования речи, представляет собой оценку компонента речевого сигнала в захваченном аудиосигнале, и записи таблицы кодирования шума предоставляют оценку компонента шумового сигнала. Соответственно, подход использует подход на основе таблиц кодирования для того, чтобы оценивать компоненты речевого и шумового сигнала аудиосигнала, и после того, как эти оценки определены, они могут быть использованы для того, чтобы ослаблять компонент шумового сигнала относительно компонента речевого сигнала в аудиосигнале, поскольку оценки позволяют различать между ними.
Более конкретно, рассмотрим модель аддитивного шума, в которой речь и шум предположительно являются независимыми:
где y(n), x(n) и w(n) представляют дискретизированную зашумленную речь (входной аудиосигнал), чистую речь (компонент полезного речевого сигнала) и шум (компонент шумового сигнала) соответственно.
Подход на основе таблиц кодирования предшествующего уровня техники выполняет поиск в таблицах кодирования, чтобы находить запись таблицы кодирования для компонента сигнала и компонента шума, так что масштабированная комбинация наиболее близко напоминает захваченный сигнал, в силу этого предоставляя оценку PSD речи и шума для каждого кратковременного сегмента. Пусть Py(ω) обозначает PSD наблюдаемого зашумленного сигнала y(n), Px(ω) обозначает PSD компонента x(n) речевого сигнала и Pw(ω) обозначает PSD компонента шумового сигнала, в таком случае:
Py(ω)=Px(ω)+Pw(ω).
Пусть ^ обозначает оценку соответствующей PSD, традиционное ослабление шума на основе таблиц кодирования может сокращать шум посредством применения фильтра H(ω) Винера в частотной области к захваченному сигналу, т.е.:
Pna(ω)=Py(ω)H(ω),
где фильтр Винера задается следующим образом:
В подходе предшествующего уровня техники таблицы кодирования содержат возможные варианты речевого сигнала и возможные варианты шумового сигнала соответственно, и критически важная проблема состоит в том, чтобы идентифицировать самую подходящую пару возможных вариантов.
Оценка PSD речи и шума и, таким образом, выбор надлежащих возможных вариантов может следовать подходу на основе максимального правдоподобия (ML) или подходу на основе байесовской минимальной среднеквадратической ошибки (MMSE).
Отношение между вектором коэффициентов линейного прогнозирования и базовой PSD может быть определено посредством следующего:
где являются коэффициентами линейного прогнозирования, и является порядком модели линейного прогнозирования, и
С использованием этого отношения оцененная PSD захваченного сигнала задается следующим образом:
где gx и gw являются частотно-независимыми усилениями уровня, ассоциированными с PSD речи и шума. Эти усиления вводятся, чтобы учитывать изменение в уровне между PSD, сохраненными в таблице кодирования, и PSD, встречающимися во входном аудиосигнале.
Предшествующий уровень техники выполняет поиск по всем возможным спариваниям записи таблицы кодирования речи и записи таблицы кодирования шума, чтобы определять пару, которая максимизирует определенный показатель подобия между наблюдаемой зашумленной PSD и оцененной PSD, как описано ниже.
Рассмотрим пару PSD речи и шума, заданных посредством i-той PSD из таблицы кодирования речи и j-той PSD из таблицы кодирования шума. Зашумленная PSD, соответствующая этой паре, может быть записана следующим образом:
В этом уравнении PSD известны, тогда как усиления неизвестны. Таким образом, для каждой возможной пары PSD речи и шума должны определяться усиления. Это может осуществляться на базе подхода на основе максимального правдоподобия. Оценка по принципу максимального правдоподобия требуемых PSD речи и шума может быть получена в двухэтапной процедуре. Логарифм правдоподобия того, что данная пара и приводит к наблюдаемой зашумленной PSD, представляется посредством следующего уравнения:
На первом этапе определяются неизвестные члены и уровня, которые максимизируют Один способ выполнять это заключается в различении относительно и обнулении результата и решении результирующего набора системы уравнений. Тем не менее, эти уравнения являются нелинейными и не поддаются решению в замкнутой форме. Альтернативный подход основан на том факте, что правдоподобие максимизируется, когда и в силу этого члены усиления могут быть получены посредством минимизации спектрального расстояния между этими двумя объектами.
После того как члены уровня известны, может определяться значение поскольку все объекты известны. Эта процедура повторяется для всех пар записей таблицы кодирования речи и шума, и пара, которая приводит к наибольшему правдоподобию, используется для того, чтобы получать PSD речи и шума. Поскольку этот этап выполняется для каждого кратковременного сегмента, способ может точно оценивать PSD шума даже в нестационарных условиях шума.
Пусть обозначают пару, приводящую к наибольшему правдоподобию для данного сегмента, и пусть и обозначают соответствующие члены уровня. Затем PSD речи и шума задаются посредством следующего:
Таким образом, эти результаты задают фильтр Винера, который применяется к входному аудиосигналу для того, чтобы формировать сигнал после ослабления шума.
Таким образом, предшествующий уровень техники основан на нахождении подходящей записи таблицы кодирования полезных сигналов, которая является хорошей оценкой для компонента речевого сигнала, и подходящей записи таблицы кодирования шумового сигнала, которая является хорошей оценкой для компонента шумового сигнала. После того как они находятся, может применяться эффективное ослабление шума.
Тем не менее, подход является очень сложным и ресурсоемким. В частности, должны быть оценены все возможные комбинации записей таблицы кодирования шума и речи, чтобы находить наилучшее совпадение. Дополнительно, поскольку записи таблицы кодирования должны представлять большое множество возможных сигналов, это приводит к очень большим таблицам кодирования и в силу этого ко множеству возможных пар, которые должны быть оценены. В частности, компонент шумового сигнала зачастую может иметь большое изменение в возможных характеристиках, например, в зависимости от конкретных окружений использования и т.д. Следовательно, зачастую требуется очень большая таблица кодирования шума для того, чтобы обеспечивать достаточно близкую оценку. Это приводит к очень высокой вычислительной нагрузке, а также к значительным требованиям для хранения таблиц кодирования. Помимо этого формирование, в частности, таблицы кодирования шума может быть очень громоздким или трудным. Например, при использовании подхода на основе обучения набор обучающих выборок должен быть достаточно большим, чтобы в достаточной степени представлять возможный широкий спектр в шумовых сценариях. Это может приводить к очень затратному процессу.
В системе по фиг. 1 подход на основе таблиц кодирования не основан на выделенной таблице кодирования шума, которая задает возможные варианты для множества различных возможных компонентов шума. Наоборот, используется таблица кодирования шума, в которой записи таблицы кодирования считаются долями в компоненте шумового сигнала, вместо того чтобы обязательно быть прямыми оценками компонента шумового сигнала. Оценка компонента шумового сигнала затем формируется посредством взвешенной комбинации и, в частности, взвешенного суммирования записей таблицы кодирования долей шума. Таким образом, в системе по фиг. 1 оценка компонента шумового сигнала формируется посредством совместного рассмотрения множества записей таблицы кодирования, и фактически компонент оцененного шумового сигнала обычно задается в качестве линейной взвешенной комбинации или, в частности, суммирования записей таблицы кодирования шума.
В системе по фиг. 1 ослабитель 105 шума соединяется с таблицей 109 кодирования сигнала, которая содержит определенное число записей таблицы кодирования, каждая из которых содержит набор параметров, задающий возможный компонент полезного сигнала и, в конкретном примере, полезный речевой сигнал.
Таким образом, записи таблицы кодирования для компонента полезного сигнала соответствуют потенциальным возможным вариантам для компонентов полезного сигнала. Каждая запись содержит набор параметров, которые характеризуют возможный компонент полезного сигнала. В конкретном примере каждая запись содержит набор параметров, которые характеризуют возможный компонент речевого сигнала. Таким образом, сигнал, характеризуемый посредством записи таблицы кодирования, представляет собой сигнал, который имеет характеристики речевого сигнала, и в силу этого записи таблицы кодирования вводят знания речевых характеристик в оценку компонента речевого сигнала.
Записи таблицы кодирования для компонента полезного сигнала могут быть основаны на модели требуемого аудиоисточника либо дополнительно или альтернативно могут быть определены посредством процесса обучения. Например, записи таблицы кодирования могут представлять собой параметры для речевой модели, разработанной, чтобы представлять характеристики речи. В качестве другого примера, большое число речевых выборок может записываться и статистически обрабатываться, чтобы формировать подходящее число потенциальных возможных вариантов речи, которые сохраняются в таблице кодирования.
В частности, записи таблицы кодирования могут быть основаны на модели линейного прогнозирования. Фактически, в конкретном примере, каждая запись таблицы кодирования содержит набор параметров линейного прогнозирования. Записи таблицы кодирования, возможно, в частности, сформированы посредством процесса обучения, в котором параметры линейного прогнозирования сформированы посредством подгонки к большому числу речевых выборок.
Записи таблицы кодирования в некоторых вариантах осуществления могут представляться как частотное распределение и, в частности, как спектральная плотность мощности (PSD). PSD может соответствовать непосредственно параметрам линейного прогнозирования.
Число параметров для каждой записи таблицы кодирования типично является относительно небольшим. Фактически типично имеется не более 20 и зачастую не более 10 параметров, указывающих каждую запись таблицы кодирования. Таким образом, используется относительно пр