Ослабление шума в сигнале
Иллюстрации
Показать всеИзобретение относится к технике ослабления шума в сигнале. Достигаемый технический результат - обеспечение улучшенного более точного ослабления шума и упрощение ослабления шума. Устройство ослабления шума содержит приемник для приема первого сигнала окружения, который содержит составляющую нужного сигнала, соответствующую сигналу из нужного источника в окружении, и составляющую шумового сигнала, соответствующую шуму в окружении, две кодовых книги, вход для приема сигнала датчика, представляющего измерение окружения, сегментатор для сегментирования первого сигнала на временные сегменты, аттенюатор шума, выполненный с возможностью выполнения для каждого временного сегмента этапов формирования множества оцененных вариантов сигнала и ослабления шума первого сигнала на данном временном сегменте в ответ на вариант сигнала. 2 н. и 12 з.п. ф-лы, 4 ил.
Реферат
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Изобретение относится к ослаблению шума в сигнале и, в частности, но не исключительно, к ослаблению шума для звуковых и, в частности, речевых сигналов.
УРОВЕНЬ ТЕХНИКИ
Ослабление шума в сигналах желательно во многих применениях для дополнительного улучшения или выделения составляющей нужного сигнала. В частности, ослабление звукового шума желательно во многих сценариях. Например, повышение разборчивости речи при наличии фонового шума вызвало большой интерес из-за своей практической значимости.
Подход к ослаблению звукового шума состоит в использовании системы из двух или более микрофонов вместе с подходящим алгоритмом формирования диаграммы направленности. Однако такие алгоритмы не всегда практичны либо обеспечивают субоптимальную производительность. Например, они имеют склонность к ресурсоемкости и требуют сложных алгоритмов для отслеживания нужного источника звука. Также они имеют склонность обеспечивать субоптимальное ослабление шума, в частности, в отражающихся и рассеянных нестационарных шумовых полях или там, где присутствует несколько источников помех. Методики пространственной фильтрации, например формирование диаграммы направленности, в таких сценариях могут добиться лишь ограниченного успеха, и часто выполняется дополнительное подавление шумов в выходном сигнале формирователя диаграммы направленности на этапе постобработки.
Предложены различные алгоритмы ослабления шума, включая системы, которые основываются на знаниях или допущениях касательно характеристик составляющей нужного сигнала и составляющей шумового сигнала. В частности, основанные на знаниях способы повышения разборчивости речи, например схемы с кодовой книгой, показаны эффективными в условиях нестационарного шума даже при работе на одиночном сигнале микрофона. Примеры таких способов представляются в S. Srinivasan, J. Samuelsson и W. B. Kleijn, "Codebook driven short-term predictor parameter estimation for speech enhancement", IEEE Trans. Speech, Audio and Language Processing, том 14, № 1, стр. 163-176, январь 2006 г., и S. Srinivasan, J. Samuelsson и W. B. Kleijn, "Codebook based Bayesian speech enhancement for non-stationary environments", IEEE Trans. Speech Audio Processing, том 15, № 2, стр. 441-452, февраль 2007 г.
Эти способы опираются на обученные кодовые книги спектральных форм речи и шума, которые параметризуются с помощью, например, коэффициентов линейного предсказания (LP). Использование речевой кодовой книги является интуитивным и легко поддается практической реализации. Речевая кодовая книга может быть либо независимой от говорящего (обученной с использованием данных от нескольких говорящих), либо зависимой от говорящего. Последний случай полезен, например, для применений мобильных телефонов, так как они предназначены быть персональными и часто используются преимущественно одним говорящим. Однако использование шумовых кодовых книг в практической реализации является сложным из-за многообразия типов шума, с которыми можно столкнуться на практике. В результате обычно используется очень большая шумовая кодовая книга.
Обычно такие алгоритмы на основе кодовой книги направлены на отыскание записи речевой кодовой книги и записи шумовой кодовой книги, которые при объединении точнее всего соответствуют зарегистрированному сигналу. Когда найдены подходящие записи кодовой книги, алгоритмы компенсируют принятый сигнал на основе записей кодовой книги. Однако, чтобы идентифицировать подходящие записи кодовой книги, выполняется поиск по всем возможным комбинациям записей речевой кодовой книги и записей шумовой кодовой книги. Это приводит к очень ресурсоемкому в вычислительном отношении процессу, который часто не практичен, в особенности для устройств с низкой сложностью. Кроме того, большое количество возможных сигналов и, в частности, вариантов шума может увеличить риск ошибочной оценки, что приводит к субоптимальному ослаблению шума.
Поэтому был бы полезен усовершенствованный подход к ослаблению шума и, в частности, был бы полезен подход, обеспечивающий повышенную гибкость, уменьшенные вычислительные требования, упрощенную реализацию и/или работу, сниженные затраты и/или повышенную производительность.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Соответственно, изобретение предпочтительно направлено на то, чтобы смягчить, ослабить или устранить один или более из вышеупомянутых недостатков, поодиночке или в любом сочетании.
В соответствии с одним аспектом изобретения предоставляется устройство ослабления шума, содержащее: приемник для приема первого сигнала для окружения, причем первый сигнал содержит составляющую нужного сигнала, соответствующую сигналу из нужного источника в окружении, и составляющую шумового сигнала, соответствующую шуму в окружении; первую кодовую книгу, содержащую множество вариантов нужного сигнала для составляющей нужного сигнала, причем каждый вариант нужного сигнала представляет возможную составляющую нужного сигнала; вторую кодовую книгу, содержащую множество вариантов шумового сигнала для составляющей шумового сигнала, причем каждый вариант шумового сигнала представляет возможную составляющую шумового сигнала; вход для приема сигнала датчика, предоставляющего измерение окружения, причем сигнал датчика представляет измерение нужного источника или шума в окружении; сегментатор для сегментирования первого сигнала на временные сегменты; аттенюатор шума, выполненный с возможностью выполнения для каждого временного сегмента этапов: формирования множества оцененных вариантов сигнала путем формирования объединенного сигнала для каждой пары из варианта нужного сигнала в первой группе записей кодовой книги в первой кодовой книге и варианта шумового сигнала во второй группе записей кодовой книги во второй кодовой книге; формирования варианта сигнала для первого сигнала на данном временном сегменте из оцененных вариантов сигнала; и ослабления шума у первого сигнала на данном временном сегменте в ответ на вариант сигнала; причем аттенюатор шума выполнен с возможностью формирования по меньшей мере одной из первой группы и второй группы путем выбора поднабора записей кодовой книги в ответ на опорный сигнал.
Настоящее изобретение может обеспечить улучшенное и/или упрощенное ослабление шума. Во многих вариантах осуществления необходим значительно уменьшенный вычислительный ресурс. Данный подход может сделать возможным более эффективное ослабление шума во многих вариантах осуществления, что может привести к более быстрому ослаблению шума. Во многих сценариях данный подход может дать возможность или обеспечить ослабление шума в реальном масштабе времени. Во многих сценариях и применениях может выполняться более точное ослабление шума благодаря более точной оценке подходящей записи кодовой книги вследствие сокращения рассматриваемых возможных вариантов.
Каждый из вариантов нужного сигнала может иметь длительность, соответствующую длительности временного сегмента. Каждый из вариантов шумового сигнала может иметь длительность, соответствующую длительности временного сегмента.
Сигнал датчика можно сегментировать на временные сегменты, которые могут перекрывать или, в частности, непосредственно соответствовать временным сегментам звукового сигнала. В некоторых вариантах осуществления сегментатор может сегментировать сигнал датчика на такие же временные сегменты, как и звуковой сигнал. Поднабор для каждого временного сегмента может определяться на основе сигнала датчика на том же временном сегменте.
Каждый из вариантов нужного сигнала и шума может представляться набором параметров, который характеризует составляющую сигнала. Например, каждый вариант нужного сигнала может содержать набор коэффициентов линейного предсказания для модели линейного предсказания. Каждый вариант нужного сигнала может содержать набор параметров, характеризующих спектральное распределение, например Спектральную плотность мощности (PSD).
Составляющая шумового сигнала может соответствовать любой составляющей сигнала, не являющейся частью составляющей нужного сигнала. Например, составляющая шумового сигнала может включать в себя белый шум, цветной шум, детерминированный шум от нежелательных источников шума и т.п. Составляющая шумового сигнала может быть нестационарным шумом, который может меняться для разных временных сегментов. Обработка каждого временного сегмента аттенюатором шума может быть независимой для каждого временного сегмента. Таким образом, шум в звуковом окружении может исходить из дискретных источников звука или может быть, например, составляющими отражающегося или рассеянного звука.
Сигнал датчика может приниматься от датчика, который выполняет измерение нужного источника и/или шума.
Поднабор может принадлежать к первой и второй кодовой книге соответственно. В частности, когда сигнал датчика предоставляет измерение источника нужного сигнала, поднабор может быть поднабором первой кодовой книги. Когда сигнал датчика предоставляет измерение шума, поднабор может быть поднабором второй кодовой книги.
Устройство оценки шума может быть выполнено с возможностью формирования оцененного варианта сигнала для варианта нужного сигнала и варианта шума в виде взвешенной комбинации и, в частности, взвешенного суммирования варианта нужного сигнала и варианта шума, причем веса определяются для минимизации функции стоимости, указывающей разность между оцененным вариантом сигнала и звуковым сигналом на временном сегменте.
Варианты нужного сигнала и/или варианты шумового сигнала могут быть, в частности, параметризованными представлениями составляющих возможного сигнала. Количество параметров, используемых для задания варианта, обычно может не превышать 20 или во многих вариантах осуществления преимущественно не превышать 10.
По меньшей мере один из вариантов нужного сигнала в первой кодовой книге и вариантов шумового сигнала во второй кодовой книге может представляться спектральным распределением. В частности, варианты могут представляться записями кодовой книги параметризованных Спектральных плотностей мощности (PSD), или то же самое, что записями кодовой книги параметров линейного предсказания.
Сигнал датчика в некоторых вариантах осуществления может иметь меньшую ширину полосы частот, нежели первый сигнал. В некоторых вариантах осуществления устройство ослабления шума может принимать множество сигналов датчика, и формирование поднабора может основываться на этом множестве сигналов датчика.
Аттенюатор шума может, в частности, включать в себя процессор, схему, функциональный блок или средство для формирования множества оцененных вариантов сигнала путем формирования объединенного сигнала для каждой пары из варианта нужного сигнала в первой группе записей кодовой книги в первой кодовой книге и варианта шумового сигнала во второй группе записей кодовой книги во второй кодовой книге; процессор, схему, функциональный блок или средство для формирования варианта сигнала для первого сигнала на данном временном сегменте из оцененных вариантов сигнала; процессор, схему, функциональный блок или средство для ослабления шума у первого сигнала на данном временном сегменте в ответ на вариант сигнала; и процессор, схему, функциональный блок или средство для формирования по меньшей мере одной из первой группы и второй группы путем выбора поднабора записей кодовой книги в ответ на опорный сигнал.
Сигнал может быть, в частности, звуковым сигналом, окружение может быть звуковым окружением, нужный источник может быть звуковым источником, и шум может быть звуковым шумом.
В частности, устройство ослабления шума может содержать: приемник для приема звукового сигнала для звукового окружения, причем звуковой сигнал содержит составляющую нужного сигнала, соответствующую звуку из нужного источника звука в звуковом окружении, и составляющую шумового сигнала, соответствующую шуму в звуковом окружении; первую кодовую книгу, содержащую множество вариантов нужного сигнала для составляющей нужного сигнала, причем каждый вариант нужного сигнала представляет возможную составляющую нужного сигнала; вторую кодовую книгу, содержащую множество вариантов шумового сигнала для составляющей шумового сигнала, причем каждый вариант шумового сигнала представляет возможную составляющую шумового сигнала; вход для приема сигнала датчика, предоставляющего измерение звукового окружения, причем сигнал датчика представляет измерение нужного источника звука или шума в звуковом окружении; сегментатор для сегментирования звукового сигнала на временные сегменты; аттенюатор шума, выполненный с возможностью выполнения для каждого временного сегмента этапов: формирования множества оцененных вариантов сигнала путем формирования объединенного сигнала для каждой пары из варианта нужного сигнала в первой группе записей кодовой книги в первой кодовой книге и варианта шумового сигнала во второй группе записей кодовой книги во второй кодовой книге; формирования варианта сигнала для звукового сигнала на временном сегменте из оцененных вариантов сигнала, и ослабления шума у звукового сигнала на временном сегменте в ответ на вариант сигнала, причем аттенюатор шума выполнен с возможностью формирования по меньшей мере одной из первой группы и второй группы путем выбора поднабора записей кодовой книги в ответ на опорный сигнал.
Составляющая нужного сигнала может быть, в частности, составляющей речевого сигнала.
Сигнал датчика может приниматься от датчика, который выполняет измерение нужного источника и/или шума. Измерение может быть акустическим измерением, например, с помощью одного или более микрофонов, но не обязательно должно быть им. Например, в некоторых вариантах осуществления измерение может быть механическим или визуальным измерением.
В соответствии с необязательным признаком изобретения сигнал датчика представляет измерение нужного источника, и аттенюатор шума выполнен с возможностью формирования первой группы путем выбора поднабора записей кодовой книги из первой кодовой книги.
Это может сделать возможным уменьшенную сложность, упрощенную работу и/или повышенную производительность во многих вариантах осуществления. Во многих вариантах осуществления особенно полезный сигнал датчика может формироваться для источника нужного сигнала, посредством этого обеспечивается надежное сокращение количества вариантов нужного сигнала для поиска. Например, для источника нужного сигнала, являющегося источником речи, точное, но другое представление речевого сигнала может формироваться из микрофона на основе костной проводимости. Таким образом, определенные характеристики источника нужного сигнала могут преимущественно использоваться во многих сценариях для предоставления существенного сокращения возможных вариантов на основе сигнала датчика, отличного от звукового сигнала.
В соответствии с необязательным признаком изобретения первый сигнал является звуковым сигналом, нужный источник является источником звука, составляющая нужного сигнала является речевым сигналом, и сигнал датчика является сигналом микрофона на основе костной проводимости.
Это может обеспечить особенно эффективное и высокопроизводительное повышение разборчивости речи.
В соответствии с необязательным признаком изобретения сигнал датчика обеспечивает менее точное представление нужного источника, чем составляющая нужного сигнала.
Изобретение может сделать возможным использование дополнительной информации, предоставленной сигналом пониженного качества (и, соответственно, теоретически не подходящей для непосредственного ослабления шума или воспроизведения сигнала), для выполнения высококачественного ослабления шума.
В соответствии с необязательным признаком изобретения сигнал датчика представляет измерение шума, и аттенюатор шума выполнен с возможностью формирования второй группы путем выбора поднабора записей кодовой книги из второй кодовой книги.
Это может сделать возможным уменьшенную сложность, упрощенную работу и/или повышенную производительность во многих вариантах осуществления. Во многих вариантах осуществления особенно полезный сигнал датчика может формироваться для одного или более источников шума (включая рассеянный шум), посредством этого обеспечивается надежное сокращение количества вариантов шумового сигнала для поиска. Во многих вариантах осуществления шум более изменчив, чем составляющая нужного сигнала. Например, повышение разборчивости речи может использоваться во многих разных окружениях и, соответственно, во многих разных шумовых окружениях. Таким образом, характеристики шума могут значительно меняться, тогда как характеристики речи обычно относительно постоянны в разных окружениях. Поэтому шумовая кодовая книга часто может включать в себя записи для многих очень разных окружений, и сигнал датчика во многих сценариях может позволить сформировать поднабор, соответствующий текущему шумовому окружению.
В соответствии с необязательным признаком изобретения сигнал датчика является сигналом обнаружения механической вибрации.
Это может обеспечить очень надежную работу во многих сценариях.
В соответствии с необязательным признаком изобретения сигнал датчика является сигналом акселерометра.
Это может обеспечить очень надежную работу во многих сценариях.
В соответствии с необязательным признаком изобретения устройство ослабления шума дополнительно содержит блок соответствия для формирования соответствия между множеством вариантов сигнала датчика и записями кодовой книги по меньшей мере в одной из первой кодовой книги и второй кодовой книги; и при этом аттенюатор шума выполнен с возможностью выбора поднабора записей кодовой книги в ответ на соответствие.
Это может сделать возможным уменьшенную сложность, упрощенную работу и/или повышенную производительность во многих вариантах осуществления. В частности, это может сделать возможным упрощенное и/или улучшенное формирование подходящего поднабора вариантов.
В соответствии с необязательным признаком изобретения аттенюатор шума выполнен с возможностью выбора первого варианта сигнала датчика из множества вариантов сигнала датчика в ответ на показатель расхождения между каждым из множества вариантов сигнала датчика и сигналом датчика, и формирования поднабора в ответ на соответствие для первого варианта сигнала.
Это во многих вариантах осуществления может обеспечить особенно выгодное и практичное формирование подходящей информации соответствия, обеспечивая надежное формирование подходящего поднабора вариантов.
В соответствии с необязательным признаком изобретения блок соответствия выполнен с возможностью формирования соответствия на основе одновременных измерений от входного датчика, выдающего первый сигнал, и датчика, выдающего сигнал датчика.
Это может обеспечить особенно эффективную реализацию, и в частности, может уменьшить сложность и сделать возможным, например, упрощенное и/или улучшенное определение надежного соответствия.
В соответствии с необязательным признаком изобретения блок соответствия выполнен с возможностью формирования соответствия на основе показателей разности между вариантами сигнала датчика и записями кодовой книги по меньшей мере в одной из первой кодовой книги и второй кодовой книги.
Это может обеспечить особенно эффективную реализацию и, в частности, может уменьшить сложность и сделать возможным, например, упрощенное и/или улучшенное определение надежного соответствия.
В соответствии необязательным признаком изобретения первый сигнал является сигналом микрофона от первого микрофона и сигнал датчика является сигналом микрофона от второго микрофона, удаленного от первого микрофона.
Это может сделать возможным уменьшенную сложность, упрощенную работу и/или повышенную производительность во многих вариантах осуществления.
В соответствии с необязательным признаком изобретения первый сигнал является звуковым сигналом, а сигнал датчика поступает от незвукового датчика.
Это может сделать возможным уменьшенную сложность, упрощенную работу и/или повышенную производительность во многих вариантах осуществления.
В соответствии с одним аспектом изобретения предоставляется способ ослабления шума, содержащий: прием первого сигнала для окружения, причем первый сигнал содержит составляющую нужного сигнала, соответствующую сигналу из нужного источника в окружении, и составляющую шумового сигнала, соответствующую шуму в окружении; предоставление первой кодовой книги, содержащей множество вариантов нужного сигнала для составляющей нужного сигнала, причем каждый вариант нужного сигнала представляет возможную составляющую нужного сигнала; предоставление второй кодовой книги, содержащей множество вариантов шумового сигнала для составляющей шумового сигнала, причем каждый вариант шумового сигнала представляет возможную составляющую шумового сигнала; прием сигнала датчика, предоставляющего измерение окружения, причем сигнал датчика представляет измерение нужного источника или шума в окружении; сегментирование первого сигнала на временные сегменты; для каждого временного сегмента выполнение этапов: формирования множества оцененных вариантов сигнала путем формирования объединенного сигнала для каждой пары из варианта нужного сигнала в первой группе записей кодовой книги в первой кодовой книге и варианта шумового сигнала во второй группе записей кодовой книги во второй кодовой книге, формирования варианта сигнала для первого сигнала на данном временном сегменте из оцененных вариантов сигнала и ослабления шума у первого сигнала на данном временном сегменте в ответ на вариант сигнала; и формирования по меньшей мере одной из первой группы и второй группы путем выбора поднабора записей кодовой книги в ответ на опорный сигнал.
Эти и другие аспекты, признаки и преимущества изобретения станут понятными и будут разъяснены со ссылкой на вариант (варианты) осуществления, описываемые ниже.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Варианты осуществления изобретения будут описываться только в качестве примера со ссылкой на чертежи, на которых:
Фиг. 1 - иллюстрация примера элементов устройства ослабления шума в соответствии с некоторыми вариантами осуществления изобретения;
Фиг. 2 - иллюстрация примера элементов аттенюатора шума для устройства ослабления шума из фиг. 1;
Фиг. 3 - иллюстрация примера элементов устройства ослабления шума в соответствии с некоторыми вариантами осуществления изобретения; и
Фиг. 4 - иллюстрация задания соответствия кодовой книги для устройства ослабления шума в соответствии с некоторыми вариантами осуществления изобретения.
ПОДРОБНОЕ ОПИСАНИЕ НЕКОТОРЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ
Нижеследующее описание сосредоточено на вариантах осуществления изобретения, применимых к ослаблению звукового шума и, в частности, к повышению разборчивости речи с помощью ослабления шума. Однако нужно будет принять во внимание, что изобретение не ограничивается этим применением, а может применяться ко многим другим сигналам.
Фиг. 1 иллюстрирует пример аттенюатора шума в соответствии с некоторыми вариантами осуществления изобретения.
Аттенюатор шума содержит приемник 101, который принимает сигнал, который содержит нужную составляющую и нежелательную составляющую. Нежелательная составляющая называется шумовым сигналом и может включать в себя любую составляющую сигнала, не являющуюся частью составляющей нужного сигнала. Составляющая нужного сигнала соответствует звуку, сформированному из нужного источника звука, тогда как нежелательная или составляющая шумового сигнала может соответствовать вкладам от всех других источников звука, включая рассеянный и отражающийся шум и т.п. Составляющая шумового сигнала может включать в себя окружающий шум в окружении, звук от нежелательных источников звука и т.п.
В системе из фиг. 1 сигнал является звуковым сигналом, который может формироваться, в частности, из сигнала микрофона, регистрирующего звуковой сигнал в данном звуковом окружении. Нижеследующее описание будет сосредоточено на вариантах осуществления, в которых составляющая нужного сигнала является речевым сигналом от нужного говорящего.
Приемник 101 соединяется с сегментатором 103, который сегментирует звуковой сигнал на временные сегменты. В некоторых вариантах осуществления временные сегменты могут быть неперекрывающимися, а в других вариантах осуществления временные сегменты могут быть перекрывающимися. Кроме того, сегментация может выполняться путем применения вырезающей функции определенной формы и, в частности, устройство ослабления шума может применять известную методику перекрытия с суммированием при сегментации, используя подходящее окно, например окно Хэннинга или Хэмминга. Длительность временного сегмента будет зависеть от конкретной реализации, но во многих вариантах осуществления будет составлять примерно 10-100 мс.
Сегментатор 103 передает результат в аттенюатор 105 шума, который выполняет ослабление шума на основе сегментов, чтобы выделить составляющую нужного сигнала относительно нежелательной составляющей шумового сигнала. Результирующие сегменты с ослабленным шумом поступают в выходной процессор 107, который предоставляет непрерывный звуковой сигнал. Выходной процессор 107 может, в частности, выполнять десегментацию, например, путем выполнения функции перекрытия с суммированием. Нужно будет принять во внимание, что в других вариантах осуществления выходной сигнал может предоставляться в виде сегментированного сигнала, например в вариантах осуществления, в которых выполняется дополнительная обработка сигналов на основе сегментов над сигналом с ослабленным шумом.
Ослабление шума основывается на подходе с кодовой книгой, который использует отдельные кодовые книги, относящиеся к составляющей нужного сигнала и к составляющей шумового сигнала. Соответственно, аттенюатор 105 шума соединяется с первой кодовой книгой 109, которая является кодовой книгой нужного сигнал и в конкретном примере является речевой кодовой книгой. Аттенюатор 105 шума дополнительно соединяется со второй кодовой книгой 111, которая является кодовой книгой шумового сигнала.
Аттенюатор 105 шума выполнен с возможностью выбора записей кодовой книги из речевой кодовой книги и шумовой кодовой книги, так что комбинация составляющих сигнала, соответствующих выбранным записям, точнее всего совпадает со звуковым сигналом на том временном сегменте. Как только находятся подходящие записи кодовой книги (вместе с их масштабированием), они представляют оценку отдельной составляющей речевого сигнала и составляющей шумового сигнала в зарегистрированном звуковом сигнале. В частности, составляющая сигнала, соответствующая выбранной записи речевой кодовой книги, является оценкой составляющей речевого сигнала в зарегистрированном звуковом сигнале, а записи шумовой кодовой книги предоставляют оценку составляющей шумового сигнала. Соответственно, этот подход использует подход с кодовой книгой для оценки составляющих речевого и шумового сигнала в звуковом сигнале, и как только эти оценки определяются, они могут использоваться для ослабления составляющей шумового сигнала относительно составляющей речевого сигнала в звуковом сигнале, так как оценки позволяют провести различия между этими составляющими.
В системе из фиг. 1 аттенюатор 105 шума соединяется соответствующим образом с кодовой книгой 109 нужного сигнала, которая содержит некоторое количество записей кодовой книги, каждая из которых содержит набор параметров, задающий возможную составляющую нужного сигнала, а в конкретном примере - нужный речевой сигнал. Аналогичным образом, аттенюатор 105 шума соединяется кодовой книгой 111 шумового сигнала, которая содержит некоторое количество записей кодовой книги, каждая из которых содержит набор параметров, задающий возможную составляющую шумового сигнала.
Записи кодовой книги для составляющей нужного сигнала соответствуют возможным вариантам для составляющих нужного сигнала, а записи кодовой книги для составляющей шумового сигнала соответствуют возможным вариантам для составляющих шумового сигнала. Каждая запись содержит набор параметров, которые характеризуют возможную составляющую нужного сигнала или шума соответственно. В конкретном примере каждая запись первой кодовой книги 109 содержит набор параметров, которые характеризуют возможную составляющую речевого сигнала. Таким образом, сигнал, охарактеризованный записью кодовой книги в этой кодовой книге, является сигналом, который обладает характеристиками речевого сигнала, и, соответственно записи кодовой книги вносят знания о характеристиках речи в оценку составляющей речевого сигнала.
Записи кодовой книги для составляющей нужного сигнала могут основываться на модели нужного источника звука либо могут определяться, дополнительно или в качестве альтернативы, с помощью процесса обучения. Например, записи кодовой книги могут быть параметрами для модели речи, разработанной для представления характеристик речи. В качестве другого примера можно записать и статистически обработать большое количество речевых выборок, чтобы сформировать подходящее количество возможных вариантов речи, которые сохраняются в кодовой книге. Аналогичным образом, записи кодовой книги для составляющей шумового сигнала могут основываться на модели шума либо могут определяться, дополнительно или в качестве альтернативы, с помощью процесса обучения.
В частности, записи кодовой книги могут основываться на модели линейного предсказания. В действительности, в конкретном примере каждая запись кодовой книги содержит набор параметров линейного предсказания. Записи кодовой книги могут быть сформированы, в частности, с помощью процесса обучения, в котором сформированы параметры линейного предсказания путем подгонки к большому количеству выборок сигнала.
Записи кодовой книги в некоторых вариантах осуществления могут представляться в виде частотного распределения и, в частности, в виде Спектральной плотности мощности (PSD). PSD может непосредственно соответствовать параметрам линейного предсказания.
Количество параметров для каждой записи кодовой книги обычно относительно небольшое. В действительности обычно имеется не более 20, а часто не более 10 параметров, задающих каждую запись кодовой книги. Таким образом, используется относительно грубая оценка составляющей нужного сигнала. Это обеспечивает уменьшенную сложность и упрощенную обработку, но все же признано обеспечивающим эффективное ослабление шума в большинстве случаев.
Подробнее рассмотрим модель аддитивного шума, где речь и шум предполагаются независимыми:
где y(n), x(n) и w(n) представляют соответственно дискретизованную речь с шумами (входной звуковой сигнал), четкую речь (нужная составляющая речевого сигнала) и шум (составляющая шумового сигнала).
Ослабление шума на основе кодовой книги обычно включает в себя поиски по кодовым книгам, чтобы отыскать такую запись кодовой книги для составляющей сигнала и составляющей шума соответственно масштабированная комбинация точнее всего совпадает с зарегистрированным сигналом, посредством этого предоставляя оценку составляющих речи и шума для каждого короткого временного сегмента. Пусть Py(ω) обозначает Спектральную плотность мощности (PSD) у наблюдаемого сигнала y(n) с шумами, Px(ω) обозначает PSD у составляющей x(n) речевого сигнала и Pw(ω) обозначает PSD у составляющей w(n) шумового сигнала, тогда
Py(ω)=Px(ω)+Pw(ω)
Допустим, ^ обозначает оценку соответствующей PSD, традиционное ослабление шума на основе кодовой книги может уменьшить шум путем применения фильтра H(ω) Винера частотной области к зарегистрированному сигналу, то есть:
Pna(ω)=Py(ω)H(ω)
где фильтр Винера имеет вид:
Кодовые книги содержат варианты речевого сигнала и варианты шумового сигнала, соответственно, и насущная проблема состоит в идентификации наиболее подходящей пары вариантов и относительного веса каждого.
Оценка PSD речи и шума и, соответственно, выбор подходящих вариантов может придерживаться либо подхода максимального правдоподобия (ML), либо байесовского подхода с минимальной среднеквадратической ошибкой (MMSE).
Взаимосвязь между вектором коэффициентов линейного предсказания и лежащей в основе PSD может определяться с помощью
где являются коэффициентами линейного предсказания, и p является порядком модели линейного предсказания, и
Используя эту взаимосвязь, оцененная PSD зарегистрированного сигнала имеет вид
где gx и gw являются частотно-независимыми усилениями уровней, ассоциированными с PSD речи и шума. Эти усиления вводятся для учета колебания в уровне между PSD, сохраненными в кодовой книге и обнаруженными во входном звуковом сигнале.
Традиционные подходы основываются на поиске по всем возможным парным комбинациям записи речевой кодовой книги и записи шумовой кодовой книги, чтобы определить пару, которая максимизирует некую степень сходства между наблюдаемой PSD с шумами и оцененной PSD, как описано ниже.
Рассмотрим пару PSD речи и шума, заданную iой PSD из речевой кодовой книги и jой PSD из шумовой кодовой книги. PSD с шумами, соответствующую этой паре, можно записать в виде
В этом уравнении PSD известны, тогда как усиления - неизвестны. Таким образом, для каждой возможной пары PSD речи и шума необходимо определить усиления. Это можно выполнить на основе подхода с максимальным правдоподобием. Оценку максимального правдоподобия нужных PSD речи и шума можно получить в двухэтапной процедуре. Логарифм правдоподобия, к которому пришла данная пара в наблюдаемой PSD с шумами, представляется следующим уравнением:
На первом этапе определяются неизвестные члены относящиеся к уровню, которые максимизируют . Одним способом выполнить это является дифференцирование по установка результата в ноль и решение результирующей системы совместных уравнений. Однако эти уравнения нелинейные и не поддаются решению в замкнутой форме. Альтернативный подход основывается на том, что правдоподобие максимизируется, когда и, соответственно, члены, относящиеся к усилению, можно получить путем минимизации спектрального расстояния между этими двумя элементами.
Как только члены, относящиеся к уровню, становятся известны, можно определить значение , так как известны все элементы. Эта процедура повторяется для всех пар записей речевой и шумовой кодовой книги, и пара, которая дает наибольшее правдоподобие, используется для получения PSD речи и шума. Так как этот этап выполняется для каждого короткого временного сегмента, способ может точно оценить PSD шума даже в условиях нестационарного шума.
Пусть обозначает пару, приводящую к наибольшему правдоподобию для данного сегмента, и пусть обозначают соответствующие члены, относящиеся к уровню. Тогда PSD речи и шума задаются с помощью