Устройства и способы для обработки аудио сигнала с целью повышения разборчивости речи, используя функцию выделения нужных характеристик

Иллюстрации

Показать все

Устройства для обработки аудиосигнала с целью получения контрольной информации для фильтра повышения разборчивости речи (12) включает в себя устройство выделения признаков (14) для извлечения по крайней мере одной характеристики в полосе частот множества частотных диапазонов кратковременного спектрального представления множества кратковременных спектральных представлений, где по крайней мере одна характеристика представляет спектральную форму кратковременного спектрального представления в полосе частот. Устройство дополнительно содержит устройство объединения признаков (15) для объединения по крайней мере одной характеристики для каждой полосы частот с использованием параметров комбинирования для получения контрольной информации для фильтра повышения разборчивости речи для части времени звукового сигнала. Устройство объединения признаков может использовать регрессионный метод нейронных сетей, который основан на параметрах комбинирования, полученных в фазе подготовки для нейронной сети. Технический результат - повышение разборчивости речи. 7 н.п. и 10 з.п. ф-лы, 10 ил.

Реферат

Область изобретения

Настоящее изобретение относится к области обработки аудио сигнала и, в частности, к области повышения разборчивости речи аудио сигналов, так что обработанный сигнал имеет речевое содержание, которое обладает улучшенной объективной или субъективной речевой понятностью.

Предпосылки создания изобретения и известный уровень техники

Повышение разборчивости речи используется для различного применения. Широко известно применение использования обработки цифрового сигнала в слуховых аппаратах. Цифровая обработка сигнала в слуховых аппаратах предлагает новые, эффективные средства для восстановления слуха. Помимо более высокого качества акустического сигнала, цифровые слуховые аппараты позволяют применение специальных стратегий обработки речи. Для многих из этих стратегий желательным является наличие оценки соотношения речь/шум (SNR) акустической среды. В частности, учитываются применения, в которых сложные алгоритмы для обработки речи оптимизированы для конкретной акустической среды, но такие алгоритмы могут не сработать в ситуациях, которые не отвечают конкретным условиям. Это относится в особенности к схемам снижения уровня шума, которые могут представлять процесс обработки артефактов в тихой среде или в ситуациях, когда отношение сигнал/шум (SNR) ниже определенного порога. Оптимальный выбор параметров алгоритмов сжатия и усиления может зависеть от соотношения речь/шум, так что адаптация набора параметров, зависящих от оценок отношения сигнал/шум, помогает в доказательстве существующего преимущества. Кроме того, оценки отношения сигнал/шум могут непосредственно быть использованы в качестве контрольных параметров для схем снижения уровня шума, таких как фильтрация Винера или спектрального вычитания.

Другие применения осуществляются в области повышения разборчивости речи звука кино. Было обнаружено, что многие люди испытывают затруднения с пониманием речевого содержания фильма, например, в связи с нарушениями слуха. Для того, чтобы следить за развитием сюжета фильма, важно понимать соответствующее речевое сопровождение звуковой дорожки, например монологи, диалоги, объявления и повествования. Люди, у которых есть проблемы со слухом, часто переживают опыт, когда фоновые звуки, например окружающий шум и музыка, воспроизводятся на слишком высоком уровне по отношению к речи. В этом случае, желательно, повысить уровень речевых сигналов и ослабить фоновые звуки или же, вообще, усилить уровень речевого сигнала по отношению к общему уровню.

Известный подход к повышению разборчивости речи - спектральное взвешивание, также известный как краткосрочное спектральное затухание, представлен на фиг.3. Выходной сигнал у[k] вычисляется путем затухания сигналов х[ω] участка полосы частот входящих сигналов х[k] в зависимости от шумовой активности внутри сигналов участка полосы частот.

В следующем входящем сигнале х[k] предполагается наличие аддитивного/добавленного смешения желаемого речевого сигнала s[k] и фонового шума b[k].

x [ k ] = s [ k ] + b [ k ]                                         (1)

Повышение разборчивости речи является усовершенствованием в объективном понимании и/или в субъективном качестве речи.

Воспроизведение входящего сигнала частотной областью вычисляется с помощью краткосрочного преобразования Фурье (STFT), других временно-частотных преобразований или фильтра-банка, как показано на 30. Входящий сигнал затем фильтруют в частотной области в соответствии с уравнением 2, тогда как частотный ответ G(ω) фильтра вычисляется так, что активность шумов снижается. Выходящий сигнал вычисляется с помощью обратной обработки частотно-временных преобразований или фильтра-банка, соответственно.

Y ( ω ) = G ( ω ) X ( ω )                                          (2)

Соответствующие спектральные взвешивания G(ω) вычисляются на 31 для каждого спектрального значения с использованием спектра входящего сигнала Х(ω) и оценки спектра шума B ^ ( ω ) или, что является эквивалентным, используя оценку линейного участка полосы частот R ^ ( ω ) = S ^ ( ω ) / B ^ ( ω ) . Взвешенное спектральное значение преобразуется обратно во временную область в 32. Яркими примерами правил подавления шума являются примеры спектрального [S.Boll, "Suppression of acoustic noise in speech using spectral subtraction", IEEE Trans. on Acoustics, Speech, and Signal Processing, vol.27, no.2, pp.113-120, 1979] фильтрация Винера. Полагая, что входящий сигнал представляет аддитивную смесь речевых и шумовых сигналов и что речь и шум не коррелированы, полученные значения для спектрального метода вычитания приведены в уравнении 3.

G ( ω ) = 1 − | B ^ ( ω ) | 2 | X ( ω ) | 2                                      (3)

Аналогичные взвешивания выводятся из оценок линейного участка полосы частот SNR R ^ ( ω ) в соответствии с уравнением 4.

Канал

G ( ω ) = R ^ ( ω ) R ^ ( ω ) + 1                                        (4)

Различные расширения спектрального вычитания уже были предложены в прошлом, а именно использование фактора над - вычитания и параметра спектрального этажа [М.Berouti, R.Schwartz, J.Makhoul, "Enhancement of speech corrupted by acoustic noise", Proc. of the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP; 1979], обобщенные формы [J.Lim, A.Oppenheim, "Enhancement and bandwidth compression of noisy speech", Proc. of the IEEE, vol 67, no.12, pp.1586-1604, 1979], использование критериев восприятия (например, N.Virag, "Single channel speech enhancement based on masking properties of the human auditory system", IEEE Trans. Speech and Audio Proc., vol.7, no.2, pp.126-137, 1999) и многополосное спектральное вычитание (например, S.Kamath, Р.Loizou, "A multi-band spectral subtraction method for enhancing speech corrupted by colored noise", Proc. of the IEEE Int. Conf. Acoust. Speech Signal Processing, 2002). Однако важнейшей частью спектрального метода взвешивания является оценка мгновенного спектра шума или участка полосы частот SNR, которая склонна к ошибкам, особенно если шум не является стационарным. Ошибки оценки приводят к наличию остаточного шума, искажения компонентов речи или музыкального шума (артефакт, который был описан как "мелодия с тональным качеством" [Р.Loizou, Speech Enhancement: Theory and Practice, CRC Press, 2007]). Простой подход к оценке шума представляет собой измерение и усреднение спектра шума во время речевых пауз. Такой подход не дает удовлетворительных результатов, если спектр шума меняется с течением времени во время речевой деятельности, и если не удаются обнаружить речевые паузы. Методы оценки спектра шума даже в речевой деятельности были предложены в прошлом и могут быть классифицированы в соответствии с Р.Loizou, Speech Enhancement: Theory and Practice, CRC Press, 2007? как

- Минимальные алгоритмы отслеживания.

- Временно-рекурсивные алгоритмы усреднения.

- Алгоритмы, основанные на гистограмме.

Оценка спектра шума с применением минимума статистики был предложен в работе R.Martin, "Spectral subtraction based on minimum statistics", Proc. of EUSIPCO, Edingburgh, UK, 1994. Метод основан на отслеживании локальных минимумов энергии сигнала в каждом участке полосы частот. Правило нелинейного обновления для оценки шума и более быстрого обновления было предложено в работе G.Doblinger, "Computationally Efficient Speech Enhancement By Spectral Minima Tracking In Subbands", Proc. of Eurospeech, Madrid, Spain, 1995.

Временно-рекурсивные алгоритмы усреднения оценки и обновление спектра шума при оценке отношения сигнал/шум в полосе частот при заданной полосе частот являются очень низкими. Это делается путем вычисления рекурсивной оценки среднего взвешивания предшествующего шума и представленного в данный момент спектра. Взвешивания определяются как функция вероятности того, что мы имеем дело с речью или же как функция оцененной SNR в определенной полосе частот, например, как это описано в работе I.Cohen, "Noise estimation by minima controlled recursive averaging for robust speech enhancement", IEEE Signal Proc. Letters, vol.9, no.1, pp.12-15, 2002, and in L.Lin, W.Holmes, E.Ambikairajah, "Adaptive noise estimation algorithm for speech enhancement". Electronic Letters, vol.39, no.9, pp.754-755, 2003.

Методы, основанные на гистограмме, рассчитаны на предположении о том, что гистограмма энергетического участка частот очень часто бимодальна. Важный режим пониженного потребления энергии накапливает значения энергии из сегментов без слов или с низкой энергией сегментов речи. Высокоэнергетический режим накапливает значения энергии из речевых сегментов и шума. Энергия шумов в конкретном участке полосы частот определяется из низкоэнергетического режима [H.Hirsch, С.Ehrlicher, "Noise estimation techniques for robust speech recognition", Proc. of the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP, Detroit, USA, 1995]. Чтобы получить наиболее полное представление последних материалов по данной теме, можно обратиться Р.Loizou, Speech Enhancement: Theory and Practice, CRC Press, 2007.

Методы оценки участка полосы частот SNR основаны на контролируемом изучении с использованием функций амплитудной модуляции, описаны в J.Tchorz, В.Kollmeier, "SNR Estimation based on amplitude modulation analysis with applications to noise suppression", IEEE Trans. On Speech and Audio Processing, vol.11, no.3, pp.184-192, 2003, and in M.Kleinschmidt, V.Hohmann, "Sub-band SNR estimation using auditory feature processing". Speech Communication: Special Issue on Speech Processing for Hearing Aids, vol.39, pp.47-64, 2003.

Другие подходы к повышению разборчивости речи являются методами фильтровой синхронизации частоты основного тона (например, описанные в R.Frazier, S.Samsam, L.Braida, A.Oppenheim, "Enhancement of speech by adaptive filtering", Proc. of the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP, Philadelphia, USA, 1976), фильтрации спектра - временной модуляции (STM) (например в работе N.Mesgarani, S.Shamma, "Speech enhancement based on filtering the spectro-temporal modulations", Proc. of the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP, Philadelphia, USA, 2005) и фильтрации на основе синусоидальной модели воспроизведения входящего сигнала (например, в работе J.Jensen, J.Hansen, "Speech enhancement using a constrained iterative sinusoidal model", IEEE Trans. on Speech and Audio Processing, vol.9, no.7, pp.731-740, 2001).

Методы оценки участка полосы частот SNR? основанные на контролируемом изучении с использованием функций амплитудной модуляции? приведенные в работах J.Tchorz, В.Kollmeier, "SNR Estimation based on amplitude modulation analysis with applications to noise suppression", IEEE Trans. On Speech and Audio Processing, vol.11, no.3, pp.184-192, 2003, and in M.Kleinschmidt, V.Hohmann, "Sub-band SNR estimation using auditory feature processing", Speech Communication: Special Issue on Speech Processing for Hearing Aids, vol.39, pp.47-64, 200312, 13? проигрывают так, как необходимы два шага обработки спектрограммы. Первый шаг обработки спектрограммы заключается в создании спектрограммы время/частота временной области аудио сигнала. Тогда, в целях стимулирования модуляционной спектрограммы, требуется преобразование другой спектрограммы время/частота, которая преобразует спектральную информацию из спектральной области в область модуляции. В связи с присущей систематической задержкой и решением вопроса время/частота? присущих любому алгоритму преобразования, эта операция дополнительного преобразования влечет ряд проблем.

Дополнительным следствием этой процедуры является то, что оценки шума весьма не точны в условиях, когда шум не является стационарным и когда возможно появление различных шумовых сигналов.

Краткое описание изобретения

Целью настоящего изобретения является усовершенствование и повышение разборчивости речи.

В соответствии с первым аспектом, эта цель достигается с помощью прибора для обработки аудио сигнала для получения управляющей информации для фильтра, повышающего разборчивость речи, включая: устройство выделения характеристик для получения временной последовательности кратковременных спектральных представлений звукового сигнала и для извлечения хотя бы одной характеристики в каждом диапазоне частот из множества диапазонов частот для множества кратковременных спектральных представлений, и по крайней мере одной характеристики, представляющей спектральную форму кратковременного спектрального представления в диапазоне частот множества диапазонов частот; и устройства объединения признаков, объединяющего по крайней мере одну характеристику для каждой частотной полосы с использованием параметров комбинирования для получения управляющей информации для фильтра, повышающего разборчивость речи для части времени звукового сигнала.

В соответствии со вторым аспектом, эта цель достигается методом обработки аудио сигнала для получения управляющей информации для фильтра, повышающего разборчивость речи, включая: получение временной последовательности краткосрочных спектральных представлений звукового сигнала; извлечения, по крайней мере одной характеристики в каждом диапазоне частот множества диапазонов частот для множества кратковременных спектральных представлений, по крайней мере одной характеристики, представляющей спектральную форму кратковременного спектрального представления в диапазоне частот множества диапазонов частот, а также сочетания по крайней мере одной характеристики для каждого диапазона частот с использованием параметров комбинирования для получения управляющей информации для фильтра, повышающего разборчивость речи для части времени звукового сигнала.

В соответствии с третьим аспектом, эта цель достигается с помощью устройства для повышения разборчивости речи в звуковом сигнале, включая: аппарат для обработки аудио сигнала для получения управляющей информации, подвергшейся фильтрации для множества полос, представляющих часть времени звукового сигнала; и контролируемый фильтр, фильтр, контролируемый таким образом, чтобы полоса звукового сигнала переменно ослаблялась с учетом различных полос на основе контрольной информации.

В соответствии с четвертым аспектом, эта цель достигается методом повышения разборчивости речи в звуковом сигнале, включая: метод обработки аудио сигнала для получения контрольной информации, подвергшейся фильтрации для множества полос, представляющих часть времени звукового сигнала; и контроля фильтра таким образом, чтобы полоса звукового сигнала переменно ослаблялась с учетом различных полос па основе контрольной информации.

В соответствии с пятым аспектом, эта цель достигается с помощью аппарата для подготовки устройства объединения признаков для определения комбинированных параметров устройства объединения признаков, включая: устройство выделения признаков для получения временной последовательности кратковременных спектральных представлений подготовленного звукового сигнала, для которого известна контрольная информация для фильтра повышения разборчивости речи на диапазоне частот, и для извлечения хотя бы одной характеристики в каждом диапазоне частот для множества кратковременных спектральных представлений, по крайней мере одной характеристики, представляющей спектральную форму кратковременного спектрального представления в диапазоне частот множества диапазонов частот; а также контроллер критерия оптимальности для подачи устройства объединения признаков с хотя бы одной характеристикой для каждого диапазона частот, для расчета контрольной информации, используя промежуточные параметры комбинирования, для изменения промежуточных параметров комбинирования, для сравнения меняющейся контрольной информации с уже известной контрольной информацией и для обновления промежуточных параметров комбинирования, когда меняющиеся промежуточные параметры комбинирования приводят в результате к контрольной информации, лучше соответствующей уже известной контрольной информации.

В соответствии с шестым аспектом, эта задача решается с помощью использования устройства объединения признаков для определения параметров комбинирования, включая: получение временной последовательности кратковременных спектральных представлений подготовленного звукового сигнала, для которых известна контрольная информация для фильтра повышения разборчивости речи в диапазоне частот; извлечение по крайней мере одной характеристики в каждом диапазоне частот множества диапазона частот для множества кратковременных спектральных представлений, по крайней мере одну характеристику, представляющую спектральную форму кратковременного спектрального представления в диапазоне частот множества диапазонов частот; подачу устройства объединения признаков с по крайней мере одной характеристикой для каждого диапазона частот; расчет контрольной информацией, используя промежуточные параметры комбинирования; различные промежуточные параметры комбинирования; сравнение меняющейся контрольной информации с уже известной контрольной информацией; обновление промежуточных параметров комбинирования, когда меняющиеся промежуточные параметры комбинирования приводят в результате к контрольной информации, лучше соответствующей уже известной контрольной информации.

В соответствии с седьмым аспектом, эта задача решается с помощью компьютерной программы для выполнения, при работе на компьютере с любым из методов изобретения.

Настоящее изобретение основано на установлении того, что относящаяся к диапазону информация о спектральной форме аудио сигнала в пределах конкретного диапазона является очень полезным параметром для определения контрольной информации для фильтра повышения разборчивости речи. В частности, характеристика определенной информации, относящейся к спектральной форме для множества диапазонов и для множества последующих кратковременных спектральных представлений, дает полезное описание характеристики звукового сигнала для выполнения повышения разборчивости речи аудио сигнала. В частности, ряд характеристик спектральной формы, где каждая характеристика спектральной формы соотносится с диапазоном множества спектральных диапазонов, например таких, как полоса Барка, или, как правило, диапазоны с переменной пропускной способностью в диапазоне частот уже предоставляют ряд полезных функций для определения отношения сигнал/шум для каждого диапазона. Для этого характеристики спектральной формы для множества диапазонов обрабатываются с помощью устройства объединения признаков для объединения этих характеристик с помощью параметров комбинирования с целью получения контрольной информации для фильтра повышения разборчивости речи для части времени звукового сигнала для каждой полосы. Предпочтительно, что устройство объединения признаков включает в себя нейронную сеть, которая управляется многими параметрами комбинирования, где эти параметры комбинирования определяются на этапе настройки, который осуществляется перед фактическим выполнением фильтрации повышения разборчивости речи. В частности, нейронные сети представляют метод регрессии нейронной сети. Конкретным преимуществом является то, что параметры комбинирования могут быть определены в рамках подготовительной фазы с использованием аудио материала, который может отличаться от фактического речевого сигнала с повышенной разборчивостью, так что фаза подготовки должна быть выполнена только один раз, и после этой подготовительной фазы параметры комбинирования жестко фиксируются и могут применяться к каждому неизвестному аудио сигналу с речью, который сопоставляется с речевой характеристикой настроенных сигналов. Например, такая речевая характеристика может быть языком или группой языков, таких как европейские языки в сравнении с азиатскими языками и т.д.

Предпочтительно, что изобретательский замысел оценивает шум, изучая характеристики речи с помощью выделения нужных характеристик/признаков и в нейронных сетях, где изобретательно выделенные характеристики являются прямолинейными спектральными характеристиками низкого уровня, которые могут быть извлечены эффективным и простым способом, и, что важно, могут быть извлечены без крупномасштабной неустранимой потери, так что изобретательский замысел особенно полезен для производства четкого шума или подсчета отношения сигнал/шум, даже в ситуации, когда шум не является стационарным, и где возникают различные шумовые сигналы.

Краткое описание чертежей

Предпочтительные модификации изобретения впоследствии обсуждаются более подробно со ссылкой на прилагаемые чертежи, на которых:

Фиг.1 - Блок-схема предпочтительного устройства или метода обработки аудио сигнала;

Фиг.2 - Блок-схема устройства или метода тренировки устройства объединения признаков в соответствии с предпочтительной модификацией настоящего изобретения;

Фиг.3 - Блок-схема для иллюстрации работы устройства повышения разборчивости речи и метода в соответствии с предпочтительной модификацией настоящего изобретения;

Фиг.4 - Представляет обзор процесса тренировки устройства объединения признаков и применения регрессии нейронной сети с использованием оптимизированных комбинированных характеристик;

Фиг.5 - Иллюстрирующая схема для коэффициента усиления как функцию SNR, где примененные коэффициенты усиления (сплошная линия) сравниваются с спектральными вычитаемыми коэффициентами усиления (пунктирная линия) и фильтр Винера (пунктирная линия);

Фиг.6 - Представляет обзор характеристик полосы частот и предпочтительные дополнительные характеристики для полной пропускной способности;

Фиг.7 - Блок-схема для иллюстрации предпочтительного применения устройства выделения признаков;

Фиг.8 - Представляет схему последовательности процесса для иллюстрации предпочтительного осуществления расчета коэффициентов усиления для значения частоты и последующего расчета повышения разборчивости речи части аудио сигнала;

Фиг.9 - иллюстрирует пример спектрального взвешивания, где показаны время входного сигнала, установленное отношение сигнал/шум для участка полосы частот, установленное отношение сигнал/шум для элементов разрешения по частоте после интерполяции, значения спектрального взвешивания и обработанного сигнала времени; и

Фиг.10 - структурная схема предпочитаемого внедрения устройства объединения признаков с помощью многоуровневых нейронных сетей.

Подробное описание предпочтительных модификаций

Фиг.1 иллюстрирует предпочтительный вариант устройства для обработки аудио сигнала 10 для получения контрольной информации 11 для фильтра повышения разборчивости речи 12. Фильтр повышения разборчивости речи может быть использован разными способами, такими как контролируемый фильтр для фильтрации аудио сигнала 10 с использованием контрольной информации в полосе частот для каждого множества полос частот для выходящего речевого аудио-сигнала с повышенной разборчивостью 13. Как будет показано в дальнейшем, контролируемый фильтр также может быть использован в качестве преобразования времени и частоты, где индивидуально рассчитанные коэффициенты усиления применяются для спектральных значений или для спектральной полосы с последующим преобразованием частоты и времени.

Устройство на фиг.1 включает в себя устройство выделения признаков 14 для получения временной последовательности кратковременных спектральных представлений звукового сигнала и для извлечения хотя бы одной характеристики в каждой полосе частот множества полос частот для множества кратковременных спектральных представлений, где, по крайней мере, одна характеристика представляет спектральную форму кратковременного спектрального представления в полосе частот множества диапазонов частот. Кроме того, устройство выделения признаков 14 может быть использовано для получения других характеристик помимо характеристик спектральной формы. На выходе устройства выделения признаков 14 возникает несколько характеристик для кратковременного аудио спектра, где эти несколько характеристик включают, по крайней мере, одну характеристику спектральной формы для каждой полосы частот множества, состоящего, по крайней мере, из 10 или более предпочтительно, например, от 20 до 30 полос частот. Эти характеристики могут быть использованы как таковые или могут обрабатываться с помощью обычной обработки или любой другой обработки, такой как средне-геометрической или средне-арифметической, или срединной обработки, или другой обработки статистических моментов (например, дисперсия, асимметрия, …) для того, чтобы получить для каждой полосы необработанную или усредненную характеристику так, чтобы все эти необработанные и/или усредненные характеристики являлись входящими в устройство объединения признаков 15. Устройство объединения признаков 15 сочетает в себе множество характеристик спектральной формы и дополнительные характеристики с использованием параметров комбинирования, которые могут быть предоставлены через входящий параметр комбинирования 16, или которые являются труднопроводимыми или устойчиво запрограммированы в рамках устройства объединения признаков 15 таким образом, что не требуется входящий параметр комбинирования 16. На выходе устройства объединения признаков собирается контрольная информация для фильтра повышения разборчивости речи для каждой полосы частот или участка полосы частот множества полос частот или множества участков полос частот для части времени звукового сигнала.

Предпочтительно, что устройство объединения признаков 15 вводится как цикл регрессии нейронной цепи, но устройство объединения признаков также может вводиться как и любой другой численно или статистически контролируемое устройство объединения признаков, которое применяет любые комбинированные операции к выходу характеристик посредством устройства выделения признаков 14, так что, в конце концов, необходимая контрольная информация, такая, как значение отношения сигнал/шум, относящееся к полосе или результаты относящегося к полосе коэффициента усиления. В предпочтительной модификации применения нейронных сетей требуется фаза настройки ("фаза настройки" означает фазу, в которой происходит изучение на примерах). В этой фазе настройки используется аппарат для подготовки устройства объединения признаков 15, как показано на фиг.2. В частности, фиг.2 демонстрирует этот аппарат для настройки устройства объединения признаков 15 для определения параметров комбинирования устройства объединения признаков. Для этого аппарат на фиг.2 включает устройство для выделения признаков 14, который предпочтительно используется так же, как устройство выделения признаков 14 на фиг.1. Кроме того, устройство объединения признаков 15 используется также, как устройство объединения признаков 15 на фиг.1.

В дополнение к фиг.1, устройство на фиг.2 включает контроллер критерия оптимальности 20, который получает в качестве входящей контрольную информацию для подготовки звукового сигнала, как показано на 21. Фаза настройки осуществляется на основе известных настроенных звуковых сигналов, которые имеют известное отношение речь/шум в каждом диапазоне. Доля речи и доля шума, к примеру, вводятся отдельно друг от друга и фактическое отношение сигнал/шум для полосы измеряется "на лету", т.е. в процессе изучения. В частности, контроллер критерия оптимальности 2 действует для контролирования устройства объединения признаков, таким образом, что устройство объединения признаков питается/загружается с помощью характеристик устройства выделения признаков 14. Основываясь на этих характеристиках и промежуточных параметрах комбинирования, вытекающих из предшествующей программы итерации, устройство объединения признаков 15 впоследствии подсчитывает контрольную информацию 11. Эта контрольная информация 11 направляется в контроллер критерия оптимальности и считается в контроллере критерия оптимизации 20 сравнительной с контрольной информацией 21 для настройки звукового сигнала. Промежуточные параметры комбинирования меняются в ответ на инструкции от контроллера критерия оптимизации 20, и используя эти разнообразные параметры, рассчитывается дополнительный набор контрольной информации устройством объединения признаков 15. Когда дальнейшая контрольная информация лучше сочетается с контрольной информацией для настройки звукового сигнала 21, контроллер критерия оптимальности 20 обновляет параметры комбинирования и отправляет эти обновленные параметры комбинирования 16 на устройство объединения признаков для использования в следующем запуске программ в качестве промежуточных параметров комбинирования. В качестве альтернативы или дополнительно, обновленные параметры комбинирования могут храниться в памяти для дальнейшего использования.

Фиг.4 демонстрирует обзор процесса спектрального взвешивания с помощью выделения необходимых характеристик в методе регрессии нейронной сети. Параметры w нейронной сети вычисляются с помощью показателей SNR подзоны отношения сигнал/шум Rt и характеристик из настроенных элементов xt[k] в ходе настройки, который указан с левой стороны фиг.4. Оценка шума и фильтрация повышения разборчивости речи показана с правой стороны фиг.4.

Предлагаемая концепция использует метод спектрального взвешивания и использует новый метод для вычисления спектральных весов. Оценка шума основана на методе обучения и в ней используется ряд изобретательских функций. Характеристики направлены на установление различий между тональными и шумными компонентами сигнала. Кроме того, предложенные характеристики отражают/учитывают изменения свойств сигнала на большей временной шкале.

Параметр оценки шума, представленный здесь, может использоваться для рассмотрения различных нестационарных фоновых звуков. Функциональная оценка отношения сигнал/шум в нестационарном фоновом шуме достигается с помощью выделения характеристик и метода регрессии нейронных сетей, как показано на фиг.4. Действительный вес вычисляется по оценкам отношения сигнал/шум в полосах частот, чей интервал приближается к шкале Барка. Спектральное разрешение оценки отношения сигнал/шум является весьма грубым, для того чтобы сделать возможным измерение спектральной формы в диапазоне.

Левая часть фиг.4 соответствует фазе настройки, которая, в принципе, должна быть выполнена только один раз. Процедура в левой части фиг.4, отмеченная как настройка 41, включает в себя ссылку отношения сигнал/шум вычислительного блока 21, который генерирует контрольную информацию 21 для настройки ввода аудио сигнала в контроллер критерия оптимальности 20 на фиг.2. Устройство извлечения характеристик 14 на фиг.4 на стороне настройки соответствует устройству выделения признаков 14 на фиг.2. В частности, фиг.2 приведена для того, чтобы показать получение настроенного звукового сигнала, который состоит из речевой части и фоновой части. Для того, чтобы выполнить полезную ссылку, фоновая часть bt и речевая часть st доступны отдельно друг от друга и добавляются через сумматор 43, перед тем, как войти в устройство выделения признаков 14. Таким образом, выход сумматора 43 соответствует настройке входа аудио сигнала в устройство выделения признаков 14 на фиг.2.

Устройство настройки нейронных сетей, отмеченных на 15, 20, соответствует блокам 15 и 20 и соответствующим соединениям, как показано на фиг.2 или как реализовано/осуществлено с помощью других результатов аналогичных связей в наборе параметров комбинирования w, которые могут храниться в памяти 40. Эти параметры комбинирования затем используются в устройстве регрессии нейронной сети 15, соответствующем устройству объединения признаков 15 на фиг.1 при использовании изобретательского замысла, применяемого, как отмечено посредством применения 42 на фиг.4. Устройство спектрального взвешивания на фиг.4 соответствует контролируемому фильтру 12 на фиг.1 и устройству выделения признаков 14 на фиг.4, где правая часть соответствует устройству выделения признаков 14 на фиг.1.

Далее будет детально обсуждаться краткое осуществление предлагаемой концепции. Устройство выделения признаков 14 на фиг.4 работает следующим образом.

С целью выявления лучшего набора характеристик для оценки подзоны отношений сигнал/шум был исследован ряд из 21 различных характеристик. Эти характеристики были объединены в различных конфигурациях и были оценены с помощью объективных измерений и простого прослушивания. Процесс выбора характеристик приводит к набору характеристик, включающих спектральную активность, спектральный поток, спектральную плотность, спектральный показатель, коэффициенты кодирования с линейным предсказанием и соответствующего спектрального перцепционного линейного предсказания. Характеристики спектральной активности, потока, плотности и показателя вычисляются по спектральному коэффициенту, соответствующему шкале критических полос частот.

Характеристики подробно описаны с учетом фиг.6. Дополнительные характеристики являются характеристикой соединения треугольником спектральной активности и характеристикой соединения по схеме треугольник-треугольник низкочастотной спектральной активности, подвергнувшейся фильтрации и спектрального потока. Структура нейронной сети, используемой в блоках 15, 20 или 15 на фиг.4 или предпочтительно используемой в устройстве объединения признаков 15 на фиг.1 или фиг.2, обсуждается в связи с фиг.10. В частности, предпочтительная нейронная сеть включает в себя слой входящих нейронов 100. Вообще, могут использоваться n входящие нейроны, т.е. один нейрон на каждую входящую характеристику. Предпочтительно, чтобы нейронная сеть имела 220 входящих нейронов, соответствующих ряду характеристик. Кроме того, нейронная сеть включает скрытый слой 102 с нейронами p скрытого слоя. Вообще, p меньше, чем n и в предпочтительной модификации скрытый слой имеет 50 нейронов. На выходе, нейронная сеть включает выходящий слой 104 с q нейронами на выходе. В частности, количество нейронов на выходе равно числу частотных полос, так что каждый нейрон на выходе предоставляет контрольную информацию для каждой полосы частот, такую информацию как отношение сигнал/шум (отношение «речь-шум») для каждой полосы. Если, например, существует 25 различных полос частот, при желательном наличии ширины диапазона, которая возрастает от низких до высоких частот, то число q нейронов на выходе будет равно 25. Таким образом, нейронная сеть применяется для оценки подзоны/участка полосы отношения сигнал/шум из рассчитанных низкоуровневых характеристик. Нейронная сеть, как указано выше, имеет 220 входящих нейронов и один скрытый слой 102 с 50 нейронами. Количество нейронов на выходе равно числу частотных полос. Предпочтительно, что скрытые нейроны включают функцию активации, которая является гиперболическим тангенсом, и функция активации выходящих нейронов является тождеством.

Как правило, каждый нейрон из слоя 102 или 104 получает все соответствующие входы, которые являются по отношению к слою 102 выходами всех входящих нейронов. Тогда, каждый нейрон слоя 102 или 104 выполняет взвешенное дополнение, где весовые параметры соответствуют параметрам комбинирования. Скрытый слой может включать в себя значения смещения в дополнение к параметрам. Тогда, значения смещения также принадлежат параметрам комбинирования. В частности, каждый вход взвешивается своим соответствующим параметром комбинирования. Выход операции взвешивания, который определяется типовым модулем 106 на фиг.10, является входом в сумматор 108 в рамках каждого нейрона. Выход сумматора или вход в нейрон может содержать нелинейную функцию 110, которая может быть размещены на выходе и/или входе нейрона, например, в скрытом сло