Устройство и способ для уменьшения шума квантования в декодере временной области
Иллюстрации
Показать всеИзобретение относится к средствам для уменьшения шума квантования в сигнале, содержащемся в возбуждении во временной области, декодируемом декодером временной области. Технический результат заключается в повышении качества кодируемого речевого сигнала. Декодированное возбуждение во временной области преобразовывается в возбуждение в частотной области. Весовая маска формируется для восстановления спектральной информации, потерянной в шуме квантования. Возбуждение в частотной области модифицируется для того, чтобы увеличить динамику спектра путем применения весовой маски. Модифицированное возбуждение в частотной области преобразовывается в модифицированное возбуждение во временной области. Способ и устройство могут использоваться для того, чтобы улучшить воспроизведение музыкального контента кодеками на основе линейного предсказания (LP). Опционально синтез декодированного возбуждения во временной области может быть классифицирован на одно из первого набора категорий возбуждения и второго набора категорий возбуждения. 2 н. и 29 з.п. ф-лы, 4 табл., 4 ил.
Реферат
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
[0001] Настоящее изобретение относится к области обработки звука. Более конкретно, настоящее изобретение относится к уменьшению шума квантования в звуковом сигнале.
УРОВЕНЬ ТЕХНИКИ
[0002] Современные разговорные кодеки представляют с очень хорошим качеством чисто речевые сигналы при скоростях передачи приблизительно 8 Кбит/с и приближаются к незаметности для пользователя при скорости передачи 16 Кбит/с. Для того чтобы поддерживать это высокое качество речи при низкой скорости передачи, обычно используется мультимодальная схема кодирования. Обычно входной сигнал расщепляется на различные категории, отражающие его характеристику. Эти различные категории включают в себя, например, вокализированную речь, невокализированную речь, вокализированные вступления и т.д. Кодек затем использует различные режимы кодирования, оптимизированные для этих категорий.
[0003] Основанные на модели речи кодеки обычно не очень хорошо воспроизводят общие сигналы звуковой частоты, такие как музыку. Следовательно, некоторые развернутые кодеки для разговорных сигналов не представляют музыку с хорошим качеством, особенно при низких скоростях передачи. Когда кодек развернут, трудно модифицировать кодер из-за того, что поток битов стандартизован, и любые изменения в потоке битов нарушили бы функциональную совместимость кодека.
[0004] Следовательно, имеется потребность в улучшении воспроизведения музыкального контента основанными на модели речи кодеками, например кодеками на основе линейного предсказания (LP).
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
[0005] В соответствии с настоящим изобретением предлагается устройство для уменьшения шума квантования в сигнале, содержащем во временной области возбуждение, декодируемое декодером временной области. Это устройство включает в себя преобразователь декодированного возбуждения во временной области в возбуждение в частотной области. Устройство также включает в себя блок формирования маски для формирования весовой маски для восстановления спектральной информации, потерянной в шуме квантования. Устройство также включает в себя модификатор возбуждения в частотной области для того, чтобы увеличить динамику спектра путем применения весовой маски. Устройство дополнительно включает в себя преобразователь модифицированного возбуждения в частотной области в модифицированное возбуждение во временной области.
[0006] Настоящее изобретение также относится к способу для уменьшения шума квантования в сигнале, содержащем во временной области возбуждение, декодируемое декодером временной области. Декодированное возбуждение во временной области преобразовывается в возбуждение в частотной области декодером временной области. Весовая маска формируется для восстановления спектральной информации, потерянной в шуме квантования. Возбуждение в частотной области модифицируется для того, чтобы увеличить динамику спектра путем применения весовой маски. Модифицированное возбуждение в частотной области преобразовывается в модифицированное возбуждение во временной области.
[0007] Вышеперечисленные и другие признаки станут более ясными после прочтения последующего не ограничивающего описания иллюстративных вариантов их осуществления, представленных только в качестве примеров со ссылками на сопроводительные чертежи.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0008] Далее варианты осуществления настоящего изобретения будут описаны только в качестве примеров со ссылками на сопроводительные чертежи, на которых:
[0009] Фиг. 1 представляет собой блок-схему, показывающую операции способа для уменьшения шума квантования в сигнале, содержащемся в возбуждении во временной области, декодированном декодером временной области, в соответствии с одним вариантом осуществления;
[0010] Фиг. 2a и 2b, совместно упоминаемые как Фиг. 2, представляют собой упрощенную принципиальную схему декодера, имеющего возможности постобработки в частотной области для уменьшения шума квантования в музыкальных сигналах и других звуковых сигналах; и
[0011] Фиг. 3 представляет собой упрощенную блок-схему примерной конфигурации аппаратных компонентов, формирующих декодер, изображенный на Фиг. 2.
ПОДРОБНОЕ ОПИСАНИЕ
[0012] Различные аспекты настоящего изобретения в целом решают одну или более проблем улучшения воспроизведения музыкального контента кодеками на основе модели речи, например кодеками на основе линейного предсказания (LP), путем уменьшения шума квантования в музыкальном сигнале. Следует учесть, что настоящее изобретение может также применяться к другим звуковым сигналам, например к общим сигналам звуковой частоты, отличающимся от музыки.
[0013] Модификации декодера могут улучшить воспринимаемое качество на стороне приемника. Настоящее изобретение раскрывает подход к реализации на стороне декодера постобработки для музыкальных сигналов и других звуковых сигналов в частотной области, который уменьшает шум квантования в спектре синтезируемого декодированного сигнала. Постобработка может быть осуществлена без какой-либо дополнительной задержки кодирования.
[0014] Принцип удаления в частотной области шума квантования между гармониками спектра и частотной постобработки, используемый в настоящем документе, основан на патентной публикации PCT WO 2009/109050 A1 автора Vaillancourt и др., датированной 11 сентября 2009 г. (в дальнейшем упоминаемой как «Vaillancourt '050»), раскрытие которой включено в настоящий документ посредством ссылки. В большинстве случаев такая частотная постобработка применяется к синтезируемому декодированному сигналу и требует увеличения задержки обработки для того, чтобы включить перекрытие и добавить процесс для получения значительного выигрыша в качестве. Более того, при традиционной постобработке в частотной области чем короче добавляемая задержка (то есть чем короче окно преобразования), тем менее эффективной является постобработка благодаря ограниченному частотному разрешению. В соответствии с настоящим изобретением частотная постобработка достигает более высокого частотного разрешения (используется более длинное частотное преобразование) без добавления задержки к синтезу. Кроме того, информация, присутствующая в энергии спектра прошлых кадров, используется для создания весовой маски, которая применяется к спектру текущего кадра для того, чтобы восстановить, то есть улучшить, спектральную информацию, потерянную в шуме кодирования. Для того, чтобы достичь этой постобработки без добавления задержки к синтезу, в этом примере используется симметричное трапецеидальное окно. Это окно центрируется на текущем кадре, причем окно является плоским (оно имеет постоянное значение, равное 1), и экстраполяция используется для того, чтобы создать будущий сигнал. В то время как постобработка обычно может быть применена непосредственно к сигналу синтеза любого кодека, настоящее изобретение представляет иллюстративный вариант осуществления, в котором постобработка применяется к сигналу возбуждения в рамках кодека линейного предсказания с кодовым возбуждением (CELP), описанного в технической спецификации (TS) 26.190 Программы Партнерства 3-го поколения (3GPP), озаглавленной как «Адаптивный многоскоростной широкополосный (AMR-WB) речевой кодек; Функции транскодирования», доступной на веб-сайте 3GPP, полное содержание которой включено в настоящий документ посредством ссылки. Преимущество работы над сигналом возбуждения, а не над сигналом синтеза, состоит в том, что любые потенциальные разрывы, вводимые постобработкой, сглаживаются последующим применением фильтра синтеза CELP.
[0015] В настоящем изобретении для целей иллюстрации используется AMR-WB с внутренней частотой оцифровки 12,8 кГц. Однако настоящее изобретение может быть применено к другим речевым декодерам с низкой скоростью передачи, где синтез получается с помощью сигнала возбуждения, отфильтрованного через фильтр синтеза, например фильтр синтеза LP. Это может быть также применено на мультимодальных кодеках, где музыка кодируется с помощью комбинации возбуждения во временной области и в частотной области. Следующие строки суммируют работу постфильтра. Затем следует подробное описание иллюстративного варианта осуществления, использующего AMR-WB.
[0016] Сначала полный битовый поток декодируется, и текущий синтезированный кадр обрабатывается классификатором первого этапа, подобным тому, который раскрывается в патентной публикации PCT WO 2003/102921 A1 автора Jelinek и др., датированной 11 декабря 2003 г., в патентной публикации PCT WO 2007/073604 A1 автора Vaillancourt и др., датированной 5 июля 2007 г., и в международной заявке PCT/CA2012/001011, зарегистрированной 1 ноября 2012 автора Vaillancourt и др. (в дальнейшем упоминаемой как «Vaillancourt '011»), раскрытия которых включены в настоящий документ посредством ссылки. Для целей данного раскрытия этот классификатор первого этапа анализирует кадр и обособленно устанавливает НЕАКТИВНЫЕ кадры и НЕВОКАЛИЗИРОВАННЫЕ кадры, например кадры, соответствующие активной НЕВОКАЛИЗИРОВАННОЙ речи. Все кадры, которые не категоризируются как НЕАКТИВНЫЕ кадры или как НЕВОКАЛИЗИРОВАННЫЕ кадры на первого этапа, анализируются с помощью классификатора второго этапа. Классификатор второго этапа решает, применять ли постобработку, и в какой степени. Когда постобработка не применяется, обновляется только память, относящаяся к постобработке.
[0017] Для всех кадров, которые не категоризированы классификатором первого этапа как НЕАКТИВНЫЕ кадры или как кадры с активной НЕВОКАЛИЗИРОВАННОЙ речью, формируется вектор с использованием прошлого декодированного возбуждения, декодированного возбуждения текущего кадра и экстраполяции будущего возбуждения. Длина прошлого декодированного возбуждения и экстраполируемого возбуждения является одинаковой и зависит от желаемого разрешения частотного преобразования. В этом примере длина используемого частотного преобразования составляет 640 отсчетов. Создание вектора с использованием прошлого и экстраполируемого возбуждения позволяет увеличить частотное разрешение. В представленном примере длина прошлого и экстраполируемого возбуждения является одинаковой, но для эффективной работы постфильтра не обязательно требуется симметрия окна.
[0018] Энергетическая устойчивость частотного представления объединенного возбуждения (включающего прошлое декодированное возбуждение, декодированное возбуждение текущего кадра и экстраполяцию будущего возбуждения) затем анализируется с помощью классификатора второго этапа для того, чтобы определить вероятность присутствия музыки. В этом примере определение присутствия музыки выполняется в ходе двухэтапного процесса. Однако обнаружение музыки может быть выполнено различными путями, например, оно может быть выполнено в единственной операции, предшествующей частотному преобразованию, или даже определено в кодере и передано в потоке битов.
[0019] Межгармонический шум квантования уменьшается так же, как и в публикации Vaillancourt'050, путем оценки соотношения сигнал/шум (SNR) для каждого элемента разрешения по частоте и применения усиления к каждому элементу разрешения по частоте в зависимости от значения его SNR. В настоящем изобретении, однако, оценка энергии шумов выполняется не так, как описано в публикации Vaillancourt'050.
[0020] Затем используется дополнительная обработка, которая восстанавливает информацию, потерянную в шуме кодирования, и дополнительно увеличивает динамику спектра. Этот процесс начинается с нормализации энергетического спектра диапазоном от 0 до 1. Затем постоянное смещение прибавляется к нормализованному энергетическому спектру. Наконец, степень 8 применяется к каждому элементу разрешения по частоте модифицированного энергетического спектра. Получаемый масштабированный энергетический спектр обрабатывается усредняющей функцией вдоль частотной оси, от низких частот до высоких частот. Наконец, долговременное сглаживание спектра во времени выполняется элемент за элементом разрешения.
[0021] Эта вторая часть обработки приводит к маске, в которой пики соответствуют важной информации о спектре, а впадины соответствуют кодирующему шуму. Эта маска затем используется для того, чтобы отфильтровать шум и увеличить динамику спектра путем небольшого увеличения амплитуды элементов разрешения спектра в пиковых областях, ослабляя амплитуду элементов разрешения во впадинах, и, следовательно, увеличивая отношение пиков ко впадинам. Эти две операции выполняются с использованием высокого частотного разрешения, но без добавления задержки к синтезу выхода.
[0022] После того как частотное представление объединенного вектора возбуждения улучшено (его шум уменьшен, а его динамика спектра увеличена), выполняется обратное частотное преобразование, для того, чтобы создать улучшенную версию объединенного возбуждения. В настоящем изобретении часть окна преобразования, соответствующая текущему кадру, является по существу плоской, и только те части окна, которые применяются к прошлому и экстраполируемому сигналу возбуждения, нуждаются в сужении. Это делает возможным уничтожение повышенного возбуждения в текущем кадре после обратного преобразования. Эта последняя манипуляция аналогична умножению повышенного возбуждения во временной области на прямоугольное окно в положении текущего кадра. В то время как эта операция не может быть выполнена в области синтеза без добавления важных блочных артефактов, это может быть альтернативно сделано в области возбуждения, потому что фильтр синтеза LP помогает сглаживать переходы от одного блока к другому, как показано в публикации Vaillancourt'011.
Описание иллюстративного варианта осуществления AMR-WB
[0023] Описанная здесь постобработка применяется к декодированному возбуждению фильтра синтеза LP для таких сигналов, как музыка или реверберирующая речь. Решение о природе сигнала (речь, музыка, реверберирующая речь и т.п.) и решение о применении постобработки могут быть сообщены кодером, который посылает декодеру информацию о классификации как часть потока битов AMR-WB. Если это не так, то классификация сигнала альтернативно может быть сделана на стороне декодера. В зависимости от компромисса между сложностью и надежностью классификации фильтр синтеза может опционально быть применен к текущему возбуждению для того, чтобы получить временный синтез и более хороший анализ классификации. В этой конфигурации синтез перезаписывается, если классификация приводит к категории, в которой применяется постфильтрация. Для того чтобы минимизировать добавленную сложность, классификация может также быть выполнена на синтезе прошлого кадра, и фильтр синтеза тогда применяется однократно после постобработки.
[0024] Обращаясь теперь к чертежам, Фиг. 1 представляет собой блок-схему, показывающую операции способа для уменьшения шума квантования в сигнале, содержащемся в возбуждении во временной области, декодированном декодером временной области, в соответствии с одним вариантом осуществления. На Фиг. 1 последовательность 10 включает в себя множество операций, которые могут выполняться в переменном порядке, некоторые из этих операций могут выполняться параллельно, и некоторые из этих операций могут быть опциональными. В операции 12 декодер временной области, получает и декодирует поток битов, сформированный кодером, включающий в себя информацию о возбуждении во временной области в форме параметров, которые можно использовать для того, чтобы реконструировать возбуждение во временной области. Для этого декодер временной области, может получать поток битов через интерфейс входа или считывать поток битов из памяти. Декодер временной области, преобразовывает декодированное возбуждение во временной области в возбуждение в частотной области в операции 16. Прежде, чем преобразовать сигнал возбуждения из временной области в частотную область в операции 16, будущее возбуждение во временной области может быть экстраполировано в операции 14 так, чтобы преобразование возбуждения во временной области в возбуждение в частотной области можно было сделать без задержки. Таким образом, выполняется лучший частотный анализ без потребности в дополнительной задержке. С этой целью прошлый, текущий и предсказанный будущий сигнал возбуждения во временной области могут быть объединены перед преобразованием в частотную область. Декодер временной области формирует затем весовую маску для того, чтобы восстановить спектральную информацию, потерянную в шуме квантования, в операции 18. В операции 20 декодер временной области, модифицирует возбуждение в частотной области для того, чтобы увеличить динамику спектра путем применения весовой маски. В операции 22 декодер временной области, преобразовывает модифицированное возбуждение в частотной области в модифицированное возбуждение во временной области. Декодер временной области, может затем выполнить синтез модифицированного возбуждения во временной области в операции 24 и сгенерировать звуковой сигнал из одного из синтеза декодированного возбуждения во временной области и синтеза модифицированного возбуждения во временной области в операции 26.
[0025] Способ, проиллюстрированный на Фиг. 1, может быть адаптирован с использованием нескольких дополнительных особенностей. Например, синтез декодированного возбуждения во временной области может быть классифицирован на одно из первого набора категорий возбуждения и второго набора категорий возбуждения, в которых второй набор категорий возбуждения включает в себя НЕАКТИВНУЮ или НЕВОКАЛИЗИРОВАННУЮ категории, в то время как первый набор категорий возбуждения включает в себя ДРУГУЮ категорию. Преобразование декодированного возбуждения во временной области в возбуждение в частотной области может быть применено к декодированному возбуждению во временной области, классифицированному как первый набор категорий возбуждения. Восстановленный поток битов может включать в себя информацию о классификации, которая может использоваться для того, чтобы классифицировать синтез декодированного возбуждения во временной области как первый набор или как второй набор категорий возбуждения. Для генерирования звукового сигнала выходной синтез может быть выбран как синтез декодированного возбуждения во временной области, когда возбуждение во временной области классифицируется как второй набор категорий возбуждения, или как синтез модифицированного возбуждения во временной области, когда возбуждение во временной области классифицируется как первый набор категорий возбуждения. Возбуждение в частотной области может быть проанализировано для того, чтобы определить, содержит ли возбуждение в частотной области музыку. В частности, определение того, что возбуждение в частотной области содержит музыку, может основываться на сравнении с некоторым порогом статистической девиации разностей спектральных энергий возбуждения в частотной области. Весовая маска может быть сформирована с использованием усреднения во времени, или частотного усреднения, или их комбинации. Величина отношения сигнал/шум может быть оценена для выбранного диапазона декодированного возбуждения во временной области, и шумоподавление в частотной области может быть выполнено на основе оценки отношения сигнал/шум.
[0026] Фиг. 2a и 2b, совместно упоминаемые как Фиг. 2, представляют собой упрощенную принципиальную схему декодера, имеющего возможности постобработки в частотной области для уменьшения шума квантования в музыкальных сигналах и других звуковых сигналах. Декодер 100 включает в себя несколько элементов, проиллюстрированных на Фиг. 2a и 2b, эти элементы соединены, как показано стрелками, некоторые из взаимосвязей проиллюстрированы с использованием соединителей A, B, C, D и E, которые показывают, как некоторые элементы, изображенные на Фиг. 2a, соединяются с другими элементами, изображенными на Фиг. 2b. Декодер 100 включает в себя приемник 102, который получает поток битов AMR-WB от кодера, например через интерфейс радиосвязи. Альтернативно декодер 100 может быть оперативно соединен с памятью (не показана), хранящей поток битов. Демультиплексор 103 извлекает из потока битов параметры возбуждения во временной области для того, чтобы реконструировать возбуждение во временной области, информацию о задержке высоты тона и информацию об определении присутствия голосового сигнала (VAD). Декодер 100 включает в себя декодер 104 возбуждения во временной области, получающий параметры возбуждения во временной области для того, чтобы декодировать возбуждение во временной области существующего кадра, буферную память 106 прошлого возбуждения, два (2) фильтра 108 и 110 синтеза LP, классификатор 112 сигнала первого этапа, включающий в себя блок 114 оценки классификации сигнала, который получает сигнал VAD и контрольную точку 116 выбора класса, блок 118 экстраполяции возбуждения, который получает информацию о задержке высоты тона, блок 120 объединения возбуждения, модуль 122 кадрирования и частотного преобразования, анализатор энергетической устойчивости как классификатор 124 сигнала второго этапа, блок 126 оценки уровня шума в диапазоне, блок 128 уменьшения шума, блок 130 формирования маски, включающий в себя блок 131 нормализации спектральной энергии, блок 132 усреднения энергии и блок 134 сглаживания энергии, блок 136 модификации динамики спектра, блок 138 преобразования из частотной области во временную область, блок 140 извлечения возбуждения кадра, блок 142 перезаписи, включающий в себя контрольную точку 144 принятия решения, управляющую переключателем 146, и фильтр устранения предыскажений и передискретизатор 148. Решение о перезаписи, принимаемое контрольной точкой 144 принятия решения, основывается на НЕАКТИВНОЙ или НЕВОКАЛИЗИРОВАННОЙ классификации, получаемой из классификатора 112 сигнала первого этапа, и на категории звукового сигнала eCAT, получаемой из классификатора 124 сигнала второго этапа, независимо от того, подается ли к фильтру устранения предыскажений и передискретизатору 148 сигнал 150 основного синтеза от фильтра 108 синтеза LP, или модифицированный, то есть улучшенный сигнал 152 синтеза от фильтра 110 синтеза LP. Выход фильтра устранения предыскажений и передискретизатора 148 подается к цифро-аналоговому (D/A) преобразователю 154, который обеспечивает аналоговый сигнал, усиленный усилителем 156 и подаваемый далее к громкоговорителю 158, который генерирует слышимый звуковой сигнал. Альтернативно выход фильтра устранения предыскажений и передискретизатора 148 может быть передан в цифровом формате по коммуникационному интерфейсу (не показан) или сохранен в цифровом формате в памяти (не показана), на компакт-диске или на любом другом носителе цифрового накопителя. В качестве другой альтернативы, выход цифроаналогового преобразователя 154 может быть подан в наушники (не показаны), непосредственно или через усилитель. В качестве еще одной альтернативы, выход цифроаналогового преобразователя 154 может быть записан на аналоговом носителе (не показан) или передан через коммуникационный интерфейс (не показан) как аналоговый сигнал.
[0027] Следующие параграфы описывают подробности операций, выполняемых различными компонентами декодера 100, изображенного на Фиг. 2.
1) Классификация первого этапа
[0028] В иллюстративном варианте осуществления классификация первого этапа выполняется в декодере в классификаторе 112 первого этапа в ответ на параметры определения присутствия голосового сигнала VAD от демультиплексора 103. Классификация первого этапа декодера аналогична тому, что описано в публикации Vaillancourt'011. Следующие параметры используются для классификации в блоке 114 оценки классификации сигнала декодера: нормализованная корреляция rx, мера спектрального наклона et счетчика устойчивости высоты тона pc, относительная энергия кадра сигнала в конце текущего кадра Es, а также счетчик нулевых пересечений zc. Вычисление этих параметров, которые используются для классификации сигнала, объясняется ниже.
[0029] Нормализованная корреляция rx вычисляется в конце кадра на основе сигнала синтеза. Используется задержка высоты тона последнего подкадра.
[0030] Нормализованная корреляция rx вычисляется одновременно с высотой тона как
[0031] где T является задержкой высоты тона последнего подкадра, t=L-T, и L является размером кадра. Если задержка высоты тона последнего подкадра больше, чем 3N/2 (где N - размер подкадра), T устанавливается равным средней задержке высоты тона последних двух подкадров.
[0032] Корреляция rx вычисляется с использованием сигнала синтеза x(i). Для задержки высоты тона ниже, чем размер подкадра (64 отсчета) нормализованная корреляция вычисляется дважды в моменты времени t=L-T и t=L-2T, а rx задается как среднее значение этих двух вычислений.
[0033] Параметр спектрального наклона et содержит информацию о частотном распределении энергии. В существующем иллюстративном варианте осуществления спектральный наклон в декодере оценивается как первый нормализованный коэффициент автокорреляции сигнала синтеза. Он вычисляется на основе последних 3 подкадров как
[0034] где x (i) является сигналом синтеза, N является размером подкадра, а L является размером кадра (N=64 и L=256 в этом иллюстративном варианте осуществления).
[0035] Счетчик устойчивости высоты тона оценивает вариацию периода высоты тона. Она вычисляется в декодере следующим образом:
pc = |p3+p2-p1-p0| (3)
[0036] Значения p0, p1, p2 и p3 соответствуют задержке высоты тона в замкнутом цикле от этих 4 подкадров.
[0037] Относительная энергия Es кадра вычисляется как разность между текущей энергией кадра в дБ и его долгосрочным средним значением
[0038] где энергия Ef кадра является энергией сигнала синтеза sout в дБ, вычисляемой синхронно с высотой тона в конце кадра как
[0039] где L=256 является длиной кадра, а T является средней задержкой высоты тона последних двух подкадров. Если значение T меньше, чем размер подкадра, тогда значение T устанавливается равным 2T (энергии, вычисленной с использованием двух периодов высоты тона для коротких задержек высоты тона).
[0040] Долгосрочная усредненная энергия обновляется на активных кадрах с использованием следующего соотношения:
[0041] Последний параметр является параметром zc нулевых пересечений, вычисленным на одном кадре сигнала синтеза. В этом иллюстративном варианте осуществления счетчик нулевых пересечений zc подсчитывает количество раз, которое знак сигнала меняется с положительного на отрицательный во время этого интервала.
[0042] Для того, чтобы сделать классификацию первого этапа более надежной, параметры классификации рассматриваются вместе, формируя функцию выгоды fm. С этой целью параметры классификации сначала масштабируются с использованием линейной функции. Рассмотрим параметр px, масштабированная версия которого получается с использованием формулы
[0043] Масштабированный параметр устойчивости высоты тона обрезается между 0 и 1. Коэффициенты функции kp и cp были найдены экспериментально для каждого из параметров. Значения, используемые в этом иллюстративном варианте осуществления, приведены в Таблице 1.
Таблица 1 Параметры классификации сигнала первого этапа в декодере и коэффициенты их соответствующих масштабирующих функций | |||
Параметр | Значение | kp | Op |
rx | Нормализованная корреляция | 0,8547 | 0,2479 |
et | Спектральный наклон | 0,8333 | 0,2917 |
pc | Счетчик устойчивости высот тона | -0,0357 | 1,6074 |
Es | Относительная энергия кадра | 0,04 | 0,56 |
zc | Счетчик нулевых пересечений | -0,04 | 2,52 |
[0044] Функция выгоды была определена как
[0045] где верхний индекс s указывает масштабированную версию параметров.
[0046] Классификация затем выполняется (контрольная точка 116 выбора класса) с использованием функции fm выгоды, следуя правилам, приведенным в Таблице 2.
Таблица 2Правила классификации сигнала в декодере | ||
Класс предыдущего кадра | Правило | Класс текущего кадра |
ДРУГОЙ | fm ≥ 0,39 | ДРУГОЙ |
fm < 0,39 | НЕВОКАЛИЗИРОВАННЫЙ | |
НЕВОКАЛИЗИРОВАННЫЙ | fm > 0,45 | ДРУГОЙ |
fm ≤ 0,45 | НЕВОКАЛИЗИРОВАННЫЙ | |
VAD = 0 | НЕАКТИВНЫЙ |
[0047] В дополнение к этой классификации первого этапа, информация об определении присутствия голосового сигнала (VAD) кодером может быть передана в потоке битов, как это имеет место в случае иллюстративного примера на основе AMR-WB. Таким образом, один бит посылается в потоке битов для того, чтобы определить, рассматривает ли кодер текущий кадр как активный контент (VAD = 1) или НЕАКТИВНЫЙ контент (фоновый шум, VAD = 0). Когда контент рассматривается как НЕАКТИВНЫЙ, тогда классификация перезаписывается как НЕВОКАЛИЗИРОВАННЫЙ. Схема классификации первого этапа также включает в себя обнаружение ОБЩЕГО ЗВУКА. Категория ОБЩИЙ ЗВУК включает в себя музыку, реверберирующую речь и может также включать фоновую музыку. Для того, чтобы идентифицировать эту категорию, используются два параметра. Одним из этих параметров является общая энергия Ef кадра, выражаемая уравнением (5).
[0048] Сначала модуль определяет разность энергий ΔtE двух смежных кадров, в частности разность между энергией текущего кадра Etf и энергией предыдущего кадра. Затем вычисляется средняя разность энергий Edf по прошлым 40 кадрам, используя следующее соотношение:
где:
[0049] Затем модуль определяет статистическую девиацию вариации энергии aE для последних пятнадцати (15) кадров, используя следующее соотношение:
[0050] При практической реализации иллюстративного варианта осуществления масштабный коэффициент p был найден экспериментально и установлен равным приблизительно 0,77. Получаемая девиация aE указывает на энергетическую устойчивость декодированного синтеза. Как правило, музыка имеет более высокую энергетическую устойчивость, чем речь.
[0051] Результат классификации первого этапа далее используется для того, чтобы подсчитать количество кадров Nuv между двумя кадрами, классифицированными как НЕВОКАЛИЗИРОВАННЫЕ. При практической реализации подсчитываются только кадры с энергией Ef выше чем -12 дБ. Обычно счетчик Nuv инициализируется нулем, когда кадр классифицируется как НЕВОКАЛИЗИРОВАННЫЙ. Однако, когда кадр классифицируется как НЕВОКАЛИЗИРОВАННЫЙ, и его энергия Ef больше, чем -9 дБ, и долгосрочная средняя энергия Elt ниже 40 дБ, тогда счетчик инициализируется значением 16 для того, чтобы придать небольшое смещение в сторону музыкального решения. В противном случае, если кадр классифицируется как НЕВОКАЛИЗИРОВАННЫЙ, но долгосрочная средняя энергия Elt выше 40 дБ, счетчик уменьшается на 8 для того, чтобы обеспечить схождение к речевому решению. При практической реализации счетчик ограничивается диапазоном от 0 до 300 для активного сигнала; счетчик также ограничивается диапазоном от 0 до 125 для НЕАКТИВНОГО сигнала для того, чтобы получить быструю сходимость к речевому решению, когда следующий активный сигнал является речевым. Эти диапазоны не являются ограничивающими, и другие амплитуды также могут быть рассмотрены в конкретной реализации. Для этого иллюстративного примера решение между активным и НЕАКТИВНЫМ сигналом выводится из решения о речевой активности (VAD), включенного в поток битов.
[0052] Долгосрочное среднее число Nuv выводится из этого счетчика НЕВОКАЛИЗИРОВАННЫХ кадров для активного сигнала следующим образом: Nuv lt = 0,9⋅Nuv lt + 0,1 ⋅ Nuv
[0053] и для НЕАКТИВНОГО сигнала следующим образом:
[0054] где t является индексом кадра. Следующий псевдокод иллюстрирует функциональность счетчика НЕВОКАЛИЗИРОВАННЫХ кадров и его долгосрочное среднее значение:
[0055] Кроме того, когда долгосрочное среднее значение Nuv является очень высоким и девиация σE также является высокой в некотором кадре (Nuv > 140 и σE > 5 в текущем примере), что означает, что текущий сигнал навряд ли будет музыкой, долгосрочное среднее значение обновляется в этом кадре по-другому. Обновление осуществляется так, чтобы оно сходилось к значению 100 и смещало решение в сторону речи. Это делается, как показано ниже:
[0056] Этот параметр на долгосрочном среднем значении ряда кадров, находящихся между кадрами, классифицированными как НЕВОКАЛИЗИРОВАННЫЕ, используется для определения того, должен ли этот кадр рассматриваться как ОБЩИЙ ЗВУК или нет. Чем ближе друг к другу по времени НЕВОКАЛИЗИРОВАННЫЕ кадры, тем более вероятно, что сигнал имеет речевую характеристику (менее вероятно, что он является ОБЩИМ ЗВУКОВЫМ сигналом). В иллюстративном примере порог для принятия решения о том, что кадр следует рассматривать как ОБЩИЙ ЗВУК GA, определяется следующим образом:
Кадр является ОБЩИМ ЗВУКОМ GA, если: Nuv > 100 и ΔtE < 12 (14)
[0057] Параметр ΔtE, определенный в уравнении (9), используется в условии (14) для того, чтобы избежать классификации большой энергетической вариации в качестве ОБЩЕГО ЗВУКА.
[0058] Постобработка, выполняемая на возбуждении, зависит от классификации сигнала. Для некоторых типов сигналов модуль постобработки вообще не используется. Следующая таблица показывает все случаи, в которых выполняется постобработка.
Таблица 3Категории сигнала для модификации возбуждения | |
Классификация кадра | Использовать ли модуль постобработки, да/нет |
ВОКАЛИЗИРОВАННЫЙ | да |
ОБЩИЙ ЗВУК |