Эффективное ослабление опережающего эха в цифровом звуковом сигнале
Иллюстрации
Показать всеИзобретение относится к передаче цифровых звуковых сигналов по телекоммуникационным сетям и предназначено для обработки ослабления опережающего эха при декодировании цифрового звукового сигнала. Технический результат – уменьшение раздражающего воздействия явления опережающего эха. Данный способ включает: разложение декодированного сигнала на, по меньшей мере, два подсигнала в соответствии с предварительно определенным критерием разложения; вычисление коэффициентов ослабления, приходящихся на подсигнал и на дискретное значение из предварительно определенной зоны опережающего эха; ослабление опережающего эха в зоне опережающего эха каждого из подсигналов путем применения коэффициентов ослабления к этим подсигналам; получение подвергнутого ослаблению сигнала путем объединения подвергнутых ослаблению подсигналов. 4 н. и 11 з.п. ф-лы, 13 ил.
Реферат
Изобретение относится к способу и устройству для обработки ослабления опережающего эха при декодировании цифрового звукового сигнала.
В передачу цифровых звуковых сигналов по телекоммуникационным сетям, являющимся, например, стационарными или мобильными сетями, или для хранения этих сигналов, вовлечены процессы сжатия (или кодирования источника), реализующие системы кодирования, обычно являющиеся системами временного кодирования, относящиеся к типу линейного предсказания, или частотного кодирования, относящиеся к типу преобразования.
Способ и устройство - предметы изобретения - таким образом, находятся в пределах сжатия звуковых сигналов, в частности, цифровых звуковых сигналов, кодируемых посредством преобразования частот.
Фигура 1 представляет в качестве иллюстрации принципиальную схему кодирования и декодирования цифрового звукового сигнала посредством преобразования, включающую анализ/синтез путем перекрытия/сложения в соответствии с предшествующим уровнем техники.
Некоторые музыкальные последовательности, такие, как ударные инструменты, и некоторые сегменты речи, такие, как взрывные согласные звуки (/k/, /t/ и т.д.) отличаются чрезвычайно резкой атакой, что отражается в очень быстрых переходах и очень сильным изменением динамического диапазона сигнала в интервале нескольких дискретных значений. Пример перехода дан на фигуре 1, начиная от дискретного значения 410.
Для обработки кодирования/декодирования входной сигнал подразделяют на несколько блоков дискретных значений длиной L, границы которого представлены на фигуре 1 вертикальными пунктирными линиями. Входной сигнал обозначен как х(n), где n - индекс дискретного значения. Разбиение на последовательные блоки (или кадры) в результате приводит к определению блоков XN(n)=[x(N.L)…x(N.L+L-1)]=[xN(0)…xN(L-1)], где N - индекс блока (или кадра), L - длина кадра. На фигуре 1 L=160 дискретных значений. В случае модифицированного дискретного косинусного преобразования MDCT, совместно анализируют два блока XN(n) и XN+1(n), что дает блок преобразованных коэффициентов, связанных с кадром с индексом N, а анализирующее окно является синусоидальным.
Деление на блоки, также называемые кадрами, применяемое при кодировании с преобразованием, полностью независимо от звукового сигнала и переходов, которые поэтому могут возникать в любой из точек анализирующего окна. Тогда после декодирования с преобразованием реконструированный сигнал подвергается воздействию «шума» (или искажения), вызванного операцией квантования (Q)/обратного квантования (Q-1). Этот шум кодирования распределен во времени относительно равномерным образом по всей временной среде преобразованного блока, то есть по всей длине окна длиной 2L дискретных значений (с перекрытием в L дискретных значений). Энергия шума кодирования обычно пропорциональна энергии блока и является функцией битовой скорости кодирования/декодирования.
Для блока, содержащего атаку (такого, как блок 320-480 по фигуре 1), энергия сигнала является высокой, и шум поэтому также имеет высокий уровень.
При кодировании с преобразованием уровень шума кодирования, как правило, ниже такового у сигнала для сегментов с высокой энергией, следующих непосредственно за переходом, но этот уровень выше такового у сигнала для сегментов с менее высокой энергией, в особенности, в части, предшествующей переходу (дискретные значения 160-410 по фигуре 1). Для вышеупомянутой части отношение сигнал/шум является отрицательным и результирующее снижение качества может показаться чрезвычайно раздражающим при прослушивании. Опережающее эхо представляет собой наименование, данное шуму кодирования перед переходом, а запаздывающее эхо представляет собой наименование, данное шуму, следующему за переходом.
Как видно на фигуре 1, опережающее эхо оказывает влияние на кадр, предшествующий переходу, а также на кадр, в котором происходит переход.
Психоакустические эксперименты показали, что человеческое ухо выполняет предварительное временное маскирование звуков, являющихся достаточно ограниченными, порядка нескольких миллисекунд. Шум, предшествующий атаке, или опережающее эхо, слышен тогда, когда длительность опережающего эха больше длительности предварительного маскирования.
Человеческое ухо также выполняет последующее маскирование с большей длительностью, от 5 миллисекунд до 60 миллисекунд, при переходе от последовательностей с высокой энергией к последовательностям с низкой энергией. Поэтому величина, или уровень, неудобства, допустимая для запаздывающего эха, является более высокой, чем для опережающего эха.
Более критично, явление опережающего эха становится тем более раздражающим, когда значимой является длина блоков в выражении количества дискретных значений. Так, хорошо известно, что при кодировании с преобразованием для стационарных сигналов, чем больше увеличивается длина преобразования, тем больше становится эффективность кодирования. При фиксированной частоте дискретизации и при фиксированной битовой скорости передачи данных, если увеличивается количество точек окна (то есть длина преобразования), то будет больше битов, приходящихся на кадр, для кодирования частотных лучей, считающихся психоакустической моделью полезными, и отсюда преимущество использования блоков большой длины. Кодирование MPEG ААС (Перспективное звуковое кодирование), например, использует окно большой длины, содержащее фиксированное количество дискретных значений, 2048, т.е. 64 мс по длительности, если частота дискретизации составляет 32 кГц; здесь проблемой опережающего эха управляют, делая возможным переключение от этих длинных окон к 8 коротких окон через промежуточные окна (называемые переходными окнами), что требует некоторой задержки при кодировании для обнаружения присутствия перехода и адаптации окон. Длина этих коротких окон поэтому составляет 256 дискретных значений (8 мс при 32 кГц). При низкой битовой скорости передачи данных по-прежнему можно получить слышное опережающее эхо в несколько мс. Переключение окон делает возможным ослабление опережающего эха, но не его устранение. Кодеры с преобразованием для разговорных приложений, такие, как ITU-T G.722.1, G.722.1C или G.719, часто используют длину кадра 20 мс и окно с длительностью 40 мс при 16, 32 или 48 кГц (соответственно). Можно отметить, что кодер ITU-T G.719 содержит механизм переключения окон с обнаружением переходных процессов, однако при низкой битовой скорости передачи данных (как правило, 32 кбит/с) опережающее эхо уменьшается не полностью.
Для того чтобы уменьшить вышеупомянутое раздражающее воздействие явления опережающего эха, были предложены различные решения на уровне кодера и/или декодера.
Уже было упомянуто переключение окон; оно влечет за собой передачу вспомогательной информации для идентификации типа окон, используемых в текущем кадре. Другое решение состоит в применении адаптивной фильтрации. В зоне, предшествующей атаке, реконструируемый сигнал рассматривают как сумму исходного сигнала и шума квантования.
Соответствующая методика фильтрации была описана в статье, озаглавленной «High Quality Audio Transform Coding at 64 kbits», IEEE Trans, on Communications, T. 42, №11, ноябрь 1994 г., опубликованной Y. Mahieux и J.P. Petit.
Реализация такой фильтрации влечет за собой знание параметров, некоторые из которых, такие, как коэффициенты предсказания и дисперсия сигнала, искаженного опережающим эхом, оцениваются в декодере исходя из дискретных значений, содержащих шум. В отличие от этого, такая информация, как энергия исходного сигнала может быть известна только кодеру и, следовательно, должна передаваться. Это влечет за собой передачу дополнительной информации, что, при условии ограниченной битовой скорости передачи данных, уменьшает относительный ресурс, выделенный кодированию с преобразованием. Если принятый блок содержит резкое изменение динамического диапазона, к нему применяется обработка фильтрации.
Вышеупомянутый процесс фильтрации не делает возможным отыскание исходного сигнала, но обеспечивает сильное уменьшение опережающего эха. Однако это влечет за собой передачу декодеру дополнительных параметров.
В отличие от предыдущих решений, были предложены методики уменьшения опережающего эха без специальной передачи информации. Например, в статье В. , S. Ragot, М. Gartner, Н. Taddei, «Рrе-echo reduction in the ITU-T G.729.1 embedded coder», EUSIPCO, Лозанна, Швейцария, август 2008 г., представлен обзор уменьшения опережающего эха в контексте иерархического кодирования.
Типичный пример способа ослабления опережающего эха в отсутствие вспомогательной информации описан в заявке на патент Франции №08 56248. В этом примере коэффициенты ослабления определяют для подблока в подблоках с низкой энергией, предшествующих подблоку, в котором обнаружен переход или атака.
Коэффициент ослабления g(k) в k-м подблоке вычисляют, например, как функцию отношения между энергией подблока с самой сильной энергией и энергией рассматриваемого k-го подблока.
где - убывающая функция со значениями от 0 до 1, и k - номер подблока. Возможны и другие функции коэффициента g(k) например, такие, как функция энергии En(k) в текущем подблоке и энергии En(k-1) в предыдущем подблоке.
Если в подблоках, рассматриваемых в текущем кадре, энергия подблоков мало изменяется относительно максимальной энергии, то ослабление не является необходимым; коэффициенту g(k) присваивают значение коэффициента ослабления, запрещающее ослабление, то есть 1. Иначе коэффициент ослабления лежит между 0 и 1.
В большинстве случаев, прежде всего, когда опережающее эхо является раздражающим, кадр, предшествующий кадру с опережающим эхом, имеет равномерную энергию в сегменте с низкой энергией (как правило, фоновый шум). Исходя из опыта, ни полезным, ни даже желательным для энергии сигнала после обработки ослабления опережающего эха не является ее становление менее высокой, чем средняя энергия (приходящаяся на подблок) сигнала, предшествующего зоне обработки - как правило, чем таковая для предыдущего кадра, обозначаемая или таковая для второй половины предыдущего кадра, обозначаемая
Для подблока с индексом к, подлежащего обработке, можно вычислить предельное значение коэффициента ослабления, обозначаемое limg(k) для того, чтобы получить в точности такую же энергию, как средняя энергия, приходящаяся на подблок из сегмента, предшествующего подблоку, подлежащему обработке. Это значение, разумеется, ограничено, максимумом, равным 1, поскольку оно представляет значения ослабления, представляющие здесь интерес. Конкретнее, здесь определено следующее:
где средняя энергия предыдущего сегмента аппроксимирована значением
Полученное таким образом значение limg(k) служит нижним пределом при окончательном вычислении коэффициента ослабления для подблока, и поэтому его используют следующим образом:g(k)=max(g(k),lomg(k))
Коэффициенты ослабления (или коэффициенты передачи) g(k) определенные для подблоков, можно затем сгладить посредством сглаживающей функции, применяемой для дискретных значений одно за другим во избежание резких изменений коэффициента ослабления на границах блоков.
Например, можно сначала определить коэффициент передачи для дискретного значения как кусочно-постоянную функцию:
gpre(n)=g(k), n=kL', …, (k+1)L'-1,
где L' представляет длину подблока.
Эту функцию затем сглаживают в соответствии со следующим уравнением:
gpre(n):=αgpre(n-1)+(1-α)gpre(n), n=0, …, L-1
где условие gpre(-1) - это последний коэффициент передачи, полученный для последнего дискретного значения предыдущего подблока, α - коэффициент сглаживания, как правило, α=0,85.
Также возможны и другие сглаживающие функции, такие, как, например, линейный плавный переход по u дискретных значений:
где - несглаженное ослабление, и gpre(n) - сглаженное ослабление, при n=-(u-1), …, -1 - это последние u-1 коэффициентов ослабления, полученные для последних дискретных значений предыдущего подблока. Можно, например, принять u=5.
Когда коэффициенты gpre(n) вычислены таким образом, ослабление опережающего эха на сигнале, реконструируемом в текущем кадре, xrec(n), осуществляют путем умножения каждого дискретного значения на соответствующий коэффициент:
Xrec,g(n)=gpre(n)xrec(n) n=0, …, L-1
где xrec,g(n) - сигнал, декодируемый и подвергаемый постобработке посредством уменьшения опережающего эха.
Фигуры 2 и 3 иллюстрируют реализацию способа ослабления так, как это описано в вышеупомянутой и ранее подытоженной патентной заявке на предшествующем уровне техники.
В этих примерах сигнал дискретизирован при 32 кГц, длина кадра L=640 дискретных значений, и каждый кадр разделен на 8 подблоков по К=80 дискретных значений.
В части а) фигуры 2 представлен кадр исходного сигнала, дискретизированный при 32 кГц. Атака (или переход) в сигнале расположен в подблоке, начинающемся под индексом 320. Этот сигнал был закодирован кодером с преобразованием MDCT типа с низкой битовой скоростью передачи данных (24 кбит/с).
В части b) фигуры 2 проиллюстрирован результат декодирования без обработки опережающего эха. Опережающее эхо можно наблюдать, начиная от дискретного значения 160 в подблоках, предшествующих подблоку, содержащему атаку.
Часть с) показывает тенденцию коэффициента ослабления опережающего эха (непрерывная линия), полученную по способу, описанному в вышеупомянутой патентной заявке на предшествующем уровне техники. Пунктирная линия представляет этот коэффициент перед сглаживанием. Следует отметить, что положение атаки оценено около дискретного значения 380 (в блоке, ограниченном дискретными значениями 320 и 400).
Часть d) иллюстрирует результат декодирования после применения обработки опережающего эха (умножения сигнала b) на сигнал с)). Как видно, на самом деле, опережающее эхо не было ослаблено. Фигура 2 также показывает, что сглаженный коэффициент не возвращается к 1 в момент атаки, что предполагает уменьшение амплитуды атаки. Воспринимаемое воздействие этого уменьшения является очень небольшим, но его, тем не менее, можно избежать. Фигура 3 иллюстрирует тот же пример, что и фигура 2, в котором перед сглаживанием коэффициент ослабления был принудительно приравнен 1 для нескольких дискретных значений подблока, предшествующего подблоку, в котором расположена атака. Часть с) фигуры 3 приводит один из примеров такой коррекции.
В этом примере значение коэффициента 1 было задано для последних 16 дискретных значений подблока, предшествующего атаке, начиная с индекса 364. Таким образом, функция сглаживания постепенно увеличивает коэффициент так, чтобы он имел значение 1 в момент атаки. Тогда амплитуда атаки сохраняется, что проиллюстрировано в части d) по фигуре 3, однако несколько дискретных значений опережающего эха не ослабляются.
В примере по фигуре 3 уменьшение опережающего эха посредством ослабления не делает возможным уменьшение опережающего эха до уровня атаки по причине сглаживания коэффициента передачи.
Другой пример с теми же установками, что и на фигуре 3, проиллюстрирован на фигуре 4. Эта фигура представляет два кадра для того, чтобы лучше показать сущность сигнала перед атакой. Здесь энергия исходного сигнала перед атакой является более сильной (часть а)), чем в случае, иллюстрируемом фигурой 3, а сигнал перед атакой является слышным (дискретные значения 0-850). В части b), в зоне 700-850 можно наблюдать опережающее эхо на сигнале, декодированном без обработки опережающего эха. В соответствии с разъясненной выше процедурой ограничения ослабления, энергия сигнала в зоне опережающего эха ослабляется до средней энергии сигнала, предшествующего зоне обработки. В части с) видно, что коэффициент ослабления, вычисленный с учетом ограничения энергии, близок к 1, и что в части d) после применения умножения на обработку опережающего эха (умножения сигнала b) на сигнал с)) опережающее эхо по-прежнему присутствует, несмотря на надлежащую регулировку уровня сигнала в зоне опережающего эха. Это опережающее эхо, фактически, можно четко различить на форме сигнала, где видно, что на сигнал в этой зоне наложена высокочастотная составляющая.
Высокочастотная составляющая является четко слышной и раздражающей, а атака является менее четкой (часть d) фигуры 4).
Объяснение этого явления таково: в случае очень резкой, импульсивной атаки (такой, как показанная на фигуре 4), спектр сигнала (в кадре, содержащем эту атаку), является более белым и поэтому также содержит много высоких частот. Поэтому шум квантования также является рассеянным, относительно плоским по частотам (белым) и состоящим из высоких частот, что не так в случае сигнала, предшествующего зоне опережающего эха. Поэтому происходит резкое изменение в спектре при переходе от одного кадра к другому, что в результате приводит к слышному опережающему эху, несмотря на то, что энергия была задана на надлежащем уровне.
Это явление еще раз представлено на фигурах 5а и 5b, которые, соответственно, показывают спектрограммы исходного сигнала на фигуре 5а, соответствующего сигналу, представленному в части а) фигуры 4, и спектрограмму сигнала с ослаблением опережающего эха в соответствии с предшествующим уровнем техники на фигуре 5b, соответствующей сигналу, представленному в части d) фигуры 4.
В заключенной в рамку части на фигуре 5b четко видно по-прежнему слышное опережающее эхо.
Поэтому существует потребность в усовершенствованной методике ослабления опережающего эха при декодировании, делающей возможным ослабление нежелательных высоких частот и, в более общем смысле, паразитного опережающего эха точно, универсально и в отсутствие какой-либо вспомогательной информации, передаваемой кодером.
Настоящее изобретение улучшает ситуацию, имеющуюся на предшествующем уровне техники.
С этой целью, настоящее изобретение рассматривает способ обработки ослабления опережающего эха в цифровом звуковом сигнале, декодированном в соответствии с декодированием с преобразованием. Этот способ таков, что он включает следующие этапы:
- разложение декодированного сигнала на, по меньшей мере, два подсигнала в соответствии с предварительно определенным критерием разложения;
- вычисление коэффициентов ослабления, приходящегося на подсигнал и на дискретное значение из предварительно определенной зоны опережающего эха;
- ослабление опережающего эха в зоне опережающего эха каждого из подсигналов путем применения к подсигналам коэффициентов ослабления; и
- получение подвергнутого ослаблению сигнала путем объединения подвергнутых ослаблению подсигналов.
Таким образом, указанный способ делает возможным точное управление ослаблением, подлежащим применению к каждому из подсигналов. Эти подсигналы содержат составляющие, служащие признаками особых характеристик декодированного сигнала в соответствии с выбранным критерием разложения. Таким образом, можно адаптировать величину ослабления, подлежащего применению к этим различным характеристикам. Тогда ослабление опережающего эха в этом декодированном сигнале является более точным и более эффективным.
Различные частные варианты осуществления, упоминаемые ниже в данном документе, можно добавлять в этапы оговоренного выше способа независимо или в сочетании друг с другом.
В первом варианте осуществления предварительно определенным критерием является частотный критерий.
Таким образом, ослабление точно адаптируют к частотным характеристикам декодированного сигнала.
В одном из частных вариантов осуществления разложение декодированного сигнала для получения первого подсигнала выполняют путем первой фильтрации прохождения нижних частот или верхних частот.
Поэтому первый подсигнал содержит низкочастотные составляющие в случае фильтрации прохождения нижних частот или высокочастотные составляющие - в случае фильтрации прохождения верхних частот. Ослабление для этого первого подсигнала адаптируется к его частотным составляющим.
В соответствии с одним из возможных вариантов осуществления, разложение сигнала для дальнейшего получения второго подсигнала выполняют путем второй фильтрации прохождения верхних частот или нижних частот, дополняющей первую фильтрацию.
Поэтому второй подсигнал содержит высокочастотные составляющие в случае дополнительной фильтрации прохождения верхних частот или низкочастотные составляющие - в случае дополнительной фильтрации прохождения нижних частот. Ослабление для этого, второго подсигнала также адаптируется к его частотным составляющим.
В соответствии с другим возможным вариантом осуществления, второй подсигнал получают путем вычитания первого подсигнала из декодированного сигнала с тем, чтобы избежать второй фильтрации для получения второго подсигнала. Это, таким образом, уменьшает сложность этапа разложения в этом способе.
В частности, фильтрация представляет собой фильтрацию с конечной импульсной характеристикой и с нулевой фазой передаточной функции:
c(n)z-1+(1-2с(n))+c(n)z,
где с(n) - коэффициент, лежащий между 0 и 0,25.
Этот тип фильтрации обладает низкой сложностью.
В одной из разновидностей вариантов осуществления разложение декодированного сигнала выполняют путем фильтрации QMF и PQMF для получения подсигналов в подполосах.
Таким образом, получают несколько подсигналов, при этом каждый подсигнал представлен в отличающейся полосе частот. Результирующее ослабление, таким образом, делает возможным учет спектрального распределения опережающего эха. Затем ослабление адаптируют к этим спектральным характеристикам.
Во втором варианте осуществления предварительно определенным критерием является критерий периодичности сигнала.
В этом варианте осуществления ослабление адаптируют к характеристикам периодичности сигнала. Например, первый подсигнал содержит периодичные составляющие синусоидального типа, а второй подсигнал содержит составляющие шума.
В соответствии с одним из возможных вариантов осуществления, зону опережающего эха определяют в соответствии со следующими этапами:
- обнаружение положения атаки в декодированном сигнале перед этапом разложения;
- определение зоны опережающего эха, предшествующей обнаруженному положению атаки, в декодированном сигнале перед этапом разложения или в подсигналах после этапа разложения.
Таким образом, этап обнаружения положения атаки является объединенным для всех подсигналов и, таким образом, делает возможным уменьшение сложности обработки. Этап определения зоны опережающего эха также можно объединять в интересах низкой сложности, или его можно осуществлять в подсигналах для хорошего компромисса между низкой сложностью и адаптацией сигнала.
В соответствии с другим возможным вариантом осуществления, зону опережающего эха определяют в соответствии со следующими этапами:
- обнаружение положения атаки в каждом из подсигналов, полученных после этапа разложения;
- определение зоны опережающего эха, предшествующей положению атаки, обнаруженному в каждом из подсигналов.
Обнаружение положения атаки можно выполнять по-разному в соответствии с подсигналом, к которому его применяют. Это делает возможной наилучшую адаптацию обнаружения в зависимости от подсигнала в ущерб большей сложности обработки.
Для того чтобы дополнительно упростить способ в соответствии с одним из вариантов осуществления изобретения, для, по меньшей мере, одного сигнала вычисление коэффициента ослабления выполняют, используя, по меньшей мере, один параметр из этапа обнаружения положения атаки в декодированном сигнале.
Фактически, это может быть случай подсигнала, содержащего низкочастотные составляющие, которые обычно содержат намного больше энергии, чем высокочастотные составляющие, и тогда энергии, приходящиеся на подблок декодированного сигнала, xrec(n), и подсигнала, главным образом, содержащего низкочастотные составляющие, xrec,ss1(n), будут очень близки. Поэтому для вычисления коэффициента ослабления подсигнала нет необходимости в повторном вычислении энергий подблоков, поскольку для этого сигнала значения энергии, приходящейся на подблок, уже вычислены при обнаружении атак.
В одном из частных вариантов осуществления к, по меньшей мере, одному подсигналу применяют этап сглаживания коэффициента ослабления.
Сглаживание делает возможным избегание резких изменений коэффициента ослабления на границах блоков дискретных значений.
В одном из преимущественных вариантов осуществления коэффициент ослабления принудительно приравнивают 1 для предварительно определенного количества дискретных значений, предшествующих началу атаки.
Таким образом, в момент атаки коэффициент ослабления имеет значение 1, что делает возможным сохранение амплитуды атаки.
Также изобретение относится к устройству для обработки ослабления опережающего эха в цифровом звуковом сигнале, декодированном в декодере с преобразованием. Это устройство таково, что оно содержит:
- модуль для разложения декодированного сигнала на, по меньшей мере, два подсигнала в соответствии с предварительно определенным критерием разложения;
- модуль для вычисления коэффициентов ослабления, приходящихся на подсигнал и на дискретное значение из предварительно определенной зоны опережающего эха;
- модуль для ослабления опережающего эха в зоне опережающего эха для каждого из подсигналов путем применения коэффициентов ослабления к этим подсигналам;
- модуль для получения подвергнутого ослаблению сигнала путем объединения подвергнутых ослаблению подсигналов.
Преимущества этого устройства являются такими же, как описанные для способа обработки ослабления, который оно реализует.
Изобретение нацелено на декодер цифрового звукового сигнала, содержащий вышеописанное устройство.
Изобретение также нацелено на компьютерную программу, содержащую кодированные команды для реализации этапов описанного ранее способа, когда эти команды исполняет процессор.
Наконец, изобретение относится к носителю данных, пригодному для считывания процессором, встроенному или не встроенному в устройство обработки данных, возможно, сменному, хранящему в памяти компьютерную программу, реализующую описанный ранее способ обработки данных.
Другие характерные признаки и преимущества изобретения станут более ясными и очевидными при прочтении нижеследующего описания, данного исключительно в качестве одного из неограничивающих примеров, и со ссылкой на приложенные графические материалы, в которых:
- фигура 1, ранее описанная, иллюстрирует систему кодирования/декодирования с преобразованием в соответствии с предшествующим уровнем техники;
- фигура 2, ранее описанная, иллюстрирует один из примеров цифрового звукового сигнала, для которого выполняют способ ослабления в соответствии с предшествующим уровнем техники;
- фигура 3, ранее описанная, иллюстрирует другой пример цифрового звукового сигнала, для которого выполняют способ ослабления в соответствии с предшествующим уровнем техники;
- фигура 4, ранее описанная, иллюстрирует еще один пример цифрового звукового сигнала, для которого выполняют способ ослабления в соответствии с предшествующим уровнем техники;
- фигуры 5а и 5b иллюстрируют, соответственно, спектрограмму исходного сигнала и спектрограмму сигнала с ослаблением опережающего эха в соответствии с предшествующим уровнем техники (подобные, соответственно, частям а) и d) фигуры 4);
- фигура 6 иллюстрирует устройство для обработки ослабления опережающего эха в декодере цифрового звукового сигнала и этапы, реализуемые посредством способа обработки данных в соответствии с одним из вариантов осуществления изобретения;
- фигура 7а иллюстрирует частотную характеристику фильтра прохождения нижних частот, реализованного в соответствии с одним из вариантов осуществления изобретения на этапе разложения сигнала, для различных значений параметров фильтра;
- фигура 7b иллюстрирует частотную характеристику фильтра прохождения верхних частот, реализованного в соответствии с одним из вариантов осуществления изобретения на этапе разложения сигнала, для различных значений параметров фильтра;
- фигура 8 иллюстрирует один из примеров анализирующих и синтезирующих окон с малой задержкой для кодирования и декодирования с преобразованием, склонных к созданию явления опережающего эха;
- фигура 9 иллюстрирует один из примеров цифрового звукового сигнала, для которого реализуют способ ослабления опережающего эха в соответствии с изобретением;
- фигура 10 иллюстрирует один из примеров разложения цифрового звукового сигнала в соответствии с изобретением для реализации обработки ослабления опережающего эха;
- фигура 11 повторяет сигналы по фигуре 10 путем увеличения на дискретных значениях, близких к зоне атаки;
- фигуры 12а, 12b и 12с иллюстрируют спектрограммы, соответственно, исходного цифрового звукового сигнала, сигнала, декодированного без ослабления опережающего эха, и сигнала, декодированного с обработкой ослабления опережающего эха в соответствии с изобретением;
- фигура 13 иллюстрирует аппаратный пример устройства обработки ослабления в соответствии с изобретением.
Со ссылкой на фигуру 6 описано устройство 600 обработки ослабления. Это устройство 600 обработки ослабления, описываемое ниже в данном документе, включено в декодер, содержащий модуль 610 обратного квантования (Q-1), принимающий сигнал S, модуль 620 обратного преобразования (MDCT-1), модуль 630 реконструкции сигнала посредством перекрытия/сложения (Add/rec), описанный со ссылкой на фигуру 1 и доставляющий реконструированный сигнал xrec(n) в устройство обработки ослабления в соответствии с изобретением. Можно отметить, что здесь принят пример преобразования MDCT, являющегося наиболее заурядным при кодировании речи и звука, однако устройство 600 также применимо к преобразованию любого другого типа (FFT, DCT и т.д.).
На вывод устройства 600 подается обработанный сигнал Sa, в котором было выполнено ослабление опережающего эха.
Устройство 600 реализует способ ослабления опережающего эха в декодированном сигнале xrec(n), который был разложен на подсигналы - это разложение является специфичным для обработки опережающего эха.
В одном из вариантов осуществления изобретения способ обработки ослабления включает этап обнаружения (Е601) в декодированном сигнале xrec(n) атак, способных генерировать опережающее эхо. Можно отметить, что устройство 600 ослабления может быть в равной мере применимо в тех случаях, когда синтезирующее взвешивание с использованием финитной функции MDCT является фиксированным, и тех, в которых синтезирующее взвешивание с использованием финитной функции MDCT является адаптивным.
Таким образом, устройство 600 содержит модуль 601 обнаружения, пригодный для реализации этапа обнаружения (Е601) положения атаки в декодированном звуковом сигнале.
Атака представляет собой быстрый переход и резкое изменение динамического диапазона (или амплитуды) сигнала. Сигнал такого типа можно обозначить более общим термином «переходный процесс». Ниже в данном документе без потери общности для описания также и переходных процессов будут использованным термины «атака» или «переход».
В этом варианте осуществления обнаружение опережающего эха, проиллюстрированного штрихпунктирными стрелками «а», выполняют на декодированном сигнале перед этапом разложения (Е603) на подсигналы в модуле 603, который будет описан позднее.
Каждый текущий кадр, состоящий из L дискретных значений декодированного сигнала xrec(n), делят на K подблоков длиной L', например, где L=640 дискретных значений (20 мс) при 32 кГц, L'=80 дискретных значений (2,5 мс), и K=8. Предпочтительно, размер этих подблоков поэтому является одинаковым, однако изобретение остается действительным и может быть легко обобщено для подблоков, имеющих переменную длину. Это может иметь место, например, тогда, когда длина кадра L не является делимой на количество подблоков К, или если переменной является сама длина кадра.
Для анализирующей части и для синтезирующей части преобразования MDCT используют специальные анализирующие/синтезирующие окна с малой задержкой, аналогичные описанным в стандарте ITU-T G.718. Один из примеров таких окон проиллюстрирован со ссылкой на фигуру 8. Задержка, вызываемая преобразованием, составляет лишь 192 дискретных значений в отличие от задержки в 640 дискретных значений в случае использования традиционных синусоидальных окон. Таким образом, память MDCT со специальными синтезирующими/анализирующими окнами с малой задержкой содержит лишь 96 независимых дискретных значений (не свернутых в текущем кадре) в отличие от 320 дискретных значений в случае использование традиционных синусоидальных окон.
Фактически, на фигуре 8 для анализирующих окон (Ana.) видно, что зона свертки ограничена пунктирными линиями между дискретными значениями 864 и 1055. Линия свертки представлена штрихпунктирной линией на дискретном значении 960.
Для синтеза (Synth.) с целью получения информации, касающиеся зоны свертки при анализе, при использовании симметрии необходимы только дискретные значения, представленные интервалом М (96 дискретных значений). Таким образом, эти дискретные значения, содержащиеся в памяти, пригодны для декодирования этой зоны свертки путем использования также и свернутых значений окна из следующего кадра. В случае атаки в этой зоне между дискретными значениями 864 и 1055, средняя энергия дискретных значений, представляемых интервалом М, будет значительно больше энергии подкадров, предшествующих дискретному значению 864. Поэтому резкое повышение в энергии в интервале М, содержащемся в памяти MDCT, может сигнализировать об атаке в следующем кадре, которая может генерировать в текущем кадре опережающее эхо.
В одной из разновидностей этого варианта осуществления можно использовать другие анализирующие/синтезирующие окна или переключения между длинными и короткими окнами.
Используют память MDCT xMDCT(n), дающую версию с временной сверткой будущего сигнала. Эта память, или часть этой памяти (по причине избыточностей), также делят на K' подблоков длиной Lm(n), n=0, …, K', где Lm(n), сравнимой, но необязательно идентичной L'. В случае использования традиционных синусоидальных окон сохраняют только K'=4 первых подблоков длиной Lm(n)=L'=80 из сигнала xMDCT(n), поскольку последние 4 подблоков являются симметричными относительно первых 4 подблоков и поэтому не передают какую-либо дополнительную информацию для обнаружения атаки в следующем кадре. Напротив, если используют проиллюстрированные на фигуре 8 специальные анализирующие/синтезирующие окна с малой задержкой, то сохраняют только один (K'=1) блок длиной Lm(0)=96, содержащий в памяти MDCT все дискретные значения, являющиеся независимыми. Несмотря на большее количество дискретных значений в этом подблоке, его энергия остается сравнимой с таковой для подблоков текущего кадра, поскольку часть памяти была взвешена с использованием финитной функции (и поэтому подвергнута ослаблению) посредством анализирующего окна. Можно отметить, что количество дискретных значений составляет 96 (вместо 80), и что взвешивание с использованием финитной функции может быть скомпенсировано; изобретение в равной мере применимо в случае, когда реализована такая компенсация.
Действительно, фигура 1 показывает, что опережающее эхо оказывает влияние на кадр, предшествующий кадру, где расположена атака, и желательным является обнаружение атаки в будущем кадре, который частично содержится в памяти MDCT.
Следует отметить, ч