Способ и устройство для управления маскировкой потери аудиокадров

Иллюстрации

Показать все

Изобретение относится к средствам для маскировки потери аудиокадров. Технический результат заключается в повышении качества маскирования в случае потери аудиокадра. Обнаруживают в свойстве ранее принятого и восстановленного аудиосигнала условие транзиента (которое указывает на наличие всплеска или спада сигнала), которое может привести к неоптимальному качеству восстановления, когда используется исходный способ маскировки для создания подстановочного кадра. Модифицируют исходный способ маскировки путем выборочной настройки амплитуды спектра подстановочного кадра, когда обнаружено условие транзиента. Дополнительно обнаруживают в статистическом свойстве наблюдаемых потерь кадров второе условие, которое может привести к неоптимальному качеству восстановления, когда используется исходный способ маскировки для создания подстановочного кадра. Дополнительно модифицируют исходный способ маскировки путем выборочной настройки амплитуды спектра подстановочного кадра, когда обнаружено второе условие, причем вторым условием является возникновение потери нескольких кадров подряд. 5 н. и 22 з.п. ф-лы, 15 ил.

Реферат

Область техники, к которой относится изобретение

Заявка относится к способам и устройствам для управления способом маскировки для потерянных аудиокадров принятого аудиосигнала.

Уровень техники

Традиционные системы аудиосвязи передают речевые и аудиосигналы в кадрах, что означает, что посылающая сторона сначала организует сигнал в коротких сегментах или кадрах, например, по 20-40 мс, которые затем кодируются и передаются как логические блоки, например, в пакете передачи. Приемник декодирует каждый из этих блоков и восстанавливает соответствующие кадры сигнала, которые, в свою очередь, наконец выводятся как непрерывная последовательность восстановленных семплов (отсчетов) сигнала. До кодирования обычно имеется этап аналого-цифрового (A/D) преобразования, который преобразует аналоговый речевой или аудиосигнал от микрофона в последовательность аудиосемплов. С другой стороны, на принимающем конце обычно имеется конечный этап цифро-аналогового (D/A) преобразования, который преобразует последовательность восстановленных цифровых семплов сигнала в непрерывный во времени аналоговый сигнал для воспроизведения громкоговорителем.

Однако такая система передачи для речевых и аудио-сигналов может страдать от ошибок передачи, которые могут приводить к ситуации, в которой один или несколько переданных кадров отсутствуют в приемнике для восстановления. В этом случае декодер должен генерировать подстановочный сигнал для каждого из стертых, то есть недоступных кадров. Это делается в так называемом блоке маскировки потери кадров или ошибок декодера сигнала принимающей стороны. Цель маскировки потери кадров состоит в том, чтобы сделать потерю кадров настолько неслышимой, насколько это возможно, и, следовательно, смягчить воздействие потери кадров на качество восстановленного сигнала в максимально возможной степени.

Традиционные способы маскировки потери кадров могут зависеть от структуры или архитектуры кодека, например, путем применения формы повторения ранее принятых параметров кодека. Такие методики повторения параметров явно зависят от конкретных параметров используемого кодека и, следовательно, не так легко применимы для других кодеков с другой структурой. Текущие способы маскировки потери кадров могут, например, применять концепцию замораживания и экстраполяции параметров ранее полученного кадра для генерации подстановочного кадра для потерянного кадра.

Эти способы маскировки потери кадров существующего уровня техники включают в себя некоторые схемы обработки пакетных потерь. Обычно, после потери множества кадров подряд синтезируемый сигнал ослабляется, пока он полностью не заглушается после длинных пакетов ошибок. Кроме того, параметры кодирования, которые, по сути, повторяются и экстраполируются, изменяются так, что выполняется ослабление, и так, что спектральные пики сглаживаются.

Методики маскировки потери кадров существующего уровня техники обычно применяют концепцию замораживания и экстраполяции параметров ранее полученного кадра для генерации подстановочного кадра для потерянного кадра. Многие параметрические кодеки для разговорных сигналов, такие как кодеки с линейным предсказанием, такие как AMR или AMR-WB, как правило замораживают ранее принятые параметры или используют некоторую их экстраполяцию и используют с ними декодер. В сущности, принцип состоит в том, что должна быть заданная модель для кодирования/декодирования, и в том, чтобы применять одну и ту же модель с замороженными или экстраполируемыми параметрами. Методики маскировки потери кадров AMR и AMR-WB могут рассматриваться как типичные представители. Они подробно описаны в соответствующих описаниях стандартов.

Многие кодеки из класса аудиокодеков применяют методики кодирования в частотной области. Это означает, что после некоторого преобразования в частотную область к спектральным параметрам применяется модель кодирования. Декодер восстанавливает спектр сигнала из принятых параметров и, наконец, преобразует спектр обратно во временной сигнал. Как правило, временной сигнал восстанавливается кадр за кадром. Такие кадры объединяются с помощью добавляющих перекрытие методик в конечный восстановленный сигнал. Даже в этом случае аудиокодеков маскировка ошибок существующего уровня техники обычно применяется к одной и той же или по меньшей мере к аналогичной модели декодирования для потерянных кадров. Параметры частотной области из ранее полученного кадра замораживаются или соответствующим образом экстраполируются и затем используются в преобразовании из частотной во временную область. Примеры таких методик обеспечены аудиокодеками 3GPP в соответствии со стандартами 3GPP.

Сущность изобретения

Решения для маскировки потери кадров существующего уровня техники, как правило, страдают от ухудшения качества. Основная проблема состоит в том, что методика замораживания и экстраполяции параметров и повторное применение той же самой модели декодирования даже для потерянных кадров не всегда гарантирует плавное и точное развертывание сигнала из ранее декодированных кадров сигнала в потерянный кадр. Это обычно приводит к нарушениям непрерывности звукового сигнала с соответствующим влиянием на качество.

Описаны новые схемы маскировки потери кадров для систем передачи разговорных и аудио-сигналов. Новые схемы улучшают качество в случае потери кадров по сравнению с качеством, достижимым с помощью методик маскировки потери кадров предшествующего уровня техники.

Целью настоящих вариантов воплощения является управление схемой маскировки потери кадров, которая, предпочтительно, имеет тип соответствующих описанных новых способов, так что достигается наилучшее возможное качество звука восстановленного сигнала. Варианты воплощения направлены на оптимизацию этого качества восстановления и относительно свойств сигнала, и относительно временного распределения потерь кадров. Особенно проблематично обеспечить хорошее качество для маскировки потери кадров случаи, когда аудиосигнал имеет сильно изменяющиеся свойства, такие как энергетические всплески и спады, или если он спектрально сильно флуктуирует. В этом случае описанные способы маскировки могут повторять всплески, спады или спектральную флуктуацию, приводя к большим отклонениям от исходного сигнала и соответствующей потери качества.

Другой проблемный случай имеет место, когда пакеты потерь кадров происходят подряд. Концептуально, схема маскировки потери кадров в соответствии с описанными способами может справиться с такими случаями, хотя оказалось, что раздражающие тональные артефакты могут по-прежнему иметь место. Другой целью настоящих вариантов воплощения является уменьшение таких артефактов в максимально возможной степени.

В соответствии с первым аспектом способ для декодера маскировки потерянного аудиокадра содержит этапы, на которых обнаруживают в свойстве ранее принятого и восстановленного аудиосигнала или в статистическом свойстве наблюдаемых потерь кадров условие, для которого подстановка потерянного кадра обеспечивает относительно более низкое качество. В случае, если такое условие обнаружено, модифицируют способ маскировки путем выборочной настройки фазы или амплитуды спектра подстановочного кадра.

В соответствии со вторым аспектом декодер сконфигурирован реализовывать маскировку потерянного аудиокадра и содержит контроллер, сконфигурированный обнаруживать в свойстве ранее принятого и восстановленного аудиосигнала или в статистическом свойстве наблюдаемых потерь кадров условие, для которого подстановка потерянного кадра обеспечивает относительно более низкое качество. В случае, если такое условие обнаружено, контроллер сконфигурирован модифицировать способ маскировки путем выборочной настройки фазы или амплитуды спектра подстановочного кадра.

Декодер может быть реализован в устройстве, таком как, например, мобильный телефон.

В соответствии с третьим аспектом приемник содержит декодер в соответствии со вторым аспектом, описанным выше.

В соответствии с четвертым аспектом определена компьютерная программа для маскировки потерянного аудиокадра, и компьютерная программа содержит инструкции, которые при исполнении процессором предписывают процессору маскировать потерянный аудиокадр в соответствии с первым аспектом, описанным выше.

В соответствии с пятым аспектом компьютерный программный продукт содержит машиночитаемый носитель, хранящий компьютерную программу в соответствии с описанным выше четвертым аспектом.

Преимущество варианта воплощения решает проблему управления адаптацией способами маскировки потери кадров, позволяя уменьшить слышимое влияние потери кадров при передаче кодированных речевых сигналов и аудиосигналов даже больше, по сравнению с качеством, достигаемым только с помощью описанных способов маскировки. Общее преимущество вариантов воплощения состоит в обеспечении плавного и точного развертывания восстановленного сигнала даже для потерянных кадров. Слышимое влияние потери кадров значительно уменьшается по сравнению с использованием методик существующего уровня техники.

Краткое описание чертежей

Для более полного понимания иллюстративных вариантов воплощения настоящего изобретения теперь дается нижеследующее описание в сочетании с прилагаемыми чертежами, на которых:

Фигура 1 показывает прямоугольную оконную функцию.

Фигура 2 показывает комбинацию окна Хемминга с прямоугольным окном.

Фигура 3 показывает пример амплитудного спектра оконной функции.

Фигура 4 изображает линейчатый спектр иллюстративного синусоидального сигнала с частотой .

Фигура 5 показывает спектр обработанного с помощью оконной функции синусоидального сигнала с частотой .

Фигура 6 изображает вертикальные линии, соответствующие величине узлов решетки DFT, на основании кадра анализа.

Фигура 7 изображает параболу, совмещенную с узлами P1, P2 и P3 решетки DFT.

Фигура 8 изображает совмещение основного лепестка спектра окна.

Фигура 9 изображает совмещение функции P аппроксимации основного лепестка с узлами P1 и P2 решетки DFT.

Фигура 10 является схемой последовательности операций, изображающей иллюстративный способ в соответствии с вариантами воплощения изобретения для управления способом маскировки для потерянного аудиокадра принятого аудиосигнала.

Фигура 11 является схемой последовательности операций, изображающей другой иллюстративный способ в соответствии с вариантами воплощения изобретения для управления способом маскировки для потерянного аудиокадра принятого аудиосигнала.

Фигура 12 изображает другой иллюстративный вариант воплощения изобретения.

Фигура 13 показывает пример устройства в соответствии с вариантом воплощения изобретения.

Фигура 14 показывает другой пример устройства в соответствии с вариантом воплощения изобретения.

Фигура 15 показывает другой пример устройства в соответствии с вариантом воплощения изобретения.

Подробное описание

Новая схема управления для новых описанных методик маскировки потери кадров включает в себя следующие этапы, как показано на фигуре 10. Следует отметить, что способ может быть реализован в контроллере в декодере.

1. Обнаружить условия в свойствах ранее принятого и восстановленного аудиосигнала или в статистических свойствах наблюдаемых потерь кадров, для которых подстановка потерянного кадра в соответствии с описанными способами обеспечивает относительно более низкое качество, 101.

2. В случае, если такое условие обнаружено на этапе 1, модифицировать элемент способов, в соответствии с которыми спектр подстановочного кадра вычисляется с помощью , путем выборочной регулировки фаз или спектральных амплитуд, 102.

Синусоидальный анализ

Первый этап методики маскировки потери кадров, к которой может быть применена новая методика управления, включает в себя синусоидальный анализ части ранее принятого сигнала. Цель этого синусоидального анализа состоит в том, чтобы найти частоты основных синусоид этого сигнала, и лежащее в основе допущение состоит в том, что сигнал состоит из ограниченного числа отдельных синусоид, то есть что это мультисинусоидальный сигнал следующего типа:

В этом уравнении K является числом синусоид, из которых, как предполагается, состоит сигнал. Для каждой из синусоид с индексом , является амплитудой, является частотой, а является фазой. Частота дискретизации обозначена с помощью , а временной индекс дискретных по времени семплов сигнала с помощью .

Главное значение имеет нахождение частот синусоид настолько точно, насколько это возможно. В то время как идеальный синусоидальный сигнал будет иметь линейчатый спектр с линейчатыми частотами , нахождение их истинных значений будут, в принципе, требовать бесконечного времени измерения. Следовательно, на практике трудно найти эти частоты, так как они могут быть оценены только на основании короткого периода измерения, который соответствует сегменту сигнала, используемому для синусоидального анализа, описанного в настоящем документе; этот сегмент сигнала именуется в дальнейшем кадром анализа. Другая трудность состоит в том, что сигнал может на практике изменяться со временем, что означает, что параметры вышеупомянутого уравнения изменяются с течением времени. Следовательно, с одной стороны, желательно использовать длинный кадр анализа, делая измерение более точным; с другой стороны, будет необходим короткий период измерения, чтобы лучше справляться с возможными изменениями сигнала. Хорошим компромиссом является использование длины кадра анализа порядка, например, 20-40 мс.

Предпочтительная возможность для идентификации частот синусоид состоит в проведении анализа в частотной области кадра анализа. С этой целью кадр анализа преобразуется в частотную область, например, с помощью DFT, или DCT, или аналогичных преобразований в частотную область. В случае, если используется DFT кадра анализа, спектр дается выражением:

В этом уравнении обозначает оконную функцию, с помощью которой извлекается и умножается на весовую функцию кадр анализа длины . Типичными оконными функциями являются, например, прямоугольные окна, которые равны 1 для и 0 в противном случае, как показано на фигуре 1. Здесь предполагается, что временные индексы ранее принятого аудиосигнала заданы так, что кадр анализа обозначается временными индексами . Другими оконными функциями, которые могут быть более подходящими для спектрального анализа, являются, например, окно Хемминга, окно Хеннинга, окно Кайзера или окно Блекмана. Оконная функция, которая оказалось особенно полезной, является комбинацией окна Хемминга с прямоугольным окном. Это окно имеет форму нарастающего фронта как левая половина окна Хемминга длины и форму убывающего фронта как правая половина окна Хемминга длины , а между нарастающим и убывающим фронтами окно равно 1 на длине , как показано на фигуре 2.

Пики амплитудного спектра умноженного на оконную функцию кадра анализа составляют аппроксимацию требуемых синусоидальных частот. Точность этой аппроксимации, однако, ограничена частотным интервалом DFT. Для DFT с длиной блока L точность ограничена величиной .

Эксперименты показывают, что этот уровень точности может быть слишком низким в рамках способов, описанных в настоящем документе. Улучшенная точность может быть получена на основании следующих соображений:

Спектр умноженного на оконную функцию кадра анализа дается сверткой спектра оконной функции с линейчатым спектром синусоидального модельного сигнала , которая далее дискретизируется в узлах решетки DFT:

.

Путем использования спектрального выражения для синусоидального модельного сигнала это может быть записано как

.

Следовательно, дискретизированный спектр дается выражением

, где m=0…L-1.

На основании этих соображений предполагается, что наблюдаемые пики в амплитудном спектре кадра анализа происходят от умноженного на оконную функцию синусоидального сигнала с K синусоидами, где истинные частоты синусоид находятся вблизи пиков.

Пусть будет индексом DFT (узлом решетки) наблюдаемого k-го пика, тогда соответствующая частота , которая может рассматриваться как аппроксимация истинной синусоидальной частоты . Можно предположить, что истинная частота синусоиды лежит в пределах интервала .

Для ясности следует отметить, что свертка спектра оконной функции со спектром линейчатого спектра синусоидального модельного сигнала может пониматься как суперпозиция смещенных по частоте версий спектра оконной функции, в результате чего частоты сдвига являются частотами синусоид. Эта суперпозиция затем дискретизируется в узлах решетки DFT. Эти этапы изображены с помощью следующих фигур. Фигура 3 изображает пример амплитудного спектра оконной функции. Фигура 4 показывает амплитудный спектр (линейчатый спектр) иллюстративного синусоидального сигнала с одной синусоидой частоты. Фигура 5 показывает амплитудный спектр умноженного на оконную функцию синусоидального сигнала, который повторяет и накладывает смещенный по частоте спектр окна на частоты синусоиды. Вертикальные линии на фигуре 6 соответствуют величинам узлов решетки DFT умноженной на оконную функцию синусоиды, которые получены путем вычисления DFT кадра анализа. Следует отметить, что все спектры являются периодическими с нормированным частотным параметром , где , что соответствует частоте дискретизации.

Предыдущее обсуждение и иллюстрация фигуры 6 предполагают, что более хорошая аппроксимация истинных синусоидальных частот может быть найдена только путем увеличения разрешения поиска по частотному разрешению используемого преобразования в частотную область.

Один предпочтительный путь найти более хорошую аппроксимацию частот синусоид состоит в том, чтобы применить параболическую интерполяцию. Один такой подход состоит в том, чтобы совместить параболы с узлами решетки амплитудного спектра DFT, которые окружают пики, и вычислить соответствующие частоты, принадлежащие максимумам параболы. Подходящим выбором для порядка парабол является 2. Говоря более подробно, может быть применена следующая процедура:

1. Идентифицировать пики DFT умноженного на оконную функцию кадра анализа. Поиск пиков предоставит число пиков K и соответствующие индексы DFT пиков. Поиск пиков обычно может выполняться на амплитудном спектре DFT или логарифмическом амплитудном спектре DFT.

2. Для каждого пика (с ) с соответствующим индексом DFT совместить параболу с тремя точками . Результатом этого являются коэффициенты , , параболы, определенной выражением

.

Это совмещение параболы изображено на фигуре 7.

3. Для каждой из K парабол вычислить интерполированный частотный индекс , соответствующий значению , для которого парабола имеет свой максимум. Использовать как аппроксимацию для частоты синусоиды.

Описанный подход обеспечивает хорошие результаты, но может иметь некоторые ограничения, так как параболы не аппроксимируют форму основного лепестка амплитудного спектра оконной функции. Альтернативной схемой, делающей это, является усовершенствованная оценка частоты, использующая аппроксимацию основного лепестка, которая может быть описана следующим образом. Основная идея этой альтернативы состоит в том, чтобы совместить функцию , которая аппроксимирует основной лепесток , с узлами решетки амплитудного спектра DFT, которые окружают пики, и вычислить соответствующие частоты, принадлежащие максимумам функции. Функция может быть идентичной смещенному по частоте амплитудному спектру оконной функции. Для численной простоты, однако, это должен быть скорее, например, многочлен, который позволяет выполнить простое вычисление максимума функции. Может применяться следующая подробная процедура:

1. Идентифицировать пики DFT умноженного на оконную функцию кадра анализа. Поиск пиков предоставит число пиков K и соответствующие индексы DFT пиков. Поиск пиков обычно может выполняться на амплитудном спектре DFT или логарифмическом амплитудном спектре DFT.

2. Получить функцию , которая аппроксимирует амплитудный спектр оконной функции или логарифмический амплитудный спектр для данного интервала . Выбор аппроксимирующей функции, аппроксимирующей основной лепесток спектра окна, изображен на фигуре 8.

3. Для каждого пика (с ) с соответствующим индексом DFT совместить смещенную по частоте функцию с двумя узлами решетки DFT, которые окружают ожидаемый истинный пик непрерывного спектра умноженного на оконную функцию синусоидального сигнала. Следовательно, если больше, чем , совместить с точками , и в противном случае с точками . может, для простоты, являться многочленом 2 или 4 порядка. Это делает аппроксимацию на этапе 2 вычислением простой линейной регрессии, и вычисление простым. Интервал может быть выбран фиксированным и идентичным для всех пиков, например, , или адаптивным. В адаптивном подходе интервал может быть выбран так, что функция совмещается с основным лепестком спектра оконной функции в диапазоне соответствующих узлов {P1; P2} решетки DFT. Процесс совмещения визуализирован на фигуре 9.

4. Для каждого из K сдвинутых по частоте параметров , для которых непрерывный спектр умноженного на оконную функцию синусоидального сигнала, как ожидается, будет иметь свой пик, вычислить как аппроксимацию для частоты синусоиды.

Есть много случаев, когда переданный сигнал является гармоническим, то есть сигнал состоит из синусоидальных волн, частоты которых кратны некоторой основной частоте . Это имеет место, когда сигнал является очень периодическим, как, например, для вокализованной речи или длительных тонов некоторого музыкального инструмента. Это означает, что частоты синусоидальной модели вариантов воплощения не являются независимыми, а скорее имеют гармоническую зависимость и происходят от одной и той же основной частоты. Следовательно, принятие во внимание этого гармонического свойства может значительно улучшить анализ синусоидальных составляющих частот.

Одну возможность улучшения можно описать следующим образом:

1. Проверить, является ли сигнал гармоническим. Это может быть сделано, например, путем оценки периодичности сигнала до потери кадра. Один простой способ состоит в выполнении автокорреляционного анализа сигнала. Максимум такой автокорреляционной функции для некоторой временной задержки может использоваться в качестве индикатора. Если значение этого максимума превышает заданный порог, сигнал может расцениваться гармоническим. Соответствующая временная задержка тогда соответствует периоду сигнала, который связан с основной частотой как .

Многие способы кодирования речи с линейным предсказанием применяют так называемое предсказание высоты тона с обратной или без обратной связи или кодирование CELP с использованием адаптивных кодовых книг. Параметры усиление высоты тона и соответствующей задержки высоты тона, полученные с помощью таких способов кодирования, также являются полезными индикаторами, если сигнал является гармоническим и, соответственно, для временной задержки.

Дополнительный способ для получения описывается ниже.

2. Для каждого индекса гармоники в пределах целочисленного диапазона проверить, есть ли пик в (логарифмическом) амплитудном спектре DFT кадра анализа в окрестности частоты гармоники. Окрестность может быть определена как дельта-область вокруг , где дельта соответствует частотному разрешению DFT , то есть интервал .

В случае, если такой пик с соответствующей оценочной синусоидальной частотой присутствует, заменить частотой .

Для двухэтапной процедуры, данной выше, существует также возможность осуществления проверки, является ли сигнал гармоническим, и получение основной частоты неявно и, возможно, итеративным образом, не обязательно с использованием индикаторов из некоторого отдельного способа. Пример для такой методики дается следующий:

Для каждого из набора потенциальных значений применить этап 2 процедуры, хотя без замены , но с подсчетом, сколько пиков DFT присутствует в окрестности вблизи частот гармоник, то есть кратных . Идентифицировать основную частоту , для которой получено наибольшее число пиков на или вблизи от частот гармоник. Если это наибольшее число пиков превышает заданный порог, то сигнал предполагается гармоническим. В этом случае можно предположить, что является основной частотой, с которой затем выполняется этап 2, приводя к улучшенным синусоидальным частотам. Более предпочтительной альтернативой является, однако, оптимизация сначала основной частоты на основании частот пиков, которые были найдены совпадающими с частотами гармоник. Предположим, есть набор M гармоник, то есть кратных некоторой основной частоты, которые были найдены совпадающими с некоторым набором M спектральных пиков на частотах , , тогда лежащая в основе (оптимизированная) основная частота может быть вычислена для минимизации ошибки между частотами гармоник и частотами спектральных пиков. Если ошибка, которая должна быть минимизирована, является среднеквадратичной ошибкой , тогда оптимальная основная частота вычисляется как

.

Начальный набор потенциальных значений может быть получен из частот пиков DFT или оценочных синусоидальных частот .

Дальнейшая возможность улучшить точность оценочных синусоидальных частот состоит в рассмотрении их развертывания во времени. С этой целью оценки синусоидальных частот по нескольким кадрам анализа могут комбинироваться, например, посредством усреднения или предсказания. До усреднения или предсказания может быть применено отслеживание пиков, которое соединяет оценочные спектральные пики с соответствующими теми же самыми лежащими в основе синусоидами.

Применение синусоидальной модели

Применение синусоидальной модели для выполнения операции по маскировке потери кадров, описанной в настоящем документе, может быть описано следующим образом.

Предполагается, что данный сегмент кодированного сигнала не может быть восстановлен декодером, так как соответствующая закодированная информация не доступна. Дополнительно предполагается, что часть сигнала до этого сегмента доступна. Пусть с является недоступным сегментом, для которого должен быть сгенерирован подстановочный кадр , и с n<0 является доступным ранее декодированным сигналом. Затем, на первом этапе прототипный кадр доступного сигнала длины L и начальным индексом извлекается с помощью оконной функции и преобразуется в частотную область, например, с помощью DFT:

.

Оконная функция может быть одной из оконных функций, описанных выше в синусоидальном анализе. Предпочтительно, чтобы уменьшить сложность численных расчетов, преобразованный в частотную область кадр должен быть идентичен кадру, используемому во время синусоидального анализа.

На следующем этапе применяется допущение синусоидальной модели. В соответствии с этим DFT прототипного кадра может быть записано следующим образом:

.

Следующий этап состоит в том, чтобы понять, что спектр используемой оконной функции имеет значительный вклад только в диапазоне частот вблизи нуля. Как изображено на фигуре 3, амплитудный спектр оконной функции больше для частот вблизи нуля и мал в противном случае (в пределах нормированного диапазона частот от до , соответствующего половине частоты дискретизации). Следовательно, в качестве аппроксимации предполагается, что спектр окна является ненулевым только для интервала M=[-mmin,mmax], где mmin и mmax являются небольшими положительными числами. В частности, аппроксимация спектра оконной функции используется так, что для каждого k вклады смещенных спектров окна в вышеупомянутом выражении являются строго неперекрывающимися. Следовательно, в вышеупомянутом уравнении для каждого частотного индекса в максимуме всегда есть вклад только от одного слагаемого, то есть от одного смещенного спектра окна. Это означает, что выражение выше сводится к следующему приближенному выражению:

для неотрицательных и для каждого k.

Здесь обозначает целочисленный интервал , где mmin,k и mmax,k выполняют объясненное выше ограничение, так что интервалы не перекрываются. Подходящим выбором для mmin,k и mmax,k является задание их равными небольшому целочисленному значению δ, например, δ=3. Однако если индексы DFT, относящиеся к двум соседним синусоидальным частотам и , меньше, чем 2δ, то δ задается равным