2405217 - Способ взвешенного сложения с перекрытием

Способ взвешенного сложения с перекрытием

Иллюстрации

Показать все

Изобретение относится к обработке сигналов, в частности к способу взвешенного сложения с перекрытием. Заявленный способ генерации выходной последовательности выборок в соответствии с первой и второй подпоследовательностями выборок содержит этапы, на которых применяют процедуру взвешенного сложения с перекрытием к первой и второй подпоследовательностям для генерации выходной последовательности выборок, оптимизируют весовую функцию, используемую в процедуре взвешенного сложения с перекрытием, в соответствии с мерой совпадения между выходной последовательностью выборок и одной или несколькими целевыми последовательностями выборок. Технический результат - обеспечение ослабления артефактов сигнала, возникающих при взвешенном сложении с перекрытием подпоследовательностей сигналов. 3 н. и 17 з.п. ф-лы, 13 ил.

Реферат

Область техники, к которой относится изобретение

Настоящее изобретение относится к обработке сигналов. В частности, настоящее изобретение относится к способу, устройству и конфигурации, которые позволяют ослаблять артефакты сигнала, возникающие при взвешенном сложении с перекрытием подпоследовательностей сигналов. Применения включают в себя такие манипуляции с сигналами, как шумоподавление, усиление, кодирование, маскирование и синтез. В порядке примера, настоящее изобретение позволяет усовершенствовать шумоподавление, усиление, кодирование, маскирование и синтез речевых сигналов и аудиосигналов. Настоящее изобретение преимущественно применяется в связи с системами для ослабления эффектов потерь и/или флуктуаций времени задержки и/или расфазировки тактовых сигналов сигнальных пакетов в телекоммуникационных и беспроводных телекоммуникационных системах.

Описание уровня техники

Изобретение предусматривает применение в телекоммуникационных системах, в частности применение в ослаблении эффектов потерь и/или флуктуаций времени задержки и/или расфазировки тактовых сигналов сигнальных пакетов. Специалисту в данной области техники на основе описания сущности изобретения, предпочтительных вариантов осуществления, чертежей и формулы изобретения должно быть очевидно, что настоящее изобретение преимущественно применяется, в принципе, там, где процедура взвешенного сложения с перекрытием применяется в цифровой обработке сигналов.

Современные телекоммуникации базируются на цифровой передаче сигналов. Например, согласно фиг.1, передатчик 200 собирает звуковой сигнал от источника 100. Этот источник может быть создан одним или несколькими говорящими людьми и другими источниками акустических волн, собранных микрофоном, или может являться системой хранения или генерации звукового сигнала, например системой текстуально-речевого синтеза или диалога. Если сигнал источника является аналоговым, он преобразуется в цифровое представление посредством аналого-цифрового преобразователя. Затем цифровое представление кодируется и помещается в пакеты, формат которых пригоден для цифрового канала 300. Пакеты передаются по цифровому каналу. Цифровой канал обычно содержит множество уровней абстракции.

В уровне абстракции, показанном на фиг.1, цифровой канал принимает последовательность пакетов на входе и доставляет последовательность пакетов на выходе. Вследствие ухудшения канала, обычно вызванного шумом, неоднородностями и перегрузкой в канале, выходная последовательность пакетов обычно ухудшается за счет потери некоторых пакетов и задержки по времени прихода и флуктуаций времени задержки других пакетов. Кроме того, различие тактовых сигналов передатчика и приемника может приводить к расфазировке тактовых сигналов. Задача приемника 400 состоит в декодировании принятых пакетов данных и в преобразовании декодированных цифровых представлений из потока пакетов и декодировании их в цифровые представления сигнала и дальнейшем преобразовании этих представлений в декодированный звуковой сигнал в формате, пригодном для вывода получателю сигнала 500. Этот получатель сигнала может являться одним человеком или несколькими людьми, которые воспринимают декодированный звуковой сигнал посредством, например, одного или нескольких громкоговорителей. Альтернативно, получатель сигнала может представлять собой систему хранения речевых сигналов или аудиосигналов или диалоговую систему или распознаватель речевых сигналов или аудиосигналов.

Задача приемника состоит в точном воспроизведении сигнала, который можно представлять получателю. Когда получатель прямо или косвенно содержит слушателя-человека, задачей приемника является получение представления звукового сигнала, которое, будучи представлено слушателю-человеку, точно воспроизводит воспринимаемое человеком впечатление и информацию акустического сигнала от источника или источников. Для решения этой задачи в общем случае, когда канал ухудшает принятую последовательность пакетов за счет потерь, задержки, флуктуаций времени задержки и расфазировки тактовых сигналов, которые могут дополнительно присутствовать, эффективное маскирование необходимо как часть приемной подсистемы.

В порядке примера, одна возможная реализация приемной подсистемы для осуществления этой задачи показана на фиг.2. Согласно этому чертежу, входящие пакеты сохраняются в буфере 410 флуктуаций, откуда блок 420 декодирования и маскирования получает представления принятого кодированного сигнала и декодирует и маскирует эти представления кодированного сигнала для получения представлений сигнала, пригодных для хранения в буфере 430 воспроизведения и последующего воспроизведения. Управление временем начала маскирования и выбором конкретных параметров этого маскирования, например, длины маскированного сигнала, может, в порядке примера, осуществлять блок 440 управления, который отслеживает содержимое буфера флуктуаций и буфера воспроизведения и управляет работой блока 420 декодирования и маскирования.

Маскирование также может осуществляться как часть канальной подсистемы. На фиг.3 показан один пример канальной подсистемы, в которой пакеты переправляются из канала 310 в канал 330 через подсистему 320, которая в дальнейшем упоминается как ретранслятор. В реальных системах функция ретрансляции может осуществляться блоками, которые могут называться по-разному в зависимости от контекста, например маршрутизаторами различных типов, прокси-серверами, краевыми серверами, контроллерами сетевого доступа, контроллерами беспроводной локальной сети, шлюзами Voice-over-IP (речь по IP-протоколу), медиа-шлюзами, контроллерами нелицензионной сети и пр. В данном контексте все они являются примерами ретрансляционных систем.

Один пример ретрансляционной системы, которая способна осуществлять маскирование аудиосигнала, показана на фиг.4. Как показано на чертеже, пакеты переправляются из входного буфера 310 в выходной буфер 360 через подсистемы 320 и 350 коммутации пакетов. Блок 370 управления отслеживает входной и выходной буферы и в результате этого отслеживания принимает решения относительно необходимости перекодирования и маскирования. Если это необходимо, коммутаторы направляют пакеты через блок 330 перекодирования и маскирования. Если это не нужно, коммутаторы направляют пакеты через подсистему 340 минимального действия протокола, которая выполняет минимум операций над заголовками пакетов для их согласования с применяемыми протоколами. Эти операции могут включать в себя изменение порядковых номеров и меток времени пакетов.

При передаче аудиосигналов с использованием систем, в частности, проиллюстрированных в вышеприведенном описании, требуется маскирование потерь, задержки, флуктуации времени задержки и/или расфазировки тактовых сигналов в сигналах, представляющих или частично представляющих звуковой сигнал.

Методы повторения основного тона, иногда реализуемые в модели осциллятора, базируются на оценке периода основного тона в вокализованной речи или, альтернативно, на оценке соответствующей основной частоты вокализованного речевого сигнала. Если известен период основного тона, кадр маскирования получается путем повторного считывания последнего периода основного тона. Нарушения непрерывности в начале и конце кадра маскирования и между каждыми двумя повторениями периода основного тона можно сглаживать с использованием процедуры сложения с перекрытием с вырезанием. Примеры метода повторения основного тона можно найти в публикации № WO 0148736 и рекомендации Международного союза электросвязи ITU-T G.711 Приложение 1. Системы, отвечающие уровню техники, предусматривают маскирование на основе повторения основного тона посредством декодеров, основанных на принципе кодирования с линейным предсказанием. В этих системах повторение основного тона обычно осуществляется в области возбуждения линейного предсказания путем считывания из цепи долгосрочного предсказателя или адаптивной кодовой книги. Примеры маскирования на основе повторения основного тона в области возбуждения линейного предсказания можно найти в патенте № US5699481, рекомендации Международного союза электросвязи ITU-T G.729, и Internet Engineering Task Force Request For Comments 3951. Вышеописанные методы применяются для маскирования потерь или возрастающей задержки, т.е. положительных флуктуаций времени задержки, и ситуаций недогрузки или близких к недогрузке входного буфера или буфера флуктуаций, например, вследствие расфазировки тактовых сигналов. Для маскирования убывающей задержки, отрицательных флуктуаций времени задержки или ситуаций перегрузки или близких к перегрузке входного буфера или буфера флуктуаций, необходимо генерировать укороченные сигналы маскирования. Методы, основанные на основном тоне, позволяют делать это посредством процедуры сложения с перекрытием между периодом основного тона и более ранним периодом основного тона. Пример этого метода можно найти в патенте № WO 0148736. Опять же, это можно делать, используя возможности, имеющиеся в декодерах с линейным предсказанием. В порядке примера, в патенте № US5699481 раскрыт способ, согласно которому векторы вклада фиксированной кодовой книги просто отбрасываются из сигнала воспроизведения, на основании состояния адаптивной кодовой книги для стабилизации периодичности основного тона в воспроизводимом сигнале. В связи с методами повторения основного тона одна задача состоит в плавном продолжении сигнала от кадра маскирования к следующему кадру. В публикации № WO 0148736 раскрыт способ решения этой задачи. Согласно изобретению, раскрытому в WO 0148736, эта задача решается посредством кадров маскирования, изменяющихся со временем и, возможно, имеющих длину, зависящую от сигнала. Хотя это позволяет эффективно осуществлять плавное продолжение сигнала в связи с маскированием флуктуаций времени задержки и расфазировки тактовых сигналов, это решение малопригодно для систем, подобных показанным на фиг.4: маскирование такого типа не позволяет гарантировать кодирование маскирования в кадры фиксированной заранее заданной длины, которые плавно соединяются с уже закодированными кадрами, которые предпочтительно ретранслируются через блок 340 минимального действия протокола.

Таким образом, важной задачей является получение кадров маскирования заранее заданной длины, равной длине регулярных кадров сигнала. Один способ маскирования с заранее заданной длиной состоит в осуществлении гладкого сложения с перекрытием между выборками, которые превышают заранее заданную длину кадра в число раз, равное количеству кадров маскирования, с хвостовым подмножеством выборок из кадра, следующего за кадрами маскирования. Этот способ хорошо известен из уровня техники и используется, например, в рекомендации Международного союза электросвязи ITU-T G.711 Приложение 1. В принципе, этот способ также можно применять при сочленении кадра с другим кадром, когда два кадра связаны с непоследовательными кадрами в исходном аудиосигнале. Таким образом, специалист в данной области техники может сделать это, получив кадр маскирования как продолжение первого кадра, и ввести кадр маскирования в процедуру сложения с перекрытием со вторым кадром, тем самым частично уменьшив нарушения непрерывности, возникающие между границей последней выборки первого кадра и первой выборки второго кадра.

Вышеописанные решения этих сценариев проблематичны. Дело в том, что, в зависимости от фактической формы двух или более сигналов, поступающих в эту процедуру сложения с перекрытием, в результирующем аудиосигнале остается заметное нарушение непрерывности. Это нарушение непрерывности воспринимается слушателем-человеком как "всплеск" или "провал" в сигнале.

В первом сценарии, где предусмотрен один или несколько кадров маскирования, в качестве одного такого способа в литературе предложена повторная дискретизация этих кадров маскирования, см., например, Valenzuela and Animalu, "A new voice-packet reconstruction technique", IEEE, 1989. Этот способ не обеспечивает решение, когда задача состоит в сочленении двух существующих кадров, а не сочленении с кадром маскирования, кроме того, для сочленения кадра маскирования и следующего кадра этот способ по-прежнему сопряжен с проблемами. Причина в том, что необходимая повторная дискретизация для ослабления нарушения непрерывности, воспринимаемого слушателем-человеком, может вносить значительное частотное искажение, т.е. частотный сдвиг, который также воспринимается слушателем-человеком как раздражающий артефакт.

Сущность изобретения

Раскрытое изобретение, в частности варианты его осуществления, позволит эффективно преодолевать вышеупомянутые ограничения известных решений, а также другие, не упомянутые трудности известных решений, и решать родственные проблемы в других системах цифровой обработки сигналов. Согласно настоящему изобретению, эти задачи решаются посредством способа, устройства хранения программ и конфигурации, которые отвечают разным аспектам настоящего изобретения, признаки которого определены в прилагаемой формуле изобретения.

Раскрытое изобретение предусматривает подходы к осуществлению плавного сочленения подпоследовательностей сигналов с использованием взвешенного сложения с перекрытием между подпоследовательностями. Обычно, но не всегда, эти подпоследовательности подобны, но не идентичны, что выражается соответствующей мерой подобия или мерой искажения. В частности, по сравнению с известными методами сложения с перекрытием, в которых используется взвешивающая вырезающая функция, не зависящая от данного сигнала, раскрытое изобретение предусматривает подходы к сочленению кадров сигнала с внутренним отсутствием подобия, со значительно менее воспринимаемым артефактом, чем тот, который известен из уровня техники. Таким образом, раскрытое изобретение ослабляет ограничение, характерное для систем, отвечающих уровню техники, что позволяет непосредственно повышать воспринимаемое качество.

В данном раскрытии будут использоваться следующие определения. Термин "выборка" означает выборку, получаемую из оцифрованного сигнала или из сигнала, выведенного из него, или коэффициентов или параметров, представляющих такие сигналы, причем эти коэффициенты или параметры имеют скалярные или векторные значения. Термин "кадр" означает множество последовательных выборок, с использованием вышеприведенного определения выборки. Термин "подпоследовательность" означает множество из одного или более последовательных выборок, с использованием вышеприведенного определения выборки. В случае использования, например, сложения с перекрытием, две последовательных подпоследовательности могут включать в себя перекрывающиеся выборки. В зависимости от выбора кадров, подпоследовательность может продолжаться между двумя последовательными кадрами.

Согласно первому аспекту, изобретение предусматривает способ генерации выходной последовательности выборок в соответствии с первой и второй подпоследовательностями выборок, при этом способ содержит этапы, на которых:

- применяют процедуру взвешенного сложения с перекрытием к первой и второй подпоследовательностям для генерации выходной последовательности выборок,

- оптимизируют весовую функцию, используемую в процедуре взвешенного сложения с перекрытием, в соответствии с мерой совпадения между выходной последовательностью выборок и одной или несколькими целевыми последовательностями выборок.

Весовую функцию можно оптимизировать в соответствии с двумя или тремя целевыми последовательностями выборок.

Предпочтительно на этапе оптимизации регулируют, по меньшей мере, одну весовую функцию, используемую в процедуре взвешенного сложения с перекрытием, например, регулируют две или три весовые функции, используемые в процедуре взвешенного сложения с перекрытием.

По меньшей мере, одну весовую функцию, используемую в процедуре взвешенного сложения с перекрытием, можно представить множеством параметров. Множество параметров можно получить путем разложения временной формы, по меньшей мере, одной весовой функции в линейную комбинацию базовых форм окна. Множество параметров можно получить путем разложения временной формы, по меньшей мере, одной весовой функции в линейную комбинацию двух или трех базовых форм окна. Генерация множества параметров может включать в себя применение, по меньшей мере, одной линии задержки с отводами к, по меньшей мере, одной из первой и второй подпоследовательностей выборок. Генерация множества параметров может включать в себя применение двух линий задержки с отводами к первой и второй подпоследовательностям выборок. Генерация множества параметров может включать в себя применение трех линий задержки с отводами.

Весовую функцию, используемую в процедуре взвешенного сложения с перекрытием, можно модифицировать в соответствии с мерой расстояния между выходной последовательностью выборок и, по меньшей мере, одной целевой последовательностью выборок. Такую меру расстояния можно получать на основании суммарной квадратичной ошибки, например взвешенной суммарной квадратичной ошибки. Меру расстояния можно минимизировать согласно процедуре наименьших квадратов, например процедуре взвешенных наименьших квадратов.

Выборки первой и второй подпоследовательностей представляют собой выборки оцифрованного аудиосигнала, например аудиосигнала, включающего в себя речевой сигнал.

Одной из первой и второй подпоследовательностей выборок может быть последовательность выборок маскирования.

Таким образом, настоящее изобретение предусматривает способ применения процедуры взвешенного сложения с перекрытием для конкатенации двух или более подпоследовательностей сигналов. Весовые функции, используемые при сложении с перекрытием, оптимизируются в соответствии с мерой искажения между выходным сигналом процедуры сложения с перекрытием и одной или несколькими целевыми подпоследовательностями. Целевые подпоследовательности образуют аппроксимации желаемого или частично желаемого выходного сигнала процедуры сложения с перекрытием. Преимущественно мера искажения взвешивает эти цели. Весовые функции в настоящем изобретении являются функциями общего вида с плоскими или неплоскими временными и/или частотными характеристиками. Простой вариант осуществления настоящего изобретения предусматривает оптимизированное скалярное взвешивание заранее заданной формы окна, например, для оптимизации подобия между выходным сигналом процедуры сложения с перекрытием и целевым сигналом. Дополнительно усовершенствованные варианты осуществления преимущественно предусматривают большее количество целевых сигналов и дающую дополнительные преимущества параметризацию весовых функций. Такая преимущественная параметризация включает в себя применение скалярных весовых коэффициентов к более чем одной весовой функции; включает в себя разложение одной или нескольких весовых функций в линейную комбинацию базовых форм окна; и/или включает в себя линию задержки с отводами в одной или нескольких весовых функциях. Преимущественно, при оптимизации, мера суммарной квадратичной ошибки или взвешенной суммарной квадратичной ошибки минимизируется, и преимущественно для этой минимизации применяется метод наименьших квадратов или взвешенных наименьших квадратов.

Согласно второму аспекту, изобретение предусматривает программный код, выполняемый на компьютере, предназначенный для осуществления способа согласно первому аспекту. Такой программный код может быть записан в машинно-зависимой или машинно-независимой форме и на любом языке программирования, например, в машинном коде или на языке программирования более высокого уровня.

Согласно третьему аспекту, изобретение предусматривает устройство хранения программ, содержащее последовательность команд для микропроцессора, например микропроцессора общего назначения, для осуществления способа согласно первому аспекту. Устройство хранения может представлять собой средство хранения данных любого типа, например диски, карты памяти или линейки памяти, жесткие диски и т.д.

Согласно четвертому аспекту, изобретение предусматривает конфигурацию, например устройство или аппарат, для приема оцифрованного аудиосигнала, конфигурация включает в себя:

- средство памяти для хранения выборок, представляющих принятый оцифрованный аудиосигнал, и

- средство процессора для осуществления способа согласно первому аспекту.

Реализация этого изобретения адекватными средствами, например описанными ниже для предпочтительных вариантов осуществления, позволяет системе обработки сигнала эффективно конкатенировать подобные, но не идентичные подпоследовательности, тем самым ослабляя артефакты, известные для взвешенного сложения с перекрытием, отвечающего уровню техники. Таким образом, наше изобретение обеспечивает, помимо прочего, двустороннюю передачу аудиосигнала высокого качества в условиях сильной расфазировки тактовых сигналов, канальных потерь и/или флуктуаций времени задержки.

Краткое описание чертежей

Ниже приведено более подробное описание изобретения со ссылкой на прилагаемые чертежи, на которых представлено следующее:

фиг.1 - блок-схема известной системы сквозной передачи звука с коммутацией пакетов, для которой характерны эффекты потерь, задержки, флуктуаций времени задержки и/или расфазировки тактового сигнала;

фиг.2 - иллюстративная приемная подсистема, осуществляющая буферизацию флуктуаций, декодирование и буферизацию маскирования и воспроизведения под управлением блока управления;

фиг.3 - блок-схема ретрансляционной подсистемы канала с коммутацией пакетов, для которой характерны эффекты расфазировки тактовых сигналов, потерь, задержки и флуктуаций времени задержки;

фиг.4 - иллюстративная ретрансляционная подсистема, осуществляющая входную буферизацию, выходную буферизацию и, при необходимости, перекодирование и маскирование под управлением блока управления;

фиг.5 - блок-схема ряда предпочтительных вариантов осуществления настоящего изобретения;

фиг.5A - иллюстративная схема подпоследовательностей в кадрах маскирования, начиная с подпоследовательности, базирующейся на последних буферизованных подпоследовательностях в обратном временном порядке;

фиг.5B - другой пример более крупной последовательности подпоследовательностей в кадрах маскирования, начиная с последних двух буферизованных подпоследовательностей в обратном временном порядке, и где последовательные подпоследовательности базируются на буферизованных подпоследовательностях с дополнительным сдвигом назад во времени;

фиг.5C - индексы счетчика выборок в шаблоне индексирования, форматированном шагами назад и длинами чтения;

фиг.6 - иллюстративная схема сигналов, используемых в функции индексирования и интерполяции;

фиг.7 - логическая блок-схема одного возможного варианта реализации логики принятия решений для критериев остановки;

фиг.8 - логическая блок-схема одного возможного способа осуществления итерационной совместной оптимизации сглаживания и коррекции, критериев остановки и количества допустимых повторений;

фиг.9 - схема использования циклического сдвига и сложения с перекрытием в связи с инициализацией и возбуждением фильтра регулировки фазы; и

фиг.10 - один вариант осуществления раскрытой процедуры взвешенного сложения с перекрытием.

Хотя изобретение допускает различные модификации и альтернативные формы, конкретные варианты осуществления показаны в порядке примера на чертежах и подробно описаны ниже. Однако следует понимать, что изобретение не ограничивается конкретными раскрытыми формами. Напротив, изобретение охватывает все модификации, эквиваленты и альтернативы, отвечающие сущности и объему изобретения, заданным в прилагаемой формуле изобретения.

Описание предпочтительных вариантов осуществления

Ниже приведено описание изобретения в связи с генерацией кадров маскирования. Однако, как следует из объема формулы изобретения, способ конкатенации, отвечающий изобретению, имеет значительно более широкую сферу применения.

Способ, отвечающий изобретению, осуществляется на блоке 420 декодирования и маскирования приемника, например, показанном на фиг.2, или осуществляется в блоке 330 перекодирования и маскирования ретранслятора, например, показанном на фиг.4, или в любом другом месте системы связи, где его выполнение целесообразно. В этих местах имеется некоторое количество буферизованных кадров сигнала и требуется некоторое количество кадров маскирования. Доступные кадры сигнала и нужные кадры маскирования могут состоять из выборок во временной области аудиосигнала, например речевого сигнала, или могут состоять из выборок, выведенных из них, например выборок возбуждения линейного предсказания, или могут состоять из других коэффициентов, выведенных из аудиосигнала и полностью или частично представляющих кадры звукового сигнала. Примерами таких коэффициентов являются коэффициенты частотной области, коэффициенты синусоидальной модели, коэффициенты кодирования с линейным предсказанием, коэффициенты интерполяции формы сигнала и другие множества коэффициентов, которые полностью или частично представляют выборки аудиосигнала.

На фиг.5 показан предпочтительный вариант осуществления изобретения. Согласно фиг.5, доступные кадры сигнала 595, которые могут представлять собой принятые и декодированные или перекодированные кадры сигнала или кадр маскирования из более ранней операции этого или других способов генерации кадров маскирования, или комбинации вышеупомянутых типов кадров сигнала, сохраняются в буфере 600 кадров. Сигнал в буфере кадров анализируется генератором 660 шаблона индекса. Генератор шаблона индекса может преимущественно использовать оценки основного тона 596 и вокализации 597 сигнала. В зависимости от общей конфигурации системы, эти оценки могут быть доступны для ввода из других процессов, например процесса кодирования, декодирования или перекодирования, или вычисляться другими средствами, предпочтительно с использованием методов анализа сигнала, отвечающих уровню техники. Кроме того, генератор шаблона индекса принимает количество 598 кадров сигнала маскирования для генерации и указатели 599 начала и конца конкретных кадров сигнала в буфере кадров, которые заменяются кадром или кадрами маскирования. В порядке примера, если эти буферы указывают на конец буфера кадров, это означает, что кадр или кадры маскирования должны быть сделаны адекватными для следования за сигналом, хранящимся в буфере кадров. В порядке другого примера, если эти указатели указывают непустое подмножество последовательных кадров в буфере кадров, это означает, что кадр или кадры маскирования должны заменить эти кадры в последовательность кадров, представляющей или частично представляющей звуковой сигнал.

Для дальнейшей иллюстрации допустим, что буфер 600 кадров содержит кадры сигнала A, B, C, D, E, и что количество кадров 598 маскирования равно двум. Тогда, если указатели кадров, подлежащих замене 599, указывают на конец буфера кадров, это означает, что два кадра сигнала маскирования должны следовать последовательно после кадра сигнала E. Напротив, если указатели 599 указывают на кадры сигнала B, C, D, два кадра маскирования должны заменять кадры сигнала B, C, D и следовать последовательно после кадра сигнала A, и за ними должен следовать последовательно кадр сигнала E.

Что касается способов определения количества кадров 598 маскирования и подмножества кадров, которые, в конечном итоге, должны заменять кадры маскирования, т.е. указателей 599, предпочтительно использовать способы, отвечающие уровню техники. Таким образом, данные 596, 597, 598 и 599 совместно с кадрами 595 сигнала составляют входные данные для способа, устройства и конфигурации, отвечающих настоящему изобретению.

В некоторых общих конфигурациях системы, длина или размер кадра сигнала преимущественно поддерживается постоянной в ходе работы блока маскирования. Помимо прочих сценариев, это обычно имеет место, когда блок маскирования интегрирован в ретрансляционную систему, где результат маскирования подлежит помещению в пакеты, представляющие звуковой сигнал в интервале времени заранее заданной длины, причем эта заранее заданная длина определяется в другом месте. В порядке примера, эта заранее заданная длина может определяться в ходе согласования протоколов при установлении вызова в системе Voice over IP, и может изменяться в ходе преобразования в соответствии, например, с механизмами управления сетевой перегрузки. Некоторые варианты осуществления настоящего изобретения, что будет прояснено ниже, преимущественно отвечают этому требованию работы с заранее заданной длиной кадра сигнала. Однако инновация, как таковая, не ограничивается этими системными требованиями; другие варианты осуществления данной инновации предусматривают работу с маскированиями, которые составляют нецелое число кадров, и маскированиями кадров, которые имеют длины, зависящие от времени, и где эти длины могут зависеть от конкретного содержимого буфера кадров, возможно в комбинации с другими факторами.

Варианты осуществления настоящего изобретения могут преимущественно использовать операцию 610 сглаживания и коррекции, выполняемую над сигналом 605 из буфера кадров. В этой операции сглаживания и коррекции генерируется сигнал 615, в котором кадры, более ранние по времени, чем кадр или кадры маскирования, имеют повышенное подобие с кадром или кадрами сигнала, которые подлежат замещению кадром или кадрами маскирования, или кадром непосредственно перед ним. Альтернативно, если кадр или кадры маскирования вставлены последовательно с существующими кадрами без замещения, имеет место подобие с кадром или кадрами непосредственно перед назначенной позицией кадра или кадров маскирования. В дальнейшем термин «подобие» будет употребляться в обоих случаях. Подобие интерпретируется слушателем-человеком. Сглаживание и коррекция позволяют получить сигнал с повышенным подобием, в то же время сохраняя естественно звучащую эволюцию сигнала 615. Примеры операций повышения подобия, преимущественно выполняемых сглаживанием и коррекцией 610, включают в себя повышение плавности и подобия в таких параметрах, как энергетическая огибающая, контур основного тона, степень вокализации, частота среза вокализации и спектральная огибающая, а также других параметрах, важных для восприятия.

В отношении каждого из этих параметров резкие переходы в эволюции параметра в кадрах, подлежащие сглаживанию и коррекции, отфильтровываются, и средний уровень параметра в этих кадрах плавно изменяется для приобретения большего подобия в вышеупомянутом смысле. Преимущественно подобие вводится только в той степени, которая позволяет сохранять естественно звучащую эволюцию сигнала. Под управлением генератора 660 шаблона индекса, сглаживание и коррекция могут преимущественно сглаживать переходы и нарушения непрерывности, которые, в противном случае, могли бы появляться в последующей операции 620 индексирования и интерполяции. Кроме того, сглаживание и коррекция контура основного тона может преимущественно контролироваться генератором 660 шаблона индекса таким образом, чтобы минимизировать искажение, которое, так или иначе, привносится в кадры маскирования позже фазовым фильтром 650. Операция сглаживания и коррекции может преимущественно использовать замену, смешивание, интерполяцию и/или слияние сигнала или параметра с кадрами сигнала (или параметрами, выведенными из них), найденными с дополнительным сдвигом назад во времени в буфере кадров 600. Операция сглаживания и коррекции 610 может осуществляться вне системы без отхода от общего объема настоящего изобретения. В этом случае сигнал 615 равен сигналу 605, и вход 656 сигнала и выход 665 управления генератора 660 шаблона индекса можно в этом случае исключить из конфигурации системы.

Операция 620 индексирования и интерполяции принимает, возможно, сглаженный и скорректированный сигнал 615 и шаблон 666 индекса. Кроме того, в некоторых преимущественных вариантах осуществления настоящего изобретения, операция индексирования и интерполяции принимает индикатор 667 качества совпадения. Индикатор качества совпадения может иметь скалярное значение в каждый момент времени или может быть функцией времени и частоты. Предназначение индикатора качества совпадения поясняется ниже в этом описании. Шаблон 666 индекса параметризует операцию функции индексирования и интерполяции.

На фиг.5A показан пример того, как шаблон индекса может индексировать подпоследовательности в буферизованных выборках, BS1, BS2, BS3, BS4, с постепенным сдвигом назад во времени при синтезе одного или нескольких кадров маскирования. В показанном примере, последовательные подпоследовательности CS1, CS2, CS3, CS, CS5, CS6, CS7 в кадрах маскирования CF1, CF2, CF3 базируются на буферизованных подпоследовательностях BS1, BS2, BS3 и BS4 выборок в кадрах BF1, BF2. Можно видеть, что подпоследовательности маскирования CS1-CS7 индексируются от буферизованных подпоследовательностей BS1-BS4, при этом указатель положения постепенно перемещается назад и затем постепенно перемещается вперед во времени, что выражается функциональным обозначением CS1(BS4), CS2(BS3), CS3(BS2), означающим, что CS1 базируется на BS4, и т.д. Таким образом, на фиг.5A показан один пример, иллюстрирующий, как последовательные подпоследовательности в кадрах маскирования могут следовать друг за другом, на основании последовательных буферизованных подпоследовательностей, но переупорядоченные во времени. Можно видеть, что первые четыре подпоследовательности маскирования CS1(BS4), CS2(BS3), CS3(BS2) и CS4(BS1) выбраны базирующимися на последних четырех подпоследовательностях буферизованных выборок BS1, BS2, BS3, BS4, в последовательном порядке, но в обратном временном порядке, таким образом, начиная с последней буферизованной подпоследовательности BS1. После первых четырех подпоследовательностей в обратном временном порядке следуют три подпоследовательности CS5, CS6, CS7, которые все базируются на последовательных буферизованных подпоследовательностях во временном порядке, а именно BS2, BS3 и BS4, соответственно. Предпочтительный шаблон индекса формируется генератором шаблона 660 индекса и может варьироваться в широких пределах в зависимости от входов 656, 596, 597, 598 и 599 этого блока. На фиг.5B приведен, с сохранением обозначений фиг.5A, другой иллюстративный пример того, как подпоследовательности маскирования CS1-CS11 могут базироваться на буферизованных подпоследовательностях BS1-BS4 при переупорядочении во времени. Можно видеть, что более поздние подпоследовательности маскирования постепенно базируются на буферизованных подпоследовательностях с дополнительным смещением назад во времени. Например, первые две последовательные подпоследовательности маскирования CS1 и CS2 базируются на последних двух буферизованных подпоследовательностях BS3, BS4, в обратном временном порядке, тогда как более поздняя подпоследовательность маскирования, например CS10, базируется на BS1, т.е. буферизованной подпоследовательности с дополнительным смещением назад во времени, по отношению к используемым для вычисления CS1 и CS2. Таким образом, фиг.5B демонстрирует, что последовательные подпоследовательности маскирования базируются на буферизованных подпоследовательностях, индексированных вперед и назад во времени, таким образом, что индексирование постепенно эволюционирует назад во времени.

В преимущественных вариантах осуществления настоящего изобретения, эта постепенная эволюция назад во времени формализуется как последовательность того, что в целях этого описания названо шагами назад, и последовательность того, что в целях этого описания названо длинами чтения. В простых вариантах осуществления этого формата шаблона индекса, указатель на выборки сигнала, или представляющие их параметры или коэффициенты, смещается назад на величину, равную перво

Способ взвешенного сложения с перекрытием

Патент 2405217