Способ конкатенации кадров в системе связи

Иллюстрации

Показать все

Изобретение относится к телекоммуникационным системам, в частности к способу и устройству конкатенации кадров в системе связи. Способ конкатенации первого кадра выборок и последующего второго кадра выборок содержит применение фазового фильтра, предназначенного для минимизации нарушения непрерывности на границе между первым и вторым кадрами выборок. Технический результат - уменьшение нарушения непрерывности, которые возникают при конкатенации кадров, относящихся к непоследовательным кадрам в исходном аудиосигнале. 3 н. и 22 з.п. ф-лы, 13 ил.

Реферат

Область техники, к которой относится изобретение

Настоящее изобретение относится к телекоммуникационным системам. В частности, настоящее изобретение относится к способу, устройству и конфигурации, которые позволяют уменьшить нарушения непрерывности, которые возникают при конкатенации кадров, относящихся к непоследовательным кадрам в исходном аудиосигнале, или когда один или оба кадра относятся к методу маскирования. Это происходит, в частности, в связи с потерями и/или флуктуациями времени задержки и/или расфазировкой тактовых сигналов пакетов сигналов. Изобретение позволяет повысить качество передачи сигнала в беспроводных телекоммуникационных системах и сетях с коммутацией пакетов.

Описание уровня техники

Современные телекоммуникации базируются на цифровой передаче сигналов. Например, согласно фиг.1 передатчик 200 получает звуковой сигнал от источника 100. Этот источник может соответствовать одному или нескольким говорящим людям и другим источникам акустической волны, воспринимаемым микрофоном, или может являться системой хранения или генерации звукового сигнала, например системой текстуально-речевого синтеза или диалога. Если источник сигнала является аналоговым, он преобразуется в цифровое представление посредством аналого-цифрового преобразователя. Затем цифровое представление кодируется и компануется в пакеты, формат которых пригоден для цифрового канала 300. Пакеты передаются по цифровому каналу. Цифровой канал обычно содержит несколько уровней абстракции.

В уровне абстракции, показанном на фиг.1, цифровой канал принимает последовательность пакетов на входе и доставляет последовательность пакетов на выходе. Вследствие ухудшения канала, обычно вызванного шумом, неоднородностями и перегрузкой в канале, выходная последовательность пакетов обычно ухудшается за счет потери некоторых пакетов и задержки по времени доставки и флуктуаций времени задержки других пакетов. Кроме того, различие тактовых генераторов передатчика и приемника может приводить к расфазировке тактовых сигналов. Задача приемника 400 состоит в декодировании принятых пакетов данных и в преобразовании декодированных цифровых представлений из потока пакетов и декодировании их в цифровые представления сигнала и дальнейшем преобразовании этих представлений в декодированный звуковой сигнал в формате, пригодном для вывода на получателя сигнала 500. Этот получатель сигнала может являться одним человеком или несколькими людьми, которые воспринимают декодированный звуковой сигнал через, например, один или несколько громкоговорителей. Альтернативно, получатель сигнала может представлять собой систему хранения речевых сигналов или аудиосигналов или диалоговую систему или распознаватель речевых сигналов или аудиосигналов.

Задача приемника состоит в точном воспроизведении сигнала, который можно представлять получателю. Когда получатель прямо или косвенно соответствует слушателю-человеку, задачей приемника является получение представления звукового сигнала, которое, будучи представлено слушателю-человеку, точно воспроизводит воспринимаемое человеком впечатление и информацию акустического сигнала от источника или источников. Для решения этой задачи в общем случае, когда канал ухудшает принятую последовательность пакетов за счет потерь, задержки, флуктуаций времени задержки, и расфазировки тактовых сигналов, которые могут дополнительно присутствовать, эффективное маскирование необходимо как часть приемной подсистемы.

В порядке примера, одна возможная реализация приемной подсистемы для осуществления этой задачи показана на фиг.2. Согласно фиг.2 входящие пакеты сохраняются в буфере 410 флуктуаций, откуда блок 420 декодирования и маскирования получает принятые кодированные представления сигнала и декодирует и маскирует эти кодированные представления сигнала для получения представлений сигнала, пригодных для хранения в буфере 430 воспроизведения и последующего воспроизведения. Управление временем начала маскирования и выбором конкретных параметров этого маскирования, например длины маскированного сигнала, может, в порядке примера, осуществлять блок 440 управления, который отслеживает содержимое буфера флуктуаций и буфера воспроизведения и управляет работой блока 420 декодирования и маскирования.

Маскирование также может осуществляться как часть канальной подсистемы. На фиг.3 показан один пример канальной подсистемы, в которой пакеты направляются из канала 310 в канал 330 через подсистему 320, которая далее упоминается как ретрансляционная. В реальных системах функция ретрансляции может осуществляться блоками, которые могут называться по-разному в зависимости от контекста, например маршрутизаторами различных типов, прокси-серверами, краевыми серверами, контроллерами доступа к сети, контроллерами беспроводной локальной сети, шлюзами Voice-over-IP, медиашлюзами, контроллерами нелицензионной сети и пр. В данном контексте все они являются примерами ретрансляционных систем.

Один пример ретрансляционной системы, которая способна осуществлять маскирование аудиосигнала, показана на фиг.4. Согласно фиг.4 пакеты направляются из входного буфера 310 в выходной буфер 360 через подсистемы 320 и 350 коммутации пакетов. Блок 370 управления отслеживает входной и выходной буферы и в результате того отслеживания, принимает решения относительно необходимости перекодирования и маскирования. Если необходимо, коммутаторы направляют пакеты через блок 330 перекодирования и маскирования. В противном случае, коммутаторы направляют пакеты через подсистему 340 минимального действия протокола, которая выполняет минимум операций над заголовками пакетов для их согласования с применяемыми протоколами. Эти операции могут включать в себя изменение порядковых номеров и меток времени пакетов.

При передаче аудиосигналов с использованием систем, в частности, проиллюстрированных в вышеприведенном описании, требуется маскирование потерь, задержки флуктуации времени задержки, и/или расфазировки тактовых сигналов в сигналах, представляющих или частично представляющих звуковой сигнал.

Методы повторения основного тона, иногда реализуемые в модели осциллятора, базируются на оценке периода основного тона в вокализованной речи или, альтернативно, на оценке соответствующей основной частоты вокализованного речевого сигнала. Если известен период основного тона, кадр маскирования получается путем повторного считывания последнего периода основного тона. Нарушения непрерывности в начале и конце кадра маскирования и между каждыми двумя повторениями периода основного тона можно сглаживать с использованием процедуры сложения с перекрытием с оконной обработкой. Примеры метода повторения основного тона можно найти в публикации № WO 0148736 и рекомендации Международного союза электросвязи ITU-T G.711 Приложение 1. Системы, отвечающие уровню техники, предусматривают маскирование на основе повторения основного тона посредством декодеров, основанных на принципе кодирования с линейным предсказанием. В этих системах повторение основного тона обычно осуществляется в области возбуждения линейного предсказания путем считывания из цепи долгосрочного предсказателя или адаптивной кодовой книги. Примеры маскирования на основе повторения основного тона в области возбуждения линейного предсказания можно найти в патенте № US5699481, рекомендации Международного союза электросвязи ITU-T G.729, и Internet Engineering Task Force Request For Comments 3951. Вышеописанные методы применяются для маскирования потерь или возрастающей задержки, т.е. положительных флуктуаций времени задержки, и ситуаций недогрузки или близких к недогрузке входного буфера или буфера флуктуаций, например, вследствие расфазировки тактовых сигналов. Для маскирования убывающей задержки отрицательных флуктуаций времени задержки, или ситуаций перегрузки или близких к перегрузке входного буфера или буфера флуктуаций необходимо генерировать укороченные сигналы маскирования. Методы, основанные на основном тоне, позволяют делать это посредством процедуры сложения с перекрытием между периодом основного тона и более ранним периодом основного тона. Пример этого метода описан в публикации № WO 0148736. Это может быть реализовано с использованием возможностей, имеющихся в декодерах с линейным предсказанием. В порядке примера, в патенте № US5699481 раскрыт способ, согласно которому векторы вклада фиксированной кодовой книги просто отбрасываются из сигнала воспроизведения на основании состояния адаптивной кодовой книги для стабилизации периодичности основного тона в воспроизводимом сигнале. В связи с методами повторения основного тона одна задача состоит в плавном продолжении сигнала от кадра маскирования к следующему кадру. В публикации № WO 0148736 раскрыт способ решения этой задачи. Согласно изобретению, раскрытому в WO 0148736, эта задача решается посредством кадров маскирования, изменяющихся со временем и, возможно, имеющих длину, зависящую от сигнала. Хотя это позволяет эффективно осуществлять плавное продолжение сигнала в связи с маскированием флуктуаций времени задержки и расфазировки тактовых сигналов, это решение малопригодно для систем, подобных показанным на фиг.4: маскирование такого типа не позволяет гарантировать кодирование маскирования в кадры фиксированной заранее заданной длины, которые плавно соединяются с уже закодированными кадрами, которые предпочтительно ретранслируются через блок 340 минимального действия протокола.

Таким образом, важной задачей является получение кадров маскирования заранее заданной длины, равной длине регулярных кадров сигнала. Один способ маскирования с заранее заданной длиной состоит в осуществлении сглаженного сложения с перекрытием между выборками, которые превышают заранее заданную длину кадра в число раз, равное количеству кадров маскирования, с хвостовым подмножеством выборок из кадра, следующего за кадрами маскирования. Этот способ хорошо известен из уровня техники и используется, например, в рекомендации Международного союза электросвязи ITU-T G.711, Приложение 1. В принципе этот способ также можно применять при конкатенации кадра с другим кадром, когда два кадра связаны с непоследовательными кадрами в исходном аудиосигнале. Таким образом, специалист в данной области техники может сделать это, получив кадр маскирования как продолжение первого кадра, и ввести кадр маскирования в процедуру сложения с перекрытием со вторым кадром, тем самым частично уменьшив нарушения непрерывности, возникающие в границе между последней выборкой первого кадра и первой выборкой второго кадра.

Вышеописанные решения этих сценариев проблематичны. Дело в том, что в зависимости от фактической формы двух сигналов, поступающих в эту процедуру сложения с перекрытием, в результирующем аудиосигнале остается заметное нарушение непрерывности. Это нарушение непрерывности воспринимается слушателем-человеком как "всплеск" или "провал" в сигнале.

В первом сценарии, где предусмотрен один или несколько кадров маскирования, в качестве одного такого способа в литературе предложена повторная дискретизация этих кадров маскирования, см., например, Valenzuela and Animalu, "A new voice-packet reconstruction technique", IEEE, 1989. Этот способ не обеспечивает решения, когда задача состоит в конкатенации двух существующих кадров, а не конкатенации с кадром маскирования, кроме того, для конкатенации кадра маскирования и следующего кадра, этот способ по-прежнему сопряжен с проблемами. Причина в том, что необходимая повторная дискретизация для ослабления нарушения непрерывности, воспринимаемого слушателем-человеком, может вносить значительное частотное искажение, т.е. частотный сдвиг, который также воспринимается слушателем-человеком как раздражающий артефакт.

Сущность изобретения

Раскрытое изобретение, в частности, варианты его осуществления позволяют эффективно преодолевать вышеупомянутые ограничения известных решений, а также другие, не упомянутые, трудности известных решений. Согласно настоящему изобретению эти задачи решаются посредством способа, устройства хранения программ и конфигурации, которые отвечают разным аспектам настоящего изобретения, признаки которого определены в прилагаемой формуле изобретения.

В частности, по сравнению с известными методами на основе повторения основного тона раскрытое изобретение предусматривает подходы к конкатенации кадров сигнала с внутренним нарушением непрерывности на границах кадров, со значительно менее воспринимаемым артефактом, чем тот, который известен из уровня техники. Таким образом, раскрытое изобретение ослабляет ограничение, характерное для систем, отвечающих уровню техники, что позволяет непосредственно повышать воспринимаемое качество звука.

В данном раскрытии будут использоваться следующие определения. Термин "выборка" означает выборку, получаемую из оцифрованного аудиосигнала или из сигнала, выведенного из него, или коэффициентов или параметров, представляющих такие сигналы, причем эти коэффициенты или параметры имеют скалярные или векторные значения. Термин "кадр" означает множество последовательных выборок с использованием вышеприведенного определения выборки. Термин "подпоследовательность" означает множество двух или более последовательных выборок с использованием вышеприведенного определения выборки. В случае использования, например, сложения с перекрытием две последовательные подпоследовательности могут включать в себя перекрывающиеся выборки. В зависимости от выбора кадров подпоследовательность может проходить между двумя последовательными кадрами.

Согласно первому аспекту изобретение предусматривает способ конкатенации первого кадра выборок и последующего второго кадра выборок, причем способ содержит этапы, на которых применяют фазовый фильтр, предназначенный для минимизации нарушения непрерывности на границе между первым и вторым кадрами выборок.

Предпочтительно фазовый фильтр применяют к, по меньшей мере, части выборок в, по меньшей мере, двух последовательных кадрах. По меньшей мере, два последовательных кадра могут представлять собой первый и второй, последующий, кадры.

Фазовый фильтр можно применять к, по меньшей мере, части выборок в, по меньшей мере, втором кадре и к, по меньшей мере, части выборок во, по меньшей мере, одном кадре, следующем за вторым кадром. Фазовый фильтр можно применять к, по меньшей мере, части выборок во, по меньшей мере, втором кадре и к, по меньшей мере, части выборок в, по меньшей мере, двух кадрах, следующих за вторым кадром.

Фазовый фильтр можно применять к, по меньшей мере, части выборок в, по меньшей мере, первом кадре и к, по меньшей мере, части выборок в, по меньшей мере, одном кадре, предшествующем первому кадру. Фазовый фильтр можно применять к, по меньшей мере, части выборок в, по меньшей мере, первом кадре и к, по меньшей мере, части выборок в, по меньшей мере, двух кадрах, предшествующих первому кадру.

Предпочтительно фазовый фильтр включает в себя секцию всечастотного фильтра, в простых предпочтительных вариантах осуществления фазовый фильтр является всечастотным фильтром. Секция всечастотного фильтра может представлять собой секцию параметрического всечастотного фильтра. Секция параметрического всечастотного фильтра предпочтительно включает в себя от 1 до 20 ненулевых коэффициентов.

Фазовый фильтр может включать в себя сдвиг фазы подпоследовательности из, по меньшей мере, одной выборки на π радиан.

В предпочтительных вариантах осуществления фазовый фильтр изменяется с течением времени. Фазовый фильтр предпочтительно изменяется с течением времени, благодаря чему характеристика фазового фильтра аппроксимирует нулевую фазу в конечном количестве выборок от границы между первым и вторым кадрами, например в конечном количестве выборок после границы между первым и вторым кадрами. Предпочтительно фазовый фильтр предпочтительно имеет первоначально выбранную фазовую характеристику в начальный момент времени. Количество выборок от границы может зависеть от первоначально выбранной фазовой характеристики фазового фильтра. Момент времени, когда характеристика фазового фильтра аппроксимирует нулевую фазу, может находиться в, по меньшей мере, одном из первого и второго кадров. Альтернативно, момент времени, когда характеристика фазового фильтра аппроксимирует нулевую фазу, находится в кадре, который является, по меньшей мере, одним кадром, предшествующим первому кадру. В порядке дополнительной альтернативы, момент времени, когда характеристика фазового фильтра аппроксимирует нулевую фазу, находится в кадре, который является, по меньшей мере, одним кадром, следующим за вторым кадром.

Количество выборок от границы может зависеть от характеристик подпоследовательности выборок во втором кадре или в кадре, следующем за вторым кадром. Например, в случае, когда входные выборки представляют речевой сигнал и характеристики таких выборок можно использовать для определения, представляют ли выборки вокализованную или невокализованную речь.

Количество выборок от границы может зависеть от характеристик подпоследовательности выборок в первом кадре или в кадре, предшествующем первому кадру.

Фазовый фильтр может включать в себя многофазную структуру. Фазовая фильтрация может содержать процедуру повышающей дискретизации.

Способ включает в себя этап, на котором применяют процедуру взвешенного сложения с перекрытием, например процедуру взвешенного сложения с перекрытием с использованием согласованного фильтра. Одну часть выборок, полученных в этой процедуре взвешенного сложения с перекрытием, предпочтительно используют для инициализации состояния фазового фильтра, если другая часть выборок, полученных в этой процедуре сложения с перекрытием, остается после этой инициализации, эти выборки предпочтительно используют как первые входные выборки фазового фильтра.

По меньшей мере, один из первого и второго кадров включает в себя одну или несколько выборок маскирования, которые можно генерировать методом маскирования. Метод маскирования может представлять собой метод, который включает в себя генерацию двух последовательных подпоследовательностей выборок маскирования на основании двух последовательных подпоследовательностей буферизованных выборок в обратном временном порядке.

Фазовый фильтр может базироваться на выборках маскирования, генерируемых из второго кадра назад во времени. Начальное состояние фазового фильтра может базироваться на выборках маскирования. Количество выборок, которые могут быть включены из, по меньшей мере, одной из выборок маскирования, выбирается, например, для максимизации меры совпадения. Мера совпадения может включать в себя корреляцию, например нормированную корреляцию.

В способе, как описано выше, выборки в первом и втором кадрах представляют оцифрованный аудиосигнал, например аудиосигнал, включающий в себя речевой сигнал.

Согласно предпочтительным вариантам осуществления этого изобретения для фазовой фильтрации используется всечастотный фильтр, например параметрический всечастотный фильтр. Фазовый фильтр выполнен как изменяющийся во времени, благодаря чему по мере удаления от границы кадра его характеристика постепенно приближается к нулевой фазе. В точке достижения нулевой фазы фильтр отсоединяется от тракта сигнала. Эта точка может находиться в том же кадре, где нарушение непрерывности на границе кадра уменьшено этим методом, или эта точка может предпочтительно находиться в одном или нескольких кадрах от точки, где было уменьшено нарушение непрерывности на границе кадра. Согласно другим предпочтительным вариантам осуществления изобретения определяются начальный фазовый фильтр, начальное состояние фильтра и входной сигнал фильтра, например, для минимизации нарушения непрерывности между последними выборками первого кадра и первыми выборками второго кадра, причем минимизация осуществляется путем максимизации меры подобия между сглаженным продолжением последних выборок в первом кадре, полученным методом маскирования, и начальной частью входа, состояния или выхода фазовой фильтрации выборок во втором кадре. Кроме того, в предпочтительных вариантах осуществления выборки, представляющие время до первой выборки второго кадра, получаются методом маскирования, выполняющимся назад во времени, с целью оценивания входа, состояния и/или выхода фазового фильтра из первой выборки второго кадра и вперед. В дополнительных предпочтительных вариантах осуществления процедура взвешенного сложения с перекрытием и предпочтительно процедура взвешенного сложения с перекрытием с использованием согласованного фильтра применяются между выборками маскирования из первого кадра и входом, состоянием или выходом из фазового фильтра.

Согласно второму аспекту изобретение предусматривает программный код, выполняемый на компьютере, предназначенный для осуществления способа согласно первому аспекту. Такой программный код может быть записан в машинозависимой или машинонезависимой форме и на любом языке программирования, например в машинном коде или на языке программирования более высокого уровня.

Согласно третьему аспекту изобретение предусматривает устройство хранения программ, содержащее последовательность команд для микропроцессора, например микропроцессора общего назначения, для осуществления способа согласно первому аспекту. Устройство хранения может представлять собой средство хранения данных любого типа, например диски, карты памяти или линейки памяти, жесткие диски и т.д.

Согласно четвертому аспекту изобретение предусматривает конфигурацию, например устройство или аппарат, для приема оцифрованного аудиосигнала, причем упомянутая конфигурация включает в себя

средство памяти для хранения выборок, представляющих принятый оцифрованный аудиосигнал, и

средство процессора для осуществления способа согласно первому аспекту.

Реализация этого изобретения адекватными средствами, например описанными ниже для предпочтительных вариантов осуществления, позволяет декодеру и системе маскирования и/или транскодеру и системе маскирования эффективно маскировать последовательности потерянных или задержанных пакетов без привнесения артефактов, мешающих восприятию. Таким образом, заявленное изобретение обеспечивает двустороннюю передачу аудиосигнала высокого качества в условиях сильной расфазировки тактовых сигналов, канальных потерь и/или флуктуаций времени задержки.

Краткое описание чертежей

Ниже приведено более подробное описание изобретения со ссылкой на прилагаемые чертежи, на которых показано следующее:

фиг.1 - блок-схема известной системы сквозной передачи звука с коммутацией пакетов, для которой характерны эффекты потерь, задержки, флуктуаций времени задержки и/или расфазировки тактовых сигналов;

фиг.2 - иллюстративная приемная подсистема, осуществляющая буферизацию флуктуаций, декодирование и буферизацию маскирования и воспроизведения под управлением блока управления;

фиг.3 - блок-схема ретрансляционной подсистемы канала с коммутацией пакетов, для которой характерны эффекты расфазировки тактовых сигналов, потерь, задержки и флуктуаций времени задержки;

фиг.4 - иллюстративная ретрансляционная подсистема, осуществляющая входную буферизацию, выходную буферизацию и, при необходимости, перекодирование и маскирование под управлением блока управления;

фиг.5 - блок-схема ряда предпочтительных вариантов осуществления настоящего изобретения;

фиг.5A - иллюстративная схема подпоследовательностей в кадрах маскирования, начиная с подпоследовательностей, базирующихся на последних буферизованных подпоследовательностях, в обратном временном порядке;

фиг.5B - другой пример более крупной последовательности подпоследовательностей в кадрах маскирования, начиная с последних двух буферизованных подпоследовательностей в обратном временном порядке, и где последовательные подпоследовательности базируются на буферизованных подпоследовательностях с дополнительным сдвигом назад во времени;

фиг.5C - индексы счетчика выборок в шаблоне индексирования, форматированном шагами назад и длинами чтения;

фиг.6 - иллюстративная схема сигналов, используемых в функции индексирования и интерполяции;

фиг.7 - логическая блок-схема одного возможного варианта реализации логики принятия решений для критериев остановки;

фиг.8 - логическая блок-схема одного возможного способа осуществления итерационной совместной оптимизации сглаживания и коррекции, критериев остановки и количества допустимых повторений;

фиг.9 - схема использования циклического сдвига и сложения с перекрытием в связи с инициализацией и возбуждением фильтра регулировки фазы; и

фиг.10 - один вариант осуществления раскрытой процедуры взвешенного сложения с перекрытием.

Хотя изобретение допускает различные модификации и альтернативные формы, конкретный вариант осуществления показан в порядке примера на чертежах и подробно описан ниже. Однако следует понимать, что изобретение не ограничивается конкретными раскрытыми формами. Напротив, изобретение охватывает все модификации, эквиваленты и альтернативы, отвечающие сущности и объему изобретения, определяемым прилагаемой формулой изобретения.

Описание предпочтительных вариантов осуществления

Ниже приведено описание изобретения в связи с конкатенацией кадра маскирования и последующего кадра. Однако, как следует из объема формулы изобретения, способ конкатенации, отвечающий изобретению, имеет значительно более широкую сферу применения.

Способ, отвечающий изобретению, осуществляется в блоке 420 декодирования и маскирования приемника, например, показанном на фиг.2, или осуществляется в блоке 330 перекодирования и маскирования ретранслятора, например, показанном на фиг.4, или в любом другом месте системы связи, где его выполнение целесообразно. В этих местах имеется некоторое количество буферизованных кадров сигнала и требуется некоторое количество кадров маскирования. Доступные кадры сигнала и нужные кадры маскирования могут состоять из выборок во временной области аудиосигнала, например речевого сигнала, или могут состоять из выборок, выведенных из них, например выборок возбуждения линейного предсказания, или могут состоять из других коэффициентов, выведенных из аудиосигнала и полностью или частично представляющих кадры звукового сигнала. Примерами таких коэффициентов являются коэффициенты частотной области, коэффициенты синусоидальной модели, коэффициенты кодирования с линейным предсказанием, коэффициенты интерполяции формы сигнала и другие множества коэффициентов, которые полностью или частично представляют выборки аудиосигнала.

На фиг.5 показан предпочтительный вариант осуществления изобретения. Согласно фиг.5 доступные кадры сигнала 595, которые могут представлять собой принятые и декодированные или перекодированные кадры сигнала или кадр маскирования из более ранней операции этого или других способов генерации кадров маскирования, или комбинации вышеупомянутых типов кадров сигнала, сохраняются в буфере 600 кадров. Сигнал в буфере кадров анализируется генератором 660 шаблона индекса. Генератор шаблона индекса может предпочтительно использовать оценки основного тона 596 и вокализации 597 сигнала. В зависимости от общей конфигурации системы эти оценки могут быть доступны для ввода из других процессов, например процесса кодирования, декодирования или перекодирования, или могут вычисляться другими средствами предпочтительно с использованием методов анализа сигнала, отвечающих уровню техники. Кроме того, генератор шаблона индекса принимает количество 598 кадров сигнала маскирования для генерации и указатели 599 начала и конца конкретных кадров сигнала в буфере кадров, которые заменяются кадром или кадрами маскирования. В порядке примера, если эти буферы указывают на конец буфера кадров, это означает, что кадр или кадры маскирования должны быть сделаны адекватными для следования за сигналом, хранящимся в буфере кадров. В порядке другого примера, если эти указатели указывают непустое подмножество последовательных кадров в буфере кадров, это означает, что кадр или кадры маскирования должны заменить эти кадры в последовательность кадров, представляющую или частично представляющую звуковой сигнал.

Для дальнейшей иллюстрации допустим, что буфер 600 кадров содержит кадры сигнала A, B, C, D, E и что количество кадров 598 маскирования равно двум. Тогда, если указатели кадров, подлежащих замене 599, указывают на конец буфера кадров, это означает, что два кадра сигнала маскирования должны следовать последовательно после кадра сигнала E. Напротив, если указатели 599 указывают на кадры сигнала B, C, D, два кадра маскирования должны заменять кадры сигнала B, C, D и следовать последовательно после кадра сигнала A, и за ними должен следовать последовательно кадр сигнала E.

Что касается способов определения количества кадров 598 маскирования и подмножества кадров, которые в конечном итоге должны заменять кадры маскирования, т.е. указателей 599, предпочтительно использовать способы, отвечающие уровню техники. Таким образом, данные 596, 597, 598 и 599 совместно с кадрами 595 сигнала составляют входные данные для способа, устройства и конфигурации, отвечающих настоящему изобретению.

В некоторых общих конфигурациях системы длина или размер кадра сигнала предпочтительно поддерживаются постоянными в ходе работы блока маскирования. Помимо прочих сценариев, это обычно имеет место, когда блок маскирования интегрирован в ретрансляционную систему, где результат маскирования подлежит компоновке в пакеты, представляющие звуковой сигнал в интервале времени заранее заданной длины, причем эта заранее заданная длина определяется в другом месте. В порядке примера, эта заранее заданная длина может определяться в ходе согласования протоколов при установлении вызова в системе Voice over IP и может изменяться в ходе преобразования в соответствии, например, с механизмами управления сетевой перегрузкой. Некоторые варианты осуществления настоящего изобретения, как прояснено ниже, предпочтительно отвечают этому требованию работы с заранее заданной длиной кадра сигнала. Однако инновация как таковая не ограничивается этими системными требованиями; другие варианты осуществления данной инновации предусматривают работу с маскированиями, которые составляют нецелое число кадров, и маскированиями кадров, которые имеют длины, зависящие от времени, и где эти длины могут зависеть от конкретного содержимого буфера кадров, возможно в комбинации с другими факторами.

Варианты осуществления настоящего изобретения могут предпочтительно использовать операцию 610 сглаживания и коррекции, выполняемую над сигналом 605 из буфера кадров. В этой операции сглаживания и коррекции генерируется сигнал 615, в котором кадры, более ранние по времени, чем кадр или кадры маскирования, имеют повышенное подобие с кадром или кадрами сигнала, которые подлежат замещению кадром, или кадрами маскирования, или кадром непосредственно перед ним. Альтернативно, если кадр или кадры маскирования вставлены последовательно с существующими кадрами без замещения, имеет место подобие с кадром или кадрами непосредственно перед назначенной позицией кадра или кадров маскирования. В дальнейшем в обоих случаях будет использоваться термин «подобие». Подобие интерпретируется слушателем-человеком. Сглаживание и коррекция получает сигнал с повышенным подобием, в то же время сохраняя естественно звучащую эволюцию сигнала 615. Примеры операций повышения подобия, предпочтительно выполняемых сглаживанием и коррекцией 610, включают в себя повышение сглаженности и подобия в таких параметрах, как энергетическая огибающая, контур основного тона, степень вокализации, частота среза вокализации и спектральная огибающая, а также других параметрах, важных для восприятия.

В отношении каждого из этих параметров резкие переходы в эволюции параметра в кадрах, подлежащие сглаживанию и коррекции, отфильтровываются и средний уровень параметра в этих кадрах плавно изменяется для приобретения большего подобия в вышеупомянутом смысле. Предпочтительно подобие вводится только в той степени, которая позволяет сохранять естественно звучащую эволюцию сигнала. Под управлением генератора 660 шаблона индекса сглаживание и коррекция могут предпочтительно сглаживать переходы и нарушения непрерывности, которые, в противном случае, могли бы появляться в последующей операции 620 индексирования и интерполяции. Кроме того, сглаживание и коррекция контура основного тона могут предпочтительно контролироваться генератором 660 шаблона индекса таким образом, чтобы минимизировать искажение, которое, так или иначе, привносится в кадры маскирования позже фазовым фильтром 650. Операция сглаживания и коррекции может предпочтительно использовать замену, смешивание, интерполяцию и/или слияние сигнала или параметра с кадрами сигнала (или параметрами, выведенными из них), найденными с дополнительным сдвигом назад во времени в буфере кадров 600. Операция сглаживания и коррекции 610 может осуществляться вне системы без отхода от общего объема настоящего изобретения. В этом случае сигнал 615 равен сигналу 605, и вход 656 сигнала и выход 665 управления генератора 660 шаблона индекса можно в этом случае исключить из конфигурации системы.

Операция 620 индексирования и интерполяции принимает, возможно, сглаженный и скорректированный сигнал 615 и шаблон 666 индекса. Кроме того, в некоторых предпочтительных вариантах осуществления настоящего изобретения операция индексирования и интерполяции принимает индикатор 667 качества совпадения. Индикатор качества совпадения может иметь скалярное значение в каждый момент времени или может быть функцией времени и частоты. Предназначение индикатора качества совпадения будет пояснено ниже. Шаблон 666 индекса параметризует операцию функция индексирования и интерполяции.

На фиг.5A показан пример того, как шаблон индекса может индексировать подпоследовательности в буферизованных выборках, BS1, BS2, BS3, BS4, с постепенным сдвигом назад во времени при синтезе одного или нескольких кадров маскирования. В показанном примере последовательные подпоследовательности CS1, CS2, CS3, CS, CS5, CS6, CS7 в кадрах маскирования CF1, CF2, CF3 базируются на буферизованных подпоследовательностях BS1, BS2, BS3 и BS4 выборок в кадрах BF1, BF2. Можно видеть, что подпоследовательности маскирования CS1-CS7 индексированы исходя из буферизованных подпоследовательностей BS1-BS4, при этом указатель положения постепенно перемещается назад и затем постепенно перемещается вперед во времени, что выражается функциональным обозначением CS1(BS4), CS2(BS3), CS3(BS2), означающим, что CS1 базируется на BS4, и т.д. Таким образом, на фиг.5A показан один пример, иллюстрирующий, как последовательные подпоследовательности в кадрах маскирования могут следовать друг за другом на основании последовательных буферизованных подпоследовательностей, но переупорядоченных во времени. Можно видеть, что первые четыре подпоследовательности маскирования CS1(BS4), CS2(BS3), CS3(BS2) и CS4(BS1) выбраны базирующимися на последних четырех подпоследовательностях буферизованных выборок BS1, BS2, BS3, BS4, в последовательном порядке, но в обратном временном порядке, таким образом начиная с последней буферизованной подпоследовательности BS1. После первых четырех подпоследовательностей в обратном временном порядке следуют три подпоследовательности CS5, CS6, CS7, которые все базируются на последовательных буферизованных подпоследовательностях во временном порядке, а именно BS2, BS3 и BS4 соответственно. Предпочтительный шаблон индекса формируется генератором шаблона 660 индекса и может варьироваться в широких пределах в зависимости от входов 656, 596, 597, 598 и 599 этого блока. На фиг.5B приведен, с сохранением обозначений фиг.5A, другой иллюстративный пример того, как подпоследовательности маскирования CS1-CS11 могут базироваться на буферизованны