2407071 - Способ генерации кадров маскирования в системе связи

Способ генерации кадров маскирования в системе связи

Иллюстрации

Показать все

Изобретение относится к телекоммуникационным системам, в частности к способу, устройству и конфигурации, которые позволяют компенсировать потери и/или флуктуации времени задержки, и/или расфазировку тактовых сигналов пакетов сигналов. Способ генерации последовательности выборок маскирования в связи с передачей оцифрованного аудиосигнала содержит этап, на котором генерируют последовательность выборок маскирования из буферизованных выборок оцифрованного представления аудиосигнала во временном порядке взятия выборок, причем, по меньшей мере, две последовательные подпоследовательности выборок в последовательности выборок маскирования базируются на подпоследовательностях буферизованных выборок, при этом подпоследовательности буферизованных выборок следуют друг за другом в измененном временном порядке. Технический результат - повышение качества аудиосигнала при передаче в беспроводных коммуникационных системах и сетях с коммутацией пакетов. 3 н. и 34 з.п ф-лы, 13 ил.

Реферат

Область техники, к которой относится изобретение

Настоящее изобретение относится к телекоммуникационным системам. В частности, настоящее изобретение относится к способу, устройству и конфигурации, которые позволяют компенсировать потери и/или флуктуации времени задержки, и/или расфазировку тактовых сигналов пакетов сигналов с целью повышения качества передачи сигнал в беспроводных телекоммуникационных системах и сетях с коммутацией пакетов.

Описание уровня техники

Современные телекоммуникации базируются на цифровой передаче сигналов. Например, согласно фиг.1, передатчик 200 получает звуковой сигнал от источника 100. Этот источник может соответствовать одному или нескольким говорящим людям и другим источникам акустической волны, воспринимаемым микрофоном, или может являться системой хранения или генерации звукового сигнала, например системой текстуально-речевого синтеза или диалога. Если источник сигнал является аналоговым, он преобразуется в цифровое представление посредством аналого-цифрового преобразователя. Затем цифровое представление кодируется и компонуется в пакеты, формат которых пригоден для цифрового канала 300. Пакеты передаются по цифровому каналу. Цифровой канал обычно содержит несколько уровней абстракции.

В уровне абстракции, показанном на фиг.1, цифровой канал принимает последовательность пакетов на входе и доставляет последовательность пакетов на выходе. Вследствие ухудшения канала, обычно вызванного шумом, неоднородностями и перегрузкой в канале, выходная последовательность пакетов обычно ухудшается за счет потери некоторых пакетов и задержки по времени доставки и флуктуаций времени задержки других пакетов. Кроме того, различие тактовых генераторов передатчика и приемника может приводить к расфазировке тактовых сигналов. Задача приемника 400 состоит в декодировании принятых пакетов данных и в преобразовании декодированных цифровых представлений из потока пакетов и декодировании их в цифровые представления сигнала и дальнейшем преобразовании этих представлений в декодированный звуковой сигнал в формате, пригодном для вывода на получатель сигнала 500. Этот получатель сигнала может являться одним человеком или несколькими людьми, которые воспринимают декодированный звуковой сигнал посредством, например, одного или нескольких громкоговорителей. Альтернативно, получатель сигнала может представлять собой систему хранения речевых сигналов или аудиосигналов или диалоговую систему или распознаватель речевых сигналов или аудиосигналов.

Задача приемника состоит в точном воспроизведении сигнала, который можно представлять получателю. Когда получатель прямо или косвенно представляет слушателя-человека, задачей приемника является получение представления звукового сигнала, которое, будучи представлено слушателю-человеку, точно воспроизводит воспринимаемое человеком впечатление и информацию акустического сигнала от источника или источников. Для решения этой задачи в общем случае, когда канал ухудшает принятую последовательность пакетов за счет потерь, задержки, флуктуаций времени задержки и расфазировки тактовых сигналов, которые могут дополнительно присутствовать, эффективное маскирование необходимо как часть приемной подсистемы.

В порядке примера, одна возможная реализация приемной подсистемы для осуществления этой задачи показана на фиг.2. Согласно фиг.2 входящие пакеты сохраняются в буфере 410 флуктуаций, откуда блок 420 декодирования и маскирования получает принятые кодированные представления сигнала и декодирует и маскирует эти кодированные представления сигнала для получения представлений сигнала, пригодных для хранения в буфере 430 воспроизведения и для последующего воспроизведения. Управление временем начала маскирования и выбором конкретных параметров этого маскирования, например, длины маскированного сигнала, может, в порядке примера, осуществлять блок 440 управления, который отслеживает содержимое буфера флуктуаций и буфера воспроизведения и управляет работой блока 420 декодирования и маскирования.

Маскирование также может осуществляться как часть канальной подсистемы. На фиг.3 показан один пример канальной подсистемы, в которой пакеты переправляются из канала 310 в канал 330 через подсистему 320, которая в дальнейшем будет называться ретрансляционной. В реальных системах функция ретрансляции может осуществляться блоками, которые могут называться по-разному в зависимости от контекста, например, маршрутизаторами различных типов, прокси-серверами, краевыми серверами, контроллерами доступа к сети, контроллерами беспроводной локальной сети, шлюзами Voice-over-IP, медиа-шлюзами, контроллерами нелицензионной сети и пр. В данном контексте все они являются примерами ретрансляционных систем.

Один пример ретрансляционной системы, которая может осуществлять маскирование аудиосигнала, показана на фиг.4. Согласно фиг.4 пакеты направляются из входного буфера 310 в выходной буфер 360 через подсистемы 320 и 350 коммутации пакетов. Блок 370 управления отслеживает входной и выходной буферы и в результате того отслеживания принимает решения относительно необходимости перекодирования и маскирования. Если это необходимо, коммутаторы направляют пакеты через блок 330 перекодирования и маскирования. Если это не нужно, коммутаторы направляют пакеты через подсистему 340 минимального действия протокола, которая выполняет минимум операций над заголовками пакетов для их согласования с применяемыми протоколами. Эти операции могут включать в себя изменение порядковых номеров и меток времени пакетов.

При передаче аудиосигналов с использованием систем, в частности, проиллюстрированных в вышеприведенном описании, требуется маскирование потерь, задержки, флуктуации времени задержки, и/или расфазировки тактовых сигналов в сигналах, представляющих или частично представляющих звуковой сигнал. Подходы к задаче маскирования, отвечающие уровню техники, предусматривают использование методов повторения основного тона и методов изменения шкалы времени.

Методы повторения основного тона, иногда реализуемые в модели осциллятора, базируются на оценке периода основного тона в вокализованной речи или, альтернативно, на оценке соответствующей основной частоты вокализованного речевого сигнала. Если известен период основного тона, кадр маскирования получается путем повторного считывания последнего периода основного тона. Нарушения непрерывности в начале и конце кадра маскирования и между каждыми двумя повторениями периода основного тона можно сглаживать с использованием процедуры сложения с перекрытием с оконной обработкой. Примеры метода повторения основного тона можно найти в публикации № WO 0148736 и рекомендации Международного союза электросвязи ITU-T G.711 Приложение 1.

Системы, отвечающие уровню техники, предусматривают маскирование на основе повторения основного тона посредством декодеров, основанных на принципе кодирования с линейным предсказанием. В этих системах повторение основного тона обычно осуществляется в области возбуждения линейного предсказания путем считывания из цепи долгосрочного предсказателя или адаптивной кодовой книги. Примеры маскирования на основе повторения основного тона в области возбуждения линейного предсказания можно найти в патенте № US5699481, рекомендации Международного союза электросвязи ITU-T G.729, и Internet Engineering Task Force Request For Comments 3951. Вышеописанные методы применяются для маскирования потерь или возрастающей задержки, т.е. положительных флуктуаций времени задержки, и ситуаций недогрузки или близких к недогрузке входного буфера или буфера флуктуаций, например, вследствие расфазировки синхронизирующих импульсов. Для маскирования убывающей задержки, отрицательных флуктуаций времени задержки, или ситуаций перегрузки или близких к перегрузке входного буфера или буфера флуктуаций, необходимо генерировать укороченные сигналы маскирования. Методы, основанные на основном тоне, позволяют делать это посредством процедуры сложения с перекрытием между периодом основного тона и более ранним периодом основного тона. Пример этого метода можно найти в публикации № WO 0148736.

Это может делаться с использованием возможностей, имеющихся в декодерах с линейным предсказанием. В порядке примера, в патенте № US5699481 раскрыт способ, согласно которому векторы вклада фиксированной кодовой книги просто отбрасываются из сигнала воспроизведения на основании состояния адаптивной кодовой книги для стабилизации периодичности основного тона в воспроизводимом сигнале. В связи с методами повторения основного тона одна задача состоит в плавном продолжении сигнала от кадра маскирования к следующему кадру. В публикации № WO 0148736 раскрыт способ решения этой задачи. Согласно изобретению, раскрытому в WO 0148736, эта задача решается посредством кадров маскирования, изменяющихся во времени и, возможно, имеющих длину, зависящую от сигнала. Хотя это позволяет эффективно осуществлять плавное продолжение сигнала в связи с маскированием флуктуаций времени задержки и расфазировки тактовых сигналов, это решение малопригодно для систем, подобных показанным на фиг.4: маскирование такого типа не позволяет гарантировать кодирование маскирования в кадры фиксированной заранее заданной длины, которые плавно соединяются с уже закодированными кадрами, которые предпочтительно ретранслируются через блок 340 минимального действия протокола.

Постоянная проблема, связанная с методами маскирования потерь и резко возрастающей задержки, основанными на повторении основного тона, состоит в том, что повторение периодов основного тона делает воспроизводимый звуковой сигнал неестественным. В частности, этот аудиосигнал оказывается слишком периодическим. В худшем случае, в воспроизводимом звуковом сигнале воспринимаются так называемые струнные звуки. Из уровня техники известны различные способы снятия остроты этой проблемы. Эти способы включают в себя использование периодов повторения, вдвое или втрое превышающих оцененный период основного тона. В качестве одного примера, в Internet Engineering Task Force Request For Comments 3951 описан способ, согласно которому используется период вдвое больший оцененного периода основного тона, если оцененный период основного тона меньше 10 мс. В порядке другого примера, в рекомендации Международного союза электросвязи ITU-T G.711 Приложение 1 описан способ, согласно которому используется удвоение и затем утроение периода повторения для повторения двух и затем трех периодов основного тона вместо повторения одного периода основного тона. Полное описание этого способа можно найти в рекомендации Международного союза электросвязи ITU-T G.711 Приложение 1. Кроме того, для ослабления струнных звуков обычно применяется примешивание сигнала маскирования со случайной или псевдослучайной составляющей сигнала, уровень которого зависит от уровня вокализации речи, и постепенное ослабление сигнала маскирования. Иногда этот псевдослучайной сигнал получается посредством операций над буферизованным сигналом или с использованием таких средств, как случайные кодовые книги, которые уже имеются в декодере. Примеры использования таких средств можно найти в патенте № US5699481, рекомендации Международного союза электросвязи ITU-T G.729 и Internet Engineering Task Force Request For Comments 3951. Постепенное ослабление также используется для подавления привнесенных артефактов. Хотя, при данном базовом способе маскирования, это может быть наилучшим выбором для интерпретации ближним слушателем, дальний слушатель, в случае наличия эха и использования адаптивного фильтра для подавления этого эха, может интерпретировать эффект этого ослабления как особенно негативный. Дело в том, что ослабление снижает устойчивость возбуждения адаптивного эхокомпенсатора. Таким образом, отслеживание этого к фактическому пути распространения эха ухудшается, и дальний слушатель может испытывать еще большее эхо.

Методы изменения шкалы времени наподобие описанных, например, в Linag, Farber and Girod, "Adaptive Playout Scheduling and Loss Concealment for Voice Communication over IP Networks", IEEE Transactions on Multimedia, т. 5, № 4, стр. 532-543, дек. 2003 функционируют посредством процедуры согласованного сглаженного сложения с перекрытием. В этой процедуре сегмент сигнала буферизуется, но еще не воспроизведенный сигнал обрабатывается методом сглаживающего окна и идентифицируется как шаблонный сегмент, после чего осуществляется поиск других сегментов, обработанных методом сглаживающего окна, для идентификации подобного сегмента, где подобие может быть, например, в мере корреляции. Затем шаблонный сегмент, обработанный методом сглаживающего окна, и подобный сегмент, обработанный методом сглаживающего окна, перекрываются и суммируются для формирования сигнала с измененной временной шкалой. При растяжении временной шкалы воспроизведения область поиска подобного сегмента располагается до шаблонного сегмента во времени взятия выборок. Напротив, при сжатии временной шкалы воспроизведения область поиска подобного сегмента располагается после шаблонного сегмента во времени взятия выборок. Согласно известным методам изменения шкалы времени длина шаблонного или подобного сегмента и применяемые к ним окна заранее задаются до выполнения изменения шкалы времени, эти величины не адаптируются в соответствии с характеристиками конкретного сигнала, к которому применяется изменение шкалы времени. Согласно Linag, Farber and Girod, "Adaptive Playout Scheduling and Loss Concealment for Voice Communication over IP Networks", IEEE Transactions on Multimedia, т.5, №4, стр. 532-543, дек. 2003: при изменении шкалы времени согласно уровню техники пиковые задержки невозможно эффективно ослаблять от начальной точки при планировании воспроизведения с низкой задержкой, которое необходимо для осуществления оперативной двусторонней речевой связи в сетях с коммутацией пакетов.

Известны и другие методы, сходные с методами изменения шкалы времени и повторения основного тона. Один тип, который следует упомянуть в этом контексте, это методы маскирования на синусоидальной основе. См., например, Rødbro and Jensen, "Time-scaling of Sinusoids for Intelligent Jitter Buffer in Packet Based Telephony", в IEEE Proc. Workshop on Speech Coding, 2002, стр. 71-73. В зависимости от величины интерполяции соответствующее повторение основного тона, которое осуществляется этими методами посредством области синусоидальной модели, эти методы испытывают те же ограничения, которые были выявлены для вышеупомянутых методов повторения основного тона и изменения шкалы времени.

Сущность изобретения

Раскрытое изобретение, в частности варианты его осуществления, позволяют эффективно преодолевать вышеупомянутые ограничения известных решений, например слышимые артефакты, а также другие не упомянутые трудности известных решений.

В частности, по сравнению с известными методами на основе повторения основного тона, раскрытое изобретение предусматривает подходы к генерации сигналов маскирования, представляющих звуковой сигнал, где эти сигналы маскирования содержат значительно меньше артефактов, мешающих восприятию, например, струнных звуков. Таким образом, достигается ослабление ограничения этих систем, что позволяет непосредственно повышать воспринимаемое качество звука. Одновременно, это получается при внесении значительно меньшего ослабления в сигналы маскирования. Таким образом, ослабляется второе ограничение систем на основе повторения основного тона. Это ослабление второго ограничения также обеспечивает непосредственное повышение воспринимаемого качества сигнала маскирования на ближней стороне канала связи. Кроме того, ослабление второго ограничения обеспечивает, в системах с акустическим эхо и адаптивным фильтром на ближнем конце для ослабления эффекта акустического эха, воспринимаемого на дальнем конце, повышение воспринимаемого качества на дальней стороне канала связи. Этот второй эффект обусловлен тем, что сигналы маскирования, соответствующие заявленному изобретению, поскольку они демонстрируют меньшее ослабление, обеспечивают более устойчивое возбуждение для процесса адаптации адаптивного эхокомпенсирующего фильтра. Кроме того, раскрытые методы проявляют большую устойчивость к акустическому фоновому шуму, чем известные методы на основе повторения основного тона.

Кроме того, в частности, по сравнению с известными методами изменения шкалы времени заявленное изобретение позволяет маскировать пиковые задержки в системе с воспроизведением с низкой задержкой или планированием выходного буфера, что необходимо для оперативной двусторонней речевой связи в сетях с коммутацией пакетов, тем самым ослабляя это главное ограничение в известном изменении шкалы времени.

Согласно первому аспекту изобретение предусматривает способ генерации последовательности выборок маскирования в связи с передачей оцифрованного аудиосигнала, причем способ содержит этап, на котором генерируют последовательность выборок маскирования из буферизованных выборок оцифрованного представления аудиосигнала во временном порядке взятия выборок, в котором, по меньшей мере, две последовательные подпоследовательности выборок в последовательности выборок маскирования базируются на подпоследовательностях буферизованных выборок, причем подпоследовательности буферизованных выборок следуют друг за другом в измененном временном порядке.

К первому аспекту применяются следующие определения, которые будут пользоваться в данном описании. Термин "выборка" означает выборку, получаемую из оцифрованного аудиосигнала или из сигнала, выведенного из него, или коэффициентов или параметров, представляющих такие сигналы, причем эти коэффициенты или параметры имеют скалярные или векторные значения. Термин "кадр" означает множество последовательных выборок с использованием вышеприведенного определения выборки. Термин "подпоследовательность" означает множество двух или более последовательных выборок с использованием вышеприведенного определения выборки. Таким образом, в особом случае подпоследовательность идентична выборке. В случае использования, например сложения с перекрытием, две последовательных подпоследовательности могут включать в себя перекрывающиеся выборки. В зависимости от выбора кадров подпоследовательность может проходить между двумя последовательными кадрами. В предпочтительных вариантах осуществления подпоследовательности упорядочены так, что одна подпоследовательность не может быть подмножеством другой подпоследовательности.

Предпочтительно, по меньшей мере, две последовательные подпоследовательности выборок в последовательности выборок маскирования базируются на подпоследовательностях буферизованных выборок, причем подпоследовательности буферизованных выборок следуют друг за другом в обратном временном порядке. Таким образом, в предпочтительных вариантах осуществления последовательность выборок маскирования включает в себя последовательные подпоследовательности, например последовательные выборки, которые базируются на последовательных буферизованных выборках в обратном временном порядке. Например, две, три, четыре или даже больше последовательных подпоследовательностей выборок в последовательности выборок маскирования могут базироваться на подпоследовательностях буферизованных выборок, которые следуют друг за другом в обратном временном порядке. Иными словами, генерируемая последовательность маскирования предпочтительно включает в себя части, которые базируются на более или менее прямом обратном воспроизведении буферизованных выборок. В предпочтительном варианте осуществления последовательность выборок маскирования включает в себя множество последовательных выборок буферизованных выборок в обратном временном порядке. Вычисление, по меньшей мере, части последовательности выборок маскирования на основании буферизованных выборок с использованием этой схемы переупорядочения или обратного упорядочения обеспечивает последовательность маскирования с более естественным звучанием, не сопровождающуюся эффектами струнного звука, характерными для уровня техники, а также способствует устранению или сокращению некоторых других артефактов.

Описанный способ имеет многочисленные преимущества в связи с системами связи, например системами VoIP. Здесь оцифрованные речевые сигналы передаются в кадрах, и передачи испытывают потери кадров и флуктуации, в связи с чем возникает необходимость в последовательности маскирования выборок для, по меньшей мере, частичного снижения хорошо слышимого и раздражающего прерывания сигнала.

В предпочтительных вариантах осуществления положение буферизованных выборок определяют в точке, которая постепенно эволюционирует назад и вперед во времени взятия выборок в ходе генерации последовательности выборок маскирования. Это можно реализовать посредством генератора шаблона индекса, который управляет этой эволюцией во времени. Анализируя буферизованные выборки, этот генератор шаблона индекса выбирает начало, остановки и скорости проходов обратной эволюции во времени, он также управляет началом, остановками и скоростями прямой эволюции и шаблоном, упорядочивающим обратную эволюцию во времени и прямую эволюцию во времени для формирования последовательности маскирования с естественным звучанием.

Последовательность выборок маскирования может начинаться с подпоследовательности, базирующейся на подпоследовательности буферизованных выборок, которая является последней во временном порядке.

Переупорядочение подпоследовательностей во времени может базироваться на последовательном процессе индексирования и считывания выборок, сдвинутых вперед во времени, и отступления назад во времени. Предпочтительно, последовательный процесс индексирования и считывания выборок содержит этап, на котором

a) индексируют буферизованную выборку путем отступления на некоторое количество буферизованных выборок назад во временном порядке, после которого следует этап, на котором

b) считывают со сдвигом на некоторое количество буферизованных выборок вперед во временном порядке, начиная с буферизованной выборки, индексированной на этапе a), и используют считанные выборки для вычисления подпоследовательности последовательности выборок маскирования,

при этом количество буферизованных выборок для считывания со сдвигом вперед отличается от количества буферизованных выборок для отступления назад. Различие в этих количествах позволяет избежать периодичности, приводящей к возникновению неестественных струнных звуков. В нижеследующем подробном описании вариантов осуществления способ также ссылается на "шаги назад" и "длины считывания".

Количество буферизованных выборок для считывания со сдвигом вперед может быть больше или меньше количества буферизованных выборок для отступления назад. Предпочтительно, количество буферизованных выборок для считывания со сдвигом вперед меньше количества буферизованных выборок для отступления назад. Этот выбор обеспечивает способ, который предусматривает постепенную эволюцию буферизованных выборок дополнительно назад во времени, и, таким образом, обеспечивает последовательность маскирования, где последовательные выборки постепенно базируются на более старых буферизованных выборках, после чего начинается прямая эволюция.

Подпоследовательности последовательности выборок маскирования можно вычислять из подпоследовательностей буферизованных выборок с использованием процедуры взвешенного сложения с перекрытием. Весовые функции в процедуре взвешенного сложения с перекрытием могут дополнительно зависеть от частоты. Процедуру взвешенного сложения с перекрытием можно видоизменять в соответствии с индикатором качества совпадения, причем этот индикатор качества совпадения является мерой на двух или более подпоследовательностях выборок, поступающих в процедуру взвешенного сложения с перекрытием.

Переупорядочение во времени можно отчасти описывать прямой и обратной эволюцией указателя положения. Предпочтительно, обратная эволюция указателя положения ограничивается использованием критериев остановки. Критерии остановки для обратной эволюции, темп (или скорость) прямой и обратной эволюции и количество инициированных обратных эволюций можно совместно оптимизировать, например, для оптимизации качества звука при интерпретации слушателем-человеком.

Предпочтительно, операция сглаживания и коррекции применяется к буферизованным выборкам. Это можно делать либо до буферизации выборок, в буфере, либо непосредственно перед использованием выборок для вычисления выборок маскирования. Критерии остановки для обратной эволюции, темп прямой эволюции и обратной эволюции, количество инициированных обратных эволюций и операцию сглаживания и коррекции можно совместно оптимизировать, например, для оптимизации качества звука при интерпретации слушателем-человеком.

Обратную и прямую эволюции указателя положения можно совместно оптимизировать, например, для оптимизации качества звука при интерпретации слушателем-человеком.

Предпочтительно, фазовая фильтрация применяется для минимизации нарушения непрерывности на границах между последовательностью выборок маскирования и последовательным кадром выборок. Введение фазовой фильтрации помогает решать общеизвестные проблемы нарушения непрерывности, связанные с введением последовательности маскирования. В случаях применения такой фазовой фильтрации вышеупомянутая совместная оптимизация также может включать в себя искажение сигнала, привносимое фазовой фильтрацией, например, для оптимизации качества звука при восприятии слушателем-человеком.

Примешивание шума можно вводить в последовательность выборок маскирования. В частности, примешивание шума можно вводить в последовательность выборок маскирования, причем примешивание шума видоизменяется в соответствии с последовательным процессом индексирования выборок вперед во времени и отступления назад во времени. В таких случаях последовательный процесс индексирования выборок вперед во времени и отступления назад во времени и реакция на него могут включать в себя использование индикации качества совпадения.

Функцию ослабления можно применять в последовательности выборок маскирования. В частности, такую функцию ослабления можно видоизменять в соответствии с последовательным процессом индексирования выборок вперед во времени и отступления назад во времени. Последовательный процесс индексирования выборок вперед во времени и отступления назад во времени и реакция на него могут включать в себя использование индикации качества совпадения.

Предпочтительно, результирующее количество выборок в последовательности выборок маскирования заранее задано, например количество выборок в кадре маскирования может быть фиксированным. Количество выборок предпочтительно не зависит от характеристик оцифрованного аудиосигнала. Заранее заданное количество выборок предпочтительно имеет заранее заданное целочисленное значение в диапазоне 5-1000, например, в диапазоне 20-500, предпочтительно в зависимости от фактической частоты дискретизации.

Последовательность выборок маскирования может быть включена в один кадр маскирования. Способ может дополнительно содержать этап, на котором генерируют, по меньшей мере, второй кадр маскирования, следующий за первым кадром маскирования, причем второй кадр включает в себя вторую последовательность выборок маскирования. Последовательности выборок маскирования в первом и втором кадрах маскирования, предпочтительно, различны, т.е. последовательные копии кадров маскирования предпочтительно избегать. Использование кадров, включающих в себя разные последовательности маскирования, обеспечивает маскирование с более естественным звучанием. Предпочтительно, первый и второй кадры маскирования включают в себя одинаковое количество выборок.

Предпочтительно, по меньшей мере, одна подпоследовательность выборок во втором кадре маскирования, по меньшей мере, частично базируется на подпоследовательностях буферизованных выборок, расположенных с дополнительным смещением назад во времени по отношению к любым подпоследовательностям выборок, включенным в первый кадр маскирования. Таким образом, последующие кадры маскирования предпочтительно базируются на более старых буферизованных выборках.

Согласно второму аспекту изобретение предусматривает программный код, выполняемый на компьютере, предназначенный для осуществления способа согласно первому аспекту. Такой программный код может быть записан в машинозависимой или машинонезависимой форме и на любом языке программирования, например в машинном коде или на языке программирования более высокого уровня.

Согласно третьему аспекту изобретение предусматривает устройство хранения программ, содержащее последовательность команд для микропроцессора, например микропроцессора общего назначения, для осуществления способа согласно первому аспекту. Устройство хранения может представлять собой средство хранения данных любого типа, например диски, карты памяти или линейки памяти, жесткие диски и т.д.

Согласно четвертому аспекту изобретение предусматривает конфигурацию, например устройство или аппарат, для приема оцифрованного аудиосигнала, конфигурация включает в себя:

- средство памяти для хранения выборок, представляющих принятый оцифрованный аудиосигнал, и

- средство процессора для осуществления способа согласно первому аспекту.

Реализация этого изобретения адекватными средствами, например описанными ниже для предпочтительных вариантов осуществления, позволяет декодеру и системе маскирования и/или транскодеру и системе маскирования эффективно маскировать последовательности потерянных или задержанных пакетов без привнесения артефактов, мешающих восприятию. Кроме того, это осуществляется с устойчивостью по отношению к акустическому фоновому шуму и множеству громкоговорителей и без внесения быстрого замирания. Повышенная устойчивость обусловлена согласованностью способа, через эволюцию во времени, в меньшей степени зависит от строгой периодичности сигнала, чем методы на основе повторения. Таким образом, заявленное изобретение обеспечивает двустороннюю передачу речи высокого качества в условиях акустического фонового шума, акустического эха и/или сильной расфазировки синхронизирующих импульсов, канальных потерь и/или флуктуаций времени задержки.

Краткое описание чертежей

Ниже приведено более подробное описание изобретения со ссылкой на прилагаемые чертежи, на которых представлено следующее:

фиг.1 - блок-схема известной системы сквозной передачи звука с коммутацией пакетов, для которой характерны эффекты потерь, задержки, флуктуации времени задержки и/или расфазировки тактовых сигналов;

фиг.2 - иллюстративная приемная подсистема, осуществляющая буферизацию флуктуаций, декодирование и буферизацию маскирования и воспроизведения под управлением блока управления;

фиг.3 - блок-схема ретрансляционной подсистемы канала с коммутацией пакетов, для которой характерны эффекты расфазировки тактовых сигналов, потерь, задержки и флуктуации времени задержки;

фиг.4 - иллюстративная ретрансляционная подсистема, осуществляющая входную буферизацию, выходную буферизацию и, при необходимости, перекодирование и маскирование под управлением блока управления;

фиг.5 - блок-схема ряда предпочтительных вариантов осуществления настоящего изобретения;

фиг.5A - иллюстративная схема подпоследовательностей в кадрах маскирования, начиная с подпоследовательности, базирующейся на последних буферизованных подпоследовательностях в обратном временном порядке;

фиг.5B - другой пример более крупной последовательности подпоследовательностей в кадрах маскирования, начиная с последних двух буферизованных подпоследовательностей в обратном временном порядке, причем последовательные подпоследовательности базируются на буферизованных подпоследовательностях с дополнительным сдвигом назад во времени;

фиг.5C - индексы счетчика выборок в шаблоне индексирования, форматированном шагами назад и длинами (интервалами) считывания;

фиг.6 - иллюстративная схема сигналов, используемых в функции индексирования и интерполяции;

фиг.7 - логическая блок-схема возможного варианта реализации логики принятия решений для критериев остановки;

фиг.8 - логическая блок-схема возможного способа осуществления итерационной совместной оптимизации сглаживания и коррекции, критериев остановки и количества допустимых повторений;

фиг.9 - схема использования циклического сдвига и сложения с перекрытием в связи с инициализацией и возбуждением фильтра регулировки фазы; и

фиг.10 - возможный вариант осуществления раскрытой процедуры взвешенного сложения с перекрытием.

Хотя изобретение допускает различные модификации и альтернативные формы, конкретные варианты осуществления показаны в порядке примера на чертежах и подробно описаны ниже. Однако следует понимать, что изобретение не ограничивается конкретными раскрытыми формами. Напротив, изобретение охватывает все модификации, эквиваленты и альтернативы, отвечающие сущности и объему изобретения, определяемым прилагаемой формулой изобретения.

Описание предпочтительных вариантов осуществления

Способ, отвечающий изобретению, осуществляется в блоке 420 декодирования и маскирования приемника, например, показанном на фиг.2, или осуществляется в блоке 330 перекодирования и маскирования ретранслятора, например, показанном на фиг.4, или в любом другом месте системы связи, где его выполнение целесообразно. В этих местах имеется некоторое количество буферизованных кадров сигнала и требуется некоторое количество кадров маскирования. Доступные кадры сигнала и нужные кадры маскирования могут состоять из выборок во временной области аудиосигнала, например речевого сигнала, или могут состоять из выборок, выведенных из них, например выборок возбуждения линейного предсказания, или могут состоять из других коэффициентов, выведенных из аудиосигнала и полностью или частично представляющих кадры звукового сигнала. Примерами таких коэффициентов являются коэффициенты частотной области, коэффициенты синусоидальной модели, коэффициенты кодирования с линейным предсказанием, коэффициенты интерполяции формы сигнала и другие множества коэффициентов, которые полностью или частично представляют выборки аудиосигнала.

На фиг.5 показан предпочтительный вариант осуществления изобретения. Согласно фиг.5, доступные кадры сигнала 595, которые могут представлять собой принятые и декодированные или перекодированные кадры сигнала или кадры маскирования из более ранней операции этого или других способов генерации кадров маскирования, или комбинации вышеупомянутых типов кадров сигнала, сохраняются в буфере 600 кадров. Сигнал в буфере кадров анализируется генератором 660 шаблона индекса. Генератор шаблона индекса может предпочтительно использовать оценки основного тона 596 и вокализации 597 сигнала. В зависимости от общей конфигурации системы эти оценки могут быть доступны для ввода из других процессов, например процесса кодирования, декодирования или перекодирования, или вычисляться другими средствами, предпочтительно, с использованием методов анализа сигнала, соответствующих уровню техники. Кроме того, генератор шаблона индекса принимает количество 598 кадров сигнала маскирования для генерации и указатели 599 начала и конца конкретных кадров сигнала в буфере кадров, которые заменяются кадром или кадрами маскирования. В порядке примера, если эти буферы указывают на конец буфера кадров, это означает, что кадр или кадры маскирования должны быть сделаны адекватными для следования сигналу, хранящемуся в буфере кадров. В порядке другого примера, если эти указатели указывают непустое подмножество последовательных кадров в буфере кадров, это означает, что кадр или кадры маскирования должны заменить эти кадры в последовательности кадров, п

Способ генерации кадров маскирования в системе связи

Патент 2407071