Усовершенствование исходного кодирования с использованием дублирования спектральной полосы

Иллюстрации

Показать все

Изобретение относится к области радиотехники и может использоваться для систем исходного кодирования. Изобретение использует уменьшение ширины полосы до кодера или в кодере с последующим дублированием полосы спектра в декодере. Это выполняется путем использования новых методов транспозиции совместно с подстройкой огибающей спектра. Технический результат - уменьшение скорости передачи бит при заданном качестве восприятия или улучшение качества восприятия при заданной скорости передачи бит. Изобретение предпочтительно может быть реализовано в аппаратном или программном кодеке, но может использоваться как отдельный процессор в комбинации с кодеком. Изобретение обеспечивает усовершенствование, практически не зависящее от типа кодека и уровня технологии. 4 н. и 16 з.п. ф-лы, 34 ил.

Реферат

Область техники

В системах исходного кодирования цифровые данные сжимаются до передачи или записи, чтобы уменьшить требуемую скорость передачи данных или объем памяти. Настоящее изобретение относиться к новому способу и устройству для усовершенствования систем исходного кодирования посредством дублирования спектральной полосы (ДСП). Достигается существенное снижение скорости передачи данных без ухудшения качества восприятия или, наоборот, достигается улучшение качества восприятия при заданной скорости передачи. Это обеспечивается за счет уменьшения ширины полосы спектра на стороне кодирования и последующего дублирования полосы спектра в декодере, т.е. изобретение использует новые концепции избыточности сигнала в спектральной области.

Предшествующий уровень техники

Методы исходного кодирования звука могут быть разделены на два класса: кодирование натурального аудиосигнала и кодирование речевого сигнала. Кодирование натурального аудиосигнала широко используется для музыкальных или произвольных сигналов при средних скоростях передачи данных и в принципе предусматривает широкую полосу аудиочастот. Кодеры речевого сигнала в основном ограничены воспроизведением речевого сигнала, но, с другой стороны, могут быть использованы при очень низких скоростях передачи, хотя и при узкой полосе аудиочастот. Широкополосный речевой сигнал обеспечивает весьма существенное повышение качества по сравнению с узкополосным речевым сигналом. Расширение полосы частот не только повышает разборчивость и натуральность речи, но также облегчает распознавание говорящего. Широкополосное кодирование речевого сигнала представляет собой важную проблему, стоящую перед телефонными системами следующего поколения. Кроме того, в связи с ростом областей применения мультимедиа передача музыки и других неречевых сигналов в телефонных системах является желательным качеством.

Линейный сигнал с импульсно-кодовой модуляцией (ИКМ), характеризуемый высокой достоверностью, неэффективен по скорости передачи в зависимости от энтропии восприятия. Стандарт компакт-дисков (СД) предписывает частоту дискретизации 44,1 кГц, разрешение 16 бит на выборку и стереорежим. Это соответствует скорости передачи 1411 кбит/сек. Для существенного снижения скорости передачи исходное кодирование может быть выполнено с использованием перцептуальных кодеков аудиосигнала с расщеплением спектра. Эти кодеки натурального аудиосигнала используют нерелевантность восприятия и статистическую избыточность в сигнале. При использовании наилучшей технологии кодирования-декодирования может быть достигнуто уменьшение объема данных примерно на 90% для сигнала стандартного CD-формата без какого-либо ухудшения разборчивости. Таким образом, возможно очень высокое качество звука в стереорежиме при скорости примерно 96 Кбит/сек, т.е. коэффициент сжатия равен примерно 15:1. Некоторые перцептуальные кодеки предусматривают даже более высокие степени сжатия. Чтобы достичь этого, в общем случае необходимо снизить частоту дискретизации и, тем самым, ширину полосы аудиочастот. Общепринятым является уменьшение количества уровней квантования, что допускает случайное искажение звука вследствие квантования, а также использование деградации области стерео, за счет интенсивного кодирования. Широкое использование таких способов приводит к ухудшению восприятия. Существующая технология кодирования-декодирования себя почти исчерпала и дальнейший прогресс в получении выигрыша от кодирования не ожидается. Для дополнительного улучшения характеристик кодирования необходим новый подход.

Человеческая речь и большинство музыкальных инструментов формируют квазистационарные сигналы, получаемые на выходе систем генерации. Согласно теории Фурье, любой периодический сигнал может быть выражен как сумма синусоидальных сигналов с частотами f, 2f, 3f, 4f, 5f и т.д., где f - основная частота. Эти частоты образуют последовательность гармоник. Ограничение полосы частот такого сигнала эквивалентно усечению f последовательности гармоник. Такое усечение изменяет воспринимаемый тембр, окраску тона музыкального инструмента или голоса и приводит к получению аудиосигнала, который будет звучать "приглушенно" или "монотонно", и разборчивость может снизиться. Высокие частоты, таким образом, важны для субъективного ощущения качества звука.

Способы, известные из предшествующего уровня техники, в основном предназначались для усовершенствования характеристик кодека, и, в частности, предназначались для регенерации высоких частот (РВЧ), являющейся проблемой при кодировании речевого сигнала. Такие способы используют широкополосные линейные сдвиги частот, нелинейности или наложение спектров (патент США 5.127.054), приводящие к генерации продуктов интермодуляции или других негармонических частотных составляющих, которые создают сильный диссонанс в применении к музыкальным сигналам. Такой диссонанс описывается в литературе по кодированию речи как "резкое" и "грубое" звучание. Другие способы синтезирования речевого сигнала генерируют синусоидальные гармоники, которые основаны на оценке фундаментального тона, и таким образом, ограничены тональными, стационарными звуковыми сигналами (патент США 4.771.465). Такие способы, известные из предшествующего уровня техники, будучи полезными для низкокачественных речевых применений, не применимы для высококачественного речевого сигнала или музыкальных сигналов. Ряд способов направлены на усовершенствование характеристик кодеков высококачественных источников звукового сигнала. Один из них использует синтезированные шумовые сигналы, генерируемые в декодере, чтобы заменить шумоподобные сигналы в речи или музыке, ранее исключавшиеся кодером (см. "Improving Audio Codecs by Noise Substitution" D.Schultz, JAES, Vol.44, № 7/8, 1996). Это выполняется в пределах полосы высоких частот, в остальном передаваемой нормально, на прерывистой основе при наличии шума. Другой способ воссоздает некоторые потерянные гармоники высокой частоты, которые были утеряны в процессе кодирования (см. "Audio Spectral Coder" A.J.S. Ferreira, AES Preprint 4201, 100th Convention, May 11-14 1996, Copenhagen), и также зависит от тональных сигналов и детектирования высоты тона. Оба способа работают на основе низкого рабочего цикла, обеспечивая сравнительно ограниченный выигрыш от кодирования или по эффективности.

Сущность изобретения

Настоящее изобретение предусматривает новый способ и устройство для существенного усовершенствования систем цифрового исходного кодирования и, более конкретно, для усовершенствования кодеков аудиосигналов. Изобретение позволяет уменьшить скорость передачи данных или улучшить качество восприятия, или реализовать комбинацию этих свойств. Изобретение основано на новых способах использования избыточности гармоник, предоставляя возможность отбрасывания полос частот сигнала до передачи или записи. Не ощущается ухудшения восприятия, если декодер выполняет высококачественное повторение (дублирование) спектра согласно изобретению. Отброшенные биты представляют выигрыш от кодирования при фиксированном качестве восприятия. Альтернативно большее количество битов может быть выделено для кодирования информации полосы нижних частот при фиксированной скорости передачи, достигая, таким образом, более высокого качества восприятия.

Настоящее изобретение постулирует, что усеченная последовательность гармоник может быть расширена на основании непосредственного соотношения между спектральными составляющими полосы нижних частот и полосы верхних частот. Эта расширенная последовательность похожа на первоначальную в смысле восприятия, если выполняются определенные правила. Во-первых, экстраполированные спектральные составляющие должны быть гармонически связанными и усеченной последовательностью гармоник, чтобы избежать диссонансных искажений. Настоящее изобретение использует транспозицию как средство для процедуры спектрального дублирования, которая гарантирует удовлетворение этого критерия. Однако для успешной работы нет необходимости, чтобы спектральные составляющие полосы нижних частот образовывали последовательность гармоник, поскольку новые дублированные составляющие, гармонически связанные с составляющими полосы нижних частот, не изменят шумоподобную или нестационарную природу сигнала. Транспозиция определяется как перенос частичных тонов из одного положения на музыкальной шкале в другое при поддержании частотных отношений для этих частичных тонов. Во-вторых, спектральная огибающая, т.е. грубое распределение спектра дублированной полосы высоких частот, должна достаточно хорошо повторять такое распределение первоначального сигнала. Настоящее изобретение обеспечивает два режима работы, ДСП-1 и ДСП-2, которые отличаются способом регулировки огибающей спектра.

Первый режим дублирования спектральной полосы (ДСП-1), предназначенный для усовершенствования применений кодека среднего качества, является одноканальным процессом, который использует исключительно информацию, содержащуюся в принятом сигнале полосы нижних частот в декодере. Спектральная огибающая этого сигнала определяется и экстраполируется, например, с использованием полиномов совместно с набором правил или кодового справочника. Эта информация используется, чтобы непрерывно регулировать и выравнивать дублированную полосу верхних частот. Способ ДСП-1 обеспечивает преимущество постобработки, т.е. не требуется никаких модификаций на стороне кодирования. Владелец радиопередающей станции получит выигрыш в использовании каналов, или будет иметь возможность улучшения качества восприятия, или обеспечит комбинацию этих качеств. Существующий синтаксис и стандарт потока данных может быть использован без изменения.

Режим ДСП-2, предназначенный для усовершенствования применений кодека высокого качества, является двухканальным процессом, в котором в дополнение к передаваемому сигналу полосы нижних частот согласно режиму ДСП-1 кодируется и передается огибающая спектра полосы верхних частот. Поскольку изменения огибающей спектра имеют гораздо меньшую скорость, чем изменения составляющих сигнала полосы верхних частот, то требуется передача только ограниченного объема информации, чтобы успешно представлять огибающую спектра. Режим ДСП-2 может быть использован для повышения эффективности существующих технологий кодирования-декодирования с минимальным изменением или без изменения существующих синтаксисов или протоколов и как весьма ценное средство для разработки будущих кодеков.

Режимы ДСП-1 и ДСП-2 могут быть использованы для дублирования меньших полос пропускания полосы нижних частот, когда такие полосы исключаются кодером, как обусловлено психо-акустической моделью в условиях битовой недостаточности. Это приводит к улучшению качества восприятия путем спектрального дублирования в полосе нижних частот в дополнение к спектральному дублированию вне полосы нижних частот. Кроме того, режимы ДСП-1 и ДСП-2 могут быть также использованы в кодеках, использующих масштабирование скорости передачи, где качество восприятия сигнала в приемнике изменяется в зависимости от условий в канале передачи. Это обычно включает в себя изменения полосы пропускания аудиосигнала приемника. В этих условиях режимы ДСП могут быть успешно использованы для поддержания постоянной полосы верхних частот, что дополнительно улучшает качество восприятия.

Настоящее изобретение работает на непрерывной основе, осуществляя дублирование содержимого сигналов любого типа, т.е. тональных или нетональных (шумоподобных и сигналов переходных процессов). Кроме того, настоящий способ дублирования спектра создает точную по восприятию копию отброшенных полос из доступных полос частот в декодере.

Следовательно, способ ДСП обеспечивает существенно более высокий уровень выигрыша от кодирования или улучшения качества восприятия по сравнению со способами, известными из предшествующего уровня техники. Это изобретение может быть использовано совместно со способами усовершенствования кодека, известного из предшествующего уровня техники; однако от таких комбинаций не следует ожидать какого-либо повышения эффективности.

Способ ДСП включает следующие этапы:

- кодирование сигнала, полученного из исходного сигнала, где частотные полосы сигнала удалены, причем это удаление выполнено до или во время кодирования, при котором формируется первый сигнал,

- транспозиция частотных полос первого сигнала во время или после декодирования, с формированием второго сигнала,

- выполнение подстройки огибающей спектра и

- комбинирование декодированного сигнала и второго сигнала для формирования выходного сигнала.

Полоса пропускания второго сигнала может быть установлена так, чтобы не перекрываться или частично пересекаться с полосой частот первого сигнала, и может быть установлена в зависимости от временных характеристик исходного сигнала и/или первого сигнала, или условий в канале передачи. Подстройка огибающей спектра выполняется на основании оценки исходной огибающей спектра упомянутого первого сигнала или передаваемой информации огибающей исходного сигнала.

Настоящее изобретение содержит два основных типа устройств транспозиции: многополосные устройства транспозиции и устройства транспозиции с прогнозированием с изменяющейся во времени схемой поиска, имеющие различные свойства. Основная многополосная транспозиция может быть выполнена согласно настоящему изобретению следующим образом:

- фильтрация сигнала, подлежащего транспонированию, посредством набора из N≥ 2 полосовых фильтров с полосами пропускания, содержащими частоты (f1,... ,fn), соответственно, для формирования сигналов N полос пропускания,

- сдвиг сигналов полос пропускания по частоте в области, содержащие частоты M(f1,... ,fn), где М≠ 1 представляет коэффициент транспозиции, и

- объединение сдвинутых сигналов полос пропускания с формированием транспонированного сигнала.

Как вариант, эта базовая многополосовая транспозиция может быть выполнена в соответствии с изобретением следующим образом:

- полосовая фильтрация сигнала, подлежащего транспонированию, с использованием набора анализирующих фильтров или преобразователя, для генерирования низкочастотных сигналов действительных или комплексных субполос,

- произвольное количество каналов k с упомянутого набора анализирующих фильтров или преобразователя подключаются к каналам Mk, где M≠ 1, в набор синтезирующих фильтров или преобразователе и

- формируется транспонированный сигнал с использованием набора синтезирующих фильтров или преобразователя.

Усовершенствованная многополосная транспозиция согласно настоящему изобретению включает в себя подстройки фазы, улучшающие характеристику базовой многополосной транспозиции.

Транспозиция с прогнозированием с изменяющейся во времени схемой поиска согласно настоящему изобретению может быть выполнена следующим образом:

- обнаружение переходного процесса в первом сигнале,

- определение, какой сегмент первого сигнала должен быть использован при дублировании частей первого сигнала в зависимости от результата обнаружения переходного процесса,

- подстройка свойств вектора состояния и набора кодов в зависимости от результата обнаружения переходного процесса и

- поиск точек синхронизации в выбранном сегменте первого сигнала на основе точки синхронизации, найденной при предыдущем поиске точки синхронизации.

Способы ДСП и устройства согласно настоящему изобретению обеспечивают следующие качества:

1. Эти способы и устройства используют новые концепции избыточности сигнала в спектральной области.

2. Эти способы и сигналы применимы к произвольным сигналам.

3. Каждый набор гармоник индивидуально создается и регулируется.

4. Все дублируемые гармоники генерируются таким образом, чтобы сформировать продолжение существующей последовательности гармоник.

5. Процесс дублирования спектра основан на транспозиции и не создает никаких помех или создает незначительные помехи.

6. Дублирование спектра может обеспечить перекрытие множества меньших полос и/или широкий диапазон частот.

7. В способе ДСП-1 обработка выполняется только на стороне декодера, т.е. все стандарты и протоколы могут использоваться без изменений.

8. Способ ДСП-2 может быть использован в соответствии с большинством стандартов и протоколов без изменений или с минимальными изменениями.

9. Способ ДСП-2 предоставляет проектировщику кодека новое мощное средство сжатия.

10. Кодирование обеспечивает значительный выигрыш. Наиболее эффективное применение относится к совершенствованию различных типов низкоскоростных кодеков, таких как MPEG 1/2 Layer I/II/III (патент США 5.040.217), MPEG 2/4 AAC, Dolby AC-2/3, NTT Twin VQ (патент США 5.684.920), AT&T/Lucent РАС и т.д. Это изобретение также полезно для высококачественных речевых кодеков, таких как широкополосный CELP и SB-ADPCM G.722 и т.д. для повышения качества восприятия. Вышеупомянутые кодеки широко применяются в мультимедиа, в телефонной промышленности, на Интернете, а также в профессиональных системах. Системы T-DAB (Наземная система цифрового звукового вещания) используют низкоскоростные протоколы, которые дают выигрыш в использовании каналов при применении настоящего способа или в повышении качества ЧМ и AM цифрового вещания. Спутниковые системы S-DAB могут получить значительный выигрыш ввиду высоких системных затрат от использования настоящего изобретения, чтобы увеличить количество каналов в мультиплексированной системе цифрового звукового вещания. Кроме того, впервые поток аудиосигналов реального времени в полном диапазоне через Интернет доступен при использовании низкоскоростных телефонных модемов.

Краткое описание чертежей

Настоящее изобретение поясняется ниже на примерах его осуществления, не ограничивающих объем или сущность изобретения, со ссылками на чертежи, в которых показано следующее:

Фиг.1 - схематичное представление ДСП в системе кодирования согласно настоящему изобретению;

Фиг.2 - представление дублирования спектра верхних гармоник согласно настоящему изобретению;

Фиг.3 - представление дублирования спектра средних гармоник согласно настоящему изобретению;

Фиг.4 - блок-схема варианта реализации во временной области устройства транспозиции согласно настоящему изобретению;

Фиг.5 - блок-схема последовательности операций в рабочем цикле устройства транспозиции с прогнозированием схемы поиска;

Фиг.6 - блок-схема последовательности операций при поиске точки синхронизации согласно настоящему изобретению;

Фиг.7а-7b - позиционирование кодовых наборов во время переходных процессов согласно настоящему изобретению;

Фиг.8 - блок-схема, иллюстрирующая применение нескольких устройств транспозиции во временной области во взаимосвязи с подходящим набором фильтров, для операции ДСП согласно настоящему изобретению;

Фиг.9а-9с - это блок-схемы, представляющие устройство для анализа и синтеза с использованием преобразования Фурье для короткого интервала времени ПФКВ, выполненное для генерации гармоник 2-го порядка согласно настоящему изобретению;

Фиг.10а-10b - это блок-схемы для одной субполосы с линейным сдвигом частоты в устройстве ПФКВ согласно настоящему изобретению;

Фиг.11 - схема для одной субполосы с использованием фазоумножителя согласно настоящему изобретению;

Фиг.12 - иллюстрация генерирования гармоник 3-го порядка согласно настоящему изобретению;

Фиг.13 - иллюстрация генерирования гармоник 2-го и 3-го порядка согласно настоящему изобретению;

Фиг.14 - иллюстрация генерирования неперекрывающейся комбинации нескольких гармонических рядов согласно настоящему изобретению;

Фиг.15 - иллюстрация генерирования комбинации с чередованием нескольких гармонических рядов согласно настоящему изобретению;

Фиг.16 - иллюстрация генерирования широкополосных линейных сдвигов частот;

Фиг.17 - иллюстрация генерирования субгармоник согласно настоящему изобретению;

Фиг.18а-18b - блок-схемы перцептуального кодека;

Фиг.19 - базовая структура набора фильтров с максимальным прореживанием;

Фиг.20 - иллюстрация генерирования гармоник 2-го порядка в наборе фильтров с максимальным прореживанием согласно настоящему изобретению;

Фиг.21 - блок-схема усовершенствованной многополосной транспозиции в наборе фильтров с максимальным прореживанием для сигналов субполос согласно настоящему изобретению;

Фиг.22 - блок-схема последовательности операций, представляющая усовершенствованную многополосную транспозицию в наборе фильтров с максимальным прореживанием для сигналов субполос согласно настоящему изобретению;

Фиг.23 - представление субполос и коэффициентов масштабирования для типового кодека;

Фиг.24 - представление субполос и информации огибающей для режима ДСП-2 согласно настоящему изобретению;

Фиг.25 - иллюстрация скрытой передачи информации огибающей в режиме ДСП-2 согласно настоящему изобретению;

Фиг.26 - иллюстрация избыточного кодирования в режиме ДСП-2 согласно настоящему изобретению;

Фиг.27 - вариант выполнения кодека с использованием способа ДСП-1 согласно настоящему изобретению;

Фиг.28 - вариант выполнения кодека с использованием способа ДСП-2 согласно настоящему изобретению;

Фиг.29 - блок-схема "псевдостерео" генератора согласно настоящему изобретению.

Описание предпочтительных вариантов осуществления

При описании вариантов осуществления особый акцент сделан на задачах исходного кодирования естественного аудиосигнала. Однако следует иметь в виду, что настоящее изобретение применимо к целому диапазону задач исходного кодирования, отличающихся от задач кодирования и декодирования аудиосигналов.

Основы транспозиции

Транспозиция, как определено согласно настоящему изобретению, является идеальным способом спектрального дублирования и имеет ряд важных преимуществ по сравнению с предшествующим уровнем техники, в том числе не требуется детектирования основного тона, достигается одинаково высококачественная характеристика для однотонного и полифонического программного материала, и транспозиция реализуется одинаково хорошо для тональных и не тональных сигналов. В противоположность другим способам транспозиция согласно изобретению может быть использована в системах исходного кодирования произвольных аудиосигналов для сигналов произвольного типа.

Коэффициент М точной транспозиции дискретного по времени сигнала х(n) в форме суммы косинусов с изменяющимися по времени амплитудами определяется соотношением

где N - количество синусоид, здесь в дальнейшем определяемые как частичные тона, fi, еi (n), α i - индивидуальные входные частоты, временные огибающие и фазовые константы, соответственно, β i - произвольные выходные фазовые константы, а fs - частота дискретизации, и О≤ Мfi fs/2.

Фиг.2 иллюстрирует генерацию гармоник М-го порядка, где М это целое число ≥ 2. Термин "гармоники М-го порядка" использован для упрощения, хотя этот процесс генерирует гармоники М-го порядка для всех сигналов в определенном диапазоне частот, которые в большинстве случаев сами являются гармониками неизвестного порядка. Входной сигнал, представленный в частотной области Х(f) ограничен полосой 201 до диапазона от 0 до fmax. Содержимое сигналов в диапазоне от fmax/М до Qfmax/M, где Q является желаемым коэффициентом расширения ширины полосы 1<Q≤ М, выделяется посредством полосового фильтра с формированием полосового сигнала 203 со спектром Хвр(f). Этот полосовой сигнал транспонируется с коэффициентом М, формируя второй полосовой сигнал 205 со спектром Хт(f), перекрывающим диапазон от fmax до Qfmax. Огибающая спектра этого сигнала регулируется с помощью программно-упраляемого эквалайзера, формируя сигнал 207 со спектром ХE(f). Этот сигнал затем комбинируется с задержанной версией входного сигнала, чтобы компенсировать задержку, вызванную полосовым фильтром и устройством транспонирования, посредством чего формируется выходной сигнал 209 со спектром Y(f), покрывающий диапазон от 0 до Qfmax. Как вариант, выделение полосы частот может быть выполнено после транспозиции М с использованием частот отсечки fmах и Оfmax. При использовании множества устройств транспозиции возможна, конечно, одновременная генерация различных гармонических рядов. Вышеприведенная схема также может быть использована для "заполнения" полос заграждения во входном сигнале, как показано на фиг.3, где входной сигнал имеет полосу заграждения 301 от f0 до Qf0. Полоса частот [f0/М, Qf0/M], затем выделяется (303), транспонируется с коэффициентом М до [f0, Qf0] (305), подстраивается по огибающей (307) и объединяется с задержанным входным сигналом, формируя выходной сигнал 309 со спектром Y(f).

Может быть использована аппроксимация точной транспозиции. Согласно настоящему изобретению качество таких аппроксимаций определяется с использованием теории диссонанса. Критерий для диссонанса представлен в работе "Tonal Consonance and Critical Bandwidth" R.Plomp, W.J.M. Levelt JASA, Vol.38, 1965 г. и заключается в том, что два частичных тона рассматриваются как диссонантные, если разность частот находится в пределах примерно от 5 до 50% ширины полосы критической полосы частот, в которой находятся эти частичные тоны. Критическая ширина полосы для данной частоты может быть приближенно определена соотношением

с f и cb в герцах. Кроме того, в вышеупомянутой работе утверждается, что органы слуха человека не могут разделить два частичных тона, если они отличаются по частоте на величину меньшую, чем приблизительно 5 процентов критической ширины полосы, в которой они находятся. Точная транспозиция в уравнении (2) аппроксимируется с помощью

где f - отклонение от точной транспозиции. Если входные частичные тоны образуют гармонический ряд, гипотеза настоящего изобретения утверждает, что отклонения от гармонического ряда транспонируемых частичных тонов не должны превышать пяти процентов от критической ширины полосы, в которой они находятся. Это могло бы объяснить, почему способы, известные из предшествующего уровня техники, дают неудовлетворительные "грубые" результаты, поскольку широкополосные линейные сдвиги частот создают гораздо большее отклонение, чем допустимо. Когда способы, известные из предшествующего уровня техники, формируют более одного частичного тона для только одного входного частичного тона, эти частичные тона должны, тем не менее, находиться в пределах установленного предела отклонений, чтобы восприниматься как один частичный тон. Это еще раз объясняет неудовлетворительные результаты, получаемые в способах, известных из предшествующего уровня техники, использующих нелинейности и т.п., поскольку они формируют интермодуляционные частичные тона, не входящие в пределы отклонений.

При использовании вышеприведенного способа дублирования спектра на основе транспозиции согласно настоящему изобретению достигаются следующие важные свойства.

- Не происходит никакого перекрытия в частотной области между дублированными гармониками и существующими частичными тонами.

- Дублированные частичные тоны являются гармониками частичных тонов входного сигнала и не приводят к увеличению диссонанса или искажений.

- Огибающая спектра дублированных гармоник образует плавное продолжение огибающей спектра входного сигнала, соответствуя по восприятию исходной огибающей.

Транспозиция на основе прогнозирования с изменяющейся по времени схемой поиска

Существуют различные способы создания требуемых устройств транспозиции. Типовые реализации во временной области расширяют сигнал по времени путем дублирования сегментов сигнала на основании периода основного тона. Этот сигнал последовательно считывается с разными скоростями. К сожалению, такие способы сильно зависят от обнаружения основного тона и требуют точного временного сопряжения сегментов сигнала. Кроме того, необходимость работы с сегментами сигнала на базе периода основного тона делает их чувствительными к переходным процессам. Поскольку обнаруженный период основного тона может быть намного длине, чем действительный переходной процесс, очевиден риск дублирования полного переходного процесса вместо простого расширения его по времени. Другой тип алгоритмов во временной области реализует временное расширение/сжатие речевого сигнала с использованием прогнозирования схемы поиска выходного сигнала (см."Pattern Search Prediction of Speech" R.Bogner, T.Li, Proc.ICASSP’89, Vol.1, May 1989, "Time-Scale Modification of Speech based on a nonlinear Oscillator Model" G.Kubin, W.B.Kleijn, IEEE, 1994). Это является формой гранулярного синтеза, в котором входной сигнал делится на маленькие части, гранулы, используемые для синтезирования выходного сигнала. Этот синтез обычно производится путем выполнения корреляции сегментов сигнала, чтобы определить лучшие точки стыковки. Это означает, что сегменты, используемые для формирования выходного сигнала, не зависят от периода основного тона и таким образом, не требуется решать нетривиальную задачу обнаружения основного высоты тона. Тем не менее, в этих способах остаются проблемы с быстро меняющимися амплитудами сигнала, и при необходимости обеспечения высококачественной транспозиции растут требования к вычислениям. Изобретение представляет усовершенствованное устройство сдвига основного тона и транспонирования во временной области, где использование обнаружения переходного процесса и динамических параметров системы создают более точную транспозицию для высоких коэффициентов транспозиции как для стационарных (тональных и нетональных), так и переходных звуков при низких вычислительных затратах.

На фиг.4 показаны следующие модули: детектор переходных процессов 401, регулятор положения окна 403, генератор набора 405, селектор сигналов синхронизации 407, память положения синхронизации 409, устройство оценки минимальной разности 411, память выходного сегмента 413, блок смешивания 415 и устройство дискретизации с пониженной частотой 417. Входной сигнал подается как на генератор набора 405, так и на детектор переходных процессов 401. Если переходной процесс обнаружен, то информация о его положении посылается в модуль положения окна 403. Этот модуль устанавливает размер и положение окна, которое умножается на входной сигнал при создании набора кодов. Генератор набора кодов 495 приминает данные положения синхронизации от модуля выделения данных синхронизации 407, при условии что он соединен с другим устройством транспозиции. Если данные положения синхронизации имеются в наборе кодов, то они используются и вырабатывается выходной сегмент. В противном случае набор кодов посылается в устройство оценки минимальной разности 411, который выдает новое положение синхронизации. Новый выходной сегмент присоединяется к окну вместе с предшествующим выходным сегментом в модуле смешивания 415 и затем дискретизируется в модуле 417.

Для пояснения вводится представление области состояний. Здесь векторы состояния или гранулы представляют входной и выходной сигналы. Входной сигнал представлен вектором состояний х(n):

который получен из N задержанных выборок входного сигнала, где N - размерность вектора состояния, a D - задержка между входными выборками, используемыми для построения вектора. Гранулярное отражение дает выборку х(n) соответственно каждому вектору состояния x(n-1). В результате получаем уравнение (6), где а(* ) - отображение:

В настоящем способе гранулярное отображение используется для определения следующего выходного результата на основании предыдущего выходного результата, используя набор кодов переходов состояний. Набор кодов длины L постоянно перестраивается, включая векторы состояния и следующую выборку, следующую за каждым вектором состояния. Каждый вектор состояния отделяется от соседнего К выборками; это позволяет системе регулировать временное разрешение в зависимости от характеристик текущего обрабатываемого сигнала, где К, равное единице, представляет наилучшую разрешающую способность. Сегмент входного сигнала, используемый для построения набора кодов, выбирается на основании положения возможного переходного процесса и положения синхронизации в предыдущем наборе кодов.

Это означает, что отображение а(* ), теоретически, оценивается для всех переходов, включенных в набор кодов

C этим набором кодов переходов новый выходной результат у(n) вычисляется поиском вектора состояния в наборе кодов, наиболее сходного с текущим вектором состояния у(n-1). Этот поиск ближайшего соседа выполняется вычислением минимальной разности и дает новую выходную выборку

Однако система не ограничивается работой на базе выборок, она предпочтительно работает на базе сегментов. Новый выходной сегмент вводится в окно и суммируется, смешивается с предыдущим выходным сегментом и затем дискретизируется. Коэффициент шага транспозиции определяется отношением длины входного сегмента, представленной набором кодов, и длины выходного сегмента, считанной с набора кодов.

На фиг.5 и 6 представлены блок-схемы, показывающие цикл работы устройства транспонирования. Этап 501 представляет ввод данных; на этапе 503 производится детектирование переходного процесса на сегменте входного сигнала; поиск переходных процессов выполняется на длине сегмента, равной длине выходного сегмента. Если на этапе 505 найден переходный процесс, то на этапе 507 положение переходного процесса записывается и параметры L (представляющий длину набора кодов), К (представляющий расстояние между векторами состояния в квантах) и D (представляющий задержку между квантами в каждом векторе состояния) устанавливаются на этапе 509. Положение переходного процесса сравнивается с положением предыдущего выходного сегмента на этапе 511, чтобы определить, был ли обработан этот переходной процесс. При положительном результате проверки на этапе 513 положение набора кодов (окно L) и параметры К, L и D устанавливаются на этапе 515. После установки необходимых параметров, на основании результата обнаружения переходного процесса, происходит поиск новой синхронизации или точки сопряжения (этап 517). Эта процедура показана на фиг.6. Сначала на этапе 601 новая точка синхронизации вычисляется на основании предыдущей согласно соотношению

где и - есть новое и старое положения синхронизации, соответственно, S - длина обрабатываемого входного сегмента и М - коэффициент транспозиции. Точка синхронизации используется для сравнения точности новой точки сопряжения с точностью старой точки сопряжения на этапе 603. Если на этапе 605 установлено, что соответствие такое же или лучше, чем предыдущее, то эта новая точка синхронизации выдается на этапе 607 при условии, что она находится внутри набора кодов. Если нет, то осуществляется поиск новой точки синхронизации в цикле 609. Это выполняется аналогичным образом, в данном случае с функцией минимальной разности (611), однако, возможно также использовать корреляцию во временной или в частотной области. Если на этапе 613 определено, что это положение дает лучшее соответствие, чем предыдущее найденное положение, то положение синхронизации запоминается на этапе 615. Когда все положения проверены (этап 617), система возвращается (619) к процедуре согласно блок-схеме на фиг.5. Новая полученная точка синхронизации запоминается на этапе 519, и новый сегмент считывается из набора кодов на этапе 521, начинающегося с данной точки синхрониз