Способ и устройство, предназначенные для эффективной передачи сигналов размерности и пачки в полосе частот и работы с максимальной половинной скоростью при широкополосном кодировании речи с переменной скоростью передачи битов для беспроводных систем мдкр

Патент 2326449

Авторы

Правообладатели

НОКИА КОРПОРЕЙШН (FI)

Классы МПК

G10L11 - Определение или обнаружение характеристик речи, не отнесенные к группам G10L 15/00-G10L 21/00

Способ и устройство, предназначенные для эффективной передачи сигналов размерности и пачки в полосе частот и работы с максимальной половинной скоростью при широкополосном кодировании речи с переменной скоростью передачи битов для беспроводных систем мдкр

Иллюстрации

Показать все

Изобретение относится к радиосвязи и предназначено для взаимодействия первой станции со второй станцией. Технический результат - повышение достоверности передачи. Для этого первая станция использует первую схему связи и содержит первый кодер и первый декодер, а вторая станция использует вторую схему связи и содержит второй кодер и второй декодер, связь между первой и второй станциями осуществляют с помощью передачи параметров кодирования сигнала, связанных со звуковым сигналом, из кодера одной из станций первой или второй в декодер другой станции. Звуковой сигнал классифицируют для определения, должны ли быть переданы параметры кодирования сигнала из кодера одной станции в декодер другой станции с использованием первого режима связи, в котором используется полная скорость передачи для передачи параметров кодирования сигнала. Если классификация звукового сигнала определит, что параметры кодирования сигнала должны быть переданы с использованием первого режима связи, и, если принят запрос для передачи параметров кодирования сигнала из кодера одной станции в декодер другой станции с использованием второго режима связи, предназначенного для уменьшения скорости передачи во время передачи параметров кодирования сигнала, часть параметров кодирования сигнала из кодера одной станции удаляют, а остальные параметры кодирования сигнала передают в декодер другой станции с использованием второго режима связи. Удаленную часть параметров кодирования сигнала регенерируют перед тем, как декодер другой станции декодирует параметры кодирования сигнала. 24 н. и 38 з.п. ф-лы, 8 ил., 6 табл.

Реферат

Область техники, к которой относится изобретение

Настоящее изобретение относится к способу, предназначенному для взаимодействия первой станции, использующей первую схему связи и содержащей первый кодер и первый декодер, со второй станцией, использующей вторую схему связи и содержащей второй кодер и второй декодер, причем связь между первой и второй станциями проводится с помощью передачи параметров кодирования сигнала из кодера одной из станций первой или второй в декодер другой из упомянутых первой и второй станций.

Уровень техники

Требование эффективных способов цифрового узкополосного и широкополосного кодирования речи с хорошим компромиссом между субъективным качеством и скоростью передачи увеличивается в различных областях применений, таких как проведение телеконференций, передача мультимедиа и беспроводная связь. До сих пор телефонная полоса частот, ограниченная в диапазоне 200-3400 Гц, в основном используется в применениях кодирования речи. Однако широкополосные применения речи обеспечивают увеличенную разборчивость и естественность в связи по сравнению с традиционной телефонной полосой частот. Полоса частот в диапазоне 50-7000 Гц обнаружена достаточной для передачи хорошего качества, создавая впечатление личной связи. Для обычных аудиосигналов эта полоса частот дает приемлемое субъективное качество, но, все же, ниже, чем качество радио FM или CD, которые работают в диапазонах 20-16000 Гц и 20-20000 Гц соответственно.

Кодер речи преобразует речевой сигнал в цифровой битовый поток, который передается через канал связи или запоминается на носителе информации. Речевой сигнал преобразуется в цифровую форму, то есть подвергается выборке и квантуется, обычно с частотой 16 битов на выборку. Кодер речи имеет функцию представления этих цифровых выборок с помощью меньшего числа бит, в то же время поддерживая хорошее субъективное качество речи. Декодер или синтезатор речи работает относительно переданного или запомненного битового потока и преобразует его обратно в речевой сигнал.

Кодирование с линейным предсказанием с кодовым возбуждением (CELP, ЛПКВ) является одним из самых лучших способов предшествующего уровня техники для достижения хорошего компромисса между субъективным качеством и скоростью передачи. Этот способ кодирования составляет основу нескольких стандартов кодирования речи как в беспроводных, так и в проводных применениях. При кодировании ЛПКВ выборочный сигнал обрабатывается в последовательных блоках из N выборок, обычно называемых кадрами, где N является заданным числом, обычно соответствующим 10-30 мс. Фильтр линейного предсказания (LP, ЛП) вычисляется и передается каждый кадр. Вычисление фильтра ЛП обычно требует просмотра вперед, т.е. речевого сегмента 5-15 мс от следующего кадра. Кадр из N выборок разделяется на меньшие блоки, называемые подкадрами. Обычно число подкадров в кадре равно трем (3) или четырем (4), в результате получаются подкадры 4-10 мс. В каждом подкадре сигнал возбуждения обычно получается из двух составляющих, прошлое возбуждение и новое возбуждение фиксированной кодовой книги. Составляющая, сформированная из прошлого возбуждения, часто называется возбуждением адаптивной кодовой книги или основного тона. Параметры, характеризующие сигнал возбуждения, кодируются и передаются в декодер, где восстановленный сигнал возбуждения используется в качестве входного сигнала фильтра ЛП.

В беспроводных системах, использующих технологию множественного доступа с кодовым разделением каналов (CDMA, МДКР), использование кодирования речи с управляемой источником переменной скоростью передачи (VBR, ПерСП) существенно улучшает пропускную способность системы. При кодировании с управляемой источником ПерСП кодек работает с несколькими скоростями передачи битов, и модуль выбора скорости передачи используется для выбора скорости передачи битов, используемой для кодирования каждого речевого кадра, на основании характера речевого кадра (например, звонкий (вокализированный), незвонкий (невокализированный, переходный, фоновый шум и т.д.). Целью является добиться наилучшего качества речи при данной средней скорости передачи битов, также называемой средней скоростью передачи данных (ADR, ССПД). Кодек может работать в разных режимах с помощью настройки модуля выбора скорости передачи, чтобы добиться разных ССПД в разных режимах, причем производительность кодека улучшается с увеличением ССПД. Это обеспечивает кодек механизмом компромисса между качеством речи и пропускной способностью системы. В системах МДКР (например, CDMA-one и CDMA2000) обычно используются 4 скорости передачи битов, и они называются полной скоростью передачи (FR, ПолнСП), половинной скоростью передачи (HR, ПолСП), одной четвертой скорости передачи (QR, ОЧСП) и одной восьмой скорости передачи (ER, ОВСП). В этой системе поддерживаются два множества скоростей, называемые множеством I скорости и множеством II скорости. В множестве II скорости кодек с переменной скоростью передачи с механизмом выбора скорости передачи работает со скоростями кодирования источника, равными 13,3 (ПолнСП), 6,2 (ПолСП), 2,7 (ОЧСП) и 1,0 (ОВСП) Кбит/с, соответствующими совокупным скоростям передачи битов, равным 14,4, 7,2, 3,6 и 1,8 Кбит/с (с некоторыми битами, добавленными для обнаружения ошибок).

В системах МДКР может быть навязана половинная скорость передачи вместо полной скорости передачи в некоторых речевых кадрах для того, чтобы посылать сигнальную информацию в полосе частот (называемую передачей сигналов размерности и пачки). Использование половинной скорости передачи в качестве максимальной скорости передачи также может быть навязано системой во время плохих состояний канала (таких как вблизи границ ячеек) для того, чтобы улучшить надежность кодека. Это называется максимальной половинной скоростью передачи. Обычно при кодировании с ПерСП половинная скорость используется, когда кадр является постоянно звонким или постоянно незвонким. Две конструкции кодека используются для каждого типа сигнала (в случае незвонкого сигнала используется модель ЛПКВ без кодовой книги основного тона, а в случае звонкой речи используется модификация сигнала, чтобы улучшить периодичность и уменьшить число битов для индексов основного тона). Полная скорость используется для начальных, переходных кадров и смешанных звонких кадров (обычно используется типичная модель ЛПКВ). Когда модуль выбора скорости выбирает кадр, кодируемый как кадр с полной скоростью передачи, а система навязывает кадр с половинной скоростью передачи, эффективность речи ухудшается, поскольку режимы с половинной скоростью передачи не могут эффективно кодировать начальные и переходные сигналы.

Широкополосный кодек, известный как адаптивный многоскоростной широкополосный (AMR-WB, АМ-Ш) кодек речи, недавно был выбран организацией ITU-T (Международный союз электросвязи - сектор стандартизации электросвязи) для нескольких услуг широкополосной телефонии и услуг передачи речи, а организацией 3GPP (Проект партнерства третьего поколения) для беспроводных систем третьего поколения GSM и W-CDMA, Ш-МДКР. Кодек АМ-Ш содержит девять скоростей передачи битов в диапазоне от 6,6 до 23,85 Кбит/с. Разработка кодека ПерСП, управляемого источником, на основе АМ-Ш для СDMA2000 имеет преимущество в предоставлении возможности взаимодействия между CDMA2000 и другими системами, использующими кодек АМ-Ш. Скорость передачи битов АМ-Ш 12,65 Кбит/с является ближайшей скоростью, которая подходит к полной скорости 13,3 Кбит/с множества II скорости. Эта скорость может быть использована в качестве общей скорости между широкополосным кодеком ПерСП CDMA2000 и АМ-Ш, чтобы обеспечить возможность функциональной совместимости без необходимости в преобразовании кодирования (которое ухудшает качество речи). Половинная скорость 6,2 Кбит/с должна быть добавлена к широкополосному решению ПерСП CDMA2000, чтобы обеспечить возможность эффективной работы в рамках множества II скорости. Тогда кодек может работать в нескольких специфических режимах CDMA2000 и содержит режим, предназначенный для обеспечения возможности функциональной совместимости с системами, использующими кодек АМ-Ш. Однако при работе кросс-системы без последовательного соединения каналов вызов между CDMA2000 и другой системой, использующей АМ-Ш, система CDMA2000 может навязать использование половинной скорости передачи, как объяснено ранее (такое как при передаче сигналов размерности и пачки). Поскольку кодек АМ-Ш не распознает половинную скорость 6,2 Кбит/с широкополосного кодека CDMA2000, навязанные кадры с половинной скоростью передачи интерпретируются как стертые кадры. Это отрицательно влияет на эффективность соединения.

Сущность изобретения

В соответствии с первым аспектом настоящего изобретения предложены следующие способ и система.

В соответствии со вторым аспектом настоящего изобретения предложены следующие способ и система.

Способ взаимодействия первой станции, использующей первую схему связи и содержащей первый кодер и первый декодер, со второй станцией, использующей вторую схему связи и содержащей второй кодер и второй декодер, причем связь между первой и второй станциями осуществляют с помощью передачи параметров кодирования сигнала, связанных со звуковым сигналом, из кодера одной из станций первой или второй в декодер другой из упомянутых первой и второй станций, заключающийся в том, что классифицируют звуковой сигнал для определения, должны ли быть переданы параметры кодирования сигнала из кодера упомянутой одной станции в декодер другой станции с использованием первого режима связи, в котором используют полную скорость передачи битов для передачи параметров кодирования сигнала; принимают запрос для передачи параметров кодирования сигнала из кодера упомянутой одной станции в декодер другой станции с использованием второго режима связи, предназначенного для уменьшения скорости передачи битов во время передачи параметров кодирования сигнала, если классификация звукового сигнала определяет, что параметры кодирования сигнала должны быть переданы с использованием первого режима связи, и если принят запрос для передачи параметров кодирования сигнала с использованием второго режима связи, удаляют часть параметров кодирования сигнала из кодера упомянутой одной станции и передают в декодер другой станции остальные параметры кодирования сигнала с использованием второго режима связи.

Система для взаимодействия первой станции, использующей первую схему связи и содержащей первый кодер и первый декодер, со второй станцией, использующей вторую схему связи и содержащей второй кодер и второй декодер, причем связь между первой и второй станциями осуществляется с помощью передачи параметров кодирования сигнала, связанных со звуковым сигналом, из кодера одной из станций первой или второй в декодер другой из упомянутых первой и второй станций, содержащая средство, предназначенное для классификации звукового сигнала для определения, должны ли быть переданы параметры кодирования сигнала из кодера упомянутой одной станции в декодер другой станции с использованием первого режима связи, в котором используется полная скорость передачи битов для передачи параметров кодирования сигнала; средство, предназначенное для приема запроса для передачи параметров кодирования сигнала из кодера упомянутой одной станции в декодер другой станции с использованием второго режима связи, предназначенного для уменьшения скорости передачи битов во время передачи параметров кодирования сигнала; средство, предназначенное для удаления части параметров кодирования сигнала из кодера упомянутой одной станции и передачи в декодер другой станции остальных параметров кодирования сигнала с использованием второго режима связи, если классификация звукового сигнала определяет, что параметры кодирования сигнала должны быть переданы с использованием первого режима связи, и если принят запрос для передачи параметров кодирования сигнала с использованием второго режима связи.

В соответствии с третьим аспектом настоящего изобретения предложены следующие способ и система.

Способ передачи параметров кодирования сигнала из первой станции во вторую станцию, заключающийся в том, что в одной из станций первой или второй кодируют звуковой сигнал в соответствии с режимом связи с полной скоростью передачи; принимают запрос для передачи параметров кодирования сигнала из упомянутой одной станции в другую станцию из первой и второй станций с использованием второго режима связи, предназначенного для уменьшения скорости передачи битов во время передачи параметров кодирования сигнала; в ответ на запрос преобразуют параметры кодирования сигнала, закодированные в режиме связи с полной скоростью передачи, в параметры кодирования сигнала, закодированные во втором режиме связи; и передают параметры кодирования сигнала, закодированные во втором режиме связи, в другую станцию из первой и второй станций.

Система для передачи параметров кодирования сигнала из первой станции во вторую станцию, содержащая в одной из станций первой или второй кодер, предназначенный для кодирования звукового сигнала в соответствии с режимом связи с полной скоростью передачи; средство, предназначенное для приема запроса для передачи параметров кодирования сигнала из упомянутой одной станции в другую станцию из первой и второй станций с использованием второго режима связи, предназначенного для уменьшения скорости передачи битов во время передачи параметров кодирования сигнала; средство, предназначенное для преобразования, в ответ на запрос, параметров кодирования сигнала, закодированных в режиме связи с полной скоростью передачи, в параметры кодирования сигнала, закодированные во втором режиме связи; и средство, предназначенное для передачи параметров кодирования сигнала, закодированных во втором режиме связи, в другую станцию из первой и второй станций.

Вышеупомянутые и другие задачи, преимущества и признаки настоящего изобретения станут более понятными после чтения следующего неограничительного описания его иллюстративных вариантов осуществления, приведенных только в качестве примера, со ссылкой на сопровождающие чертежи.

Краткое описание чертежей

Фиг.1 представляет схематическую блок-схему неограничительного примера системы передачи речи, в которой может быть использовано настоящее изобретение;

фиг.2 представляет функциональную блок-схему неограничительного примера кодека с переменной скоростью передачи, содержащего логические схемы определения скорости;

фиг.3 представляет функциональную блок-схему неограничительного примера кодека с переменной скоростью передачи, включающего в себя логические схемы определения скорости, использующие общую ПолСП для кадров низкой мощности;

фиг.4 представляет функциональную блок-схему неограничительного примера кодека с переменной скоростью передачи в соответствии с фиг.3, включающего в себя системный запрос половинной скорости передачи в логических схемах определения скорости;

фиг.5 представляет функциональную блок-схему примера кодека с переменной скоростью передачи в соответствии с неограничительным иллюстративным вариантом осуществления настоящего изобретения, включающего в себя системный запрос половинной скорости передачи на пакетном уровне (или уровне битового потока) в логических схемах определения скорости;

фиг.6 представляет пример конфигурации для способа передачи сигналов размерности и пачки в соответствии с неограничительным иллюстративным вариантом осуществления настоящего изобретения в функционально совместимом режиме VBR-WB, Ш-ПерСП при участии в вызове между мобильной станцией и мобильной станцией 3GPP - CDMA2000 или в вызове IP АМ-Ш - Ш-ПерСП;

фиг.7 представляет схематическую блок-схему неограничительного примера широкополосного устройства кодирования, более конкретно кодера АМ-Ш; и

фиг.8 представляет схематическую блок-схему неограничительного примера широкополосного устройства декодирования, более конкретно декодера АМ-Ш.

Подробное описание иллюстративного варианта осуществления

Несмотря на то, что иллюстративный вариант осуществления настоящего изобретения будет описан в следующем описании в связи с речевым сигналом, следует иметь в виду, что концепции настоящего изобретения также применяются к другим типам сигналов, в частности, но не исключительно, к другим типам звуковых сигналов.

Фиг.1 иллюстрирует систему 100 передачи речи, изображающую использование устройств кодирования и декодирования речи. Система 100 передачи речи фиг.1 поддерживает передачу речевых сигналов через канал 101 связи. Несмотря на то, что он может содержать, например, проводную, оптическую линию связи или волоконно-оптическую линию связи, канал 101 связи обычно содержит, по меньшей мере, частично радиочастотную линию связи. Радиочастотная линия связи часто поддерживает множество одновременных передач речи, требующих совместно используемых ресурсов полосы частот, таких, которые могут быть обнаружены с помощью систем сотовой телефонии. Несмотря на то, что это не изображено, канал 101 связи может быть заменен запоминающим устройством в одной реализации устройства системы 100, которое записывает и запоминает закодированный речевой сигнал для последующего воспроизведения.

В системе 100 передачи речи фиг.1 микрофон 102 создает аналоговый речевой сигнал 103, который подается в аналого-цифровой (A/D, А/Ц) преобразователь 104 для преобразования его в цифровой речевой сигнал 105. Кодер 106 речи кодирует цифровой сигнал 105 для создания множества параметров 107 кодирования сигнала, которые кодируют в двоичном виде и передают в кодер 108 канала. Необязательный кодер 108 канала добавляет избыточность к двоичному представлению параметров 107 кодирования сигнала перед передачей их через канал 101 связи.

В приемнике декодер 109 канала использует избыточную информацию в принятом битовом потоке 111 для обнаружения и исправления ошибок канала, которые появились во время передачи. Декодер 110 речи преобразует битовый поток 112, принятый из декодера 109 канала, обратно в множество параметров кодирования сигнала и создает из восстановленных параметров кодирования сигнала цифровой синтезированный речевой сигнал 113. Цифровой синтезированный речевой сигнал 113, восстановленный в декодере 110 речи, преобразуется в аналоговую форму 114 с помощью цифроаналогового (D/А, Ц/А) преобразователя 115 и воспроизводится через устройство 116 громкоговорителя.

Кодирование речи с переменной скоростью передачи, управляемое источником

Фиг.2 изображает неограничительный пример конфигурации кодека с переменной скоростью передачи, включающей в себя логическую схему определения, предназначенную для управления четырьмя скоростями кодирования. В этом примере множество скоростей передачи битов содержит назначенную скорость передачи битов кодека для неактивных речевых кадров (модуль 208 кодирования одной восьмой скорости передачи (CNG, ГКШ)), скорость передачи битов для незвонких речевых кадров (модуль 207 кодирования половинной скорости передачи незвонких кадров), скорость передачи для стабильных звонких кадров (модуль 206 кодирования половинной скорости передачи звонких кадров) и скорость передачи битов для других типов кадров (модуль 205 кодирования полной скорости).

Логические схемы определения скорости основаны на классификации сигнала, выполняемого на трех этапах (201, 202 и 203) на основании кадра, работа которых хорошо известна обычным специалистам в данной области техники.

Сначала детектор речевой активности (VAD, ДРА) разделяет неактивные и активные речевые кадры. Если обнаружен неактивный речевой кадр (фоновый сигнал шума), тогда цепочка классификации сигнала заканчивается, и кадр кодируется в модуле 208 кодирования как кадр с одной восьмой скорости с помощью генератора комфортного шума (CNG, ГКШ) в декодере (1,0 Кбит/с в соответствии с множеством II скорости CDMA2000). Если обнаружен активный кадр, кадр подлежит второй классификации.

Второй классификатор 202 назначен для принятия решения относительно звучания. Если классификатор 202 классифицирует кадр как незвонкий речевой кадр, цепочка классификации заканчивается, и кадр кодируется в модуле 207 с половинной скоростью, оптимизированной для незвонких сигналов (6,2 Кбит/с в соответствии с множеством II скорости CDMA2000). В противном случае речевой кадр обрабатывается посредством "стабильного звонкого" классификатора 203.

Если кадр классифицирован как стабильный звонкий кадр, тогда кадр кодируется в модуле 206 с половинной скоростью, оптимизированной для стабильных звонких сигналов (6,2 Кбит/с в соответствии с множеством II скорости CDMA2000). В противном случае кадр, вероятно, должен содержать нестационарный речевой сегмент, такой как звонкий начальный речевой сигнал или быстро изменяющийся звонкий речевой сигнал. Эти кадры обычно требуют высокую скорость передачи для поддержания хорошего субъективного качества. Следовательно, в этом случае речевой кадр кодируется в модуле 205 как кадр с полной скоростью передачи (13,3 Кбит/с в соответствии с множеством II скорости CDMA2000).

В неограничительной альтернативной реализации, изображенной на фиг.2, если кадр не классифицирован как "стабильный звонкий", он обрабатывается посредством классификатора 311 кадров низкой энергии. Это используется для того, чтобы обнаружить кадры, не учтенные детектором 201 ДРА. Если энергия кадра ниже определенного порога, кадр кодируется с использованием кодера 312 общей половинной скорости, в противном случае кадр кодируется в модуле 205 как кадр с полной скоростью передачи.

Модули 201, 202, 203 и 311 классификации сигнала хорошо известны обычным специалистам в данной области техники и, таким образом, не будут дополнительно описаны в настоящем описании. В неограничительном примере фиг.3 модули кодирования с разными скоростями передачи, а именно модули 205, 206, 207, 208 и 312, основаны на способах кодирования с линейным предсказанием с кодовым возбуждением (ЛПКВ), также хорошо известных обычным специалистам в данной области техники. Например, скорости передачи установлены в соответствии с множеством II скорости системы CDMA2000, описанной в настоящем описании выше.

Неограничительный иллюстративный вариант осуществления настоящего изобретения описан в настоящей заявке со ссылкой на широкополосный кодек речи, который стандартизован международным союзом электросвязи (ITU) в качестве Рекомендации G.722.2 и известен как кодек АМ-Ш (адаптивный многоскоростной широкополосный кодек) [ITU Recommendation G.722.2 "Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB)", Geneva, 2002]. Этот кодек также выбран Проектом партнерства третьего поколения (3GPP) для широкополосной телефонии в беспроводных системах третьего поколения [3GPP TS 26.190, "AMR Wideband Speech Codec: Transcoding Functions", 3GPP Technical Specification]. АМ-Ш может работать с 9 скоростями передачи от 6,6 до 23,85 Кбит/с. В настоящем описании используется скорость передачи 12,65 Кбит/с в качестве примера полной скорости.

Конечно, неограничительный иллюстративный вариант осуществления настоящего изобретения мог бы быть применен к другим типам кодеков.

Ради удобства читателя ниже в настоящем описании приведен обзор кодека АМ-Ш.

Обзор кодера АМ-Ш

Ссылаясь на фиг.7, выборочный речевой сигнал кодируется последовательно блок за блоком с помощью устройства 700 кодирования фиг.7, которое разбито на одиннадцать модулей, пронумерованных от 701 до 711.

Следовательно, входной речевой сигнал 712 обрабатывается последовательно блок за блоком, т. е. в упомянутых выше блоках L выборок, называемых кадрами.

Ссылаясь на фиг.7, выборочный входной речевой сигнал 712 подвергается выборке с понижением частоты в модуле 701 устройства выборки. Сигнал подвергается выборке с понижением частоты от 16 кГц до 12,8 кГц с использованием способов, хорошо известных обычным специалистам в данной области техники. Выполнение выборки с понижением частоты увеличивает эффективность кодирования, поскольку кодируется меньшая ширина полосы частот. Это также уменьшает алгоритмическую сложность, поскольку уменьшается число выборок в кадре. После выполнения дискретизации с понижением частоты кадр из 320 выборок 20 мс уменьшается до кадра из 256 выборок (коэффициент выполнения дискретизации с понижением частоты 4/5).

Затем входной кадр подается в необязательный модуль 702 предварительной обработки. Модуль 702 предварительной обработки может состоять из фильтра верхних частот с частотой отсечки 50 Гц. Фильтр 702 верхних частот удаляет нежелательные звуковые составляющие ниже 50 Гц.

Дискретизированный с понижением частоты предварительно обработанный сигнал обозначен с помощью Sp(n), n=0,1,2,...,L-1, где L - длина кадра (256 при частоте дискретизации 12,8 кГц). Этот сигнал Sp(n) предварительно выделяется с использованием фильтра 703 предварительного выделения, имеющего следующую передаточную функцию:

P(z)=1-μz^-1,

где μ - коэффициент предварительного выделения с величиной, находящейся между 0 и 1 (типичная величина равна μ=0,7). Функцией фильтра 703 предварительного выделения является увеличение высокочастотных составляющих входного речевого сигнала. Он также уменьшает динамический диапазон входного речевого сигнала, что делает его более подходящим для реализации с фиксированной запятой. Предварительное выделение также играет важную роль в выполнении соответствующего взвешивания общего восприятия ошибки квантования, что способствует улучшенному качеству звука.

Выходной сигнал фильтра 703 предварительного выделения обозначен s(n). Этот сигнал используется для выполнения анализа ЛП в модуле 704. Анализ ЛП является способом, хорошо известным обычным специалистам в данной области техники. В примере фиг.7 используется подход автокорреляции. В подходе автокорреляции сигнал s(n) сначала стробируется обычно с использованием окна Хэмминга, имеющего длительность порядка 30-40 мс. Автокорреляция вычисляется из стробированного сигнала и используется рекурсия Левинсона-Дурбина для вычисления коэффициентов фильтра ЛП, a_i, где i=1,...,p и где p - порядок ЛП, который обычно равен 16 при широкополосном кодировании. Параметры a_i являются коэффициентами передаточной функции A(z) фильтра ЛП, которая задается следующей зависимостью:

Анализ ЛП выполняется в модуле 704, который также выполняет квантование и интерполяцию коэффициентов фильтра ЛП. Коэффициенты фильтра ЛП сначала преобразуются в другую эквивалентную область, более подходящую для целей квантования и интерполяции. Области линейной спектральной пары (LSP, ЛСП) и спектральной пары иммитанса (ISP, СПИ) являются двумя областями, в которых может быть эффективно выполнено квантование и интерполяция. 16 коэффициентов фильтра ЛР a_i могут быть квантованы с помощью числа бит порядка 30-50 бит с использованием раздельного или многоэтапного квантования или их комбинации. Целью интерполяции является дать возможность обновления коэффициентов фильтра ЛП в каждом подкадре, в то же время передавая их один раз в каждом кадре, что улучшает эффективность кодера, не увеличивая скорость передачи. Предполагается, что квантование и интерполяция коэффициентов фильтра ЛП в других отношениях хорошо знакомы обычным специалистам в данной области техники и, таким образом, не будут дополнительно описаны в настоящем описании.

Следующие параграфы будут описывать остальные операции кодирования, выполняемые на основе подкадров. Входной кадр разделяется на 4 подкадра, равные 5 мс (64 выборки с частотой дискретизации, равной 12,8 кГц). В следующем описании фильтр A(z) обозначает неквантованный интерполированный фильтр ЛП подкадра, а фильтр В(z) обозначает квантованный интерполированный фильтр ЛП подкадра. Фильтр В(z) подает каждый подкадр в мультиплексор 713 для передачи через канал связи.

В кодерах анализа с помощью синтеза поиск оптимального основного тона и новых параметров выполняется с помощью минимизации среднеквадратичной ошибки между входным речевым сигналом 712 и синтезированным речевым сигналом в области взвешенного восприятия. Взвешенный сигнал S_w(n) вычисляется в фильтре 705 взвешивания восприятия в ответ на сигнал S(n) из фильтра 703 предварительного выделения. Используется фильтр 705 взвешивания восприятия с фиксированным знаменателем, подходящий для широкополосных сигналов. Пример передаточной функции для фильтра 705 взвешивания восприятия задается следующей зависимостью:

W(z)=A(z/y₁)/(1-y₂z^-1), где 0<y₂<y₁≤1

Для того чтобы упростить анализ основного тона, сначала оценивается задержка T_OLосновного тона с открытым контуром в модуле 706 поиска основного тона с открытым контуром из взвешенного речевого сигнала S_w(n). Затем анализ основного тона с замкнутым контуром, который выполняется в модуле 707 поиска основного тона с замкнутым контуром на основе подкадров, ограничивается около задержки T_OL основного тона с открытым контуром, что существенно уменьшает сложность параметров T (задержка основного тона) и b (усиление основного тона) LTP, ДП (долгосрочное предсказание). Анализ основного тона с открытым контуром обычно выполняется в модуле 706 один раз каждые 10 мс (два подкадра) с использованием способов, хорошо известных обычным специалистам в данной области техники.

Сначала вычисляется вектор x цели для ДП (долгосрочного предсказания). Это обычно выполняется с помощью вычитания нулевого входного отклика s₀ взвешенного фильтра синтеза W(z)/В(z) из взвешенного речевого сигнала s_w(n). Этот нулевой входной отклик s₀ вычисляют с помощью устройства 708 вычисления нулевого входного отклика в ответ на фильтр ЛП квантованной интерполяции В(z) из анализа ЛП, модуля 704 квантования и интерполяции и на начальные состояния взвешенного фильтра синтеза W(z)/В(z), хранимого в модуле 711 обновления памяти, в ответ на фильтры НЧ A(z) и В(z) и вектор u возбуждения. Эта операция хорошо известна обычным специалистам в данной области техники и, таким образом, не будет дополнительно описана.

Вектор h импульсного отклика размерности N взвешенного фильтра синтеза W(z)/В(z) вычисляется в генераторе 709 импульсного отклика с использованием коэффициентов фильтра ЛП A(Z) и В(z) из модуля 704. Опять эта операция хорошо известна обычным специалистам в данной области техники и, таким образом, не будет дополнительно описана в настоящем описании.

Параметры b, T и j основного тона с замкнутым контуром (или кодовая книга основного тона) вычисляются в модуле 707 поиска основного тона с замкнутым контуром, который использует вектор x цели, вектор h импульсного отклика и задержку T_OLосновного тона с открытым контуром в качестве входных сигналов.

Поиск основного тона состоит в нахождении наилучшей задержки Т, которая минимизирует среднеквадратичную взвешенную ошибку предсказания основного тона, например,

е^(j)=||x-b^(j)y^(j)||², где j=1,2, ..., k

между вектором х цели и масштабированным отфильтрованным вариантом прошлого возбуждения by.

Более конкретно, поиск основного тона (кодовой книги основного тона) состоит из трех этапов.

На первом этапе оценивается задержка T_OL основного тона с открытым контуром в модуле 706 поиска основного тона с открытым контуром в ответ на взвешенный речевой сигнал s_w(n). Как указано в приведенном выше описании, этот анализ с открытым контуром обычно выполняется один раз каждые 10 мс (два подкадра) с использованием способов, хорошо известных обычным специалистам в данной области техники.

На втором этапе ищется критерий С поиска в модуле 707 поиска основного тона с замкнутым контуром для целых задержек основного тона около оцененной задержки T_OL основного тона с открытым контуром (обычно +5), что существенно упрощает процедуру поиска. Простая процедура используется для обновления отфильтрованного кодового вектора y_T (этот вектор определен в дальнейшем описании) без необходимости вычислять свертку для каждой задержки основного тона. Пример критерия С поиска задается с помощью

С=,

где t обозначает транспортирование вектора

Когда найдена оптимальная целая задержка основного тона на втором этапе, третий этап поиска (модуль 707) проверяет, посредством критерия С поиска, дробные части около оптимальной целой задержки основного тона. Например, стандарт АМ-Ш использует разрешение подвыборки 1/4 и 1/2.

В широкополосных сигналах структура гармоник существует только до определенной частоты, зависящей от речевого сегмента. Следовательно, для того чтобы достичь эффективного представления вклада основного тона в звонкие сегменты широкополосного речевого сигнала, необходима гибкость, чтобы изменять величину периодичности в широкополосном спектре. Это достигается с помощью обработки кодового вектора основного тона посредством множества частотных формирующих фильтров (например, фильтров нижних частот и полосовых фильтров). И выбирается частотный формирующий фильтр, который минимизирует определенную выше среднеквадратичную взвешенную ошибку е. Выбранный частотный формирующий фильтр идентифицируется с помощью индекса j.

Индекс Т кодовой книги основного тона кодируется и передается в мультиплексор 713 для передачи через канал связи. Коэффициент усиления b основного тона квантуется и передается в мультиплексор 713. Используется дополнительный бит, чтобы кодировать индекс j, причем этот дополнительный бит также подается в мультиплексор 713.

Когда определен основной тон или параметры b, T и j ДП (долгосрочного предсказания), следующий этап состоит из поиска оптимального нового возбуждения посредством модуля 710 поиска нового возбуждения фиг.7. Сначала обновляется вектор х c помощью вычитания вклада ДП:

х'=x-by_T,

где b - коэффициент усиления основного тона, а y_T - отфильтрованный вектор кодовой книги основного тона (прошлое возбуждение с задержкой Т, отфильтрованной с помощью частотного формирующего филь