Способ и устройство для квантования усиления в широкополосном речевом кодировании с переменной битовой скоростью передачи
Иллюстрации
Показать всеИзобретение относится к способу и устройству квантования усиления для воплощения в методе кодирования дискретизированного звукового сигнала, обработанного в процессе кодирования последовательными кадрами из L выборок, где каждый кадр делится на некоторое число подкадров и каждый подкадр содержит некоторое число N выборок, где N<L. В способе и устройстве квантования усиления вычисляется начальное усиление основного тона на основании некоторого числа f подкадров, часть кодовой книги квантования усиления выбирается по отношению к начальному усилению основного тона, а усиления основного тона и фиксированной кодовой книги совместно квантуются. Это совместное квантование усилений основного тона и фиксированной кодовой книги содержит для некоторого числа f подкадров поиск в кодовой книге квантования усиления во взаимосвязи с критерием поиска. Поиск в кодовой книге ограничивается выбранной частью кодовой книги квантования усиления и индексом выбранной части кодовой книги квантования усиления, наилучшим образом отвечающим найденному критерию поиска. Технический результат - повышение пропускной способности системы. 8 н. и 45. з.п. ф-лы, 3 табл., 4 ил.
Реферат
Область техники, к которой относится изобретение
Настоящее изобретение относится к улучшенному методу цифрового кодирования звукового сигнала, в частности - но не исключительно - речевого сигнала, при передаче и синтезировании этого звукового сигнала.
Уровень техники
Потребность в эффективных методах цифрового узкополосного и широкополосного речевого кодирования с хорошим компромиссом между субъективным качеством и битовой скоростью передачи увеличивается в различных областях применения, таких как телеконференция, мультимедиа и беспроводная связь. До недавнего времени полоса частот телефонной связи, ограниченная в диапазоне 200-3400 Гц, использовалась главным образом в приложениях речевого кодирования. Однако широкополосные речевые приложения обеспечивают увеличенную разборчивость и естественность при передаче по сравнению с обычной полосой частот телефонной связи. Найдено, что полоса частот в интервале 50-7000 Гц достаточна для получения хорошего качества, дающего ощущение личного общения. Для общих аудиосигналов эта полоса частот дает приемлемое субъективное качество, которое все же ниже, чем качество FM радиосигнала или компакт-диска в диапазонах 20-16000 и 20-20000 Гц соответственно.
Речевой кодер преобразует речевой сигнал в цифровой битовый поток, который передается по каналу передачи или сохраняется на носителе данных. Речевой сигнал оцифровывается, то есть дискретизируется и квантуется обычно по 16 битов на выборку. Речевой кодер выполняет функцию представления этих цифровых отсчетов числом битов при поддержании хорошего субъективного качества речи. Речевой декодер или синтезатор работает на передаваемом или сохраненном битовом потоке и преобразует его обратно в звуковой сигнал.
Кодирование линейного предсказания с кодовым возбуждением (ЛПКВ) (CELP) является одним из лучших существующих методов для достижения хорошего компромисса между субъективным качеством и битовой скоростью передачи. Этот метод кодирования составляет основу для нескольких стандартов речевого кодирования как в беспроводных, так и в проводных приложениях. В кодировании ЛПКВ дискретизированный речевой сигнал обрабатывается в последовательных блоках из L выборок, обычно называемых кадрами, где L является заранее определенным числом, соответствующим обычно 10-30 мс. Фильтр линейного предсказания (ЛП) (LP) вычисляется и передается на каждый кадр. Для вычисления фильтра ЛП обычно необходим упреждающий просмотр, то есть речевой сегмент 5-15 мс из последующего кадра. Кадр из L выборок делится на меньшие блоки, называемые подкадрами. Обычно число подкадров равняется трем или четырем, что дает подкадры по 4-10 мс. В каждом подкадре сигнал возбуждения обычно получается из двух компонент: прошлого возбуждения и нового возбуждения из фиксированной кодовой книги. Компонент, сформированный из прошлого возбуждения, часто именуется адаптивной кодовой книгой или возбуждением основного тона. Параметры, характеризующие сигнал возбуждения, кодируются и передаются в декодер, где восстановленный сигнал возбуждения используется как входной сигнал для фильтра ЛП.
В беспроводных системах с помощью технологии множественного доступа с кодовым разделением каналов (МДКР) (CDMA) использование речевого кодирования с управляемой источником переменной битовой скоростью передачи (ПБСП) (VBR) значительно улучшает пропускную способность системы. При кодировании с управляемой источником ПБСП кодек работает на нескольких битовых скоростях передачи, а модуль выбора скорости используется для определения того, какая битовая скорость передачи используется для кодирования каждого речевого кадра, на основании природы речевого кадра (например, вокализованный, невокализованный, переходный, фоновый шум и так далее). Цель состоит в том, чтобы достигнуть наилучшего качества речи на данной средней битовой скорости передачи, также именуемой средней скоростью передачи данных (ССПД) (ADR). Кодек может работать с различными режимами, настраивая модуль выбора скорости для достижения различных ССПД в различных режимах работы, т.к. характеристика кодека улучшается при повышенных ССПД. Режим работы задается системой в зависимости от канальных условий. Это обеспечивает кодек механизмом компромисса между качеством речи и пропускной способностью системы. В системах МДКР (например, CDMA-one и CDMA2000) обычно используются 4 битовых скорости, именуемые как полная (вся) скорость (ВС) (FR), половинная скорость (ПС) (HR), скорость в одну четверть (СОЧ) (QR) и скорость в одну восьмую (СОВ) (ER). В этой системе поддерживаются два набора скоростей, именуемых как Набор I скоростей и Набор II скоростей. В Наборе II скоростей кодек переменной скорости с механизмом выбора скорости работает на битовых скоростях кодирования источника 13,3 (ВС), 6,2 (ПС), 2,7 (СОЧ) и 1,0 (СОВ) кбит/с, соответствующих главным битовым скоростям 14,4, 7,2, 3,6 и 1,8 кит/с (с некоторыми битами, добавленными для обнаружения ошибок).
Как правило, при кодировании ПБСП для систем МДКР используется скорость в одну восьмую для кодирования кадров без речевой активности (кадры паузы или только шума). Когда кадр является стационарным вокализованным или стационарным невокализованным, то используется половинная скорость или скорость в одну четверть в зависимости от режима работы. Когда используется половинная скорость для стационарных невокализованных кадров, то используется модель ЛПКВ без кодовой книги основного тона. Когда используется половинная скорость в случае стационарных голосовых кадров, используется изменение сигнала для увеличения периодичности и уменьшения числа битов для индексов основного тона. Если режим работы задает скорость в одну четверть, то никакое согласование формы сигнала обычно не возможно, поскольку число битов недостаточно, и обычно применяется некоторое параметрическое кодирование. Полная скорость используется для приступов (начальных согласных слога), переходных кадров и смешанных вокализованных кадров (обычно используется типичная модель ЛПКВ). В дополнение к управляемой источником работе кодека в системах МДКР, система может ограничить максимальную битовую скорость в некоторых вокализованных кадрах для того, чтобы послать канальную информацию сигнализации (называемую неясной и импульсной сигнализацией) или в течение плохих канальных условий (таких как вблизи границ ячейки), для того чтобы улучшить устойчивость кодека. Это именуется как максимум половинной скорости. Когда модуль выбора скорости выбирает кадр, который будет закодирован как кадр полной скорости, и система задает, например, кадр ПС, характеристика речи ухудшается, так как выделенные режимы ПС не способны эффективно кодировать приступы и переходные сигналы. Разработана другая общая модель кодирования ПС для обработки этих особых случаев.
Адаптивный многоскоростной широкополосный (АМС-ШП) (AMR-WB) речевой кодек был принят ITU-T (Международным союзом электросвязи - сектором стандартизации телекоммуникаций (МСЭ-ССТ)) для широкополосной речевой телефонии и услуг, и 3GPP (Проектом партнерства третьего поколения (ППТП)) для беспроводных систем третьего поколения GSM и Ш-МДКР (Широкополосный МДКР) (W-CDMA). Кодек АМС-ШП состоит из девяти битовых скоростей, а именно 6,60, 8,85, 12,65, 14,25, 15,85, 18,25, 19,85, 23,05 и 23,85 кбит/с. Проектирование управляемого источником основанного на АМС-ШП кодека ПБСП для систем МДКР имеет преимущество обеспечения взаимодействия между МДКР и другими системами, использующими кодек АМС-ШП. Битовая скорость АМС-ШП 12,65 кбит/с является ближайшей скоростью, которая может соответствовать полной скорости 13,3 кбит/с в Наборе II скоростей. Эта скорость может быть использована как общая скорость между широкополосным кодеком ПБСП МДКР и АМС-ШП, чтобы обеспечить функциональную совместимость, не требуя перекодирования (которое ухудшает качество речи). Типы кодирования с более низкими скоростями должны быть разработаны специально для широкополосного решения применительно к ПБСП МДКР, чтобы обеспечить эффективную работу в пределах Набора II скоростей. Кодек затем может работать в нескольких специфичных для МДКР режимах с использованием всех скоростей, но он будет иметь режим, который допускает функциональную совместимость с системами, использующими кодек АМС-ШП.
При кодировании ПБСП на основании ЛПКВ обычно все классы, за исключением невокализованных и неактивных вокализованных классов, используют кодовую книгу основного тона (или адаптивную) и кодовую книгу нововведения (или фиксированную) для представления сигнала возбуждения. Таким образом, кодированное возбуждение состоит из задержки основного тона (или индекса кодовой книги основного тона), усилия основного тона, индекса кодовой книги нововведения и усиления кодовой книги нововведения. Как правило, усиление основного тона и усиление нововведения совместно квантуются или векторно квантуются для снижения битовой скорости. Если они квантуются отдельно, то усиление основного тона требует 4 бита, а усиление кодовой книги нововведения требует 5 или 6 битов. Однако при совместном квантовании достаточно 6 или 7 битов (экономия 3 бита на подкадр 5 мс эквивалентна экономии 0,6 кбит/с). В общем, таблица квантования или кодовая книга формируется с использованием речевых сегментов всех типов (например, вокализованных, невокализованных, переходных, приступов, смещений и так далее). В контексте кодирования ПБСП модели кодирования с половинной скоростью являются обычно специфическими для класса. Поэтому различные модели с половинной скоростью разрабатываются для различных классов сигналов (вокализованных, невокализованных или общих). Таким образом, новые таблицы квантования должны быть разработаны для таких ориентированных на классы сигналов моделей кодирования.
Сущность изобретения
Настоящее изобретение относится к способу квантования усиления для воплощения в методе кодирования дискретизированного звукового сигнала, обрабатываемого в процессе кодирования последовательными кадрами из L выборок, в котором:
- каждый кадр делится на некоторое число подкадров;
- каждый подкадр включает в себя некоторое число N выборок, где N<L; и
- способ квантования усиления включает в себя: вычисление начального усиления основного тона на основании некоторого числа f подкадров; выбор части кодовой книги квантования усиления по отношению к начальному усилению основного тона; идентификацию выбранной части кодовой книги квантования усиления с использованием, по меньшей мере, одного бита на последующую группу из f подкадров; и совместное квантование усилений основного тона и фиксированной кодовой книги.
Объединенное квантование усилений основного тона и фиксированной кодовой книги включает в себя, для некоторого числа f подкадров, поиск в кодовой книге квантования усиления во взаимосвязи с критерием поиска. Поиск в кодовой книге квантования усиления включает в себя ограничение поиска в кодовой книге до выбранной части кодовой книги квантования усиления и нахождение индекса выбранной части кодовой книги квантования усиления, наилучшим образом отвечающего критерию поиска.
Настоящее изобретение также относится к устройству квантования усиления для воплощения в системе для кодирования дискретизированного звукового сигнала, обрабатываемого, в процессе кодирования, последовательными кадрами из L выборок, в котором:
каждый кадр делится на некоторое число подкадров;
каждый подкадр включает в себя некоторое число N выборок, где N<L; и
устройство квантования усиления включает в себя: средство для вычисления начального усиления основного тона на основании некоторого числа f подкадров; средство для выбора части кодовой книги квантования усиления по отношению к начальному усилению основного тона; средство для идентификации выбранной части кодовой книги квантования усиления с использованием, по меньшей мере, одного бита на последующую группу из f подкадров; и средство для совместного квантования усилений основного тона и фиксированной кодовой книги.
Средство для объединенного квантования усилений основного тона и фиксированной кодовой книги включает в себя средство для поиска в кодовой книге квантования усиления во взаимосвязи с критерием поиска. Упомянутое средство поиска в кодовой книге квантования усиления включает в себя средство для ограничения - для некоторого числа f подкадров - поиска в кодовой книге до выбранной части кодовой книги квантования усиления и средство для нахождения индекса выбранной части кодовой книги квантования усиления, наилучшим образом отвечающего критерию поиска.
Настоящее изобретение далее относится к устройству квантования усиления для воплощения в методе кодирования дискретизированного звукового сигнала, обрабатываемого, в процессе кодирования, последовательными кадрами из L выборок, в котором:
- каждый кадр делится на некоторое число подкадров;
- каждый подкадр включает в себя некоторое число N выборок, где N<L; и
- устройство квантования усиления включает в себя: вычислитель начального усиления основного тона на основании некоторого числа f подкадров; селектор части кодовой книги квантования усиления по отношению к начальному усилению основного тона; идентификатор выбранной части кодовой книги квантования усиления с использованием, по меньшей мере, одного бита на последующую группу из f подкадров; и совместный квантователь для совместного квантования усилений основного тона и фиксированной кодовой книги.
Совместный квантователь включает в себя средство поиска в выбранной части кодовой книги квантования усиления во взаимосвязи с критерием поиска, причем это средство поиска в кодовой книге квантования усиления ограничивает поиск в кодовой книге до выбранной части кодовой книги квантования усиления и находит индекс выбранной части кодовой книги квантования усиления, наилучшим образом отвечающий критерию поиска.
Настоящее изобретение еще далее относится к способу квантования усиления для воплощения в методе для кодирования дискретизированного звукового сигнала, обрабатываемого, в процессе кодирования, последовательными кадрами из L выборок, в котором каждый кадр делится на некоторое число подкадров и каждый подкадр включает в себя некоторое число N выборок, где N<L. Этот способ квантования усиления содержит:
вычисление начального усиления основного тона на основании периода К длиннее, чем подкадр;
выбор части кодовой книги квантования усиления по отношению к начальному усилению основного тона;
идентификацию выбранной части кодовой книги квантования усиления с использованием, по меньшей мере, одного бита на последующую группу из f подкадров; и
совместное квантования усилений основного тона и фиксированной кодовой книги, причем совместное квантования усилений основного тона и фиксированной кодовой книги содержит:
поиск в кодовой книге квантования усиления во взаимосвязи с критерием поиска, причем поиск в кодовой книге квантования усиления включает в себя ограничение поиска в кодовой книге до выбранной части кодовой книги квантования усиления и поиск индекса выбранной части кодовой книги квантования усиления, наилучшим образом отвечающего критерию поиска; и
вычисление начального усиления основного тона на основании периода К длиннее, чем подкадр, содержит использование следующего отношения:
,
где TOL является задержкой основного тона без обратной связи, а sw(n) является сигналом, полученным из перцепционно взвешенного варианта дискретизированного звукового сигнала.
Наконец, настоящее изобретение относится к устройству квантования усиления для воплощения в методе для кодирования дискретизированного звукового сигнала, обрабатываемого в процессе кодирования последовательными кадрами из L выборок, в котором каждый кадр делится на некоторое число подкадров и каждый подкадр включает в себя некоторое число N выборок, где N<L, причем устройство квантования усиления содержит:
вычислитель начального усиления основного тона на основании периода К длиннее, чем подкадр;
селектор части кодовой книги квантования усиления по отношению к начальному усилению основного тона;
идентификатор выбранной части кодовой книги квантования усиления с использованием, по меньшей мере, одного бита на последующую группу из f подкадров; и
совместный квантователь для совместного квантования усилений основного тона и фиксированной кодовой книги, причем совместный квантователь содержит:
средство поиска в выбранной части кодовой книги квантования усиления по отношению к критерию поиска, это средство поиска в кодовой книге квантования усиления ограничивает поиск в кодовой книге до выбранной части кодовой книги квантования усиления и находит индекс выбранной части кодовой книги квантования усиления, наилучшим образом отвечающий критерию поиска; и
вычислитель начального усиления основного тона содержит последующее отношение, используемое для вычисления начального усиления основного тона:
,
где TOL является задержкой основного тона без обратной связи, а sw(n) является сигналом, полученным из перцепционно взвешенного варианта дискретизированного звукового сигнала.
Предшествующие и другие цели, преимущества и признаки настоящего изобретения поясняются в последующем неограничивающем описании иллюстративных вариантов осуществления со ссылками на чертежи.
Краткое описание чертежей
Фиг.1 - блок-схема системы передачи речи, иллюстрирующая контекст, в котором используются устройства речевого кодирования и декодирования в соответствии с настоящим изобретением;
Фиг.2 - функциональная блок-схема адаптивного многоскоростного широкополосного (АМС-ШП) (AMR-WB) кодера;
Фиг.3 - блок-схема алгоритма иллюстративного варианта осуществления способа согласно настоящему изобретению;
Фиг.4 - блок-схема алгоритма иллюстративного варианта осуществления устройства согласно настоящему изобретению.
Подробное описание предпочтительного варианта осуществления
Хотя иллюстративные варианты осуществления настоящего изобретения описаны ниже по отношению к речевому сигналу, следует иметь в виду, что настоящее изобретение может быть применено для других видов звуковых сигналов, таких как, например, аудиосигналы.
Фиг.1 показывает систему 100 передачи речи, изображающую контекст, в котором используются устройства речевого кодирования и декодирования в соответствии с настоящим изобретением. Система 100 передачи речи поддерживает передачу и воспроизведение речевого сигнала по каналу 105 связи. Хотя он может содержать, например, проводную, оптическую или оптоволоконную линию, канал 105 связи обычно содержит, по меньшей мере частично, радиочастотную линию. Радиочастотная линия зачастую поддерживает множество одновременных речевых передач, требующих совместного использования ресурсов полосы частот, как это имеет место в вариантах осуществления сотовой телефонии. Хотя и не показано, но канал 105 связи может быть заменен блоком памяти в варианте осуществления отдельного устройства системы связи, которое записывает и хранит кодированный речевой сигнал для последующего воспроизведения.
На передающей стороне микрофон 101 преобразует речь в аналоговый речевой сигнал 110, подаваемый на аналого-цифровой (АЦ) (A/D) преобразователь 102. Функция аналого-цифрового преобразователя 102 заключается в преобразовании аналогового речевого сигнала 110 в цифровой речевой сигнал 111. Речевой кодер 103 кодирует цифровой речевой сигнал, чтобы получить набор параметров 112 кодирования сигнала в двоичной форме, доставляемых к опциональному канальному кодеру 104. Опциональный канальный кодер 104 добавляет избыточность к двоичному представлению параметров 112 кодирования сигнала перед их передачей (113) по каналу 105 связи.
На приемной стороне канальный декодер 106 использует избыточную информацию в принимаемом битовом потоке 114 для обнаружения и исправления ошибок канала, возникающих в процессе передачи. Речевой декодер 107 преобразует битовый поток 115, принимаемых из канального декодера, обратно в набор параметров кодирования сигнала для восстановления синтезируемого речевого сигнала 116. Синтезируемый речевой сигнал 116, восстановленный в речевом декодере 107, преобразуется обратно в аналоговый речевой сигнал 117 в цифроаналоговом (ЦА) (D/A) преобразователе 108. Наконец, аналоговый речевой сигнал 117 воспроизводится через блок 109 громкоговорителя.
Краткий обзор кодера АМС-ШП
Ниже представлен обзор кодера АМС-ШП, работающего с битовой скоростью 12,65 кбит/с. Этот кодер АМС-ШП используется как кодер полной скорости в иллюстративных вариантах осуществления настоящего изобретения.
Входной дискретизированный звуковой сигнал 212, например, речевой сигнал, обрабатывается или кодируется на поблочной основе посредством кодера 200 на Фиг.2, который разделен на одиннадцать модулей, пронумерованных от 201 до 211.
Входной дискретизированный звуковой сигнал 212 преобразуется в вышеупомянутые последовательные блоки из L выборок, называемых кадрами.
Согласно Фиг.2 частота дискретизации входного дискретизированного речевого сигнала 112 понижается в средстве 201 понижения частоты дискретизации. Частота дискретизации входного речевого сигнала 212 понижается с частоты дискретизации 16 кГц до частоты дискретизации 12,8 кГц с помощью методов, общеизвестных специалистам в этой области техники. Понижение частоты дискретизации увеличивает эффективность кодирования, так как кодируется меньшая ширина полосы частот. Понижение частоты дискретизации также понижает алгоритмическую сложность, так как число выборок в кадре уменьшается. После понижения частоты кодирования кадр из 320 выборок, имеющий длительность в 20 мс, уменьшается до кадра 213 из 256 выборок (отношение понижения частоты дискретизации 4/5).
Кадр 213 с пониженной частотой дискретизации затем подается на опциональный блок предварительной обработки. В примере по Фиг.2 блок предварительной обработки состоит из фильтра 202 верхних частот с частотой отсечки 50 Гц. Этот фильтр 202 верхних частот удаляет нежелательные звуковые компоненты ниже 50 Гц.
Заранее обработанный сигнал с пониженной частотой дискретизации обозначается sp(n), где n=0, 1, 2, ..., L-1, а L является длиной кадра (256 на частоте дискретизации 12,81 кГц). Согласно неограничивающему примеру сигнал sp(n) предварительно корректируется с помощью фильтра 203 предварительной коррекции, имеющего следующую передаточную функцию:
(1)
где μ является коэффициентом предварительной коррекции со значением, расположенным между 0 и 1 (обычно значение μ = 0,7). Функция фильтра 203 предварительной коррекции заключается в усилении высокочастотных составляющих входного речевого сигнала. Фильтр 203 предварительной коррекции также понижает динамический диапазон входного речевого сигнала, что делает его более подходящим для реализации с фиксированной запятой. Предварительная коррекция также играет важную роль в реализации надлежащего общего перцепционного взвешивания ошибки квантования, что способствует улучшению качества звука. Это объяснено более подробно ниже.
Выходной сигнал фильтра 203 предварительной коррекции обозначен s(n). Этот сигнал s(n) используется для выполнения анализа ЛП в модуле 204 анализа ЛП, квантования и интерполяции. Анализ ЛП является методом, общеизвестным специалистам. В иллюстративном примере на Фиг.2 используется автокорреляционный метод. Согласно автокорреляционному методу сигнал s(n) сначала обрабатывается методом окна, в типовом случае окна Хемминга, имеющего обычно длину порядка 30-40 мс. Вычисляются автокорреляции из сигнала, обработанного методом окна, и используется рекурсия Левинсона-Дурбина для вычисления коэффициентов ai фильтра ЛП, где i=1, 2,..., p и где p является порядком ЛП, который обычно равен 16 при широкополосном кодировании. Параметры ai являются коэффициентами функции передачи фильтра ЛП, который задается следующим отношением:
(2)
Анализ ЛП выполняется в модуле 204 анализа ЛП, квантования и интерполяции, который также выполняет квантование и интерполяцию коэффициентов фильтра ЛП. Коэффициенты ai фильтра ЛП сначала преобразуются в другую эквивалентную область, более подходящую для целей интерполяции и квантования. Области линейной спектральной пары (ЛСП) (LSP) и иммитансной спектральной пары (ИСП) (ISP) являются двумя областями, в которых могут быть эффективно выполнены квантование и интерполяция. 16 коэффициентов ai фильтра ЛП могут быть квантованы числом битов порядка 30-50 с помощью расщепленного или многоступенчатого квантования или их комбинации. Назначение интерполяции состоит в обеспечении обновления коэффициентов ai фильтра ЛП каждого подкадра при передаче их один раз на каждый кадр, что улучшает производительность кодера без увеличения битовой скорости. В остальном квантование и интерполяция коэффициентов фильтра ЛП известны специалистам и поэтому далее не описываются.
Ниже описаны остальные операции кодирования, выполняемые на основе подкадров. В иллюстративном примере на Фиг.2 входной кадр делится на 4 подкадра по 5 мс (64 выборки при частоте дискретизации 12,8 кГц). В последующем описании фильтр A(z) означает неквантованный интерполированный фильтр ЛП подкадра, а фильтр означает квантованный интерполированный фильтр ЛП подкадра.
В кодерах анализа через синтез оптимальный основной тон и инновационные параметры определяются путем минимизации среднеквадратичной ошибки между входной речью и синтезированной речью в перцепционно взвешенной области. Перцепционно взвешенный сигнал, обозначенный sw(n) на Фиг.2, вычисляется в перцепционно взвешивающем фильтре 205. Используется перцепционно взвешивающий фильтр 205 с фиксированным знаменателем, пригодный для широкополосных сигналов. Пример передаточной функции для перцепционно взвешивающего фильтра 205 дается следующим отношением:
Чтобы упростить анализ основного тона, сначала методом разомкнутого контура оценивается задержка TOL основного тона в модуле 206 поиска основного тона методом разомкнутого контура с помощью взвешенного речевого сигнала sw(n). Затем анализ основного тона методом замкнутого контура, который выполняется в модуле 207 поиска основного тона методом замкнутого контура на основе подкадра, ограничивается относительно задержки TOL основного тона разомкнутого контура, чтобы посредством этого значительно уменьшить сложность поиска параметров Т и gp ДВП (долговременного предсказания) (LTP) (задержка основного тона и усиление основного тона соответственно). Анализ основного тона разомкнутого контура обычно выполняется в модуле 206 каждые 10 мс (два подкадра) с помощью методов, общеизвестных специалисту.
Сначала вычисляется вектор x значения для анализа долговременного предсказания (ДВП) (LTP). Это обычно делается вычитанием нулевого входного отклика s0 взвешенного синтезирующего фильтра из взвешенного речевого сигнала sw(n). Этот нулевой входной отклик s0 вычисляется вычислителем 208 нулевого входного отклика в ответ на фильтр ЛП квантованной интерполяции из модуля 204 анализа ЛП, квантования и интерполяции и на исходные состояния взвешенного синтезирующего фильтра , хранящегося в модуле обновления памяти, в ответ на фильтры А(z) и и вектор u возбуждения. Это действие общеизвестно специалистам и поэтому далее не описывается.
N-мерный вектор h импульсного отклика взвешенного синтезирующего фильтра вычисляется в генераторе 209 с помощью коэффициентов A(z) и фильтра ЛП из модуля 204 анализа ЛП, квантования и интерполяции. Это действие также известно специалистам и поэтому далее не описывается.
Параметры gр, T и j основного тона замкнутого контура (или кодовой книги основного тона) вычисляются в модуле 207 поиска основного тона методом замкнутого контура, который использует целевой вектор x(n), вектор h(n) импульсного отклика и задержку TOL основного тона разомкнутого контура, как входные сигналы.
Поиск основного тона состоит из нахождения наилучших задержки T и усиления gр, которые минимизируют среднеквадратичную ошибку предсказания взвешенного основного тона, например,
,
между целевым вектором x(n) и взвешенным фильтрованным вариантом прошлого возбуждения gр, yT(n).
Более конкретно поиск кодовой книги основного тона выполняется в три стадии.
На первой стадии оценивается задержка TOL основного тона разомкнутого контура в модуле 206 поиска методом основного тона разомкнутого контура в ответ на взвешенный речевой сигнал sw(n). Как показано выше, этот анализ основного тона разомкнутого контура обычно выполняется каждые 10 мс (два подкадра) известными методами.
На второй стадии отыскивается критерий С поиска в модуле 207 поиска основного тона методом замкнутого контура для целочисленных задержек основного тона вокруг оцененной задержки TOL основного тона разомкнутого контура (обычно ±5), что значительно упрощает процедуру поиска в кодовой книге основного тона. Используется простая процедура для обновления фильтрованного кодового вектора yT(n) (этот вектор определен ниже) без необходимости вычисления свертки для каждой задержки основного тона. Примером критерия С поиска может служить:
, где t означает транспонирование.
Когда оптимальная целочисленная задержка основного тона найдена на второй стадии, третья стадия поиска (модуль 207 поиска основного тона методом замкнутого контура) проверяет, посредством критерия С поиска, участки вокруг этой оптимальной целочисленной задержки основного тона. Например, кодер АМС-ШП использует разрешение в 1/4 и 1/2 выборки.
В широкополосных сигналах гармоническая структура существует только до некоторой частоты в зависимости от речевого сегмента. Таким образом, для обеспечения эффективного представления вклада основного тона в голосовые сегменты широкополосного речевого сигнала необходима гибкость для изменения величины периодичности по широкополосному спектру. Это достигается обработкой кодового вектора основного тона посредством множества частотных формирующих фильтров (например, низкочастотные или высокочастотные фильтры) и выбором частотного формирующего фильтра, который минимизирует выше определенную среднеквадратичную взвешенную ошибку e(y). Выбранный частотный формирующий фильтр обозначается индексом j.
Индекс Т кодовой книги основного тона кодируется и передается мультиплексору 214 для передачи по каналу связи. Усиление gр основного тона квантуется и передается мультиплексору 214. Дополнительный бит используется для кодирования индекса j, и этот дополнительный бит также подается на мультиплексор 214.
Как только определены основной тон и параметры gр, Т и j долговременного предсказания (ДВП) (LTP), следующий шаг состоит в поиске оптимального инновационного (фиксированной кодовой книги) возбуждения посредством модуля 210 поиска инновационного возбуждения по Фиг.2. Сначала целевой вектор x(n) обновляется вычитанием вклада ДВП:
где gр является усилением основного тона, а yT(n) является отфильтрованным вектором кодовой книги основного тона (прошлое возбуждение при задержке T основного тона, отфильтрованное выбранным частотным формирующим фильтром (индекс j) и подвергнутое свертке с импульсным откликом h(n)).
Процедура поиска инновационного возбуждения в ЛПКВ выполняется в инновационной (фиксированной) кодовой книге, чтобы найти оптимальные кодовый вектор ck возбуждения (фиксированной кодовой книги) и усиление gс, которые минимизируют среднеквадратичную ошибку E между целевым вектором x'(n) и масштабированным отфильтрованным вариантом кодового вектора ck, например:
где H является нижней треугольной сверточной матрицей, полученной из вектора h(n) импульсного отклика. Индекс k инновационной кодовой книги, соответствующий найденным оптимальным кодовому вектору ck, и усиление gс подаются на мультиплексор 214 для передачи через канал связи.
Следует отметить, что использованная инновационная кодовая книга может быть динамической кодовой книгой, состоящей из алгебраической кодовой книги, за которой следует адаптивный предварительный фильтр F(z), который усиливает заданные спектральные компоненты для того, чтобы улучшить качество речевого синтеза, согласно патенту США № 5444816, выданному на имя Adoul et al. 22 августа 1995. Конкретнее, поиск в инновационной кодовой книге может быть выполнен в модуле 210 посредством алгебраической кодовой книги, как описывается в патентах США № 5444816 (Adoul et al.), опубликованном 22 августа 1995; 5699482, выданном на имя Adoul et al. 17 декабря 1997; 5754976, выданном на имя Adoul et al. 19 Мая 1998, и 5701392 (Adoul et al.), датированном 23 декабря 1997.
Передается индекс k оптимального инновационного кодового вектора. В качестве неограничивающего примера алгебраическая кодовая книга используется, когда индекс состоит из положений и знаков импульсов ненулевой амплитуды в векторе возбуждения. Усиление gр основного тона и инновационное усиление gс окончательно квантуются с помощью процедуры совместного квантования, которая описана ниже.
Распределение битов кодера АМС-ШП, работающего в режиме 12,65 кбит/с, приводится в таблице 1.
Таблица 1Битовое распределение в режиме 12,65 кбит/с в соответствии со стандартом АМС-ШП | |
Параметр | Биты/Кадры |
Параметры ЛП | 46 |
Задержка основного тона | 30=9+6+9+6 |
Фильтрация основного тона | 4=1+1+1+1 |
Усиления | 28=7+7+7+7 |
Алгебраическая кодовая книга | 144=36+36+36+36 |
Признак ДАР (детектора активности речи) (VAD) | 1 |
Итого | 253 бита = 12,65 кбит/с |
Совместное квантование усилений
Усиления gp кодовой книги основного тона и усиления gc инновационной кодовой книги могут быть проквантованы либо скалярно, либо векторно.
При скалярном квантовании усиление основного тона квантуется независимо с помощью обычно 4 битов (неравномерное квантование в пределах 0-1,2). Усиление инновационной кодовой книги обычно квантуется с помощью 5 или 6 битов; знак квантуется 1 битом, а величина 4 или 5 битами. Величина усилений обычно квантуется равномерно в логарифмической области.
При объединенном или векторном квантовании таблица квантования или кодовая книга квантования проектируется и сохраняется как на стороне кодера, так и на стороне декодера. Эта кодовая книга может быть двумерной кодовой книгой, имеющей размер, который зависит от числа битов, используемых для квантования двух усилений gр и gс. Например, 7-битовая кодовая книга, используемая для квантования двух усилений gр и gc, содержит 128 элементов записей с размерностью 2. Наилучший элемент записи для некоторого подкадра определяется минимизацией некоторого критерия ошибки. Например, наилучший элемент записи кодовой книги может быть найден минимизацией среднеквадратичной ошибки между входным сигналом и синтезируемым сигналом.
Для дальнейшего использования корреляции сигналов может быть выполнено предсказание на основе усиления gc инновационной кодовой книги. Как правило, предсказание выполняется на основе масштабированной энергии инновационной кодово