Способ и устройство воспроизведения речевых сигналов и способ их передачи

Иллюстрации

Показать все

Изобретение касается способа и устройства воспроизведения речевых сигналов, в которых речевой сигнал делят на множество кадров и кодируют для обнаружения параметров кодирования, основанных на том, какие, по меньшей мере, гармонические волны синтезируются для воспроизведения речевого сигнала. Сущность изобретения состоит в том, что при кодировании разделяют речевые сигналы на кадры и кодируют разделенные сигналы на кадровой основе для вывода параметров кодирования, таких, как параметры линейной спектральной пары, высоты тона, вокализованный - невокализованный сигналы или спектральная амплитуда. При вычислении видоизмененных параметров кодирования интерполируют параметры кодирования для вычисления видоизмененных параметров кодирования, связанных с основанными на кадрах временными периодами. При декодировании синтезируют гармонические волны и шум на основании видоизмененных параметров кодирования и выделяют синтезированные речевые сигналы. Технический результат, достигаемый при осуществлении изобретения, состоит в том, что при воспроизведении речевых сигналов осуществляют управление скоростью в широком диапазоне с высоким качеством звука при неизменных фонемах и высоты тона. 3 н. и 9 з.п. ф-лы, 24 ил.

Реферат

Предпосылки создания изобретения

Область техники, к которой относится изобретение

Настоящее изобретение касается способа и устройства воспроизведения речевых сигналов, в которых входной речевой сигнал делят на множество кадров в качестве элементов и кодируют для обнаружения параметров кодирования, основанных на том, какие, по меньшей мере, гармонические волны синтезируются для воспроизведения речевого сигнала. Изобретение касается также способа передачи видоизмененных параметров кодирования, полученных при интерполировании параметров кодирования,

Описание родственной техники

В настоящее время известно множество способов кодирования, предназначенных для сжатия сигналов посредством использования статических свойств сигналов звуковых частот, включающих речевые сигналы и сигналы звукового сопровождения, во временной области и в частотной области и относящиеся к психологии слухового восприятия характеристики системы человеческого слухового аппарата. Эти способы кодирования грубо классифицируются на кодирование по временной области, кодирование по частотной области и кодирование посредством анализа-синтеза.

Между тем, при высокоэффективном способе кодирования речи посредством обработки сигналов на временной оси, иллюстрируемого линейным предсказанием с возбуждением кода (ЛПBK), встречаются трудности при преобразовании (изменении) скорости временной оси скорее из-за длительных операций по обработке сигналов, выводимых с декодирующего устройства.

Кроме того, вышеупомянутый способ нельзя использовать, например, для преобразования частоты основного тона, потому что управление скоростью выполняется в декодируемом линейном диапазоне.

Ввиду вышеизложенного, целью настоящего изобретения является обеспечить способ и устройство, предназначенные для воспроизведения речевых сигналов, в которых управление скоростью произвольной частоты в широком диапазоне можно легко выполнять с высоким качеством при оставлении неизменными фонемы и высоты тона.

В одном аспекте, настоящее изобретение обеспечивает способ воспроизведения входного речевого сигнала на основании параметров кодирования, получаемых посредством разделения входного речевого сигнала исходя из заранее установленных кадров на временной оси и кодирования такого разделенного входного речевого сигнала на кадровой основе, включающий в себе этапы интерполирования параметров кодирования, предназначенных для определения видоизмененных параметров кодирования, связанных с требуемыми временными точками, и вырабатывания отличия модифицированного речевого сигнала по частоте от упомянутого входного речевого сигнала на основании видоизмененных параметров кодирования. Таким образом, управление скоростью на произвольной частоте в широком диапазоне можно легко выполнять с высоким качеством сигнала при оставлении неизменными фонемы и высоты тона.

В другом аспекте, настоящее изобретение обеспечивает устройство, предназначенное для воспроизведения речевого сигнала, в котором входной речевой сигнал восстанавливается на основании параметров кодирования, полученных посредством разделения входного речевого сигнала исходя из заранее установленных кадров на временной оси, и кодирования такого разделенного входного речевого сигнала на кадровой основе, включающее в себя средство интерполирования, предназначенное для интерполирования параметров кодирования для обнаружения видоизмененных параметров кодирования, связанных с требуемыми временными точками, и средство вырабатывания речевого сигнала, предназначенное для вырабатывания отличия видоизмененного речевого сигнала по частоте от упомянутого входного речевого сигнала на основании видоизмененных параметров кодирования. Таким образом, становится возможным регулировать скорость передачи битов. Следовательно, управление скоростью на произвольной частоте в широком диапазоне можно легко выполнять с высоким качеством сигнала, при оставлении неизменными фонемы и высоты тона.

Еще в одном аспекте, настоящее изобретение обеспечивает способ передачи речевых сигналов, в котором параметры кодирования обнаруживаются посредством разделения входного речевого сигнала исходя из заранее установленных кадров на временной оси в качестве элементов и посредством кодирования этого разделенного входного речевого сигнала на кадровой основе с целью обнаружения параметров кодирования, причем обнаруженные таким образом параметры кодирования интерполируются с целью определения видоизмененных параметров кодирования, связанных с требуемой временной точкой, и видоизмененные параметры кодирования передаются, обеспечивая, таким образом, возможность регулирования скорости передачи битов.

Благодаря делению входного речевого сигнала исходя из предварительно установленных кадров на временной оси и кодирования основанного на кадрах сигнала с целью обнаружения параметров кодирования, благодаря интерполированию параметров кодирования с целью определения видоизмененных параметров кодирования и благодаря синтезированию, по меньшей мере, гармонических волн на основании видоизмененных параметров кодирования для восстановления речевых сигналов, становится возможной регулировка скорости на произвольной частоте.

Краткое описание чертежей

Фиг.1 представляет структурную блок-схему, иллюстрирующую компоновку устройства воспроизведения речевого сигнала, соответствующего первому варианту осуществления настоящего изобретения.

Фиг.2 представляет структурную блок-схему, иллюстрирующую компоновку показанного на фиг.1 устройства воспроизведения речевого сигнала.

Фиг.3 представляет блок-схему, иллюстрирующую кодирующее устройство показанного на фиг.1 устройства воспроизведения речевого сигнала.

Фиг.4 представляет блок-схему, иллюстрирующую компоновку схемы анализа многополосного возбуждения (МПВ) в качестве иллюстративного примера схемы кодирования гармоник и шума кодирующего устройства.

Фиг.5 иллюстрирует компоновку векторного квантователя.

Фиг.6 представляет график, иллюстрирующий средние значения входного сигнала вокализированного звука, невокализированного звука и собранных вместе вокализированного и невокализированного звуков.

Фиг.7 представляет график, иллюстрирующий средние значения весового множителя для вокализированного звука, невокализированного звука и для собранных вместе вокализированного и невокадизированного звуков.

Фиг.8 представляет график, иллюстрирующий способ формирования кодового словаря векторного квантования для вокализированного звука, невокализироаанного звука и для собранных вместе вокализированного и невокализированного звуков.

Фиг.9 представляет алгоритм, иллюстрирующий схематическую работу схемы вычисления видоизмененных параметров кодирования, используемой в показанном на фиг.1 устройстве воспроизведения речевого сигнала.

Фиг.10 представляет схематический вид, иллюстрирующий видоизмененные параметры кодирования, получаемые посредством схемы вычисления видоизмененных параметров на временной оси.

Фиг.11 представляет алгоритм, иллюстрирующий подробную работу схемы вычисления видоизмененных параметров кодирования, используемой в показанном на фиг.1 устройстве воспроизведения речевых сигналов.

Фиг.12A, 12B и 12C представляют схематические виды, показывающие иллюстративную работу схемы вычисления видоизмененных параметров кодирования.

Фиг.13A, 13B и 13С представляют схематические виды, показывающие другую иллюстративную работу схемы вычисления видоизмененных параметров кодирования.

Фиг.14 представляет блок-схему, иллюстрирующую декодирующее устройство, используемое а устройстве воспроизведения речевых сигналов.

Фиг.15 представляет электрическую блок-схему, иллюстрирующую компоновку схемы синтезирования многополосного возбуждения (МПВ) в виде иллюстративного примера схемы синтезирования гармоник и шума, используемой в декодирующем устройстве.

Фиг.16 представляет блок-схему, иллюстрирующую устройство передачи речевого сигнала в виде второго варианта осуществления настоящего изобретения.

Фиг.17 представляет алгоритм, иллюстрирующий работу передающей стороны устройства передачи речевых сигналов.

Фиг.18A, 18B и 18C иллюстрируют работу устройства передачи речевых сигналов.

Описание предпочтительных вариантов осуществления изобретения

Ниже будет приведено подробное описание со ссылкой на чертежи предпочтительных вариантов осуществления соответствующих настоящему изобретению способа и устройства, предназначенных для воспроизведения речевых сигналов, и способа передачи речевых сигналов.

Вначале приведем описание устройства, предназначенного для воспроизведения речевых сигналов, в котором применены соответствующие настоящему изобретению способ и аппаратура для воспроизведения речевых сигналов. На фиг.1 показана блок-схема устройства воспроизведения речевых сигналов 1, в котором входные речевые сигналы разделяются исходя из заранее установленных кадров в качестве элементов на временной оси и кодируются на кадровой основе с целью обнаружения параметров кодирования. На основании этих параметров кодирования синтезируются гармонические волны и шум с целью воспроизведения речевых сигналов.

В частности, в случае настоящего устройства воспроизведения речевых сигналов 1, параметры кодирования интерполируются с целью определения видоизмененных параметров кодирования, связанных с требуемыми временными точками, и на основании этих видоизмененных параметров кодирования синтезируются гармонические волны и шум. Хотя на основании модифицированных параметров кодирования синтезируются гармонические волны и шум, можно также синтезировать, по меньшей мере, гармонические волны.

В данном случае устройство воспроизведения сигналов звуковой частоты включает в себя блок кодирования 2, предназначенный для разделения речевых сигналов, поступающих на входную клемму 10, на кадры в качестве элементов и для кодирования речевых сигналов на кадровой основе с целью вывода параметров кодирования, таких как параметры линейной спектральной пары (ЛСП), тон, вокализированные (V)- невокализированные (UV) сигналы или спектральные амплитуды Am. Устройство воспроизведения сигналов звуковой частоты 1 включает в себя также блок вычисления 3, предназначенный для интерполирования параметров кодирования с целью определения видоизмененных параметров кодирования, связанных с требуемыми временными точками, и блок декодирования 6, предназначенный для синтезирования гармоничных волн и шума на основании видоизмененных параметров кодирования с целью вывода синтезированных речевых параметров на выходную клемму 37. Блоком кодирования 2, блоком вычисления 3, предназначенным для вычисления видоизмененных параметров кодирования, и блоком декодирования 6 управляет контроллер (не показанный).

Блок вычисления 3, предназначенный для вычисления видоизмененных параметров кодирования устройства воспроизведения речевых сигналов 1, включает в себя схему изменения периода 4, предназначенную для сжатия-расширения временной оси параметров кодирования, получаемых в каждом заранее установленном кадре, с целью изменения периода вывода параметров кодирования, и схему интерполирования 5, предназначенную для интерполирования параметров с измененным периодом с целью создания видоизмененных параметров кодирования, связанных с основанными на кадрах временными периодами, как показано, например, на фиг.2. Далее будет приведено описание блока вычисления 3, предназначенного для вычисления видоизмененных параметров кодирования.

Вначале приведем описание блока кодирования 2. Блок кодирования 3 и блок декодирования 6 представляют остаточные значения краткосрочных предсказаний, например, остаточные значения кодирования с линейным предсказанием (КЛП), исходя из кодирования гармоник и шума. В качестве альтернативы, блок кодирования 3 и блок декодирования 6 выполняют кодирование многополосного возбуждения (МПВ) или анализ многополосного возбуждения (МПВ).

В случае обычного кодирования с линейным предсказанием возбуждаемого кода (ЛПВК), остаточные значения КЛП подвергаются направленному векторному квантованию в виде формы сигнала во времени. Поскольку блок кодирования 2 кодирует остаточные значения посредством кодирования гармоник или анализа МПВ, более ровную синтезированную форму волны можно получить при векторном квантовании амплитуд спектральной огибающей гармоник при меньшем количестве двоичных разрядов, тогда как выходной фильтр синтезированной формы волны КЛП также весьма соответствует качеству звука. Между тем, амплитуды спектральной огибающей квантуются с использованием метода пространственного преобразования или преобразования количества данных, предложенного настоящим заявителем в японской публикации патента Kokai JP-A-51800. То есть, амплитуды спектральной огибающей подвергаются векторному квантованию заранее установленным количеством векторных размеров.

На фиг.3 показана иллюстративная схема блока кодирования 2. Речевые сигналы, поступающие на входную клемму 10, освобождаются от сигналов ненужного диапазона частот посредством фильтра 11 и затем подаются на схему анализа кодирования с линейным предсказанием (КЛП) 12 и схему обратного фильтрования 21.

В схеме анализа КЛП 12 применена взвешивающая функция Хэмминга к входной форме волны при ее длине порядка 256 выборок в качестве блока, чтобы посредством метода автокорреляции обнаруживать коэффициенты линейного предсказания, то есть так называемые α-параметры. Интервал кодирования в виде блока вывода данных составляет порядка 160 выборок. Если частота выборки составляет, например, 8 кГц, интервал кодирования 160 выборок соответствует 20 миллисекунд.

α - параметр со схемы анализа КПП 12 подается на схему преобразования α - параметра в ЛСП 13, с целью преобразования в параметры линейной спектральной пары (ЛСП). То есть, α - параметры, обнаруженные в качестве коэффициентов фильтра направленного типа, преобразуются, например, в десять, то есть в пять пар, параметров ЛСП. Это преобразование выполняется с использованием, например, метода Ньютона-Рафсона. Причина преобразования α - параметров в параметры ЛСП состоит в том, что параметры ЛСП превосходят α - параметры по характеристикам интерполирования.

Параметры ЛСП со схемы преобразования параметров в ЛСП 13 подвергаются векторному квантованию посредством векторного квантователя ЛСП 14. В это время можно обнаруживать междукадровую разницу до перехода к векторному квантованию. В качестве альтернативы можно собирать и квантовать множество кадров посредством матричного квантования. Для квантования, рассчитываемые каждые 20 мс параметры ЛСП подвергаются векторному квантованию, при длительности одного кадра, равной 20 мс.

Квантованный выходной сигнал векторного квантователя ЛСП 14, который является показателем векторного квантователя ЛСП, выводится на клемму 15. Квантованные векторы ЛСП подаются на схему интерполирования ЛСП 16.

Схема интерполирования ЛСП 16 интерполирует векторы ЛСП, обеспечиваемые векторным квантованием каждые 20 мс, для обеспечения восьмикратной скорости. То есть, векторы ЛСП располагают таким образом, чтобы их можно было корректировать каждые 2,5 мс. Причина состоит в том, что если остаточная форма волны обрабатывается посредством анализа-синтеза методом кодирования-декодирования многополосного возбуждения (МПB), огибающая синтезированной формы волны представляет чрезвычайно ровную форму волны, так что если коэффициенты кодирования с линейным предсказанием (КЛП) действительно изменяются каждые 20 мс, то появляется тенденция создания своеобразных звуков. Образованию таких своеобразных звуков может создаваться препятствие, если коэффициенты КЛП постоянно изменяются каждые 2,5 миллисекунды.

Для обратного фильтрования входного речевого сигнала, используя интерполированные таким образом векторы ЛСП с интервалом 2,5 мс, параметры ЛСП преобразуются посредством схемы преобразования ЛСП в α - параметры, которые представляют собой коэффициенты фильтра направленного типа, например, десяти последовательностей. Выходные сигналы схемы 17 преобразования ЛСП в α подаются на схему обратного фильтрования 21, чтобы обеспечить выполнение обратного фильтрования при скорректированном α - параметре на интервале 2,5 мс с целью создания ровного выходного сигнала. Выходной сигнал схемы обратного фильтрования 21 поступает на схему кодирования гармоник и шума 22, а именно на схему анализа многополосного возбуждения (МПВ).

Схема кодирования гармоник и шума (схема анализа МПВ) 22 анализирует выходной сигнал схемы обратной фильтрации 21 методом, аналогичным методу анализа MПB. To есть, схема кодирования гармоник-шума 22 детектирует тон и рассчитывает амплитуду Аm каждой гармоники. Схема кодирования гармоник-шума 22 позволяет также выполнять установление различия вокализированного (V) - невокализированного (UV) речевого сигнала и преобразует количество амплитуд Аm гармоник, которое изменяется с изменением тона до постоянного количества посредством пространственного преобразования. Для определения тона используется автокоррелирование входных остаточных величин КЛП, как объясняется ниже.

На фиг.4 показан пример схемы анализа кодирования многополосного возбуждения (МПВ) в виде схемы кодирования гармоник и шума 22.

В случае показанной на фиг.4 схемы анализа МПВ разработано моделирование при предположении, что здесь присутствует вокализированная часть и невокализированная часть в частотном диапазоне той же временной точки, которая представляет тот же блок или кадр.

Остаточные значения KЛП или остаточные значения кодирования с линейным предсказанием (КЛП) со схемы обратного фильтрования 21 подаются на показанную на фиг. 4 входную клемму III. Таким образом, схема анализа МПВ выполняет анализ MПB и кодирование входных остаточных значений КЛП.

Остаточные значения кодирования с линейным предсказанием (КЛП), поступающие на входную клемму III, подаются на блок извлечения тона 113, блок взвешивания 114 и блок вычисления энергии субблока 126, как описано ниже.

Поскольку входной сигнал блока извлечения тона 113 представляет собой остаточное значение КЛП, определение тона можно выполнять посредством детектирования максимального значения автокорреляции остаточных значений. Блок извлечения тона 113 выполняет поиск тона посредством поиска с разомкнутым циклом. Извлеченные данные тона поступают на блок точного поиска тона 116, где точный поиск тона выполняется посредством поиска тона замкнутым циклом.

В блоке взвешивания 114 применяется заранее установленная функция взвешивания, например, взвешивающая функция Хэмминга, к каждому блоку из N выборок, для последовательного перемещения взвешенного блока по временной оси с интервалом между кадрами из α - выборок. Последовательность данных временной области с блока взвешивания 114 обрабатывается посредством блока ортогонального преобразования, например, посредством быстрого преобразования Фурье (БПФ).

Если обнаруживается, что все полосы в блоке невокализированы (UV), блок вычисления энергии субблока 126 извлекает характеристическую величину, представляющую огибающую формы сигнала во времени невокализированного звукового сигнала блока.

На блок точного поиска тона 116 подаются грубые данные тона в виде целых чисел, извлекаемые блоком выделения тона 113, и данные частотной области, вырабатываемые БПФ посредством блока ортогонального преобразования 115. Блок точного поиска тона 116 выполняет качание на ± несколько выборок с интервалом от 0,2 до 0,5 относительно значения грубых данных тона в качестве центра для приведения к точным данным тона с оптимальной десятичной запятой (плавающей). При способе точного поиска используется анализ методом синтезирования и выбирается шаг, который дает энергетический спектр при синтезировании, который находится ближе всего к первоначальному энергетическому спектру.

То есть, количество значений тона выше и ниже грубого тона, определяемого блоком выделения тона 113 в качестве центра, обеспечиваются с интервалом, например, равным 0,25. Для тех значений тона, которые ежеминутно отличаются друг от друга, определяется сумма погрешностей ∑∈m. В этом случае, если устанавливается тон, то устанавливается ширина полосы, так что используя энергетический спектр по данным частотной области и спектру сигнала возбуждения, определяется погрешность ∈m. Таким образом, можно определить сумму погрешностей ∑∈m для общего количества полос. Эта сумма погрешностей ∑∈m определяется для каждого значения тона, и в качестве оптимального тона выбирается тон, соответствующий минимальной сумме погрешностей. Таким образом определяется оптимальный точный тон с интервалом, примерно равным 0,25, посредством блока поиска точного тона, и определяется амплитуда для оптимальной высоты тона. Значение амплитуды вычисляется посредством блока оценки амплитуды 118 V для вокализированного звукового сигнала.

В вышеприведенном описании поиска точной высоты тона предполагается, что вся совокупность полос вокализирована. Однако, поскольку используемая в системе анализа-синтеза MПB модель такова, что в ней в той же временной точке на частотной оси имеется невокализированная область, становится необходимым в каждой последовательной полосе осуществлять установление различия вокализированных - невокализированных сигналов.

Оптимальный тон с блока поиска точного тона 116 и данные об амплитуде с блока оценки амплитуды для вокализированного звука 118 V поступают на блок установления различия вокализированного и невокализированного сигналов 117, в котором выполняется установление различия между вокализированным звуковым сигналом и невокализированным звуковым сигналом в каждой последовательной полосе. Дня этого установления различия используется отношение сигнала к шуму (ОСШ).

Между тем, поскольку количество полос, которые разделяются на основании фундаментальной частоты тона, то есть количество гармоник, колеблется в диапазоне примерно от 8 до 63, в зависимости от тона звукового сигнала, аналогичным образом колеблется количество признаков V/UV в каждой последовательной полосе. Таким образом, в настоящем варианте осуществления группируются или разлагаются результаты определения различия V и UV для каждого из заранее установленного количества полос постоянной ширины. В частности, предварительно установленный частотный диапазон, например, равный 0-4000 Гц, включающий звуковой диапазон, разделяется на NB полос, например 12 полос, и устанавливается различие взвешенного среднего значения величины ОСШ каждой полосы с заранее установленным пороговым значением Th2 для оценки различия V и UV в каждой последовательной полосе.

На блок оценки амплитуды 118 U для невокализированного звукового сигнала подаются данные частотной области с блока ортогонального преобразования 115, данные точного тона с блока поиска тона 116, данные амплитуды с блока оценки амплитуды для вокализированного звукового сигнала 118 V и данные установления различия между вокализированными и невокализированными (V/UV) звуками с блока установления различия вокализированного - невокализированного звуковых сигналов 117. И здесь блок оценки амплитуды 118 U для невокализированного звука обнаруживает амплитуду для полосы, определяемой блоком установления различия вокализированного - невокализированного сигналов 117 в виде невокализированного (UV) сигнала посредством осуществления переоценки амплитуды. Блок оценки амплитуды 118 U для невокализированного звука непосредственно выдает входное значение с блока оценки амплитуды вокализированного звука 118 V для полосы, обнаруживаемой в виде вокализированной.

Данные с блока оценки амплитуды 118 U невокализированного звука поступают на блок оценки количества данных 119, который представляет собой преобразователь частоты выборки. Блок преобразования количества данных 119 используется для образования постоянного количества данных, вследствие того, что количество разделенных полос из частотного спектра и количество данных, прежде всего количество амплитудных данных, в различных звуковых тонах различается. То есть, если эффективный частотный диапазон составляет, например, до 3400 кГц, то этот эффективный частотный диапазон разделяется на 8-63 полосы, в зависимости от тона, так что количество данных mMX+1 амплитуд , включающих амплитуду UV полосы UV, изменяется в диапазоне от 8 до 63. Таким образом, блок преобразования количества данных 119 преобразует амплитудные данные с переменным количеством данных mMX+1 в постоянное количество данных М, например 44.

Блок преобразования количества данных 119 добавляет к амплитудным данным, соответствующим одному эффективному блоку на частотной оси, такие фиктивные данные, которые интерполируют значения от последних данных в блоке к первым данным в блоке для увеличения количества данных до NF. Блок преобразования количества данных 119 в этом случае выполняет избыточную дискретизацию типа ограничения ширины полосы с коэффициентом избыточной дискретизации Os, например, равным 8, для обнаружения Os - кратного количества амплитудных данных. Это Os -кратное количество ((mMX+1)×Os) амплитудных данных линейно интерполируется с целью создания еще большего количества NM данных, например, 2048 данных. Количество NM данных прореживается с целью преобразования в заранее установленное постоянное количество М, например, 44 данных.

Данные (амплитудные данные с заранее установленным постоянным количеством М) с блока преобразования количества данных 119 поступают на векторный квантователь 23 с целью обеспечения вектора, имеющего количество данных М, или собираются в вектор, имеющий заранее установленное количество данных, для векторного квантования.

Данные о тоне с блока точного поиска тона 116 поступают через неподвижный контакт переключателя 27 на входную клемму 28. Этот способ, раскрытый в нашей японской заявке на патент № 5-185325 (1993 г.), состоит из переключения с информации, представляющей характеристическое значение, соответствующее форме сигнала во времени невокализированного сигнала, на информацию о тоне, если вся совокупность полос в блоке невокализирована (UV) и, следовательно, тоновая информация становится ненужной.

Эти данные получаются посредством обработки данных N-го количества, например, 256 выборок. Поскольку блок продвигается по временной оси на основе вышеупомянутого кадра из α выборок в качестве элемента, передаваемые данные получаются на кадровой основе. То есть, данные о тоне, данные установления различия V-UV и амплитудные данные корректируются в течение периода следования кадра. В качестве данных установления различия V-UV с блока установления различия между V и UV 117 можно использовать данные, количество полос которых уменьшено или сокращено до 12, или использовать данные, определяющие одно или более положения границ между вокализированными (V) и невокализированными (UV) областями во всем частотном диапазоне. В качестве альтернативы, всю совокупность полос можно представить одной из V и UV либо установление различия между V и UV можно выполнять на кадровой основе.

Если обнаруживается, что блок полностью невокализирован (UV), то один блок, например из 256 выборок, можно дополнительно разделить на множество субблоков, каждый из которых состоит из 32 выборок, которые поступают на блок вычисления энергии субблока 126.

Блок вычисления энергии субблока 126 вычисляет пропорцию или отношение средней мощности или среднеквадратичного значения совокупности выборок в блоке, например, 256 выборок, к средней мощности или среднеквадратичному значению каждой выборки в каждом субблоке.

То есть, определяется средняя мощность, например, к-го субблока и средняя мощность одного полного блока и рассчитывается квадратный корень отношения средней мощности всего блока к средней мощности р(к) к-го субблока.

Полагают, что определяемое таким образом значение квадратного корня представляет вектор заранее установленного размера для того, чтобы выполнять векторное квантование в векторном квантователе 127, расположенном рядом с блоком вычисления мощности субблока.

Векторный квантователь 127 осуществляет 8-мерное 8-разрядное прямое векторное квантование (объем кодового словаря равен 256 выборок). Выходной показатель UV- E этого векторного квантователя, то есть код, представляющий вектор, подается на неподвижную клемму переключателя 27. На неподвижную клемму переключателя 27 поступают данные о тоне с блока точного определения тона 116, тогда как выходной сигнал переключателя 27 поступает на выходную клемму 28.

Управление работой переключателя 27 осуществляется выходным сигналом установления различия с блока установления различия вокализированного-невокализированного сигналов 117, так что неподвижный контакт переключателя 27 устанавливается на неподвижные контакты , когда обнаруживается, что, по меньшей мере, одна из полос в блоке вокализирована (V), и когда обнаруживается, что вся совокупность полос вокализирована, соответственно.

Таким образом, выходные сигналы векторного квантования нормализованных на субблочной основе среднеквадратичных значений передаются посредством введения в интервалы, по существу используемые для передачи тоновой информации. То есть, если обнаруживается, что вся совокупность полос в блоке невокализирована (UV), то информация о тоне оказывается ненужной, поэтому, если, и только если, обнаруживается, что признаки установления различия V-UV являются полностью невокализированными, вместо информации о тоне передается указатель выходного сигнала векторного квантования VU-E.

Далее приводится описание со ссылкой на фиг.3 взвешиваемого векторного квантования спектральной огибающей (Am) в векторном квантователе 23.

Векторный квантователь 23 представляет собой 2-каскадную α-мерную, например, 44-мерную, конфигурацию.

То есть, сумма выходных векторов кодового словаря векторного квантования, который является 44-мерным и имеет объем кодового словаря, равный 32, умножается на коэффициент усиления gi и полученное произведение используется в качестве квантованного значения 44-мерного вектора спектральной огибающей. На фиг.5 позициями СВО и GBI показаны кодовые словари двух форм, выходными векторами которых являются и соответственно, где 0≤i и j≤31. Выходным сигналом кодового словаря СВg коэффициента усиления является ge, который представляет скалярную величину, где 0≤e≤31. Конечное выходное значение становится равным

Спектральная огибающая Am, получаемая при анализе многополосного возбуждения (МПВ) остаточных величин кодирования с линейным предсказанием (КЛП) и преобразуемая в заранее установленный размер, устанавливается на значение . Критическим является способ эффективного квантования .

Энергия ошибок квантования определяется следующим выражением:

где Н и W представляют, соответственно, место для характеристик на частотной оси синтезирующего фильтра КЛР и матрицу для взвешивания, представляющую характеристики взвешивания слухового восприятия на частотной оси.

Энергию ошибки квантования обнаруживают посредством выборки соответствующих α - мерных, например, 44-мерных, точек из частотных характеристик по формуле:

где αi при I≤i≤P представляет α - параметры, получаемые посредством анализа КЛП текущего кадра.

Для расчета Os заполняются после 1, α1, α2, ..., αP, чтобы получить I, αI, α2, ..., αP, 0, 0, ..., 0 с целью обеспечения, например, 256-точечных данных. После этого выполняется 256-точечное быстрое преобразование Фурье и вычисляются значения для точек, соответствующих периоду 0-π. Далее определяются обратные величины полученных в результате расчета значений и прореживаются, например, до 44 точек. Матрица, диагональные элементы которой соответствуют этим обратным величинам, определяется следующим образом:

Матрица взвешивания слухового восприятия W определяется следующим образом:

где αi представляет результат анализа КЛП выходных данных, а λа, λb являются постоянными величинами, например, такими, как λa=0,4, λв=0,9.

Матрицу W можно определить из частотных характеристик уравнения (3). В качестве примера обеспечиваются 1, α1, λв, ..., αрВр, 0, 0, ..., 0 целью получения 256-точечных данных, для которых используется быстрое преобразование Фурье с целью определения где 0≤i≤128. Затем обеспечиваются I, α1, λа, ..., αpаp, 0, 0, ..., 0 и вычисляются частотные характеристики знаменателя 256-точечным быстрым преобразованием Фурье по 128 точкам для области 0-π. В результате этого получаются значения где 0≤i≤128.

Частотные характеристики вышеприведенного уравнения (3) можно определять посредством уравнения:

где 0≤i≤128.

Частотные характеристики определяются следующим способом для соответствующих точек, например, 44-мерного вектора. Хотя для получения более точных результатов необходимо использовать линейное интерполирование, при подстановке в следующем примере используются значения ближайших точек.

То есть, ω[i]=ω0[nint(128i/L)],

где I≤i≤L, a nint (x) является функцией, которая отражает целое число, ближайшее к x.

Что касается величин Н, h(1), h(2), ..., h(L), то они определяются аналогичным способом. То есть

так что

В качестве видоизмененного варианта осуществления, частотные характеристики можно определять, с целью уменьшения количества операций быстрого преобразования Фурье, после первого определения Н(z) W(z).

То есть

Знаменатель уравнения (5) раскладывается следующим образом:

Посредством установки 1, β1, β2, ..., в, 0, 0, ..., 0, образуют, например, 256-точечные данные. Затем выполняют 256-точечное быстрое преобразование Фурье с целью обеспечения частотных характеристик амплитуд, так что

где 0≤i≤128. Отсюда выполняется следующее уравнение:

где 0≤i≤128.

Это значение определяется для каждой из