Способ сжатия и восстановления речевых сообщений

Реферат

 

Изобретение относится к области электросвязи, а именно к области связанной с сокращением избыточности передаваемой информации. Техническим результатом изобретения является разработка способа сжатия и восстановления речевых сообщений, обеспечивающего малую временную задержку передаваемой информации при высокой степени ее сжатия. Сжатие и восстановление речевого сигнала осуществляется следующим образом. Предварительно на передаче и на приеме идентично генерируют случайную квадратную матрицу квантованных отсчетов речевого сигнала размером mm элементов. Затем из одномерного речевого сигнала формируют матрицу квантованных отсчетов речевого сигнала размером NN элементов. Полученную матрицу преобразуют к цифровому виду на основе представления ее в виде произведения трех матриц: прямоугольной матрицы размером Nm элементов, предварительно сформированной случайной квадратной матрицы квантованных отсчетов размером mm элементов, прямоугольной матрицы размером mN элементов. Далее в цифровой канал связи передают только элементы этих прямоугольных матриц. Восстановление речи производят в обратном порядке. На основе принятых из канала связи прямоугольных матриц и предварительно сгенерированной случайной квадратной матрицы квантованных дискретных отсчетов формируют матрицу восстановленных квантованных отсчетов речевого сигнала размером NN элементов. Затем из этой матрицы формируют одномерный непрерывный речевой сигнал. Способ особенно подходит для ведения телефонных переговоров по цифровым каналам связи со скоростью 4-16 кбит/с. 7 ил.

Изобретение относится к области электросвязи, а именно к области, связанной с сокращением избыточности передаваемой информации. Предлагаемый способ может быть использован для передачи речевых сообщений по цифровым каналам связи со скоростью до 4 кбит/с и может быть отнесен к классу способов кодирования формы речевого сигнала или способов непосредственного кодирования-восстановления.

Известны способы кодирования формы речевого сигнала, см., например, книгу: Дж.Кейтер Компьютеры- синтезаторы речи.- М.: Мир, 1985, с.87-103, включающие выполнение трех операций: временную дискретизацию аналоговых сигналов, их квантование и кодирование (представление квантованных дискретных отсчетов речевого сигнала двоичными цифрами). Рассматриваемый способ главным образом определяет механизм кодирования и декодирования квантованных дискретных отсчетов речевого сигнала.

Известны также способы кодирования дискретных квантованных отсчетов речевого сигнала на основе дельта-модуляции, адаптивной дельта-модуляции, импульсно-кодовой модуляции, дифференциальной импульсно-кодовой модуляции, метода блочного кодирования с ортогональным преобразованием, см., например, книгу: М. В. Назаров, Ю.Н. Петров Методы цифровой обработки и передачи цифровых сигналов. - М.: Радио и связь, 1985, с. 142-161. Недостатком перечисленных выше способов - аналогов является относительно низкая информационная эффективность, под которой понимается достижение хорошего качества восстановления речевой информации достигается при скорости передачи более 16 кбит/с.

Наиболее близким по своей технической сущности к заявленному способу сжатия и восстановления речевых сообщений является способ, описанный в патенте Великобритании N2280827 A, МНК6 G 10 L 3/02 от 08 02 1995. Способ-прототип включает дискретизацию непрерывного сигнала, квантование дискретных отсчетов, формирование матрицы квантованных отсчетов речевого сигнала, ее преобразование к цифровому виду с использованием американского стандарта сжатия JPEG, передаче цифрового потока по каналу связи, приеме цифрового потока из канала связи, восстановлении матрицы квантованных отсчетов речевого сигнала из цифрового потока с использованием стандарта JPEG и обратном преобразовании квантованных отсчетов в непрерывный речевой сигнал. Однако недостатком способа-прототипа является большая временная задержка речевого сигнала, что исключает возможность применения данного способа для ведения телефонных переговоров по цифровым каналам связи.

Целью изобретения является разработка способа сжатия и восстановления речевых сообщений, обеспечивающего снижение временной задержки передаваемой информации при высокой степени ее сжатия, при которой возможно ведение телефонных переговоров по низкоскоростным цифровым каналам связи.

Поставленная цель достигается тем, что в известном способе сжатия и восстановления речевых сообщений, включающем дискретизацию непрерывного речевого сигнала, квантование дискретных отсчетов, формирование матрицы квантованных отсчетов речевого сигнала размером NN элементов, ее преобразование к цифровому виду, передаче цифрового потока по каналу связи, приеме его из канала связи, восстановлении матрицы квантованных отсчетов речевого сигнала размером NN элементов и обратном преобразовании квантованных дискретных отсчетов в непрерывный речевой сигнал, предварительно идентично на передаче и на приеме генерируют случайную квадратную матрицу квантованных дискретных отсчетов размером mm элементов, каждый элемент которой принадлежит диапазону квантованных дискретных отсчетов речевого сигнала. Затем для преобразования матрицы квантованных отсчетов речевого сигнала размером NN элементов к цифровому виду на передаче формируют множество нулевых и единичных элементов в виде прямоугольных матриц размером Nm и mN элементов и передают их в канал связи. Принимают эти матрицы из канала связи. Затем их преобразуют путем деления элементов каждой строки прямоугольной матрицы размером Nm элементов на сумму единиц соответствующей строки и деления элементов каждого столбца прямоугольной матрицы размером mN элементов на сумму единиц соответствующего столбца. После этого восстанавливают матрицу квантованных отсчетов речевого сигнала размером NN элементов путем последовательного перемножения полученной после преобразования прямоугольной матрицы размером Nm элементов, случайной квадратной матрицы квантованных дискретных отсчетов размером mm элементов и полученной после преобразования прямоугольной матрицы размером mN элементов. При этом для формирования матрицы квантованных отсчетов речевого сигнала размером NN элементов каждому ее элементу Aj,i, где j= 1,2,...,N; i=1,2,...,N присваивают квантованное значение дискретного отсчета речевого сигнала, k-й номер которого определяют в соответствии с выражением: k=j+N(i-1).

Для формирования множества нулевых и единичных элементов в виде прямоугольных матриц размером Nm и mN элементов на передаче предварительно генерируют случайные прямоугольные матрицы из единичных и нулевых элементов. Затем преобразуют их. После этого вычисляют матрицу размером NN элементов путем последовательного перемножения полученной после преобразования прямоугольной матрицы размером Nm элементов, случайной квадратной матрицы квантованных дискретных отсчетов размером mm элементов и полученной после преобразования прямоугольной матрицы размером mN элементов. Далее вычисляют сумму квадратов разностей между элементами полученной в результате перемножения матрицы размером NN элементов, и элементами матрицы квантованных отсчетов речевого сигнала размером NN элементов. Затем последовательно инвертируют каждый элемент предварительно сгенерировнных случайным образом прямоугольных матриц размером Nm и mN элементов, выполняя при этом их преобразование, а затем последовательно перемножают полученную после преобразования прямоугольную матрицу размером Nm элементов, случайную квадратную матрицу квантованных дискретных отсчетов размером mm элементов и полученную после преобразования прямоугольную матрицу размером mN элементов. После этого вычисляют сумму квадратов разностей между элементами полученной в результате перемножения матрицы размером NN элементов и элементами матрицы квантованных отсчетов речевого сигнала размером NN элементов. Вычитают эту сумму от аналогичной суммы, полученной на предыдущем шаге, и в случае положительной разности сохраняют инвертированное значение элемента, а в противном случае выполняют его повторную инверсию.

Для преобразования случайных прямоугольных матриц из единичных и нулевых элементов число элементов каждой строки прямоугольной матрицы размером Nm элементов и каждого столбца прямоугольной матрицы размером mN элементов делят на сумму единиц соответственно в этой строке и этом столбце.

Указанная новая совокупность существенных признаков позволяет снизить значение временной задержки передаваемой информации до величины, при которой возможно ведение телефонных переговоров по низкоскоросным цифровым каналам связи.

Заявленный способ поясняется чертежами: - Фиг.1 График кривой, описывающей форму непрерывного речевого сигнала; - Фиг.2 Пример квантованных дискретных отсчетов речевого сигнала; - Фиг.3 Пример формирования матрицы квантованных отсчетов речевого сигнала размером NN элементов; - Фиг.4 Представление матрицы восстановленных квантованных отсчетов речевого сигнала в виде произведения трех матриц; - Фиг.5 Структура матриц [Y]Nxm, [X]mxN и [Ypr]Nxm, [Xpr]mxN; - Фиг.6 Преобразование матрицы квантованных отсчетов речевого сигнала к цифровому виду и обратное преобразование принятого из канала связи цифрового потока в матрицу восстановленных отсчетов речевого сигнала.

- Фиг.7 Последовательная оптимизация элементов матриц [X]mxN и [Y]TmxN.

Возможность реализации заявленного способа сжатия и восстановления речевых сообщений объясняется следующим. В основе предлагаемого способа сжатия и восстановления речевого сигнала лежит подход, основанный на представлении кодируемого блока отсчетов, представленного матрицей квантованных отсчетов речевого сигнала (в дальнейшем обозначим ее как [A]NxN), в виде произведения трех матриц: прямоугольной матрицы размером Nm элементов (в дальнейшем обозначим ее как [Ypr]Nxm), случайной квадратной матрицы квантованных отсчетов размером mm элементов (в дальнейшем обозначим ее как [B])mxm и прямоугольной матрицы размером mN элементов (в дальнейшем обозначим ее как [Xpr] mxN). При этом считается, что матрица [B]mxm известна на передаче и на приеме и не изменяется в процессе передачи/приема информации. Тогда при кодировании матрицы квантованных отсчетов речевого сигнала [A]NxN на передаче необходимо найти такие оптимальные матрицы [Ypr]Nxm и [Xpr]mxN, которые при перемножении с матрицей [B]mxm образуют некоторую матрицу восстановленных дискретных отсчетов речевого сигнала размером NN элементов (в дальнейшем обозначим эту матрицу как ) наиболее близкую по заданному критерию к матрице квантованных дискретных отсчетов речевого сигнала [A]NxN. После определения оптимальных матриц [Ypr]Nxm и [Xpr]mxN их передают в канал связи, принимают из канала связи и формируют на приеме матрицу восстановленных дискретных отсчетов речевого сигналу на основе выполнения перемножения: [Ypr]Nxm [B]mxm [Xpr]mxN. Наглядно представление матрицы восстановленных дискретных отсчетов речевого сигнала в виде произведения трех матриц представлен на фиг. 4. При этом в качестве меры близости матриц [A]NxN и выбирают квадратическую ошибку, определяемую по формуле Особенностью матриц [Ypr]Nxm и [Xpr]mxN является то, что они могут быть легко приведены к цифровому виду. Это достигается тем, что на элементы этих матриц накладываются следующие ограничения: - элементы матриц [Ypr]Nxm и [Xpr]mxN принимают значения в диапазоне от нуля до единицы; - ненулевые элементы каждой строки матрицы [Ypr]Nxm равны между собой и в сумме образуют единицу; - ненулевые элементы каждого столбца матрицы [Xpr]mxN равны между собой и в сумме образуют единицу.

При таких ограничениях, если элементы каждой строки матрицы [Ypr]Nxm умножить на сумму ее ненулевых элементов, то будет получена матрица [Y]Nxm, элементы которой определены только на множестве "1" и "0". Аналогично, если элементы каждого столбца матрицы [Xpr]mxN умножить на сумму его ненулевых элементов, то будет получена матрица [X]mxN, элементы которой определены только на множестве "1" и "0". Таким образом, представление матрицы квантованных отсчетов речевого сигнала [A]NxN к цифровому виду на передаче осуществляют на основе формирования множества нулевых и единичных элементов в виде прямоугольных матриц размером Nm (матрица [Y]Nxm) и mN (матрица [X] mxN) элементов. Затем матрицы [Y]Nxm и [X]mxN передают в канал связи и принимают из канала связи. Далее преобразуют матрицу [Y] Nxm в матрицу [Ypr]Nxm путем деления элементов каждой строки принятой из канала связи матрицы [Y] Nxm на сумму единиц соответствующей строки и преобразуют матрицу [X]mxN в матрицу [Xpr]mxN путем деления элементов каждого столбца принятой из канала связи матрицы [X]mxN на сумму единиц соответствующего столбца. Затем восстанавливают матрицу квантованных отсчетов речевого сигнала размером NN элементов путем последовательного перемножения полученной после преобразования прямоугольной матрицы [Ypr]Nxm, случайной квадратной матрицы квантованных отсчетов размером mm элементов [B]mxm и полученной после преобразования прямоугольной матрицы [Xpr]mxN. Наглядно это представлено на фиг 5.

Дискретизацию непрерывного речевого сигнала, представленного на фиг. 1, выполняют в соответствии с теоремой Котельникова. В предлагаемом способе выбрана общепринятая частота дискретизации непрерывного речевого сигнала 8 кГц. Затем осуществляют квантование дискретных отсчетов. Квантование осуществляется на основе способов, описанных, например, в кн.: М.В. Назаров, Ю.Н. Петров Методы цифровой обработки и передачи цифровых сигналов. - М.: Радио и связь, 1985, с. 142-161. Далее на основе множества квантованных дискретных отсчетов речевого сигнала осуществляют формирование матрицы квантованных отсчетов речевого сигнала [A]NxN. Формирование матрицы квантованных отсчетов речевого сигнала [A] NxN показано на фиг.3. При этом матрица квантованных отсчетов формируется из N2 квантованных дискретных отсчетов речевого сигнала, каждому элементу которой Aji, где i=1,2,...,N; r=1,2,...,N присваивают квантованное значение отсчета речевого сигнала, k-й номер которого определяют в соответствии с выражением: k=j+N(i-1).

Формирование случайной квадратной матрицы квантованных дискретных отсчетов [B]mxm может быть выполнено на основе датчика случайных чисел, например на основе шумового диода. Для выполнения требования идентичности матрицы [B] mxm приемника аналогичной матрице передатчика перед началом каждого сеанса связи элементы матрицы [B]mxm могут быть сгенерированы на передаче и переданы по цифровому каналу связи на приемную сторону, например, в составе синхропосылки.

Для преобразования матрицы квантованных отсчетов речевого сигнала [A]NxN к цифровому виду на передаче формируют множество нулевых и единичных элементов в виде матриц [Y]Nxm и [X]mxN и передают их в цифровой канал связи. Процедура, реализующая поиск на передаче оптимальных матриц [Y]Nxm и [X]mxN подробно описана в приложении 1.

После приема из цифрового канала связи матриц [Y]Nxm и [X]mxN их преобразуют в матрицы [Ypr]Nxm и [Xpr]mxN соответственно. Преобразование выполняют путем деления элементов каждой строки матрицы [Y]Nxm на сумму единиц соответствующей строки и деления элементов каждого столбца матрицы [X]mxN на сумму единиц соответствующего столбца. После этого восстанавливают матрицу квантованных отсчетов речевого сигнала в соответствии с выражением: и выполняют обратное преобразование из матрицы восстановленных квантованных отсчетов речевого сигнала в непрерывный речевой сигнал.

Для оценки эффективности предлагаемого способа сжатия и восстановления речевых сообщений было проведено имитационное моделирование на ПЭВМ. При кодировании речевых сообщений использовалось 8-разрядное АЦП. При этом размер кодируемого блока составлял 2424 элемента, что обеспечивало задержку передачи речи 0,72 мс. Такая величина временной задержки передаваемой информации существенно ниже временной задержки, реализуемой в способе-прототипе (в способе-прототипе величина временной задержки речевого сигнала составляет 6 с). При этом задержка 0,72 мс позволяет осуществить ведение дуплексных телефонных переговоров по низкоскоростным каналам связи. Размер случайной квадратной матрицы квантованных дискретных отсчетов составлял 1212 элементов. В предлагаемом способе высокая степень сжатия речевой информации достигалась за счет того, что для восстановления на приеме матрицы квантованных отсчетов речевого сигнала [A]NxN в цифровой канал связи необходимо передать количество двоичных единиц, определяемое размерами матриц [Y]Nxm и [X] mxN. При этом достигаемый коэффициент сжатия (коэффициент уменьшения требуемой скорости передачи цифрового потока) может быть определен по формуле: где L - число уровней квантования дискретных отсчетов речевого сигнала.

При выборе N= 24, m=12 (L=256) обеспечивался коэффициент сжатия 8 раз (скорость передачи на выходе кодера - 8[кбит/с]). При выборе размера случайной квадратной матрицы квантованных дискретных отсчетов речевого сигнала 66 элементов коэффициент сжатия речевых сообщений составил 16 раз (скорость передачи на выходе кодера - 4(кбит/с]). Качество восстановленной речи на приеме оценивалось по соотношению сигнал/шум и составило около 14[db]. При этом восстановленная речь сохраняет свою естественность, натуральность и обладает хорошей разборчивостью. Анализ вычислительной сложности показал, что сложность кодирования/декодирования предлагаемой процедуры (количество операций умножения, деления, сложения, вычитания) пропорционально приблизительно величине m2. Поэтому предлагаемый способ сжатия и восстановления речи может быть реализован на современных процессорах обработки сигналов.

Формула изобретения

1. Способ сжатия и восстановления речевых сообщений, заключающийся в дискретизации непрерывного сигнала, квантовании дискретных отсчетов, формировании матрицы квантованных отсчетов речевого сигнала размером NN элементов, ее преобразовании к цифровому виду, передаче цифрового потока по каналу связи, приеме цифрового потока из канала связи, восстановлении матрицы квантованных отсчетов речевого сигнала размером NN элементов и обратном преобразовании квантованных дискретных отсчетов в непрерывный речевой сигнал, отличающийся тем, что предварительно идентично на передаче и на приеме генерируют случайную квадратную матрицу квантованных отсчетов размером mm элементов, каждый элемент которой принадлежит диапазону квантованных дискретных отсчетов речевого сигнала, а для преобразования матрицы квантованных отсчетов речевого сигнала размером NN элементов к цифровому виду на передаче формируют множество нулевых и единичных элементов в виде прямоугольных матриц размером Nm и mN элементов, причем для формирования множества нулевых и единичных элементов в виде прямоугольных матриц размером Nm и mN элементов на передаче предварительно генерируют случайные прямоугольные матрицы из единичных и нулевых элементов преобразуют их, вычисляют матрицу размером NN элементов путем перемножения полученных после преобразования прямоугольных матриц с ранее идентично сформированной на передаче и приеме квадратной матрицей квантованных отсчетов размером mm элементов, вычисляют сумму квадратов разностей между элементами полученной в результате перемножения матрицы размером NN и элементами матрицы квантованных отсчетов речевого сигнала размером NN элементов, затем последовательно инвертируют каждый элемент предварительно сгенерированных случайным образом прямоугольных матриц размером Nm и mN элементов, преобразуют их, а затем перемножают прямоугольные матрицы размером Nm и mN элементов с ранее сформированной матрицей квантованных отсчетов размером mm элементов, вычисляют сумму квадратов разностей между элементами полученной в результате перемножения матрицы размером NN и элементами матрицы квантованных отсчетов речевого сигнала, вычитают эту сумму от аналогичной суммы, полученной на предыдущем шаге и, в случае положительной разности, сохраняют инвертированное значение элемента, а в противном случае - выполняют его повторную инверсию, затем сформированные множества нулевых и единичных элементов в виде прямоугольных матриц размером Nm и mN передают в канал связи, принимают из канала связи, преобразуют путем деления элементов каждой строки матрицы Nm на сумму единиц соответствующей строки и деления элементов каждого столбца матрицы размером mN на сумму единиц соответствующего столбца, затем восстанавливают матрицу квантованных отсчетов речевого сигнала размером NN элементов путем перемножения полученных после преобразования прямоугольных матриц размером Nm и mN элементов и ранее сформированной квадратной матрицы квантованных дискретных отсчетов размером mm элементов.

2. Способ по п.1, отличающийся тем, что для формирования матрицы квантованных отсчетов речевого сигнала размером NN элементов каждому ее элементу Aj, i, где j = 1, 2, ..., N; j = 1, 2, ..., N присваивают квантованное значение дискретного отсчета речевого сигнала, k-й номер которого определяют в соответствии с выражением: k = j + N(i -1).

3. Способ по п. 1, отличающийся тем, что для преобразования случайных прямоугольных матриц из единичных и нулевых элементов число элементов каждой строки матрицы Nm и каждого столбца матрицы размером mN делят на сумму единиц соответственно в этой строке и этом столбце.

РИСУНКИ

Рисунок 1, Рисунок 2, Рисунок 3, Рисунок 4, Рисунок 5, Рисунок 6, Рисунок 7, Рисунок 8, Рисунок 9, Рисунок 10, Рисунок 11, Рисунок 12