Способ осуществления машинной оценки качества звуковых сигналов
Иллюстрации
Показать всеИзобретение относится к анализу качества звуковых сигналов и может быть использовано для оценки качества речи, передаваемой по каналам радиосвязи. Сущность способа машинной оценки качества звуковых сигналов состоит в том, что делят его на критические полосы и рассчитывают значения спектральной энергии на критических полосах, определяют значения спектрального подобия активной фазы фрагментов, а качество тестируемого звукового сигнала определяют посредством взвешенной линейной комбинации из полученных значений качества для каждой фазы, отличающийся тем, что выделенные фрагменты активной и неактивной фазы обоих сигналов синхронизируют, определяют спектры неактивной фазы для каждого из фрагментов, полученные спектры активной и неактивной фазы фрагментов делят на дополнительные наборы полос, для каждой из которых рассчитывают значения спектральной энергии, сравнивают попарно полученные спектральные энергии активной и неактивной фазы фрагментов, для определения коэффициентов спектрального подобия, результирующий коэффициент подобия для каждой фазы определяют, как среднее значение коэффициентов подобия по всем наборам полос, который является оценкой качества каждой фазы. Технический результат - обеспечение универсальности и оптимизации процесса оценки качества в зависимости от целей получения оценки. 4 з.п. ф-лы, 13 ил, 6 табл.
Реферат
Изобретение относится к анализу качества звуковых сигналов и может быть использовано для оценки качества речи, передаваемой по каналам радиосвязи, телефонии и трактам переговорных устройств, а также при оценке качества звука, воспроизводимого различной аудиоаппаратурой, в том числе прошедшего любые процедуры сжатия/восстановления с помощью различных вокодеров и оценки акустического качества помещений.
Оценка качества звуковых сигналов приобретает все большее значение с ростом распространения и использования мобильной связи, систем синтетической телефонии, различных портативных звукозаписывающих и звуковоспроизводящих устройств. Стремление создать способ, обеспечивающий объективность оценки (т.е. независимость от оценки конкретного лица) и возможность его автоматической реализации, понятно - объективная оценка необходима как для сравнения образцов продукции конкурентов, так и для оптимизации параметров собственной.
Одним из основных показателей систем сжатия, передачи и воспроизведения звуковой информации является качество восстановленного, принятого или воспроизведенного звука.
Количественное измерение качества звука имеет свои специфические особенности, связанные с тем, что, в конечном итоге, приемником звукового сигнала всегда является человек, и он же, является источником большинства звуковых сигналов. Соответственно, качество звуковых сигналов определяется не только техническими характеристиками систем обработки и передачи звука, но и свойствами речевого аппарата и слуха людей, изменяющимися со временем и от человека к человеку.
Различают субъективные и объективные методы измерения качества речи. Субъективные методы - это методы, в которых слух человек является составной частью измерительного комплекса. Соответственно, объективные методы исключают участие слуха человека из процесса измерений.
Наиболее распространенным субъективным методом оценки качества речи (не обязательно речи, хотя, обычно, именно речи) является оценка MOS (mean opinion score - средняя субъективная оценка) - оценка по пяти бальной шкале.
Оценка по шкале MOS определяется путем обработки оценок, даваемых группами аудиторов, нескольким звуковым сигналам, воспроизводимым различными аудиосистемами. Каждый аудитор выносит оценку каждого сигнала. Затем результаты усредняются.
Процесс организации и проведения субъективных экспертиз достаточно сложная, длительная и дорогостоящая процедура, поэтому на протяжении уже многих лет ведутся работы по поиску объективных методов оценки разборчивости, позволяющих получить быстрые и автоматизированные оценки, хорошо совпадающие с субъективными экспертизами.
Известны различные методы оценки, некоторые из них приведены ниже:
AI (Articulation Index) - индекс артикуляции - Идея заключается в том, что весь частотный диапазон речевого сигнала разбивается на 20 полос, в пределах которых определяется отношение сигнал/шум. Ширина полос выбирается так, чтобы вклад каждой полосы в восприятие речи был одинаковым. В каждой полосе рассчитывается отношение сигнал/шум. Индекс артикуляции принимается равным взвешенной сумме значений на полосах.
Индекс артикуляции плох тем, что он хоть и ориентирован на речевой сигнал не учитывает свойств слуха и речеобразования.
SII (Speech Intelligibility Index) - Индекс разборчивости речи - развитие метода AI. Индекс разборчивости речи включен в американский стандарт ANSI S3.5-1997 и предлагает четыре измерительные процедуры на различных группах полос: критические полосы (21 полоса), третьоктавные полосы (18 полос), равные по вкладу критические полосы (17 полос) и октавные полосы (6 полос). В каждой из полос вычисляется отношение сигнал/шум и рассчитывается суммарный коэффициент SII, лежащий в пределах от 0 до 1.
Индекс разборчивости речи учитывает только свойства слуха и не учитывает свойств речеобразования.
STI (Speech Transmission Index) - индекс передачи речи - Речевой сигнал можно приближенно рассматривать как широкополосный сигнал, модулированный низкочастотным сигналом. Частота модуляции определяется скоростью артикуляции. Уменьшение глубины модуляции уподобляет речевой сигнал шумовому и уменьшает его разборчивость. Соответственно и уменьшение разборчивости можно оценить по уменьшению глубины модуляции.
Весь речевой диапазон разбивается на семь октавных полос, на вход испытуемой системы подается октавный шумовой сигнал. Распределение интенсивности тестового сигнала совпадает с распределением интенсивностей речевого сигнала. Частоты модулирующего сигнала изменяются от 0.5 до 12.5 Гц с третьоктавным интервалом (всего 14 частот).
Метод измерений STI зафиксирован в международном стандарте IEC 268-16.
RATSI/STIPA (Rapid Speech Transmission Index) - быстрый индекс передачи речи. Метод STI требует большого количества измерений и расчетов. Был разработан упрощенный метод, предусматривающий измерения только в двух полосах при пяти частотах модуляции, а сокративший - количество измерений и расчетов. Для хорошей разборчивости значения RASTI должны быть не ниже 0.6.
Индекс передачи речи, равно как и быстрый индекс, имитирует процесс речеобразования с помощью шумовой модели, однако такой учет свойств речеобразования и слуха далек от оптимального.
С50 - коэффициент четкости - определяет четкость или ясность звучания и вычисляется, как отношение ближнего и дальнего эха. Метод основан на том, что эхо понижает разборчивость сигнала. Измеряется отношение ближнего и дальнего эха на нескольких частотных полосах. Ближнее эхо (до 33 мс) считается полезным сигналом, а дальнее (больше 33 мс) - мешающим.
Коэффициент четкости учитывает лишь один вид возможных искажений и его целесообразно применять в качестве одной из оценок качества речи.
Известен способ оценки разборчивости речи, получаемой по трактам переговорных устройств средств индивидуальной защиты органов дыхания, путем применения преобразователя речевого сообщения в электрический сигнал и комплекса аппаратуры регистрации и обработки для получения амплитудно-частотной зависимости речевого сообщения, определения формант равной разборчивости, уровня их ощущения, расчета вероятности приема формант, по величине которой оценивают разборчивость речи, отличающийся тем, что преобразователь речевого сообщения в электрический сигнал подключают на вход звукового адаптера персональной ЭВМ с платой оцифровки, осуществляют перевод информации из аналоговой формы в цифровую, проводят обработку цифровой информации и определение требуемых для оценки разборчивости выходных характеристик (заявка №2002133196).
Недостатком данного способа является то, что он не учитывает в полной мере свойства речеобразования. Наличие формант характерно только для гласных и звонких согласных звуков. Кроме того, данный метод применим только для оценки разборчивости речи, как меры качества речевого звукового сигнала, однако он не применим для звуковых сигналов в общем.
Наиболее близким техническим решением к заявляемому является способ осуществления машинной оценки качества передачи аудиосигналов, в особенности речевых сигналов, при котором в одном частотном диапазоне определяют спектры передаваемого сигнала источника и принимаемого сигнала, определяют значение спектрального подобия, которое соответствует качеству передачи, при этом ковариацию спектров сигнала источника и принимаемого сигнала делят на произведение стандартного отклонения обоих спектров (Патент РФ №2232434).
Кроме того, спектральные значения подобия взвешиваются коэффициентом, который зависит от отношения энергий спектров сигнала приема к сигналу источника, что обеспечивает регулирование сигнала помехи, т.к. чем выше энергия принимаемого сигнала, тем значение подобия снижается сильнее.
Предварительно до обработки сигналов из сигнала источника и принимаемого сигнала выделяют активную и неактивную фазы, при этом фрагменты сигнала, энергия которых превосходит предварительно заданный порог, соотносят с активными фазами, а остальные фрагменты квалифицируют как паузы. Паузы и помехи в паузах также отделяются и учитываются в меньшей степени, чем активные фазы сигналов.
Исходя из этого, значение спектрального подобия определяют только для фрагментов принимаемого сигнала и сигнала источника, относящихся к активной фазе, а для неактивных фаз применяется функция качества, зависящая от максимальной и средней энергии на интервале пауз, которая спадает дегрессивно.
Перед преобразованием в частотную область сигналов активной фазы, осуществляют временное маскирование, для чего их подразделяют на временные блоки данных таким образом, что следующие друг за другом блоки данных перекрывались существенной частью до 50%, причем перед временным маскированием компоненты спектров сжимают посредством возведения в степень с показателем меньшим, чем 1.
Полученные спектры источника и принимаемого сигнала делят на критические полосы (по модели Цвикера) и рассчитывает для них коэффициенты подобия. Перед определением значения подобия спектры соответственно подвергают свертке с использованием асимметричной по частоте функции размытия, а перед сверткой расширяют компоненты спектров с использованием возведения в степень с показателем большим, чем 1.
Качество передачи вычисляют посредством взвешенной линейной комбинации из значения подобия активной фазы и значения качества неактивной фазы.
К основным недостаткам прототипа можно отнести:
- практически обработке подвергаются только активные фазы исходного и принятого (тестируемого) сигналов, что снижает объективность оценки;
- данный метод не учитывает свойства речеобразования, т.к. критические полосы по Цвикеру, применяемые авторами изобретения, отражают лишь свойства слуха;
- метод учитывает восприятие неактивной фазы только по уровню громкости, что так же снижает точность оценки.
Задачей предлагаемого изобретения является разработка способа получения объективной оценки качества звукового сигнала, которую можно использовать в указанных областях применения предлагаемого изобретения.
Технический результат достигается за счет того, что в известный способ машинной оценки качества звуковых сигналов, в котором из исходного сигнала и тестируемого сигнала выделяют фрагменты активной и неактивной фаз, определяют спектр активной фазы, рассчитывают значения спектральной энергии на критических полосах и значения подобия, а качество тестируемого звукового сигнала определяют посредством взвешенной линейной комбинации из полученных значений для каждой фазы, внесены изменения, а именно:
- выделенные фрагменты активной и неактивной фазы синхронизируют по времени;
- дополнительно определяют спектры фрагментов неактивной фазы;
- полученные спектры фрагментов обеих фаз делят на дополнительные наборы полос, для которых рассчитывают значения спектральной энергии;
- фрагменты сравнивают;
- результирующий коэффициент подобия для каждой фазы определяют, как среднее значение коэффициентов подобия наборов полос по всем фрагментам.
Затем с учетом полученных результатов производят оценку качества тестируемого звукового сигнала.
Кроме того:
- в качестве исходного сигнала можно использовать как произвольный звуковой сигнал, так и специализированный набор сигналов;
- спектры фрагментов активной и неактивной фазы определяют, используя дискретное косинуспреобразование;
- в качестве дополнительных наборов полос могут использоваться логарифмические, резонаторные и различные известные критические полосы;
- количество и состав наборов полос может варьироваться в различных сочетаниях для определения коэффициента подобия каждой фазы.
Сущность предлагаемого изобретения поясняется с помощью фигур 1-3, фигуры 4-8 поясняют пример реализации, а фигуры 9-13 - возможные способы использования:
Фиг.1 - укрупненный алгоритм оценки качества звукового сигнала;
Фиг.2 - алгоритм сравнения фрагментов сигнала по полосам;
Фиг.3 - общий алгоритм синхронизации исходного и тестируемого сигналов;
Фиг.4 - алгоритм фильтрации выбросов VAD;
Фиг.5 - алгоритм работы синхронизаторного блока (начало);
Фиг.6 - алгоритм работы синхронизаторного блока (продолжение);
Фиг.7 - алгоритм работы синхронизаторного блока (продолжение);
Фиг.8 - алгоритм работы синхронизаторного блока (окончание);
Фиг.9 - пример оценки качества звука, передаваемого через телефонную сеть;
Фиг.10 - пример оценки качества передачи звука по VoIP;
Фиг.11 - пример оценки качества передачи звука в сетях сотовой и спутниковой связи;
Фиг.12 - пример использования оценок качества группой разработчиков систем(ы) обработки звука;
Фиг.13 - пример оценки звукового качества помещений.
Необходимость разработки новых методов и улучшения существующих вызвана желанием повышения близости объективных и субъективных оценок качества, необходимостью учитывать свойства слуха и речеобразования.
Использование в качестве исходного сигнала произвольного или специализированного сигнала зависит от цели оценки (определение разборчивости речи, качество воспроизведения звука, оценки качества речи, получаемой по трактам переговорных устройств, и т.п.) и позволяет повысить ее объективность.
Практически любой звуковой сигнал можно разделить на активную и неактивную фазы. Первая соответствует активным звуковым процессам, вторая - низкоуровневому фоновому шуму. Простейший способ разделения - разделения по уровню энергии сигнала, однако такой подход не обладает высокой точностью. В предлагаемом способе для разделения сигнала на активную и неактивную фазы использован известный алгоритм VAD, зафиксированный в рекомендации G.723 (в качестве элемента одноименного вокодера).
Исходный и тестируемый звуковой сигналы анализируются и разделяются на активную и неактивную фазы (фиг.1). Далее фрагменты активной и неактивной фазы синхронизируются (однотипные фрагменты совмещаются во времени) и анализируются различными блоками по одному алгоритму. Алгоритм синхронизации описан ниже.
Раздельное сравнение совмещенных пар фрагментов активной и неактивной фазы позволяет повысить точность получаемой оценки.
Для каждого фрагмента определяется интегральный спектр с использованием дискретного косинуспреобразования (ДКП), которое для достижения технического результата обладает некоторым преимуществом по сравнению с быстрым преобразованием Фурье (БПФ).
Интегрирование спектра поводится по формуле (1):
где j=0...N/2-1 - индексы значения спектральной энергии,
i - номер шага интегрирования;
N - количество отсчетов сигнала, используемое при расчете спектра;
- получаемое усредненное значение спектра;
- усредненное значение спектра на прошлом шаге;
Spi,j - значение спектра, полученное с помощью ДКП.
При расчете интегрального спектра перекрытие окон составляет N/2 отсчетов, на каждое окно накладывается известная оконная функция Хэмминга (Hamming) или Блэкмана-Харриса (Blackmann-Harris).
Для всех выбранных наборов полос определяются уровни спектральной энергии на полосах. Известны группы критических полос, определенные разными авторами, исходя из различных моделей восприятия звука и речеобразования.
Слуховой аппарат человека является нелинейной системой, что приводит к возникновению явления, называемого маскировкой. Маскировка возникает при прослушивании сообщения на фоне помех, или маскирующих звуков.
В результате исследования маскировки гармонических сигналов узкополосным шумом Цвикер определил, что весь спектр слышимых частот можно разделить на частотные группы или полосы, выделяемые слухом человека. До Цвикера аналогичный вывод был сделан Флетчером, назвавшим выделенные частотные группы критическими полосами слуха.
Критические полосы, определенные Флетчером и Цвикером, различаются, т.к. первый определял полосы с помощью маскировки шумом, а второй - из соотношений воспринимаемой громкости.
Сапожков определил критическую полосу, как «полоску частотного диапазона речи, которая воспринимается как единое целое». В своих ранних исследованиях он даже говорил о возможности замены звукового сигнала на полосе эквивалентным тональным сигналом, однако данное предположение не выдержало экспериментальной проверки. Критические полосы, определенные Сапожковым, отличаются от полос, определенных Флетчером и Цвикером, т.к. Сапожков исходил из свойств речевого сигнала.
Покровский также определял критические полосы на основе свойств речевого сигнала. Полосы, определенные Покровским, обеспечивают равную вероятность попадания в них формант.
Значение спектральной энергии на полосах может использоваться для различных целей, одной из которых является оценка качества звукового сигнала. Однако использование критических полос только одного автора (в прототипе, например, используются критические полосы Цвикера), не позволяет получить достаточно объективную оценку, т.к. отражают только один из аспектов либо восприятия, либо речеобразования. В предлагаемом изобретении спектральная энергия может определяться на различных критических полосах, а также на логарифмических и резонаторных полосах, что позволяет учесть больше особенностей слуха и речеобразования.
Учет того, что полосы, определенные Покровским и Сапожковым, лучше подходят для речевых сигналов, а не для звуковых сигналов вообще, позволяет повысить точность оценки, в зависимости от ее цели. В таблице 1 приведены критические полосы по разным авторам.
Использованы следующие обозначения:
Fc - центральная частота полосы;
L - ширина полосы.
Таблица 1 | ||||||||
Критические полосы, определенные разными авторами. | ||||||||
№ | Цвикер | Покровский | Флетчер | Сапожков | ||||
Fc | L | Fc | L | Fc | L | Fc | L | |
1 | 51 | 80 | 260 | 320 | 200 | 53 | 200 | 60 |
2 | 150 | 100 | 495 | 150 | 300 | 50 | 300 | 60 |
3 | 250 | 100 | 640 | 140 | 400 | 50 | 500 | 60 |
4 | 350 | 100 | 787 | 155 | 500 | 50 | 800 | 70 |
5 | 450 | 110 | 947 | 165 | 600 | 53 | 1000 | 80 |
6 | 570 | 120 | 1125 | 190 | 700 | 54 | 1500 | 100 |
7 | 700 | 140 | 1315 | 190 | 800 | 58 | 2000 | 130 |
8 | 840 | 150 | 1505 | 190 | 900 | 60 | 3000 | 200 |
9 | 1000 | 160 | 1690 | 180 | 1000 | 63 | 5000 | 300 |
10 | 1170 | 190 | 1870 | 180 | 1250 | 71 | 8000 | 600 |
11 | 1370 | 210 | 2050 | 180 | 1500 | 80 | ||
12 | 1600 | 240 | 2230 | 180 | 1750 | 87 | ||
13 | 1850 | 280 | 2435 | 230 | 2000 | 98 | ||
14 | 2150 | 320 | 2725 | 350 | 2500 | 120 | ||
15 | 2500 | 380 | 3100 | 400 | 3000 | 141 | ||
16 | 2900 | 450 | 3480 | 360 | 4000 | 200 | ||
17 | 3400 | 550 | 3855 | 390 | 5000 | 276 | ||
18 | 4000 | 700 | 4530 | 960 | 6000 | 370 | ||
19 | 4800 | 900 | 6130 | 2240 | 7000 | 480 | ||
20 | 5800 | 1100 | 8625 | 2750 | 8000 | 590 | ||
21 | 7000 | 1300 | ||||||
22 | 8500 | 1800 | ||||||
23 | 10500 | 2500 | ||||||
24 | 13500 | 3500 |
Дополнительно предлагается использовать логарифмические полосы или полосы равной громкости. Идея проста - громкость пропорциональна 10 логарифмам энергии. Для определения границ логарифмических полос используется запись фонетически представительного текста (известный текст, разработанный на кафедре фонетики СПбГУ), начитанного дикторами разного пола и возраста.
Речевой тракт представляет собой сложную акустическую систему. Акустика речевого тракта нестационарная и нелинейная. При движении артикуляционных органов форма и объем верхнего резонатора изменяются, в результате чего осуществляется речевая функция. Высота голоса определяется числом колебаний голосовых связок в секунду, а также длины связок, силы их натяжения и положения надгортанника. Сила звука определяется силой смыкания голосовых связок и силой выдоха. Тембр изменяется в зависимости от положения гортани и надгортанника.
В силу анатомических особенностей строения речевого аппарата и умения пользоваться резонаторами у одних людей получается усиление или ослабление гармонических составляющих звуков. Основное влияние на фонацию оказывают верхний резонатор и глотка. Также резонаторную функцию, состоящую в усилении тонов голоса и придании ему индивидуального тембра, осуществляют полости носа и околоносовых пазух.
Резонаторные полосы, характерные для различных звуков речи, были определены Сорокиным В.Н. (табл.2). Учет резонаторных полос полезен при определении качества речевых звуковых (особенно речевых) сигналов. Резонаторные полосы могут быть использованы для определения качества воспроизведения отдельных звуков.
Индексы у центральных частот и ширины полос приведены по Сорокину. Fx соответствует Fc, a Lx-L.
Таблица 2 | |||||||
Резонаторные полосы | |||||||
№ | Звук | Fp | Lр | F1 | L1 | F2 | L2 |
1 | «А» | 273,5 | 72,4 | 574,6 | 78,1 | 994,1 | 48,3 |
F3 | L3 | F4 | L4 | F5 | L5 | F6 | L6 |
2404,8 | 77,7 | 2711,4 | 102,5 | 3796,5 | 145,6 | 4735,3 | 221,8 |
№ | Звук | Fp | Lр | F1 | L1 | F2 | L2 |
2 | «О» | 287,6 | 72,4 | 497,1 | 100,9 | 914,2 | 47,1 |
F3 | L3 | F4 | L4 | F5 | L5 | F6 | L6 |
2316,4 | 67,9 | 2635,1 | 87,6 | 4030,9 | 142,3 | 4728,3 | 189,5 |
№ | Звук | Fp | Lр | F1 | L1 | F2 | L2 |
3 | «У» | 296,8 | 72,4 | 408,6 | 149,2 | 858,0 | 41,9 |
F3 | L3 | F4 | L4 | F5 | L5 | F6 | L6 |
2042,8 | 54,2 | 2761,3 | 71,2 | 3612,3 | 92,4 | 4434,3 | 122,7 |
№ | Звук | Fp | Lр | F1 | L1 | F2 | L2 |
4 | «И» | 287,7 | 72,4 | 393,5 | 54,9 | 2272,1 | 66,1 |
F3 | L3 | F4 | L4 | F5 | L5 | F6 | L6 |
3094,6 | 77,6 | 4003,6 | 83,7 | 5047,3 | 117,0 | 6103,5 | 133,6 |
№ | Звук | Fp | Lр | F1 | L1 | F2 | L2 |
5 | «Ы» | 302,6 | 72,4 | 485,7 | 85,5 | 1378,4 | 47,0 |
F3 | L3 | F4 | L4 | F5 | L5 | F6 | L6 |
1847,7 | 46,3 | 2574,5 | 63,3 | 3732,5 | 97,7 | 4421,9 | 124,8 |
№ | Звук | Fp | Lр | F1 | L1 | F2 | L2 |
6 | «Э» | 279,0 | 72,4 | 490,9 | 73,1 | 1353,0 | 41,4 |
F3 | L3 | F4 | L4 | F5 | L5 | F6 | L6 |
2235,0 | 60,8 | 2775,0 | 78,5 | 3575,7 | 109,4 | 4226,4 | 141,3 |
№ | Звук | Fp | Lр | F1 | L1 | F2 | L2 |
7 | «С» | 325,4 | 72,4 | 482,7 | 72,7 | 1619,4 | 45,7 |
F3 | L3 | F4 | L4 | F5 | L5 | F6 | L6 |
2861,0 | 72,7 | 4029,8 | 106,3 | 4406,1 | 115,9 | 5290,6 | 153,9 |
№ | Звук | Fp | Lр | F1 | L1 | F2 | L2 |
8 | «Ш» | 335,1 | 72,4 | 473,4 | 97,5 | 1439,9 | 53,7 |
F3 | L3 | F4 | L4 | F5 | L5 | F6 | L6 |
2101,6 | 57,1 | 2528,8 | 62,8 | 3159,8 | 72,9 | 4516,78 | 117,3 |
№ | Звук | Fp | Lр | F1 | L1 | F2 | L2 |
9 | «X» | 349,9 | 72,4 | 543,8 | 91,9 | 1459,7 | 54,8 |
F3 | L3 | F4 | L4 | F5 | L5 | F6 | L6 |
2035,0 | 53,5 | 2915,1 | 78,5 | 3699,1 | 93,5 | 4540,6 | 120,5 |
№ | Звук | Fp | Lp | F1 | L1 | F2 | L2 |
10 | «Ф» | 274,9 | 72,4 | 338,9 | 83,2 | 1024,6 | 37,4 |
F3 | L3 | F4 | L4 | F5 | L5 | F6 | L6 |
2110,2 | 43,2 | 2694,5 | 53,5 | 3872,9 | 78,0 | 4798,0 | 104,9 |
Дополнительно могут определяться «коэффициенты важности» полос, исходя из предположения о том, чем меньше интегральная энергия на полосе, тем выше важность полосы для восприятия речи. Соответственно, для оценки качества звуковых сигналов вообще, целесообразно считать полосы равно важными, а при оценке качества речевых сигналов, передаваемых по трактам переговорных устройств, учитывать коэффициенты важности.
Границы полос (начальный и конечный индексы) определяются по следующим формулам:
где nSpecLen - количество точек в спектре (N/2);
SampleRate - частота дискретизации сигнала;
n - номер полосы.
Энергии на полосах определяются как:
где - значения интегрального спектра ( равно , полученному на последнем окне фрагмента).
Алгоритм сравнения по полосам (для одного набора) представлен на фиг.2. Исходная оценка качества полагается равной 100%. Далее она уменьшается пропорционально различию энергий на полосах. Определяются оценки качества по каждому набору полос. Оценка качества по всем наборам полос определяется как среднее значение отдельных оценок по формуле:
где Nk - количество используемых таблиц полос;
k - номер текущей таблицы;
dQk - оценка, полученная для k-той таблицы полос;
- интегральная оценка по всем таблицам.
Оценка качества для каждой фазы определяется как среднее, по всем парам фрагментов:
где - получаемое интегральное значение коэффициента потери качества;
- интегральное значение коэффициента качества на предыдущем шаге;
- значение коэффициента качества на паре фрагментов с номером t;
- значение коэффициента качества на первой паре фрагментов;
t - номер пары фрагментов.
Результирующая оценка качества по всему сигналу (dQGlobal) определяется как сумма взвешенных оценок качества активной ((Active)) и неактивной ((Pause)) фаз:
Общий алгоритм синхронизации сигналов представлен на фиг.3. На вход синхронизатора сигнала поступают отрезки сигнала (pDATA), равные по длительности фрейму VAD, и признаки активности VAD на отрезках pDATA. Имеются два входа: для эталонного (или исходного) сигнала и для тестируемого сигнала.
Перед синхронизацией проводится фильтрация выбросов признаков активности VAD, заключающаяся в том, что признак активности на коротких участках (с длительностью менее пороговой) приравнивается к признакам активности окружающего сигнала.
После фильтра признаки состояний и фреймы сигнала поступают на синхронизаторные блоки, совмещающие фрагменты активного сигнала и паузы. Модули используют общие данные: буфер активного эталонного сигнала (EBuffer1), буфер активного тестируемого сигнала (TBuffer1), буфер паузы эталонного сигнала (EBuffer0), буфер паузы тестируемого сигнала (TBuffer0), признак готовности буферов активного сигнала и пауз (dReady[0...1]), также предусмотрен счетчик ошибок синхронизации (dErrorCounter).
На выходе синхронизатора получается пара буферов с активным сигналом или пара буферов с паузами. Оба синхронизаторных блока могут инициировать появление пары синхронизированных буферов.
Синхронизированные буфера в зависимости от признака активности поступают на блок сравнения активных фрагментов или пауз (фиг.1).
В настоящее время продолжается апробирование предлагаемого метода применительно к оценке качества телефонных каналов и IP-телефонии. Ведется поиск оптимальных алгоритмов синхронизации и уточняется зависимость между оценкой качества и слоговой разборчивостью.
Ниже приводится описание реализации способа. Реализация предлагаемого способа оценки качества звуковых сигналов осуществляется на персональном компьютере с использованием программного обеспечения и разработанного авторами изобретения. Метод реализован в виде программы для оценки качества вокодеров и сравнения внешних исходных и тестируемых сигналов.
В качестве внешних сигналов могут использоваться произвольные сигналы, записанные с частотой дискретизации 8 кГц и разрядностью отсчетов 16 бит. Предполагается, что тестируемый сигнал получен из исходного сигнала в результате каких-либо преобразований (например, сжатие/восстановление, передача по каналам связи, фильтрация).
Дополнительно, в качестве исходного внешнего сигнала может использоваться запись фонетически представительного текста, начитанного несколькими дикторами разного пола и возраста.
В качестве внутренних исходных сигналов (сигналов, к которым пользователь программы не имеет доступа) используются сигналы, генерируемые в соответствии с шумовой моделью (описание генератора приведено ниже) и сигналы, генерируемые на основе статистической модели.
Внутренние сигналы подаются на вход реализации системы сжатия/восстановления звуковых данных, реализуемой в виде DLL с оговоренным интерфейсом. Допускается использование DLL, разработанных как авторами предлагаемого метода, так и сторонними разработчиками. Сигнал, прошедший обработку методами, содержащимися в DLL, считается тестируемым и подвергается процедуре оценки качества, описанной выше.
На фиг.4 представлен алгоритм фильтрации выбросов VAD. В качестве исходных данных выступают отрезки сигнала pDATA и признаки активности VAD-dVAD. В табл.3 приведены названия переменных, их назначение и начальные значения. Кроме переменных в алгоритме использованы три константы: порог выправления пауз в активное состояние (dBound[0]=6), порог выправления активного состояния в паузу (dBound[1]=4) и длина линии задержки (dDLSize=max(dBound[])+1).
Используемые значения констант определены экспериментально (для случая оценки качества сигналов, прошедших процедуру сжатия/восстановления) и могут изменяться при реализации для лучшей синхронизации конкретных сигналов.
Таблица 3 | ||
Переменные, используемые фильтром выбросов VAD | ||
Переменная | Назначение | Н/з |
dVAD | Значение признака активности, поступающее на вход алгоритма | - |
pDATA | Массив отсчетов сигнала с длиной, равный фрейму VAD | - |
dState | Признак активности участка (предшествующее значение признака активности) | -1 |
dSLen | Количество последовательных фреймов с одинаковым признаком активности | 0 |
dNDLFrames | Общее количество фреймов, поступивших на вход алгоритма | 0 |
DelayLine[] | Линия задержки. Сохраняет признаки активности и массивы отсчетов | - |
Алгоритм проверяет признак активности текущего блока сигнала. Если признак активности совпадает с текущим принимаемым состоянием, то пришедший фрейм просто добавляется в линию задержки, а первый элемент линии задержки выдается на вход синхронизаторного блока.
Если признак активности не совпадает с текущим принимаемым состоянием, то осуществляется проверка на приход первого фрейма сигнала. Первый фрейм просто помещается в линию задержки, а его признак активности принимается за текущее состояние.
Если происходит смена активности принимаемого сигнала в процессе фильтрации, то проверяется количество фреймов сигнала, принятых в предыдущем состоянии. Если количество фреймов меньше установленного порога, то производится смена их признака активности на противоположный, если нет, то просто изменяется текущее состояние и сбрасывается счетчик фреймов, принятых в текущем состоянии. После всех операций по смене состояния фрейм помещается в линию задержки.
Работа алгоритма завершается по получению признака окончания сигнала. При этом на вход синхронизаторного блока отдается весь накопленный сигнал, если, конечно, таковой имеется, и только потом - признак окончания сигнала.
Для синхронизации сигналов используется пара синхронизаторных блоков, работающих с несколькими общими переменными, описанными выше. Алгоритм работы синхронизаторного блока представлен на фигурах 5-8.
Синхронизаторный блок 0 обрабатывает эталонный сигнал (фиг.5), а блок 1 - тестируемый. Алгоритмы блоков идентичны, блоки используют перекрестные ссылки на буфера, т.е. в блоке 0 XBuffer0 - это буфер пауз эталонного сигнала, a - тестируемого, и наоборот - в блоке 1 XBuffer0 - буфер пауз тестируемого сигнала, a - эталонного.
Аналогично в блоке 0 XBuffer1 - это буфер активного эталонного сигнала, a - тестируемого, и наоборот - в блоке 1 XBuffer1 - буфер активного тестируемого сигнала, а - эталонного.
По получению признака конца сигнала алгоритм завершает свою работу. Ветка останова представлена на фиг.8.
В зависимости от признака активности VAD сигнал помещается либо в буфер пауз, либо в буфер активного сигнала. Если размер буфера превышает пороговое значение, то производится выдача синхронизированных буферов на модуль сравнения. Ветки, выдающие синхронизацию по размеру буфера, представлены на фиг.7.
После помещения сигнала в буфер проверяется текущее состояние активности сигнала. Если оно прежнее, то производится переход к началу и ожидаются новые данные. При изменении состояния проверяется, не была ли это первая порция данных? Если «да», то принимается ее состояние активности и осуществляется переход на начало.
Если нет, то увеличивается признак готовности сигнала в данном состоянии, после чего проверяется не готовы ли оба сигнала, т.е. участки активного сигнала или паузу синхронизированы. Если есть синхронизированные фрагменты сигнала, переходим к ветке, представленной на фиг.6. Если нет, то переход на начало алгоритма.
По текущему состоянию определяется, была ли найдена синхронизация для пауз или для активного сигнала. Проверяем результат синхронизации на ошибку путем сравнения с нулем размеров буферов (своего и буфера из параллельного блока) сигнала. Ели хоть один из них равен нулю, то произошла ошибка синхронизации.
Если все в порядке синхронизированные буфера выдаются на вход модуля сравнения. Если нет - то счетчик ошибок увеличивается, буфера сбрасываются, изменяется состояние активности и происходит возврат к ожиданию новой порции данных.
Прежде чем отдать буфера по превышению размера сегмента, производим проверку размера параллельного буфера (фиг.7). Если буфер параллельного блока пуст - буфера сбрасываются и увеличивается счетчик ошибок синхронизации. Если данные присутствуют в обоих буферах, модулю сравнения сигналов отдаются синхронизированные фрагменты.
Перед окончанием работы проверяется: есть ли данные в буферах пауз и буферах активного сигнала. Если есть, то отдаем соответствующие синхронизированные пары (или пару) сигналов модулю