Квантование классов для распределенного распознавания речи

Иллюстрации

Показать все

Изобретение касается систем распределенного распознавания речи, где раскрыты система, способ и читаемый компьютером носитель информации для квантования информации о классе и информации об основном тоне звука. Способ в системе обработки информации включает в себя прием звука и захват кадра звука. Способ дополнительно включает в себя определение основного тона кадра и вычисление ключевого слова, представляющего основной тон кадра, причем первое значение ключевого слова указывает неопределенный основной тон. Способ дополнительно включает в себя определение класса кадра, причем класс представляет собой любой из по меньшей мере двух классов, указывающих неопределенный основной тон, и по меньшей мере одного класса, указывающего определенный основной тон. Способ дополнительно включает в себя вычисление ключевого слова, представляющего класс кадра, причем длина ключевого слова составляет максимум минимальное количество битов, требуемых для представления по меньшей мере двух классов, и минимальное количество битов, требуемых для представления по меньшей мере одного класса. Технический результат - компактное представление информации о классе и основном тоне для сохранения низкой скорости передачи в битах. 3 н. и 16 з.п. ф-лы, 10 ил., 1 табл.

Реферат

Область техники, к которой относится изобретение

Настоящее изобретение в общем касается области систем распределенного распознавания речи и, более конкретно, касается распределенного распознавания речи для связи в узкой полосе частот и беспроводной связи.

Уровень техники

С появлением пейджеров и мобильных телефонов индустрия беспроводного обслуживания превратилась в индустрию стоимостью в миллиарды долларов. Большая часть доходов поставщиков беспроводных услуг (ПБУ, WSP) происходит от подписок. По существу, способность ПБУ успешно работать в сети зависит от качества обслуживания, обеспечиваемого абонентам через сеть, имеющую ограниченную полосу частот. С этой целью поставщики ПБУ постоянно ищут способы уменьшить количество информации, которая передается через сеть, при поддержании высокого качества обслуживания для абонентов.

В последнее время распознавание речи пользовалось успехом в индустрии беспроводного обслуживания. Распознавание речи используется для ряда применений и услуг. Например, абонента беспроводного обслуживания можно обеспечивать возможностью ускоренного набора телефонного номера, посредством чего абонент произносит имя адресата вызова в беспроводное устройство. Имя адресата распознается с использованием распознавания речи, и между абонентом и адресатом инициируется вызов. В другом примере информация (411) вызывающего абонента может использовать распознавание речи, чтобы распознавать имя адресата, с которым абонент пытается заказать разговор по телефону.

Поскольку распознавание речи завоевывает признание в беспроводном семействе, возникло распределенное распознавание речи (РРР, DSR) как новая технология. РРР относится к структуре, в которой участки выделения признаков и распознавания образов системы распознавания речи являются распределенными. То есть, участки выделения признаков и распознавания образов системы распознавания речи выполняются двумя различными устройствами обработки данных в двух различных местоположениях. В частности, процесс выделения признаков выполняется во внешнем интерфейсе, то есть, в беспроводном устройстве, а процесс распознавания образов выполняется на серверном участке, то есть, поставщиком беспроводных услуг. РРР расширяет распознавание речи для более сложных задач типа автоматизированного заказа авиалинии с помощью выраженной словами информации о рейсе или брокерских операций с помощью аналогичных признаков.

Европейский институт стандартов электросвязи (ETSI) обнародовал ряд стандартов для РРР. Стандарты РРР ETSI ES 201 108 (апрель 2000 г.) и ES 202 050 (июль 2002 г.) определяют выделение признаков и алгоритмы сжатия на внешнем интерфейсе. Однако эти стандарты не включают в себя реконструкцию речи на серверном участке, которая может быть важной в некоторых применениях. В результате ETSI были выпущены новые Позиции работы WI-030 и WI-034, с целью расширения вышеупомянутых стандартов (ES 201 108 и ES 202 050, соответственно), для включения в них реконструкции речи на серверном участке, также как тонального распознавания языка.

В действующих стандартах РРР признаки, которые извлекаются, сжимаются и передаются на серверный участок, представляют собой 13 коэффициентов косинусного преобразования Фурье частоты Мела (MFCC), С0 - C12, и логарифм энергии кадра, log-E. Эти признаки обновляются каждые 10 мс или 100 раз в секунду. В предложениях о расширенных стандартах (то есть, в ответ на описанные выше Позиции работы) информацию об основном тоне и классе (или вокализации) также получают для каждого кадра и передают в дополнение к коэффициентам MFCC и log-E. Это увеличивает количество информации, которая передается беспроводным устройством по сети, и расходует дополнительную полосу частот. Таким образом, желательно, чтобы представление информации о классе и основном тоне было компактным, насколько возможно, для сохранения низкой скорости передачи в битах.

В речевых кодерах нормальной практикой было отдельное квантование информации об основном тоне и информации о классе. В некоторых кодерах "невокализованный" класс представлен "нулевым значением основного тона", например кодером смешанного возбуждения с линейным предсказанием (СВЛП), который является федеральным стандартом США на скорости 2400 битов в секунду. К сожалению, многие типы классов, предложенных для расширенных стандартов, требуют увеличенного количества информации для представления и увеличенную полосу частот для передачи информации о классе.

Поэтому существует необходимость в преодолении проблемы, связанной с предшествующим уровнем техники, как обсуждалось выше.

Сущность изобретения

Коротко говоря, в соответствии с настоящим изобретением раскрыты система, способ и пригодный для чтения компьютером носитель информации для квантования информации о классе и информации об основном тоне звука. В варианте осуществления настоящего изобретения способ в системе обработки информации включает в себя прием звука и захват кадра звука. Способ дополнительно включает в себя определение основного тона кадра и вычисление ключевого слова, представляющего основной тон кадра, причем первое значение ключевого слова указывает неопределенный основной тон. Способ дополнительно включает в себя определение класса кадра, причем класс представляет собой любой один из по меньшей мере двух классов, указывающих неопределенный основной тон, и по меньшей мере одного класса, указывающего определенный основной тон. Способ дополнительно включает в себя вычисление ключевого слова, представляющего класс кадра, причем длина ключевого слова составляет максимум минимальное количество битов, требуемых для представления по меньшей мере двух классов, указывающих неопределенный основной тон, и минимальное количество битов, требуемых для представления по меньшей мере одного класса, указывающего определенный основной тон. Основной тон и класс кадра представлены двумя ключевыми словами.

В другом варианте осуществления настоящего изобретения система обработки информации для квантования информации о классе и информации об основном тоне звука включает в себя микрофон для приема звука и захвата кадра звука. Система обработки информации дополнительно включает в себя цифровой процессор сигналов для определения основного тона кадра и вычисления ключевого слова, представляющего основной тон кадра, причем первое значение ключевого слова указывает неопределенный основной тон. Цифровой процессор сигналов дополнительно определяет класс кадра, причем класс представляет собой любой один из по меньшей мере двух классов, указывающих неопределенный основной тон, и по меньшей мере одного класса, указывающего определенный основной тон. Цифровой процессор сигналов дополнительно вычисляет ключевое слово, представляющее класс кадра, в котором длина ключевого слова представляет собой максимум минимальное количество битов, требуемых для представления по меньшей мере двух классов, указывающих неопределенный основной тон, и минимальное количество битов, требуемых для представления по меньшей мере одного класса, указывающего определенный основной тон. Основной тон и класс кадра представлены двумя ключевыми словами.

Предпочтительные варианты осуществления настоящего изобретения являются выгодными, поскольку они служат для уменьшения количества битов, используемых для передачи звуковой информации по сети связи. Это выгодно, потому что сети связи обладают ограниченной полосой частот. Экономия битов преобразуется в создание большей полосы частот, доступной для существующих или дополнительных абонентов. Таким образом, настоящее изобретение обеспечивает и улучшение производительности сети, и повышение качества связи.

Краткое описание чертежей

Фиг. 1 представляет блок-схему, иллюстрирующую сеть для распределенного распознавания речи согласно предпочтительному варианту осуществления настоящего изобретения.

Фиг. 2 представляет детализированную блок-схему системы беспроводной связи для распределенного распознавания речи согласно предпочтительному варианту осуществления настоящего изобретения.

Фиг. 3 представляет блок-схему, иллюстрирующую беспроводное устройство для системы беспроводной связи согласно предпочтительному варианту осуществления настоящего изобретения.

Фиг. 4 представляет блок-схему, иллюстрирующую обмен данными беспроводного устройства с поставщиком беспроводных услуг.

Фиг. 5 представляет оперативную схему последовательности операций, показывающую полный процесс распределенного распознавания речи согласно предпочтительному варианту осуществления настоящего изобретения.

Фиг. 6 представляет оперативную схему последовательности операций, показывающую процесс квантования класса и основного тона согласно предпочтительному варианту осуществления настоящего изобретения.

Фиг. 7 представляет блок-схему, иллюстрирующую обычные распределения битов для процесса квантования класса и основного тона.

Фиг. 8 представляет блок-схему, иллюстрирующую распределения битов для процесса квантования класса и основного тона согласно предпочтительному варианту осуществления настоящего изобретения.

Фиг. 9A, 9B и 9C представляют оперативную схему последовательности операций, показывающую другой процесс квантования основного тона согласно предпочтительному варианту осуществления настоящего изобретения.

Фиг. 10 представляет блок-схему системы обработки информации, полезной для реализации предпочтительного варианта осуществления настоящего изобретения.

Подробное описание

Настоящее изобретение согласно предпочтительному варианту осуществления благоприятно преодолевает проблемы, связанные с предшествующим уровнем техники, эффективно снижая количество битов, используемых в квантовании класса, как подробно обсуждается ниже.

I. Краткий обзор

Фиг. 1 представляет блок-схему, иллюстрирующую сеть для распределенного распознавания речи (РРР) согласно предпочтительному варианту осуществления настоящего изобретения. Фиг. 1 изображает сетевой сервер или поставщика 102 беспроводных услуг, действующего в сети 104, которая соединяет сервер/поставщика 102 беспроводных услуг с клиентами 106 и 108 (клиентским оборудованием). В одном варианте осуществления настоящего изобретения фиг. 1 представляет сетевую компьютерную систему, которая включает в себя сервер 102, сеть 104 и клиентские компьютеры 106-108. В первом варианте осуществления сеть 104 представляет собой сеть с коммутацией каналов типа коммутируемой телефонной сети общего пользования (КТСОП, PSTN). В качестве альтернативы сеть 104 представляет собой сеть с коммутацией пакетов. Сетью с коммутацией пакетов является глобальная вычислительная сеть (ГВС, WAN) типа глобального Интернета, частная ГВ, локальная вычислительная сеть (ЛВС, LAN), сеть передачи данных или любая комбинация вышеупомянутых сетей. В другом альтернативном варианте сеть 104 представляет собой проводную сеть, беспроводную сеть, сеть с широковещательной рассылкой сообщений или сеть с двухточечным соединением абонентов.

В первом варианте осуществления сервер 102 и компьютерные клиенты 106 и 108 содержат один или более персональных компьютеров (ПК) (например, IBM или совместимые с ПК автоматизированные рабочие места, выполняющие операционную систему Microsoft Windows 95/98/2000/ME/CE/NT/XP, компьютеры Macintosh, выполняющие операционную систему Mac OS, ПК, выполняющие операционную систему LINUX, или эквивалентные устройства), или любые другие компьютерные обрабатывающие устройства. В качестве альтернативы сервер 102 и компьютерные клиенты 106 и 108 включают в себя одну или более серверные системы (например, автоматизированные рабочие места SUN Ultra, выполняющие операционную систему SunOS или AIX, автоматизированные рабочие места и серверы IBM RS/6000, выполняющие операционную систему AIX, или серверы, выполняющие операционную систему LINUX).

В другом варианте осуществления настоящего изобретения фиг. 1 представляет систему беспроводной связи, которая включает в себя поставщика 102 беспроводных услуг, беспроводную сеть 104 и беспроводные устройства 106-108. Поставщик 102 беспроводных услуг представляет собой аналоговое обслуживание телефонной связи с подвижными объектами первого поколения, цифровое обслуживание телефонной связи с подвижными объектами второго поколения или способное работать с Интернетом обслуживание телефонной связи с подвижными объектами третьего поколения.

В этом варианте осуществления беспроводная сеть 104 представляет собой сеть мобильной телефонной связи, сеть мобильных устройств обмена текстовыми сообщениями, сеть поискового вызова или аналогичную сеть. Далее, стандарт в области связи беспроводной сети 104 на фиг. 1 представляет собой множественный доступ с кодовым разделением (МДКР, CDMA), множественный доступ с разделением по времени (МДРВ, TDMA), глобальную систему мобильной связи (ГСМС, GSM), систему пакетной радиосвязи общего пользования (СПРОП, GPRS), множественный доступ с разделением по частоте (МДРЧ, FDMA) или аналогичный стандарт. Беспроводная сеть 104 поддерживает любое количество беспроводных устройств 106-108, которые являются мобильными телефонами, мобильными устройствами обмена текстовыми сообщениями, миниатюрными портативными компьютерами, пейджерами, устройствами звуковой сигнализации или подобными устройствами.

В этом варианте осуществления поставщик 102 беспроводных услуг включает в себя сервер, который содержит один или более персональных компьютеров (ПК) (например, IBM или совместимые с ПК автоматизированные рабочие места, выполняющие операционную систему Microsoft Windows 95/98/2000/ME/CE/NT/XP, компьютеры Macintosh, выполняющие операционную систему Mac OS, компьютеры ПК, выполняющие операционную систему LINUX, или эквивалентные устройства), или любые другие компьютерные обрабатывающие устройства. В другом варианте осуществления настоящего изобретения сервер поставщика 102 беспроводных услуг представляет собой одну или более систем серверов (например, автоматизированные рабочие места SUN Ultra, выполняющие операционную систему SunOS или AEK, автоматизированные рабочие места и серверы IBM RS/6000, выполняющие операционную систему AIX, или серверы, выполняющие операционную систему LINUX).

Как объяснялись выше, РРР относится к структуре, в которой участки выделения признаков и распознавания образов системы распознавания речи являются распределенными. То есть, участки выделения признаков и распознавания образов системы распознавания речи выполняются двумя различными устройствами обработки данных в двух различных местоположениях. В частности, процесс выделения признаков выполняется внешним интерфейсом, например беспроводными устройствами 106 и 108, а процесс распознавания образов выполняется серверным участком, например сервером поставщика 102 беспроводных услуг. Процесс выделения признаков, как он выполняется на внешнем интерфейсе беспроводными устройствами 106 и 108, описан более подробно ниже.

Фиг. 2 представляет детализированную блок-схему системы беспроводной связи для РРР согласно предпочтительному варианту осуществления настоящего изобретения. Фиг. 2 представляет собой более детализированную блок-схему системы беспроводной связи, описанной со ссылкой на описанную выше фиг. 1. Система беспроводной связи фиг. 2 включает в себя контроллер 201, подсоединенный к базовым станциям 202, 203 и 204. Помимо этого, система беспроводной связи фиг. 2 обеспечивает сопряжение с внешней сетью через устройство 206 сопряжения телефона. Базовые станции 202, 203 и 204 индивидуально поддерживают участки географической зоны охвата, содержащей абонентские устройства или приемопередатчики (то есть, беспроводные устройства) 106 и 108 (см. фиг. 1). Беспроводные устройства 106 и 108 осуществляют сопряжение с базовыми станциями 202, 203 и 204, используя протокол связи типа МДКР, МДРЧ, МДКР, СПРОП и ГСМС.

Географическая зона охвата системы беспроводной связи фиг. 2 разделена на регионы или ячейки, которые индивидуально обслуживаются базовыми станциями 202, 203, и 204 (также упоминаемыми здесь как серверы ячеек). Беспроводное устройство, работающее в пределах системы беспроводной связи, выбирает конкретный сервер ячейки в качестве своего первичного устройства сопряжения для операций приема и передачи в пределах системы. Например, беспроводное устройство 106 имеет сервер 202 ячейки в качестве своего первичного сервера ячейки, а беспроводное устройство 108 имеет сервер 204 ячейки в качестве своего первичного сервера ячейки. Беспроводное устройство предпочтительно выбирает сервер ячейки, который обеспечивает лучшее устройство сопряжения с системой связи в системе беспроводной связи. Обычно это зависит от качества сигнала в сигналах канала связи между беспроводным устройством и конкретным сервером ячейки.

Когда беспроводные устройства перемещаются между различными географическими местоположениями в зоне охвата, может быть необходима передача обслуживания или перемещение вызова на другой сервер ячейки, который тогда будет функционировать, как первичный сервер ячейки. Беспроводное устройство контролирует сигналы связи от базовых станций, служащих соседними ячейками, для определения наиболее подходящего нового сервера для целей передачи обслуживания. Помимо контроля качества передаваемого сигнала от сервера соседней ячейки, беспроводное устройство также контролирует передаваемую информацию цветового кода, связанную с передаваемым сигналом, чтобы быстро идентифицировать, который сервер соседней ячейки является источником передаваемого сигнала.

Фиг. 3 представляет блок-схему, иллюстрирующую беспроводное устройство для системы беспроводной связи согласно предпочтительному варианту осуществления настоящего изобретения. Фиг. 3 представляет более детализированную блок-схему беспроводного устройства, описанного выше со ссылкой на фиг. 1 и 2. Фиг. 3 изображает беспроводное устройство 106, типа показанного на фиг. 1. В одном варианте осуществления настоящего изобретения беспроводное устройство 106 представляет собой приемно-передающую радиоустановку, способную принимать и передавать радиочастотные сигналы по каналу связи согласно протоколу связи типа МДКР, МДРЧ, МДКР, СПРОП или ГСМС. Беспроводное устройство 106 работает под управлением контроллера 302, который переключает беспроводное устройство 106 между режимами приема и передачи. В режиме приема контроллер 302 подсоединяет антенну 316 через переключатель 314 передача/прием (Пер/Пр) к приемнику 304. Приемник 304 декодирует принимаемые сигналы и подает эти декодированные сигналы на контроллер 302. В режиме передачи контроллер 302 подсоединяет антенну 316 через переключатель 314 Пер/Пр к передатчику 312.

Контроллер 302 управляет передатчиком и приемником в соответствии с командами, хранящимися в запоминающем устройстве 310. Хранящиеся команды включают в себя алгоритм планирования измерений соседних ячеек. Запоминающее устройство 310 представляет собой флэш-память, другое энергонезависимое запоминающее устройство, оперативное запоминающее устройство (ОЗУ), динамическое ОЗУ (ДОЗУ) или подобное устройство. Модуль 311 синхронизирующего устройства обеспечивает информацию синхронизации для контроллера 302, чтобы отслеживать синхронизированные события. Далее, контроллер 302 может использовать информацию о времени от модуля 311 синхронизирующего устройства, чтобы отслеживать планирование для передач серверов соседних ячеек и передаваемую информацию цветового кода.

Когда запланировано измерение соседней ячейки, приемник 304 под управлением контроллера 302 контролирует серверы соседних ячеек и принимает "индикатор качества принимаемого сигнала" (ИКПС). Схема 308 ИКПС генерирует сигналы ИКПС, представляющие качество сигналов, передаваемых каждым контролируемым сервером ячеек. Каждый сигнал ИКПС преобразуется в цифровую информацию аналого-цифровым преобразователем 306 и подается в качестве входного сигнала на контроллер 302. Используя информацию цветового кода и связанный индикатор качества принимаемого сигнала, беспроводное устройство 106 определяет наиболее подходящий сервер соседней ячейки, чтобы использовать его в качестве первичного сервера ячейки, когда необходима передача обслуживания.

Процессор 320 на фиг. 3 осуществляет различные функции типа функций, приписываемых распределенному распознаванию речи, описанных более подробно ниже. В различных вариантах осуществления настоящего изобретения процессор 320 на фиг. 3 представляет собой единственный процессор или больше чем один процессор для выполнения описанных выше задач.

II. Распределенное распознавание речи

Фиг. 4 представляет блок-схему, иллюстрирующую обмен данными беспроводного устройства 106 с поставщиком 102 беспроводных услуг. Фиг. 4 представляет собой более детализированную блок-схему беспроводного устройства 106, описанного выше со ссылкой на фиг. 1 и 2. Также показаны некоторые из функций, которые выполняются в беспроводном устройстве 106. Фиг. 4 изображает беспроводное устройство 106 и беспроводную сеть 104, типа показанной на фиг. 1. Также показаны процессор 320 и передатчик 312 беспроводного устройства 106, как показано на фиг. 3.

В одном варианте осуществления настоящего изобретения беспроводное устройство 106 также включает в себя микрофон 404 для приема звука 402. Затем принимаемый звук 402 обрабатывается процессором 320. Среди процессов, выполняемых процессором 320, класс и основной тон кадра звука 402 квантуются процессором 320. Класс и основной тон кадра звука 402 воплощены по меньшей мере в одном ключевом слове, которое включено в пакет 406. Затем пакет 406 передается передатчиком 312 через сеть 104 на сервер или поставщику 102 беспроводных услуг. Процессы квантования класса и основного тона кадра звука 402 и генерирования по меньшей мере одного ключевого слова более подробно описаны ниже.

Фиг. 5 представляет оперативную схему последовательности операций, показывающую полный процесс распределенного распознавания речи согласно предпочтительному варианту осуществления настоящего изобретения. Оперативная схема последовательности операций на фиг. 5 изображает процесс на примере клиента 106 выполнения выделения признаков поступающего звука и процесс в сервере или поставщике 102 беспроводных услуг выполнения распознавания образов. Оперативная схема последовательности операций фиг. 5 начинается с этапа 502 и переходит непосредственно к этапу 504.

На этапе 504 клиент 106 принимает звук для передачи на сервер 102. В варианте осуществления, в котором система фиг. 1 представляет собой беспроводную сеть, типа описанной на фиг. 2, на этапе 504 беспроводное устройство 106 принимает звук 404 (см. фиг. 4) через микрофон 404. После этого на этапе 506 клиент 106 переходит к выполнению выделения признаков на звуке, который был принят. Выделение признаков включает в себя квантование значений основного тона и класса для одного кадра. Выделение признаков описано более подробно ниже. В варианте осуществления беспроводной сети на этапе 506 процессор 320 (см. фиг. 3) беспроводного устройства 106 переходит к выполнению выделения признаков на звуке 402.

На этапе 508 клиент 106 генерирует пакетированные данные, включающие в себя извлеченные признаки, для передачи на сервер 102. Генерирование пакета данных описано более подробно ниже. В варианте осуществления беспроводной сети на этапе 508 беспроводное устройство 106 генерирует пакет 406 данных, включающий в себя извлеченные признаки. Затем на этапе 510 клиент 106 переходит к передаче пакета данных на сервер 102. В варианте осуществления беспроводной сети на этапе 510 передатчик 312 беспроводного устройства 106 переходит к передаче пакета 406 данных провайдеру беспроводной сети или на сервер 102 через беспроводную сеть 104.

На этапе 512 сервер 102 принимает пакетированные данные, посланные клиентом 106, и на этапе 514 сервер 102 переходит к восстановлению звука, основываясь на пакетированных данных. На этапе 516 сервер 102 выполняет распознавание речи, основываясь на пакетированных данных, принятых от клиента 106. В варианте осуществления беспроводной сети на этапе 512 поставщик беспроводных услуг или сервер 102 принимает пакет 406 данных, посланный беспроводным устройством 106 и на этапе 514 поставщик беспроводных услуг или сервер 102 переходит к восстановлению звука на основании пакета 406 данных. На этапе 516 поставщик беспроводных услуг или сервер 102 выполняет распознавание речи, основываясь на пакете 406 данных, принятых от беспроводного устройства 106. На этапе 518 оперативная схема последовательности операций фиг. 5 останавливается.

III. Создание пакета данных

A. Первая схема квантования

В предложениях о расширенных стандартах РРР (в ответ на Позиции работы WI-030 и WI-034) информация о классе (или вокализации) для кадра может принимать четыре возможных значения: 1) отсутствие речи, то есть тишина или фоновый шум, 2) невокализованный сигнал, 3) смешанно-вокализованный и 4) полностью вокализованный сигнал. Эти четыре значения могут в общем разделяться на две категории: невокализованную (отсутствие вокализации) (включающую в себя класс отсутствия речи и невокализованный класс) и вокализованную (включающую в себя смешанно-вокализованный и полностью вокализованный классы). Чтобы квантовать информацию о классах для одного кадра, обычно необходимы 2 бита, поскольку для представления имеется четыре значения классов, и 2 бита могут представлять четыре значения. Информация об основном тоне для кадра может принимать любое значение в пределах от приблизительно 19 до приблизительно 140 выборок. Чтобы квантовать информацию об основном тоне для одного кадра, например, в виде целочисленных значений обычно необходимы 7 битов, поскольку для представления имеется 122 значения основного тона, а 7 битов могут представлять 128 значений.

В одном предпочтительном варианте осуществления настоящего изобретения благодаря объединению информации о классе и информации об основном тоне можно сохранить один бит на кадр следующим образом. Одно из 7-битовых ключевых слов основного тона (например, ключевое слово с одними нулями) используется для указания, что класс является классом отсутствия вокализации (то есть, либо отсутствие речи, либо невокализованный). Остальные 127 ненулевых 7-битовых ключевых слов основного тона используются для представления различных значений основного тона, а также информации о том, что класс вокализован (то есть, либо смешанно-вокализованный, либо полностью вокализованный). То есть, одно из 7-битовых ключевых слов основного тона указывает, что класс является классом отсутствия вокализации, в то время как остающиеся ключевые слова указывают, что класс вокализован. Следовательно, теперь достаточен один бит класса для устранения неоднозначности среди двух классов отсутствия вокализации (то есть, между классом отсутствия речи и невокализованным классом) и среди двух вокализованных классов (то есть, между и смешанно-вокализованным классом, и полностью вокализованным классом).

Приведенная ниже таблица показывает один пример значений 7-битовых ключевых слов основного тона и значений 1-битовых ключевых слов, используемых для указания информации об основном тоне и о классе, как описано выше.

Тип класса7-битовое ключевое словоосновного тона7-битовое ключевое слово класса
Отсутствие речис одними нулями0
Невокализованныйс одними нулями1
Смешанно-вокализованныйНенулевое0
Полностью вокализованныйненулевое1

Таким образом, в итоге, согласно настоящему примеру общее количество битов, используемых для представления информации о классе и об основном тоне, составляет 8 битов. Это - в противоположность 9 битам, которые были бы необходимы для представления информации о классе и об основном тоне, если информацию о классе и об основном тоне квантовать отдельно (то есть, 7 битов для основного тона и 2 бита для класса; см. выше). Штраф, который налагается на такую схему, заключается в том, что одно из 128 ключевых слов основного тона используется для указания информации о классе. Из-за относительной неважности одного ключевого слова это имеет очень маленькое (и незначительное) воздействие на точность квантования основного тона.

Фиг. 6 представляет оперативную схему последовательности операций, показывающую процесс квантования класса и основного тона согласно предпочтительному варианту осуществления настоящего изобретения. Оперативная схема последовательности операций фиг. 6 изображает процесс на клиенте 106 вычисления информации об основном тоне и о классе и генерирования пакета данных, представляющего ее. Фиг. 6 описывает более подробно этапы 506 и 508 фиг. 5. Оперативная схема последовательности операций фиг. 6 начинается с этапа 602 и переходит непосредственно к этапу 604.

На этапе 604 клиент 106 вычисляет значение основного тона звука, который был принят. В примерном варианте осуществления беспроводной сети на этапе 604 беспроводное устройство 106 (более конкретно, процессор 320 беспроводного устройства 106) вычисляет значение основного тона звука 402, который был принят через микрофон 404. На этапе 606 клиент 106 выполняет квантование основного тона на основании значения основного тона звука. В одном примере выполняется квантование 7-битового основного тона, как описано выше. В варианте осуществления беспроводной сети на этапе 606 беспроводное устройство 106 выполняет квантование основного тона на основании значения основного тона звука 402.

На этапе 608 клиент 106 выполняет вычисление класса звука. На этапе 610 клиент 106 определяет, имеет ли класс, который был вычислен на этапе 608, невокализованную категорию (отсутствия вокализации), то есть, является ли он классом отсутствия речи или невокализованным классом. Если результат определения этапа 610 положительный, то управление переходит к этапу 612. Если результат определения этапа 610 отрицательный, то управление переходит к этапу 616.

На этапе 612 клиент 106 устанавливает ключевое слово основного тона для предварительно определенного ключевого слова основного тона, указывающего кадр категории класса отсутствия вокализации (то есть, класса отсутствия речи или невокализованного класса). В одном примере клиент 106 устанавливает 7-битовое ключевое слово основного тона на все нули - предварительно определенное ключевое слово основного тона, указывающее кадр класса отсутствия речи или невокализованного класса. На этапе 614 клиент 106 устанавливает ключевое слово класса для указания класса кадра категории класса отсутствия вокализации (то есть, либо класса отсутствия речи, либо невокализованного класса). В одном примере клиент 106 устанавливает 1-битовое ключевое слово класса, указывающее либо класс отсутствия речи, либо невокализованный класс.

На этапе 616 клиент 106 устанавливает ключевое слово основного тона на значение основного тона, сгенерированное для квантования основного тона, выполненного на этапе 604. В одном примере клиент 106 устанавливает 7-битовое ключевое слово основного тона на значение основного тона, сгенерированное для квантования основного тона, выполненного на этапе 604. На этапе 618 клиент 106 устанавливает ключевое слово класса для указания класса кадра вокализованной категории класса (то есть, либо смешанно-вокализованного, либо полностью вокализованного). В одном примере клиент 106 устанавливает 1-битовое ключевое слово класса, указывающее либо смешанно-вокализованный, либо полностью вокализованный класс. На этапе 620 оперативная схема последовательности операций фиг. 6 останавливается.

Фиг. 7 представляет блок-схему, иллюстрирующую обычные распределения битов для процесса квантования класса и основного тона. Фиг. 7 изображает, что семь битов представляют квантование 702 основного тона. Таким образом, для представления периодических данных основного тона одного кадра звука используются 128 возможных значений. Фиг. 7 также изображает, что два бита представляют квантование 704 класса. Таким образом, для представления класса одного кадра звука используются четыре возможных значения. Четыре класса определяются следующим образом: отсутствие речи, невокализованный, смешанно-вокализованный и полностью вокализованный класс. Поэтому согласно фиг. 7 для представления значений квантования основного тона и класса для одного кадра звука используется общее количество девять битов.

Фиг. 8 представляет блок-схему, иллюстрирующую распределения битов для процесса квантования класса и основного тона согласно предпочтительному варианту осуществления настоящего изобретения. Фиг. 8 изображает распределения битов для квантования класса и основного тона согласно настоящему изобретению. Фиг. 8 показывает, что квантование 802 основного тона представляют семь битов. Однако из 128 возможных значений, доступных с семью битами, только 127 значений используются для представления периодических данных основного тона одного кадра звука. Остающееся одно значение используется для указания информации о классе, в частности категории класса отсутствия вокализации (то есть, класса отсутствия речи или невокализованного класса). Предпочтительно одно значение 802, используемое для указания категории класса, представляет собой все нули, и это значение указывает кадр категории класса отсутствия вокализации (то есть, класса отсутствия речи или невокализованного класса). Другие 127 значений 802 используются для указания значения основного тона кадра категории вокализованного класса (то есть, смешанно-вокализованного класса или полностью вокализованного класса).

Фиг. 8 также изображает, что один бит представляет квантование 804 класса. Это является существенным преимуществом настоящего изобретения. Таким образом, два возможных значения, или ключевые слова, используются, чтобы дополнительно представлять класс одного кадра звука. Два возможных значения используются для установления различий среди категории класса отсутствия вокализации (то есть, класса отсутствия речи или невокализованного класса) и среди кадра категории вокализованного класса (то есть, смешанно-вокализованного класса или полностью вокализованного класса). Предпочтительно нулевое значение 804 используется для указания класса отсутствия речи, если 802 представляет собой все нули, нулевое значение 804 используется для указания смешанно-вокализованного класса, если 802 не представляет собой все нули, значение одного из 804 используется для указания невокализованного класса, если 802 представляет собой все нули, и значение одного из 804 используется для указания полностью вокализованного класса, если 802 не представляет собой все нули (см. таблицу выше). Поэтому согласно фиг. 8 для представления значений квантования основного тона и класса для одного кадра звука используется общее количество восемь битов.

B. Вторая схема квантования

В предложениях о расширенных стандартах РРР период основного тона оценивается для каждого кадра и обновляется каждые 10 мс (или 100 раз в секунду). Оцениваемый период основного тона может принимать дробные значения и диапазоны от приблизительно 19 до приблизительно 140 выборок при частоте дискретизации 8 кГц. Поэтому оцениваемые частоты основного тона находятся в диапазоне от приблизительно 57 Гц до приблизительно 420 Гц. При выполнении процесса квантования основного тона желательно достигать точности, то есть низкой ошибки квантования, низкой скорости передачи в битах и устойчивости против ошибок канала.

В предпочтительном варианте осуществления настоящего изобретения все кадры с четными номерами (начиная с первого кадра, пронумерованного нулем) квантуются с использованием 7 битов, а все кадры с нечетными номерами квантуются с использованием 5 битов. При рассмотрении в виде пар кадров первый кадр в паре кадров квантуется с использованием 7 битов, а второй кадр в паре кадров квантуется с использованием 5 битов. Таким образом, среднее количество битов на кадр составляет шесть. Это соответствует скорости передачи в битах, равной 600 битов в секунду, обусловленной единственно квантованием основного тона.

Для кадров с четными номерами используется абсолютная схема квантования. Из этих доступных 128 ключевых слов одно ключевое слово (то есть, ключево