2355045 - Последовательный мультимодальный ввод

Последовательный мультимодальный ввод

Иллюстрации

Показать все

Изобретение относится к доступу и воспроизведению информации в компьютерной системе, более конкретно, к последовательному мультимодальному вводу для мобильных или сотовых телефонов. Сущность способа взаимодействия с архитектурой клиент/сервер, имеющей 2.5G мобильный телефон, имеющий канал данных для передачи данных и речевой канал для передачи речи, заключается в том, что он включает в себя прием Веб-страницы от Веб-сервера, соответствующего приложению, по каналу данных и воспроизведение Веб-страницы на 2.5G-телефоне, причем воспроизведение содержит обработку Веб-страницы в ответ на речевой ввод. Речь, принятая от пользователя, соответствует по меньшей мере одному полю данных на Веб-странице. Вызов устанавливают из 2.5G-телефона к серверу телефонной связи по речевому каналу. Сервер телефонной связи является удаленным от 2.5G-телефона и приспособлен для обработки речи. Веб-страницу с разрешением использования речи получают от Веб-сервера, соответствующую Веб-странице, выданной к 2.5G-телефону. Речь передают от 2.5G-телефона на сервер телефонной связи. Речь обрабатывают в соответствии с Веб-страницей с разрешенной речью для получения текстовых данных в соответствии с речью. Текстовые данные передаются на Веб-сервер. Новую Веб-страницу получают на 2.5G-телефоне по каналу данных и воспроизводят как имеющую текстовые данные. Технический результат - обеспечение речевого ввода для полей, связанных с Веб-страницей, для эффективного речевого взаимодействия, заданного ограниченными способностями 2.5G-телефона. 2 н. и 12 з.п. ф-лы, 10 ил.

Реферат

Предшествующий уровень техники

Изобретение относится к доступу и воспроизведению информации в компьютерной системе. Более конкретно, настоящее изобретение относится к последовательному мультимодальному вводу для мобильных или сотовых телефонов второго поколения («2,5G-телефонов»).

Малые вычислительные устройства, такие как персональные информационные администраторы (PIM) (электронные записные книжки), устройства и портативные телефоны все более часто используются людьми в их повседневной деятельности. С увеличением мощности обработки данных, доступной в настоящее время для микропроцессоров, используемых для работы этих устройств, функциональные возможности этих устройств увеличиваются и в некоторых случаях объединяются. Например, множество портативных телефонов, и, в частности, 2,5G-телефонов, теперь могут использоваться для выполнения обращения и просмотра Интернет, а также могут использоваться для хранения персональной информации, такой как адреса, телефонные номера и т.п.

Ввиду того, что эти вычислительные устройства используются для просмотра Интернет или используются в других архитектурах клиент/сервер, необходимо поэтому вводить информацию в само вычислительное устройство. К сожалению, из-за желания сохранить эти устройства по возможности настолько малыми, чтобы их было легко переносить, использовать обычные клавиатуры, имеющие все символы алфавита в виде отдельных клавиш, обычно невозможно из-за ограниченной площади поверхности, доступной на корпусах компьютерного устройства. Таким образом, для того чтобы осуществлять навигацию в архитектуре клиент/сервер, такой как Интернет, пользователю такого устройства приходится пользоваться ограниченной клавиатурой таким образом, чтобы обеспечить заполнение текстовой информацией требуемых полей для Веб-страницы или иначе обеспечить команды. Хотя 2,5G-телефон включает в себя дополнительные модальности для ввода данных, такую как использование сенсорного экрана, который дает возможность визуализировать малую алфавитно-цифровую клавиатуру и использовать перо для ввода данных, по сравнению с указанным ранее 2,5G-телефоном, в котором используется только 12 клавиш ограниченной вспомогательной клавиатуры, пользователь все еще должен вручную выбирать символы так, чтобы заполнить текстовые окна и т.п. на данной Веб-странице. Этот способ ввода до сих пор является довольно медленным и, таким образом, препятствует способности пользователя вводить или принимать информацию.

Недавно были усовершенствованы звуковые порталы, например посредством использования SALT (тэги языка приложений речи), VoiceXML (расширяемый язык разметки речевых приложений), чтобы иметь доступ к содержимому Интернет, используя при этом только телефон. В этой архитектуре сервер документов (например, Веб-сервер) обрабатывает запросы от клиента посредством интерпретатора SALT/VoiceXML. Веб-Сервер может в ответ создавать SALT/VoiceXML документы, которые обрабатываются интерпретатором SALT/VoiceXML и воспроизводятся слышимым образом пользователю. Используя звуковые команды с помощью распознавания речи, пользователь может осуществлять навигацию в сети. Этот способ навигации в Интернет также является ограниченным, в особенности тогда, когда информация, полученная от Веб-сервера, воспроизводится пользователю, так как она должна быть воспроизведена слышимым образом. К тому же без визуального подтверждения распознанных результатов пользователь не может быть уверен, что произошло надлежащее распознавание. Хотя могут быть выданы слышимые подтверждения распознанных результатов, такие подтверждения требуют времени и таким образом уменьшают действительный или эффективный опыт пользователя.

Таким образом, существует потребность в усовершенствовании архитектуры и способов, используемых для доступа к информации в архитектуре сервер/клиент, и в частности, доступа к информации сервера для такого устройства, как 2,5G-телефон.

Сущность изобретения

Предлагается способ взаимодействия с архитектурой клиент/сервер с 2,5G мобильным телефоном, имеющим канал данных для передачи данных и речевой канал для передачи речи. Способ включает в себя прием Веб-страницы от Веб-сервера в соответствии с приложением по каналу данных и воспроизведение Веб-страницы на 2,5G-телефоне, где воспроизведение содержит обработку Веб-страницы в ответ на речевой ввод. Речь (речевой сигнал) принимается от пользователя в соответствии с по меньшей мере одним полем данных на Веб-странице. Вызов устанавливается от 2,5G-телефона к серверу телефонной связи по речевому каналу. Сервер телефонной связи является удаленным от 2,5G-телефона и приспособлен для обработки речи. Веб-страницу с разрешением использования речи получают от Веб-сервера, соответствующую Веб-странице, выданной в 2,5G-телефон. Речевой сигнал передается от 2,5G-телефона на сервер телефонной связи. Речевой сигнал обрабатывается в соответствии с Веб-страницей с разрешением использования речи для получения текстовых данных в соответствии с речевым сигналом. Текстовые данные передаются на Веб-сервер. Новая Веб-страница принимается на 2,5G-телефон по каналу данных и воспроизводится, имея текстовые данные.

При рассмотрении операций 2,5G-телефона в качестве другого аспекта настоящего изобретения способ включает в себя прием Веб-страницы от Веб-сервера в соответствии с приложением, с использованием канала данных, и воспроизведение Веб-страницы на 2,5G-телефоне, причем воспроизведение содержит обработку Веб-страницы в ответ на речевой ввод. Речь (речевой сигнал) принимается от пользователя в соответствии с по меньшей мере одним полем данных на Веб-странице. Вызов устанавливается от 2,5G-телефона к серверу телефонной связи по речевому каналу, причем сервер телефонной связи является удаленным от 2,5G-телефона и приспособленным для обработки речи. Речевой сигнал передается от 2,5G-телефона на сервер телефонной связи. Новая Веб-страница получается на 2,5G-телефоне по каналу данных и воспроизводится, имея текстовые данные в соответствии с речью.

Краткое описание чертежей

Фиг. 1 - общий вид рабочей среды вычислительного устройства.

Фиг. 2 - блок-схема вычислительного устройства согласно фиг. 1.

Фиг. 3 - общий вид 2,5G-портативного телефона.

Фиг. 4 - блок-схема компьютера общего назначения.

Фиг. 5 - блок-схема архитектуры для системы клиент/сервер.

Фиг. 6 - блок-схема, иллюстрирующая соединения, сделанные к компонентам архитектуры по фиг.5, чтобы обеспечить последовательное мультимодальное взаимодействие.

Фиг. 7A и 7B вместе представляют собой блок-схему последовательности операций, иллюстрирующей примерный способ обеспечения последовательного мультимодального взаимодействия.

Фиг. 8 - схематическое представление примерных текстовых окон, воспроизводимых на 2,5G-телефоне.

Фиг. 9 - схематическое представление примерных текстовых окон с результатами распознавания, воспроизводимыми на 2,5G-телефоне.

Подробное описание примеров осуществления

Одним из аспектов настоящего изобретения является способ обеспечения мультимодального ввода с распознаванием речи, осуществленным для второго поколения («2,5G») телефонов (2,5G-телефонов). Используемый здесь и являющийся общеизвестным 2,5G-телефон способен осуществить речевые вызовы по речевому каналу, но кроме этого включает в себя схемы, способные посылать и принимать цифровые данные по отдельному каналу данных. 2,5G-телефон вообще включает в себя чувствительный к нажатию дисплей, который может использоваться вместе с пером, чтобы обеспечить способность указывать на графические объекты на дисплее или взаимодействовать с программной клавиатурой, воспроизводимой на экране, или взаимодействовать с областью распознавания почерка. Используя эти устройства, пользователь способен осуществлять навигацию по Веб-сайту в архитектуре клиент/сервер и получать информацию, посылая и принимая текстовые данные. Данные воспроизводятся на маленьком дисплее. Один аспект настоящего изобретения позволяет пользователю обеспечивать речь (речевой сигнал) как форму ввода в телефон для выбранных полей, таким образом обходя то, что может представлять собой тяжелую задачу ввода эквивалентного текста.

Со ссылками на фиг. 5, архитектура 200 иллюстрируется для распознавания речи на основе Веб, как она может использоваться в настоящем изобретении. Обычно к информации, сохраненной на Веб-сервере 202, можно осуществлять доступ посредством мобильного устройства 30 (которое здесь также представляет другие формы вычислительных устройств, имеющих экраны дисплея, а также микрофон, чтобы обнаружить слышимые сигналы), или посредством простого телефона 80, причем информация запрашивается в слышимом виде или посредством тональных сигналов, сгенерированных телефоном 80 в ответ на нажатие клавиш, и при этом информация от Веб-сервера 202 обеспечивается только слышимым образом пользователю, или посредством 2,5G-телефона 81, причем информация может также быть доступна от Веб-сервера 202 и распознаваться в качестве страниц, например, страниц WML (язык разметки для беспроводных систем) или XHTML, передаваемых посредством WAP (протокол распространения информации в Интернет). Архитектура 200, используемая в настоящем изобретении, позволяет использовать 2,5G-телефон 81 в распознавании речи, чтобы улучшить его применимость, в то же время дополнительно извлекая преимущества возможностей 2,5G-телефона визуального воспроизведения, чтобы воспроизвести полученные результаты.

Более важно то, что архитектура 200 является унифицированной в том, получается ли информация через устройство 30, простой телефон 80 или 2,5G-телефон 81, с использованием распознавания речи, при этом одиночный речевой сервер 204 может поддерживать каждый режим работы. Кроме того, архитектура 200 предусматривает использование расширений хорошо известных языков разметки (например, HTML, XHTML, cHTML, XML, WML и т.п.). Таким образом, к информации, сохраненной на Веб-сервере 202, можно также обращаться, используя известные способы GUI (графического пользовательского интерфейса), имеющиеся в этих языках разметки. Используя расширение известных языков, система для творческой деятельности на Веб-сервере 202 является более легкой, и унаследованные приложения, существующие в настоящее время, могут быть также легко изменены, чтобы включить в себя распознавание речи.

Перед дальнейшим описанием архитектуры 200 основанного на Веб-сети распознавания речи и, в частности, способа осуществления основанного на Веб-сети распознавания речи для 2,5G-телефона 81, может быть полезно описать другие вычислительные устройства, которые могут функционировать в архитектуре 200.

Со ссылками на фиг. 1, примерная форма устройства управления данными (PIM, PDA или подобный) обозначена как 30. Мобильное устройство 30 включает в себя корпус 32 и имеет интерфейс пользователя, включающий в себя дисплей 34, который использует чувствительный к контакту экран дисплея с пером 33. Перо 33 используется для нажатия или контактирования с дисплеем 34 в обозначенных координатах для выбора поля, выборочного перемещения начальной позиции курсора, или обеспечения команды иным образом. Альтернативно или в дополнение, одна или более кнопок 35 могут быть включены в устройство 30 для осуществления навигации. Кроме того, можно также использовать другие механизмы ввода, например, вращательные колесики, ролики и т.п.

Со ссылками на фиг. 2, блок-схема иллюстрирует функциональные компоненты, содержащиеся в мобильном устройстве 30. Центральный процессор (ЦП) 50 реализует программные функции управления. ЦП 50 соединен с дисплеем 34 так, чтобы текстовые и графические значки (иконки), сформированные в соответствии с управляющим программным обеспечением, появлялись на дисплее 34. Динамик 43 может быть соединен с ЦП 50 обычно с помощью цифроаналогового преобразователя 59, чтобы обеспечить слышимые выходные сигналы. Данные, которые загружаются или вводятся пользователем в мобильное устройство 30, сохраняются в энергонезависимом запоминающем устройстве 54 чтения/записи с произвольным доступом, двунаправленно соединенным с ЦП 50. Запоминающее устройство с произвольным доступом (ОЗУ) 54 обеспечивает энергонезависимую память для команд, которые выполняет ЦП 50, и хранилище для временных данных, таких как регистровые данные. Значения «по умолчанию» для опций конфигурации и другие переменные сохраняются в постоянном запоминающем устройстве (ROM) 58. ROM 58 может также использоваться для хранения программного обеспечения операционной системы для устройства, которое управляет основными функциями мобильного устройства 30 и другими функциями ядра операционной системы (например, загрузка программных компонентов в ОЗУ 54). ОЗУ 54 также служит в качестве хранилища для кода способом, аналогичным функциям жесткого диска на персональном компьютере, который используется для сохранения прикладных программ.

Радиосигналы могут передаваться/приниматься мобильным устройством через беспроводной приемопередатчик 52, который соединен с ЦП 50. Необязательный коммуникационный интерфейс 60 может также быть предусмотрен для загрузки данных непосредственно от компьютера (например, настольного компьютера), или из проводной сети, при необходимости. Соответственно, интерфейс 60 может принимать различные формы устройств связи, например, инфракрасную линию связи, модем, сетевую плату или другие подобные устройства.

Мобильное устройство 30 включает в себя микрофон 29 и аналого-цифровой (A/D) преобразователь 37, и необязательную программу распознавания речи, хранимую в памяти 54. В ответ на слышимую информацию, инструкции или команды от пользователя устройства 30 микрофон 29 обеспечивает речевые сигналы, которые оцифровываются аналого-цифровым преобразователем 37. Программа распознавания речи может выполнять нормализацию и/или функции извлечения признаков над оцифрованными речевыми сигналами, чтобы получить промежуточные результаты распознавания речи. Используя беспроводной приемопередатчик 52 или интерфейс 60 связи, речевые данные передаются на удаленный речевой сервер 204, описанный ниже и показанный в архитектуре на фиг. 5. Результаты распознавания возвращаются на мобильное устройство 30 для воспроизведения (например, визуальным и/или слышимым образом) на нем, и возможна передача на Веб-сервер 202 (фиг. 5), причем Веб-сервер 202 и мобильное устройство 30 работают в отношении клиент/сервер.

Фиг. 3 представляет пример варианта осуществления 2,5G-телефона 81. Телефон 81 включает в себя дисплей 82 и вспомогательную клавиатуру, обычно в форме программной клавиатуры 84, визуализируемой на дисплее. Обычно телефон 81 включает в себя схему для выполнения речевых вызовов по речевому каналу, обозначенную как 87, а также для посылки и приема цифровых данных по каналу данных, обозначенную как 85. 2,5G-телефоны этого типа доступны, например, от множества производителей и работают согласно хорошо определенным стандартам и протоколам.

Специфические подробности, относящиеся к работе схемы, не необходимы для понимания настоящего изобретения. Однако, в общем, 2,5G-телефон имеет многие из функциональных блоков, изображенных на фиг. 2, которые работают одинаковым образом. 2,5G-телефон обычно обеспечивает распознавание речи и, таким образом, не включает в себя программу распознавания речи и связанные аппаратные средства для выполнения распознания речи. Беспроводный приемопередатчик предусмотрен для того, чтобы принимать речевые сигналы по речевому каналу 87, в то время как интерфейс связи предусмотрен для того, чтобы посылать и принимать данные по каналу данных 85.

В дополнение к портативным или мобильным вычислительным устройствам, описанным выше, должно также быть понятно, что настоящее изобретение может использоваться совместно с многочисленными вычислительными устройствами, например с обычным персональным компьютером. Например, архитектура 200 позволяет пользователю с ограниченными физическими способностями вводить или записывать текст в компьютер или другое вычислительное устройство, в то время как другие обычные устройства ввода данных, например, полная алфавитно-цифровая клавиатура, слишком трудны для работы.

Ниже представлено краткое описание универсального компьютера 120, изображенного на фиг. 4. Однако компьютер 120 является только одним из примеров подходящей вычислительной среды и не предназначен для задания какого-либо ограничения в использовании возможностей относительно объема или функциональных возможностей изобретения. Компьютер 120 не должен интерпретироваться как имеющий какую-либо зависимость или требование, касающиеся одного или комбинации иллюстрируемых компонентов. Кроме того, персональный компьютер 120 может обеспечивать подходящие рабочие окружения для других компонентов архитектуры 200, например, но не ограничиваясь ими, Веб-сервер 202 и речевой сервер 204 и средство 212 просмотра речевой телефонии (браузер).

Изобретение может быть описано в общем контексте выполняемых компьютером команд, таких как программные модули, выполняемые компьютером. Обычно программные модули включают в себя подпрограммы, программы, объекты, компоненты, структуры данных и т.д., которые исполняют конкретные задачи или реализуют специфические абстрактные типы данных. Изобретение может также применяться в распределенных вычислительных средах, где задачи выполняются удаленными устройствами обработки, которые связаны через сеть связи. В распределенной вычислительной среде программные модули могут быть расположены как в локальных, так и удаленных компьютерных средствах хранения, включая устройства хранения (память). Задачи, выполняемые в соответствии с программами и модулями, описываются ниже со ссылками на чертежи. Специалисты в этой области техники могут интерпретировать описание и чертежи как выполняемые процессором команды, которые могут быть написаны в любой форме считываемой компьютером среды.

В соответствии с фиг. 4, компоненты компьютера 120 могут включать в себя, но не ограничиваются ими, блок 140 обработки, системную память 150 и системную шину 141, которая подсоединяет различные элементы системы, включая системную память, к блоку 140 обработки. Системная шина 141 может быть любой из нескольких типов шинных структур, включая в себя шину памяти или контроллер памяти, шину периферийных устройств и локальную шину, используя любую из множества шинных архитектур. В качестве примера, но не ограничиваясь ими, такие архитектуры включают в себя шину, соответствующую архитектуре промышленного стандарта (ISA), универсальную последовательную шину (USB), шину микроканальной архитектуры (MCA), усовершенствованную шину ISA (EISA), локальную шину Ассоциации по стандартам в области видеоэлектроники (VESA) и шину соединения периферийных компонентов (PCI), так же известную как шина Mezannine. Компьютер 120 обычно включает в себя множество считываемых компьютером носителей. Считываемые компьютером носители могут быть любыми доступными носителями, к которым может обращаться компьютер 120, и включают в себя и энергозависимую и энергонезависимую среды, съемные и несъемные носители. В качестве примера, но не ограничиваясь ими, считываемые компьютером носители могут включать в себя компьютерные средства хранения и среду связи. Компьютерные средства хранения включают в себя и энергозависимые и энергонезависимые, съемные и несъемные средства, реализованные любым способом или по любой технологии, для хранения информации, например, считываемых компьютером команд, структур данных, программных модулей или других данных. Компьютерные средства хранения включают в себя, но не ограничиваются ими, оперативную память (RAM), постоянное запоминающее устройство (ROM), электрически перепрограммируемую постоянную память (EEPROM), флэш-память или другую технологию памяти, CD-ROM (постоянное запоминающее устройство на компакт-диске), цифровые универсальные диски (DVD) или другую память на оптических дисках, магнитные кассеты, магнитную ленту, память на магнитном диске или другие магнитные устройства хранения, или любую другую среду, которая может использоваться для хранения требуемой информации и к которой может обращаться компьютер 120.

Среда связи обычно воплощает считываемые компьютером команды, структуры данных, программные модули или другие данные в модулируемом сигнале данных, например, сигнале несущей или другом транспортном механизме, и включает в себя любые средства доставки информации. Термин «модулированный сигнал данных» означает сигнал, который имеет один или более одного из его набора параметров, установленных или измененных таким образом, чтобы кодировать информацию в сигнале. В качестве примера, но не ограничиваясь ими, среда связи включает в себя проводные средства, такие как проводная сеть или непосредственное проводное подключение, и беспроводную среду, такую как акустическая, РЧ, инфракрасного излучения и другую беспроводную среду. Комбинации любых вышеупомянутых сред также могут быть включены в понятие считываемой компьютером среды.

Системная память 150 включает в себя компьютерную среду хранения в форме энергозависимой и/или энергонезависимой памяти, например, в виде запоминающего устройства только для чтения (ROM) 151 и запоминающего устройства 152 с произвольным доступом (ОЗУ). Базовая система ввода-вывода 153 (БСВВ, BIOS), содержащая основные подпрограммы, которые помогают передавать информацию между элементами в компьютере 120, например, во время запуска, сохраняется в ROM 151. ОЗУ 152 также содержит данные и/или программные модули, которые являются непосредственно доступными для работы или обрабатываемыми в настоящее время блоком 140 обработки. В качестве примера, но не ограничиваясь ими, фиг. 4 иллюстрирует операционную систему 54, прикладные программы 155, другие программные модули 156 и данные программы 157.

Компьютер 120 может также включать в себя другие съемные/несъемные энергозависимые/энергонезависимые компьютерные средства хранения. Только в качестве примера фиг. 4 иллюстрирует привод 161 жесткого диска, который осуществляет считывание или запись на несъемную энергонезависимую магнитную среду, привод 171 магнитного диска, который осуществляет считывание или запись на съемный энергонезависимый магнитный диск 172, и привод 175 оптических дисков, который осуществляет считывание или запись на съемный энергонезависимый оптический диск 176, такой как CD-ROM или другую оптическую среду. Другие съемные/несъемные, энергозависимые/энергонезависимые компьютерные средства хранения, которые могут использоваться в примерной среде, включают в себя, но не ограничиваются ими, кассеты магнитной ленты, карты с флэш-памятью, цифровые универсальные диски, ленту цифровой видео записи, твердотельное ОЗУ, твердотельное ПЗУ и т.п. Привод 161 жесткого диска обычно соединяется с системной шиной 141 через интерфейс несъемной памяти, например, интерфейс 160, а привод 171 магнитных дисков и привод 175 оптических дисков обычно соединяется с системной шиной 141 интерфейсом съемной памяти, таким как интерфейс 170.

Приводы и связанные с ними компьютерные средства хранения, описанные выше и изображенные на фиг. 4, обеспечивают хранение считываемых компьютером команд, структур данных, программных модулей и других данных для компьютера 120. На фиг. 4, например, привод 161 жесткого диска показан как хранящий операционную систему 164, прикладные программы 165, другие программные модули 166 и данные программы 167. Следует заметить, что эти компоненты могут быть такими же или отличными от операционной системы 154, прикладных программ 155, других программных модулей 156 и программных данных 157. Операционной системе 164, прикладным программам 165, другим программным модулям 166 и программным данным 167 присвоены различные номера так, чтобы указать, что, как минимум, они являются различными копиями.

Пользователь может вводить команды и информацию в компьютер 120 посредством устройств ввода данных, например, клавиатуры 182, микрофона 183 и устройства 181 управления позицией, например, мыши, трекбола или сенсорной панели. Другие устройства ввода данных (не показаны) могут включать в себя джойстик, игровую клавиатуру, спутниковую антенну, сканер и т.п. Эти и другие устройства ввода данных часто соединяются с блоком 140 обработки через интерфейс 180 пользовательского ввода, который подсоединен к системной шине, но могут быть подсоединены и другим интерфейсом и шинными структурами, например, через параллельный порт, игровой порт или универсальную последовательную шину (USB). Монитор 184 или другой тип устройства отображения также связан с системной шиной 141 через интерфейс, например, видео интерфейс 185. В дополнение к монитору компьютеры могут также включать в себя другие периферийные устройства вывода, такие как динамики 187 и принтеры 186, которые могут быть связаны через интерфейс 188 периферийных устройств вывода.

Компьютер 120 может работать в сетевой среде, используя логические соединения с одним или более удаленными компьютерами, такими как удаленный компьютер 194. Удаленный компьютер 194 может быть персональным компьютером, карманным устройством, сервером, маршрутизатором, сетевым персональным компьютером, одноранговым устройством или другим обычным сетевым узлом и обычно включает в себя многие или все элементы, описанные выше применительно к компьютеру 120. Логические соединения, изображенные на фиг. 4, включают в себя локальную сеть (ЛС, LAN) 191 и глобальную сеть связи (ГС, WAN) 193, но могут также включать в себя другие сети. Такие сетевые среды являются обычными в офисах, компьютерных сетях предприятия, интрасетях и Интернет.

При использовании в сетевой среде ЛС компьютер 120 связан с ЛС 191 через сетевой интерфейс или адаптер 190. При использовании в сетевой среде ГС компьютер 120 также включает в себя модем 192 или другие средства для установления связи по ГС 193, например, Интернет. Модем 192, который может быть встроенным или выносным, может быть связан с системной шиной 141 через интерфейс 180 пользовательского ввода или другой соответствующий механизм. В сетевой среде программные модули, изображенные применительно к компьютеру 120 или его частям, могут быть сохранены в удаленном устройстве хранения. В качестве примера, но не ограничиваясь им, фиг. 4 иллюстрирует удаленные прикладные программы 195 как постоянно находящиеся на удаленном компьютере 194. Следует заметить, что показанные сетевые подключения являются примерными, и могут использоваться другие средства установления линии связи между компьютерами.

Фиг. 5 иллюстрирует архитектуру 200 для распознавания речи, основанную на Веб-сети, которую может использоваться в настоящем изобретении. Как упомянуто выше, к информации, сохраненной на Веб-сервере 202, можно обращаться посредством мобильного устройства 30, простого телефона 80 или 2,5G-телефона 81. Используемые архитектура 200 и язык разметки дополнительно описаны в опубликованной заявке на патент США 2002-0169806 A1 (14 ноября, 2002), которая включена в настоящее описание во всей ее полноте.

Начиная рассмотрение с устройства 30, обычно устройство 30 выполняет сценарии (скрипты) HTML+ или им подобные, предоставляемые Веб-сервером 202. Когда требуется распознавание речи, речевые данные, которые могут быть представлены в виде оцифрованных аудио сигналов или особенностей речи, при этом аудио сигналы являются предварительно обработанными устройством 30, как описано выше, подаются на речевой сервер 204 с указанием грамматической или языковой модели для использования во время распознавания речи. Реализация речевого сервера 204 может принимать множество форм, одна из которых иллюстрируется, но обычно она включает в себя блок 211 распознавания речи. Результаты распознавания речи передаются назад на устройство 30 для локального воспроизведения при необходимости или в случае, если это является приемлемым. После объединения информации посредством распознавания речи и любого графического интерфейса пользователя, если он используется, устройство 30 посылает информацию на Веб-сервер 202 для дальнейшей обработки и приема дальнейших сценариев HTML, в случае необходимости.

Как изображено на фиг. 5, устройство 30, 2,5G-телефон 81, Веб-сервер 202, средство 212 просмотра речевой телефонии и речевые серверы 204 обычно соединяются и являются отдельно адресуемыми посредством сети 205, в данном случае - это глобальная сеть, например, Интернет. Поэтому нет необходимости в том, чтобы любые из этих устройств были физически расположены в непосредственной близости друг к другу. В частности, не обязательно, чтобы Веб-сервер 202 включал в себя речевой сервер 204. Таким образом, средства авторской разработки в Веб-сервере 202 могут быть сосредоточены (сфокусированы) на приложении, для которого они предназначаются, без необходимости знания авторами о сложности речевого сервера 204. Вместо этого речевой сервер 204 может быть независимо разработан и соединен с сетью 205 и таким образом может быть модифицирован и усовершенствован без дополнительных изменений, требуемых на Веб-сервере 202. Кроме того, речевой сервер 204 может обслуживать множество клиентских устройств 30, телефонов 80 и 81 и/или Веб-серверов 202.

В другом варианте осуществления Веб-сервер 202, речевой сервер 204 и клиент 30 могут быть объединены в зависимости от возможностей реализующих их машин. Например, если клиент содержит универсальный компьютер, например персональный компьютер, клиент может включать в себя речевой сервер 204. Аналогично, если необходимо, Веб-сервер 202 и речевой сервер 204 могут быть включены в единую машину.

Применительно к клиентскому устройству 30, способ для обработки распознавания речи в системе клиент/сервер включает в себя этапы: прием от сервера 202 страницы на языке разметки, имеющую расширения, сконфигурированные так, чтобы получать речевые данные от пользователя клиентского устройства; выполнение страницы на языке разметки на клиентском устройстве; передачу речевых данных (указывающие речь, полученную от пользователя) и связанную грамматику на речевой сервер, удаленный от клиента; и прием на клиенте результата распознавания от речевого сервера. Может быть обеспечена считываемая компьютером среда, имеющая язык разметки для выполнения команд на клиентском устройстве в системе клиент/сервер, причем язык разметки имеет команду, указывающую грамматику для связывания с речью, введенной через клиентское устройство.

Доступ к Веб-серверу 202 через телефон 80 включает в себя подсоединение телефона 80 к проводной или беспроводной телефонной сети 208, которая, в свою очередь, подсоединяет телефон 80 к шлюзу 210 третьей стороны. Шлюз 210 соединяет телефон 80 со средством 212 просмотра речевой телефонии. Средство 212 просмотра речевой телефонии включает в себя сервер 214 мультимедийной информации, который обеспечивает интерфейс телефонной связи, и речевой браузер 216. Подобно устройству 30, средство 212 просмотра речевой телефонии принимает HTML-сценарии или им подобные от Веб-сервера 202. Более важно однако то, что HTML-сценарии имеют форму, подобную HTML-сценарию, подаваемому на устройство 30. Таким образом, Веб-сервер 202 не имеет необходимости в поддержке устройства 30 и телефона 80 по отдельности или даже в поддержке стандартного GUI (графического пользовательского интерфейса) отдельных клиентов. Вместо этого может использоваться общий язык разметки. Кроме того, подобно устройству 30, распознавание речи из слышимых сигналов, переданных телефоном 80, обеспечивается от речевого браузера 216 на речевой сервер 204 или через сеть 205 или через выделенную линию 207 связи, например, используя TCP/IP. Результаты распознавания и другая информация воспроизводится для пользователя с помощью средства 212 просмотра речевой телефонии и телефона 80.

Как указано выше, языки разметки, например, HTML, XHTML cHTML, XML, WML или с любой другой производной от SGML (стандартного обобщенного языка разметки документа) разметкой могут включать в себя средства управления и/или объекты, которые обеспечивают распознавание речи в архитектуре клиент/сервер. Таким образом, используя такую архитектуру, авторы могут использовать все инструментальные средства и профессиональные знания об этих языках разметки, которые являются преобладающей платформой развития Веб-сети.

Обычно средства управления и/или объекты могут включать в себя одно или более следующих функциональных средств: средство управления блоком распознавания и/или объекты для конфигурации блока распознавания, средство выполнения распознавания и/или пост-обработки; средство управления синтезатором и/или объекты для конфигурации синтезатора и запрос воспроизведения; средства управления грамматикой и/или объекты для задания ресурсов входной грамматики; и/или средство управления связыванием и/или объекты для обработки результатов распознавания. Эти расширения предназначены для того, чтобы обеспечить легкий уровень разметки, который добавляет возможности речевого интерфейса к существующим языкам разметки. Как таковые, расширения могут оставаться независимыми от: страницы высокого уровня, в которой они содержатся, например, HTML; форматов низкого уровня, которые расширения используют для обращения к лингвистическим ресурсам, например, форматов «текст-в-речь» и форматов грамматики; и индивидуальные свойства распознавания и платформ синтеза речи, используемых в речевом сервере 204.

Следует отметить, что настоящее изобретение может быть реализовано с использованием расширения языка разметки, например, тэгов языка приложений речи (SALT). SALT является развивающимся стандартом для предоставления доступа к информации, приложениям и услугам сети, например, от персональных компьютеров, телефонов, планшетных персональных компьютеров и беспроводных мобильных устройств. SALT расширяет существующие языки разметки, такие как HTML, XHTML и XML. Технические требования к SALT 1,0 могут быть найдены интерактивно по адресу http://www.SALTforum.org.

Мультимодальное взаимодействие обеспечивается посредством 2,5G-телефона 81 с архитектурой 200, описанной выше. В целом, мультимодальное взаимодействие предоставляет доступ к информации от Веб-сервера 202 естественным способом, основанным на желаниях пользователя. В частности, вместо существующего ограничения выдачи команд в текстовом формате посредством манипуляций пером и приема результатов в качестве визуально отображенного текста пользователь при желании может выбрать обеспечивать речь в виде носителя входного сигнала и принимать результаты визуально или в виде синтезированной речи. Однако, для устройств, таких как 2,5G-телефон 81, с ограниченной мощностью обработки и дополнительными такими хорошо известными требованиями, заключающимися в том, что, хотя канал данных для подсоединения к сети, например, Интернет, является доступным, и отдельный речевой канал для выполнения вызовов также доступен, к этим каналам нельзя обращаться одновременно. В результате, мультимодальные взаимодействия, которые требуют каналов данных и речи, должны быть выполнены последовательно, что соответствует известному термину «последовательная мультимодальность». Тем не менее, может использоваться архитектура 200, описанная выше, и способ, описанный ниже, чтобы обеспечить последовательное мультимодальное взаимодействие с Веб-сервером 202. Интеграция 2,5G-телефона 81 в архитектуру особенно выгодна, потому что доступ к Веб-серверу 202 согласуется с другими устройствами, например, устройством 30 или телефоном 80 так, что Веб-сервер 202 и приложения, выполняющиеся на нем, не должны быть значительно изменены для того, чтобы поддерживать 2,5G-телефон 81 в дополнение к устройству 30 и телефону 80. Таким образом, разработчик прикладной программы не обременен обеспечением отдельных приложений для того, чтобы поддерживать каждое из устройств, которые могут осуществлять доступ к информации, а вместо этого может использовать более унифицированный код, который может поддерживать много различных устройств с изменяющимися особенностями.

Фиг. 6 иллюстрирует последовательный мультимодальный сценарий, применимый к 2,5G-телефону 81, где результаты распознавания речи представлены в текстовой форме, используя HTML- или эквивалентные страницы.

Фиг. 7A и 7B иллюстрируют примерные этапы способа 300 для выполнения последовательного мультимодального распозн

Последовательный мультимодальный ввод

Патент 2355045