Способ и система для предоставления речевого интерфейса
Иллюстрации
Показать всеИзобретение относится к пользовательскому интерфейсу на основе речевых команд. Техническим результатом является обеспечение более быстрого доступа к информации и решению задач, а также эффективная обработка предпочтений пользователя и контекста. Классифицирующий речевой интерфейс пользовательского терминала может принять запрос, произвести его анализ для идентификации атрибута и обработать запрос для выбора первого зависящего от домена речевого интерфейса из множества зависящих от домена речевых интерфейсов на основе указанного атрибута, при этом каждый зависящий от домена речевой интерфейс содержит информацию для обработки запросов различных типов. Кроме того, классифицирующий речевой интерфейс может подавать команду первому зависящему от домена речевому интерфейсу обработать указанный запрос и выдавать в речевой форме ответ первого зависящего от домена речевого интерфейса на указанный запрос. 6 н. и 21 з.п. ф-лы, 8 ил.
Реферат
ОБЛАСТЬ ТЕХНИКИ
[0001] Примеры осуществления настоящего изобретения в целом относятся к речевым запросам. Более конкретно, варианты осуществления настоящего изобретения относятся к пользовательскому интерфейсу на основе речевых команд.
УРОВЕНЬ ТЕХНИКИ
[0002] В мобильные устройства, такие как мобильные телефоны, внедряют все более и более сложные функции. Современные мобильные устройства обеспечивают доступ к разнообразной информации через сетевые интерфейсы и дисплеи графического пользовательского интерфейса, но обычно для выбора необходимого приложения пользователь ограничивается использованием клавиатуры для навигации по иерархическому меню.
[0003] В дополнение к графическим пользовательским интерфейсам были разработаны активируемые голосом пользовательские интерфейсы. Диктовка коротких сообщений (SMS), диктовка электронной почты, приложения с набором телефонных номеров по имени, диалоговые ежедневники и приложения для воспроизведения музыки могут в интерактивном режиме направлять пользователя в процессе выполнения задачи. Обычные речевые диалоговые системы задают пользователю ряд фиксированных вопросов в заданном порядке для сужения области возможных ответов. Например, чтобы найти ресторан, система может предложить пользователю уточнить свои предпочтения относительно кухни, близости ресторана, диапазона цен и т.д. перед предоставлением каких-либо ответов. Такой тип взаимодействия не способен предоставить требуемую информацию пользователям, у которых нет четких предпочтений или которые могут пожелать изучить весь диапазон возможностей.
[0004] Также были разработаны стандартные алгоритмы, которые моделируют диалог в виде Марковского процесса принятия решений и оптимизируют модель посредством усиленного обучения. Однако эти алгоритмы основаны на сложных и дорогостоящих обучающих данных, полученных в результате большого количества взаимодействий человек-машина или моделирования таких диалогов.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
[0005] Далее представлено упрощенное изложение нескольких вариантов осуществления настоящего изобретения для обеспечения их основного понимания. Данное изложение сущности изобретения не представляет собой расширенного обзора и не предназначено для идентификации ключевых или критических элементов или для определения объема формулы изобретения. Нижеследующее изложение сущности изобретения представляет просто некоторые концепции и примеры осуществления настоящего изобретения в упрощенном виде и предваряет более подробное описание, приведенное далее.
[0006] Примеры вариантов осуществления настоящего изобретения относятся к устройству, способу и системе для предоставления классифицирующего речевого интерфейса. Более конкретно, способы, устройство и системы согласно примерам осуществления настоящего изобретения предусматривают прием запроса, анализ запроса для идентификации атрибута, обработку запроса для выбора первого зависящего от домена речевого интерфейса из множества зависящих от домена речевых интерфейсов на основе указанного атрибута, при этом каждый из зависящих от домена речевых интерфейсов содержит специфическую информацию для обработки запросов различных типов, и подачу команды первому зависящему от домена речевому интерфейсу обработать указанный запрос.
[0007] Дополнительные примеры вариантов осуществления настоящего изобретения относятся к устройству, способу и системам для предоставления зависящего от домена речевого интерфейса. Более конкретно, способы, устройство и системы согласно некоторым вариантам осуществления настоящего изобретения предусматривают прием атрибута, применение функции подсчета баллов для генерации оценки полезности для каждого из множества шаблонов ответов на запрос на основе указанного атрибута, выбор по меньшей мере одного из множества шаблонов ответов на запрос на основе указанных баллов полезности и вывод в звуковой форме ответа на запрос, сгенерированного по меньшей мере из одного шаблона ответов на запрос.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0008] Более полное понимание настоящего изобретения и обеспечиваемых им преимуществ можно получить из последующего описания со ссылками на сопроводительные чертежи, на которых одинаковыми позициями обозначены одинаковые элементы, при этом:
[0009] на фиг.1 показан пользовательский терминал согласно вариантам осуществления настоящего изобретения;
[0010] на фиг.2 показана архитектура ряда многоуровневых программных приложений согласно примерам осуществления настоящего изобретения;
[0011] на фиг.3 показана база знаний согласно примерам осуществления настоящего изобретения;
[0012] на фиг.4 показан домен согласно вариантам осуществления настоящего изобретения;
[0013] на фиг.5 показаны классифицирующий речевой интерфейс и зависящий от домена речевой интерфейс согласно вариантам осуществления настоящего изобретения;
[0014] на фиг.6 проиллюстрирован способ сбора и индексации метаданных для генерации базы знаний согласно вариантам осуществления настоящего изобретения;
[0015] на фиг.7 проиллюстрирован способ обработки пользовательского запроса, чтобы выбрать зависящий от домена речевой интерфейс для обработки запроса согласно вариантам осуществления настоящего изобретения;
[0016] на фиг.8 проиллюстрирован способ обработки запроса в идентифицированном зависящем от домена речевом интерфейсе согласно вариантам осуществления настоящего изобретения.
ПОДРОБНОЕ ОПИСАНИЕ
[0017] В последующем описании различных вариантов осуществления настоящего изобретения приводятся ссылки на сопроводительные чертежи, которые являются частью этого описания и на которых иллюстрируются различные варианты осуществления настоящего изобретения, которые могут быть реализованы на практике. Понятно, что могут быть использованы другие варианты осуществления настоящего изобретения и могут быть осуществлены структурные и функциональные модификации без выхода за пределы объема настоящего изобретения.
[0018] На фиг.1 показан пользовательский терминал 102 согласно примерам осуществления настоящего изобретения. Пользовательский терминал 102 может иметь звуковой речевой интерфейс для ответа на речевые команды от пользователя. Пользователь может вступить в диалог с речевым интерфейсом, чтобы заставить пользовательский терминал 102 выполнить задачу. Например, речевой интерфейс может принять запрос от пользователя, обработать этот запрос для идентификации одного или более соответствующих ответов, соответствующих этому запросу, и в звуковой форме представить динамический набор из одного или более ответов или выполнить действие. Таким образом, вместо того, чтобы в речевой форме представить фиксированный набор запросов в заданном порядке, речевой интерфейс может обработать запрос для идентификации динамических ответов на запрос для их звукового представления пользователю.
[0019] В примерах осуществления настоящего изобретения пользовательский терминал 102 может быть устройством мобильной связи, мобильным телефоном или мобильным компьютером, как показано, но он может также быть цифровым видеомагнитофоном (DVR, digital video recorder), телевизионной приставкой (STB, set-top box), компьютерным сервером, компьютером, жестким диском, устройством с Интернет-браузером, игровым устройством, аудио/видеопроигрывателем, цифровым фотоаппаратом/цифровой видеокамерой, телевизором, радиовещательным приемником, устройством позиционирования, проводным или беспроводным устройством связи и/или любой комбинацией перечисленных устройств. Пользовательский терминал 102 может быть автономным блоком, таким как на фиг.1, или может быть встроен в другое устройство. Например, пользовательский терминал 102 может быть встроен в автомобиль для предоставления речевого интерфейса для взаимодействия с пользователем, который управляет автомобилем. Пользовательский терминал 102 может быть встроен, например, в приборную панель автомобиля или может быть соединен с автомобилем с помощью проводного или беспроводного соединения.
[0020] В представленном на чертеже примере пользовательский терминал 102 может включать дисплей 104, процессор 106, приемопередатчик 108, пользовательский интерфейс 110, звуковой приемопередатчик 112, память 114 и базу 116 метаданных. Пользовательский интерфейс 110 может включать клавиатуру, сенсорный экран, речевой интерфейс, четыре клавиши управления курсором, джойстик, управляющую перчатку, мышь, шариковый манипулятор, сенсорный экран или другое подходящее устройство с возможностью приема входных данных от пользователя для управления пользовательским терминалом 102.
[0021] Приемопередатчик 108 может позволить пользовательскому терминалу 102 осуществлять связь по проводному или беспроводному каналу. Звуковой приемопередатчик 112 может содержать включать громкоговоритель для вывода звуковых сигналов пользователю и может содержать микрофон для приема звукового сигнала от пользователя.
[0022] Выполняемые компьютером инструкции и данные, используемые процессором 106, а также другие компоненты в пользовательском терминале 102 могут храниться в памяти 114 для выполнения любого из шагов способа и описанных ниже функций. Память 114 может быть реализована посредством любой комбинации модулей постоянной памяти или оперативной памяти, опционально включая как энергозависимую, так и энергонезависимую память. Также некоторые или все выполняемые компьютером инструкции для пользовательского терминала 102 могут быть реализованы в аппаратных средствах или встроенном программном обеспечении (не показано). Например, пользовательский терминал 102 может включать один или более модулей, которые содержат аппаратные средства, встроенное программное обеспечение, программы, выполняемые процессором 106, и/или любую их комбинацию.
[0023] В одном из вариантов осуществления настоящего изобретения процессор 106 может выполнять ряд многоуровневых программных приложений для предоставления речевого интерфейса в пользовательском терминале 102. Указанный набор многоуровневых приложений может включать приложение классифицирующего речевого интерфейса и одно или более зависящих от домена приложений речевого интерфейса. Для создания классифицирующего речевого интерфейса процессор 106 может выполнять приложение классифицирующего речевого интерфейса, а для предоставления соответствующих зависящих от домена речевых интерфейсов процессор может выполнять одно или более приложений зависящих от домена речевых интерфейсов. Набор многоуровневых приложений программного обеспечения может обрабатывать запрос, принятый звуковым приемопередатчиком 112 пользовательского терминала 102 так, как будет описано далее.
[0024] На фиг.2 проиллюстрирована архитектура многоуровневых приложений программного обеспечения в соответствии с примерами вариантов осуществления настоящего изобретения. Первоначально классифицирующий речевой интерфейс 202 может принять от пользователя входной речевой сигнал (например, запрос). Классифицирующий речевой интерфейс 202 может предоставлять речевой интерфейс высшего уровня, который используется для выбора одного из множества зависящих от домена речевых интерфейсов 204 для обработки запроса. Каждый из зависящих от домена речевых интерфейсов 204 может иметь специфические знания для выполнения детального анализа запросов конкретного типа и проведения внутридоменного диалога с пользователем, тогда как классифицирующий речевой интерфейс 202 может обеспечить менее детальный анализ и может ограничить обработку запроса определением, какой из зависящих от домена речевых интерфейсов 204 следует активировать для выполнения детального анализа запроса.
[0025] Для выбора зависящего от домена речевого интерфейса 204 классифицирующий речевой интерфейс 202 может провести анализ запроса для идентификации атрибутов запроса. Атрибуты могут быть ключевыми словами или группами ключевых слов, которые могут быть интерпретированы классифицирующим речевым интерфейсом 202 как команды. Классифицирующий речевой интерфейс 202 может также принять во внимание контекстную информацию, включенную в контекстный реестр 208, и веса 210 атрибутов, включенных в запрос, при назначении запроса конкретному зависящему от домена речевому интерфейсу 204. Контекстная информация может относиться к информации, обеспечивающей контекст запросу. Контекстная информация может включать текущее время и дату, предпочтения пользователя, местоположение или другую информацию, как будет описано далее. Веса 210 атрибутов могут представлять собой информацию, описывающую степень важности атрибута. Веса 210 атрибутов могут основываться на предпочтениях пользователя или другой информации, как будет описано ниже. В одном из вариантов осуществления настоящего изобретения классифицирующий речевой интерфейс 202 может взаимодействовать с базой 116 метаданных для получения контекстной информации и веса атрибута. Классифицирующий речевой интерфейс 202 может затем выбрать один из зависящих от домена речевых интерфейсов 204 для дальнейшей обработки запроса.
[0026] После того, как классифицирующий речевой интерфейс 202 выбран, он может передать команду 206 в выбранный зависящий от домена речевой интерфейс 204. Команда может включать идентификатор выбранного зависящего от домена речевого интерфейса 204, атрибут и запрос. В иллюстрируемом варианте осуществления настоящего изобретения классифицирующий речевой интерфейс 202 может передать команду 206 в зависящий от домена речевой интерфейс 204_1. На фиг.2 штриховые стрелки указывают, что классифицирующий речевой интерфейс 202 может также передать команды в зависящие от домена речевые интерфейсы 204_2-204_N, если они были выбраны.
[0027] Выбранный зависящий от домена речевой интерфейс 204 может принять и обработать указанную команду. Выбранный зависящий от домена речевой интерфейс 204, так же как и другие зависящие от домена речевые интерфейсы, может быть ассоциирован с соответствующим набором доменов. Набор доменов может представлять собой информацию специализированного словаря или синтаксис, который уникален для соответствующих зависящих от домена речевых интерфейсов 204. Соответствующие зависящие от домена речевые интерфейсы 204 могут использовать доменную информацию для обработки запроса пользователя. Домены могут быть ассоциированы с набором из одного или более шаблонов ответов на запрос. Шаблоны ответов на запрос могут быть ассоциированы с атрибутами, и зависящие от домена речевые интерфейсы 204 могут обработать атрибуты, принятые в команде 206, для выбора подходящего шаблона для ответа на этот запрос. Выбор шаблона ответов на запрос подробно описан далее.
[0028] Шаблоны ответов на запрос могут включать шаблон, предназначенный для такого ответа на запрос, который в речевой форме выдается пользователю в ответ на его запрос. Зависящий от домена речевой интерфейс 204 для ответа на запрос пользователя может заполнить шаблон ответов на запрос с генерацией ответа на запрос на основе информации и может подать команду пользовательскому терминалу 102 выдать ответ на запрос в речевой форме. Например, шаблон ответов на запрос может быть следующим: «У вас сегодня [Введите количество встреч]». Если пользователь спрашивает: «Сколько у меня сегодня встреч?», зависящий от домена речевой интерфейс 204 может заполнить шаблон ответов на запрос с генерацией ответа на запрос и подать команду пользовательскому терминалу 102 выдать ответ на запрос пользователя в речевой форме. Таким образом, классифицирующий речевой интерфейс 202 может первоначально обработать исходный запрос пользователя для получения из него атрибутов, идентифицировать подходящий зависящий от домена речевой интерфейс 204 на основе этих атрибутов и отправить запрос в подходящий зависящий от домена речевой интерфейс 204 для дальнейшей обработки.
[0029] Например, пользовательский терминал 102 может включать два зависящих от домена речевых интерфейса: зависящий от домена речевой интерфейс «календарь» и зависящий от домена речевой интерфейс «места». Классифицирующий речевой интерфейс 202 может обработать звуковой запрос, принятый от пользователя (например, «Какие встречи у меня сегодня») и может определить, что запрос заключается в том, чтобы узнать, какие встречи запланированы у пользователя. Классифицирующий речевой интерфейс 202 может обработать запрос и определить, что для проведения дальнейшего диалога с пользователем и обработки указанного запроса лучше всего подходит зависящий от домена речевой интерфейс «календарь». Затем классифицирующий речевой интерфейс 202 перенаправляет команду в зависящий от домена речевой интерфейс «календарь» для дальнейшей обработки этого запроса на основе имеющихся там специальных знаний. Затем зависящий от домена речевой интерфейс «календарь» генерирует ответ на запрос (например, «У вас сегодня две встречи»).
[0030] В еще одном примере классифицирующий речевой интерфейс 202 может направить запрос пользователя в зависящий от домена речевой интерфейс 204 «музыка». Исходный запрос пользователя может сопровождаться несколькими сменами направления диалога между пользователем и зависящим от домена речевым интерфейсом 204, включая фильтрацию и суммирование. Например, если пользователь запрашивает блюзовую музыку, зависящий от домена речевой интерфейс 204 может осуществить фильтрацию музыкальных произведений пользователя для поиска музыкальных дорожек в стиле блюз. Даже если пользователь не знаком с параметрами доменных данных, зависящий от домена речевой интерфейс 204 может суммировать эти признаки для пользователя в терминах небольшого количества признаков, выбранных или потому, что они являются наиболее полезными для отсеивания данных, или потому, что они указывают полезный или необычный признак данных. Например, зависящий от домена речевой интерфейс 204 может обработать и профильтровать музыкальные произведения пользователя и выдать в речевой форме: «В вашем списке недавно прослушанных произведений содержатся десять из этих блюзовых дорожек». Зависящий от домена речевой интерфейс 204 может также отвечать за осуществление действий внутри домена, например, проигрывание конкретных песен, создание нового списка произведений для воспроизведения и т.д., но не ограничиваясь указанными примерами. Дополнительные детали классификации запроса в классифицирующем речевом интерфейсе 202 и обработка запроса зависящим от домена речевым интерфейсом 204 рассмотрены далее.
[0031] Каждый из зависящих от домена речевых интерфейсов 204 может быть ассоциирован с набором из одного или более доменов. Домен может относиться к набору признаков (например, поднаборы люди, места и медиаресурсы в пользовательском терминале). Домены могут быть организованы как база знаний, имеющая иерархическую структуру.
[0032] На фиг.3 показана база знаний согласно вариантам осуществления настоящего изобретения. В этом варианте база 302 знаний может иметь иерархическую структуру с одним или более уровнями доменов. Например, первый уровень 304 может включать домен 308_1 «люди», домен 308_2 «места» и домен 308_3 «медиаресурсы». Каждый из доменов на первом уровне 304 может быть ассоциирован с различными зависящими от домена речевыми интерфейсами 204. Например, домен 308_1 «люди» может быть ассоциирован с зависящим от домена речевым интерфейсом 204 «люди», домен 308_2 «места» может быть ассоциирован с зависящим от домена речевым интерфейсом 204 «места», а домен 308_3 «медиаресурсы» может быть ассоциирован с зависящим от домена речевым интерфейсом 204 «медиаресурсы».
[0033] Первый уровень 304 может включать дополнительные подуровни доменов, такие как домены на втором уровне 306 иерархии в базе знаний. Например, домен 308_1 «люди» может включать домен 308_4 «контакты» и домен 308_5 «электронная почта» на втором уровне 306, а также домен «служба передачи коротких сообщений» (SMS, Short Message Service), домен «служба передачи мультимедиа-сообщений» (MMS, Multimedia Messaging Service), домен «календарь» (не показаны). Домен 308_2 «места» может включать домен 308_6 «позиционирования GPS» (глобальная система определения местоположения) и домен 308_7 «карты» на втором уровне 306, а также домен «карты», домен «места, представляющие интерес», домен «деловой справочник» и домен «навигация» (не показаны). Домен 308_3 «медиаресурсы» может включать домен 308_8 «изображения» и домен 308_9 «видео» на втором уровне 306, а также домен «музыка» и домен «подкасты» (не показаны).
[0034] Зависящий от домена речевой интерфейс 204 «люди» может обрабатывать запросы, соответствующие домену 308_1 «люди», домену 308_4 «контакты», домену 308_5 «электронная почта», а также любым другим доменам более низкого уровня (не показаны). Аналогично, зависящий от домена речевой интерфейс «места» может обрабатывать запросы, соответствующие домену 308_2 «места», домену 308_6 GPS, домену 308_7 «карты», а также любым другим доменам более низкого уровня (не показаны). Иерархия базы 302 знаний дана только для примера, и может использоваться иерархия, имеющая больше или меньше уровней, а также уровни, имеющие больше, меньше доменов или другие домены, чем показанные на фиг.3. Обработка зависящими от домена речевыми интерфейсами 204 подробно описана далее.
[0035] На фиг.4 показан домен 308 согласно вариантам осуществления настоящего изобретения. Домен 308 может включать один или более объектов 404. В показанном примере домен 308 может включать объекты 404_1-404_3. В общем случае объект 404 может быть экземпляром категории класса. Например, каждый объект в пределах домена «электронная почта» может представлять собой конкретное электронное письмо. Объекты 404 могут включать одну или более пар 406 атрибут-значение, одно или более внутридоменных действий 408 и шаблон 412 ответов на запрос, и опционально может включать одно или более междоменных действий 410. Примерами объектов 404 могут быть запись о контакте, запись в календаре, помеченное место на карте, снимок, сделанный пользователем, и т.д. Примером пар 406 атрибут-значение, описывающих объект 404, представляющий собой запись о контакте, может быть: «Имя: Джон, Фамилия: Смит», где «Имя» является атрибутом, а «Джон» является значением. Примером пар 406 атрибут-значение, описывающих объект 404, представляющий собой запись в календаре, может быть «Название: обзорное собрание», «Дата: 29 июня 2008 г.», «Время: 13:00-14:00 восточного поясного времени». Примеры действий в домене 408, описывающих объект 404, представляющий собой запись о контакте, могут включать: Действие 1) вызов контакта; Действие 2) передача сообщения SMS контакту; Действие 3) передача сообщения MMS контакту; Действие 4) прием сообщения SMS от контакта, Действие 4) прием сообщения MMS от контакта. Кроме того, могут быть определены другие действия в домене, связанные с данной записью. Примерами междоменных действий 410 могут быть: Действие 1) вход в контакт с доменом: навигация для попадания в домен «места»; Действие 2) домен «мультимедиа»: передача видеоклипа по электронной почте, для обращения к домену «люди»; Действие 3) показ географического положения места, где был сделан снимок, в домене «места». Кроме того, могут использоваться другие междоменные действия. Шаблоны 412 ответов на запрос могут включать шаблон для такого ответа на запрос, который в речевой форме представляют пользователю в ответ на запрос пользователя. Каждый классифицирующий речевой интерфейс 202 и зависящие от домена речевые интерфейсы 204 могут быть ассоциированы с конкретным словарем, который обеспечивает соответствующие знания для идентификации конкретного объекта 404 в домене 308.
[0036] На фиг.5 показан классифицирующий речевой интерфейс 202 и зависящий от домена речевой интерфейс 204, имеющие конкретный словарь согласно вариантам осуществления настоящего изобретения. Конкретный словарь может быть метаданными, доменными индексами и шаблонами ответов на запрос. Классифицирующий речевой интерфейс 202 может включать указатель 502_1 метаданных, указывающий на его метаданные в базе 116 метаданных, и указатель 504_1 доменных индексов, указывающий на его доменные индексы в памяти 114. Зависящий от домена речевой интерфейс 204 может включать указатель 502_2 метаданных, указывающий на его метаданные в базе 116 метаданных, и указатель 504_2 доменных индексов, указывающий на его доменные индексы в памяти 114. Кроме того, зависящий от домена речевой интерфейс 204 может включать один или более указателей 506 шаблонов ответов на запрос, указывающих на его шаблоны 412 ответов на запрос в памяти 114.
[0037] Например, зависящий от домена речевой интерфейс 204 «люди» может быть ассоциирован с метаданными, доменными индексами и шаблонами ответов на запрос для обработки запросов пользователя, соответствующих информации о людях, тогда как зависящий от домена речевой интерфейс 204 «места» может быть ассоциирован с метаданными, доменными индексами и шаблонами ответов на запрос для обработки запросов пользователя, которые соответствуют информации о местах. Метаданные могут относиться к атрибутам, описывающим объект. Например, метаданные для музыкальной дорожки могут включать название дорожки, название альбома, исполнителя, композитора и т.д. Доменные индексы могут быть атрибутами, которые относятся к специфическому домену. Для контактной информации доменными индексами могут быть имя и телефонный номер. Для электронной почты примеры доменных индексов включают имя, тему и временную метку. Вышеуказанные доменные индексы не представляют собой исчерпывающий список, и каждый доменный индекс не обязательно является уникальным для специфического домена. Шаблоны 412 ответов на запрос могут быть набором шаблонов для ответов на запрос, которые могут быть заполнены информацией для ответа на запрос пользователя, при этом пользовательский терминал 102 может выдать в речевой форме ответ на запрос на основе заполненного шаблона запроса.
[0038] Классифицирующий речевой интерфейс 202 и зависящие от домена речевые интерфейсы 204 могут быть выполнены с возможностью конфигурирования данных. Метаданные, доменные индексы и шаблоны ответов на запрос могут обновляться для расширения или исправления словарей и/или языковых моделей. Словарь может быть списком слов и их произношения в такой форме, в которой могут быть обработаны классифицирующим речевым интерфейсом 202 и зависящими от домена речевыми интерфейсами 204. Например, если в списке контактов появляется новая запись «Джон Смит», классифицирующий речевой интерфейс 202 словаря и зависящие от домена речевые интерфейсы 204 соответствующего зависящего от домена речевого интерфейса 204 могут быть расширены словами «Джон» и «Смит», если эти слова еще не были частью словаря. Языковая модель может описывать порядок, в котором слова следуют за друг другом в конкретном языке, и может обеспечить такое средство для классифицирующего речевого интерфейса 202 и зависящих от домена речевых интерфейсов 204, которое позволяет различать более вероятные и менее вероятные последовательности слов для улучшения точности распознавания слов. Например, за последовательностью слов «после того, как я съел свой», с большей вероятностью будут следовать слова «обед», «завтрак» или «сэндвич», в то время как слова «шляпа», «ноутбук» или «фондовая биржа» менее вероятны. Языковая модель может «захватывать» информацию о вероятности последовательности слов в рамках статистической модели, которая автоматически обучается на больших объемах текста. Кроме того, языковые модели могут быть приспособлены к стилю речи пользователя и типам предложений, которые зависящие от домена речевые интерфейсы 204 ожидают принять в данном домене.
[0039] Зависящий от домена речевой интерфейс 204 может строиться по меньшей мере полуавтоматически с использованием структурированного основанного на объектах представления в базе 302 знаний для выполнения внутридоменных действий 408 и междоменных действий 410, а также многократного использования шаблонов 412 ответов на запрос, как подробно описано далее. Соответствующие словари классифицирующего речевого интерфейса 202 и зависящих от домена речевых интерфейсов 204 могут быть собраны и индексированы для обеспечения базы 302 знаний, как рассмотрено ниже.
[0040] На фиг.6 проиллюстрирован способ сбора и индексации метаданных для генерации базы знаний согласно вариантам осуществления настоящего изобретения.
[0041] В блоке 602 пользовательский терминал 102 может хранить метаданные в базе 116 метаданных в поддерживаемых доменах 308 базы 302 знаний. База 116 метаданных может хранить метаданные от всех поддерживаемых доменов 402. Пользовательский терминал 102 может собирать, индексировать для поиска и хранить метаданные в базе 116 метаданных. Классифицирующий речевой интерфейс 202 и зависящий от домена речевой интерфейс 204 могут иметь доступ к базе 116 метаданных. Классифицирующий речевой интерфейс 202 и зависящий от домена речевой интерфейс 204 могут обращаться к базе 116 медиаданных для персонализации, обеспечивая согласованную звуковую презентацию, независимо от используемого речевого интерфейса. В пределах каждого домена релевантными могут быть различные метаданные. Пользовательский терминал 102 может обрабатывать предпочтения пользователя, либо заданные посредством явных действий со стороны пользователя, либо изученные в течение долгого времени, для суммирования этих данных в пределах предпочтительных для пользователя категорий. Например, один пользователь может предпочитать объединять музыку по альбомам, тогда как другой может покупать отдельные песни и объединять музыку по исполнителям.
[0042] В блоке 604 пользовательский терминал 102 может генерировать объекты для представления записей в доменах. Объект может быть задан одной или более парами 406 атрибут-значение, описывающими объект 308, одним или более внутридоменными действиями 408, заданными в домене 308, одним или более междоменными действиями 410, которые разрешены между доменами, и/или любой комбинацией перечисленного. Пользовательский терминал 102 может индексировать и хранить пары 406 атрибут-значение объектов 404 для каждого из доменов 308 в базе 116 метаданных.
[0043] В блоке 606 пользовательский терминал 102 может генерировать контекстный реестр. Контекстный реестр может содержать контекстную информацию для идентификации определенных текущих событий и пользовательские предпочтения для предоставления контекста к запросу пользователя. Контекстная информация может включать предпочтения пользователя, обнаруженные события, изменения в поведении пользователя при взаимодействии и/или любую комбинацию перечисленного. Контекстная информация в контекстном реестре может обновляться пользователем вручную (например, путем задания предпочтений), пользовательским терминалом 102 на основе автоматического обнаружения событий (например, прошло время начала встречи, высокая физическая активность, обнаруженная акселерометрами, предполагает, что пользователь находится в движении, и т.д.) или автоматически путем обнаружения изменений в поведении пользователя при взаимодействии (например, более длительные задержки при ответе, необходимость повторных исправлений ошибок во время диалога и т.д.).
[0044] Контекстный реестр 208 может использоваться для персонализации речевых интерфейсов для пользователя. Классифицирующий речевой интерфейс 202 и зависящий от домена речевой интерфейс 204 могут представлять пользователю диалог на основе техники суммирования. Можно использовать статистические методы для обнаружения, какие категории метаданных лучше всего подходят для группировки данных в логические поднаборы, которые могут помочь пользователю сосредоточиться на правильном наборе данных. Например, значение свойства, которое делит большую часть данных на небольшое количество кластеров, или значение свойства, которое является необычным, могут быть двумя методами, которые обеспечивают полезное суммирование. Например, «Большая часть вашей новой электронной почты пришла из вашего департамента и три письма помечены как срочные» В зависимости от предпочтений пользователя один и тот же зависящий от домена речевой интерфейс 204 может вести себя по-разному для различных пользователей.
[0045] В одном из вариантов осуществления настоящего изобретения классифицирующий речевой интерфейс 202 и зависящий от домена речевой интерфейс 204 могут получать контекстную информацию из основанного на объектах представления и могут хранить контекстную информацию в контекстном реестре 208. Контекстная информация может быть получена от различных датчиков и программных «демонов», которые постоянно контролируют состояние пользовательского терминала 102. Примеры контекстной информации могут включать позиционирование с помощью GPS, профиль (тишина, вне помещения, совещание) или активность пользователя (вождение автомобиля, ходьба). Хранение контекстной информации в контекстном реестре 208 позволяет различным зависящим от домена речевым интерфейсам 204 модифицировать звуковой выход, представляемый пользователю, на основе желательного для пользователя формата презентации или предпочтений по представлению данных. Например, если встреча назначена на данное время и система обнаруживает очень малое перемещение пользовательского терминала 102, включающего устройство для обнаружения перемещения, такое как встроенный акселерометр, но не ограничиваясь этим, зависящий от домена речевой интерфейс 204 может автоматически модифицировать предпочтение по представлению выходных данных и выдавать их в графическом виде, а не в речевом. Зависящий от домена речевой интерфейс 204 может генерировать выходной объект, который представляет информацию для пользователя. Форма вывода может быть определена алгоритмически путем изучения предпочтений пользователя и контекстной информации для определения предпочтительного представления из набора многомодальных опций. Затем последовательность операций на фиг.6 может завершиться.
[0046] Классифицирующий речевой интерфейс 202 может использовать одну или более пар 406 атрибут-значение, описывающих объект 404, одно или более внутридоменнных действий 408, заданных в том домене 308, к которому принадлежит объект 404, одно или более междоменных действий 410, которые разрешены между доменами для данного объекта 404, и контекстную информацию для классификации речевых запросов, принятых от пользователя.
[0047] На фиг.7 проиллюстрирован способ обработки запроса пользователя для выбора зависящего от домена речевого интерфейса 204, чтобы обработать запрос согласно вариантам осуществления настоящего изобретения.
[0048] В блоке 702 пользовательский терминал 102 может принять входной речевой сигнал от пользователя для активации классифицирующего речевого интерфейса 202. В одном из вариантов осуществления настоящего изобретения пользователь может назначить классифицирующему речевому интерфейсу 202 идентификатор (например, пользователь может назначить в качестве идентификатора «N95»). Для речевой активации классифицирующего речевого интерфейса 202 пользователь может произнести этот идентификатор. Идентификатор может быть словом или фразой, назначенной пользователем классифицирующему речевому интерфейсу 202. Если пользователь не назначил идентификатор классифицирующему речевому интерфейсу 202, классифицирующий речевой интерфейс 202 также может иметь идентификатор по умолчанию. Идентификатор позволяет пользователю запустить классифицирующий речевой интерфейс 202 одной фразой и не требует, чтобы классифицирующий речевой интерфейс 202 предлагал пользователю сделать запрос, но если это необходимо, классифицирующий речевой интерфейс 202 может предложить пользователю сделать запрос. Также классифицирующий речевой интерфейс 202 может быть активирован пользователем путем нажатия кнопки или путем другого ввода данных. Дополнительно классифицирующий речевой интерфейс 202 может непрерывно осуществлять управление и обработку звуковых данных, чтобы определить, был ли принят запрос от пользователя. Если голосом активируются только определенные приложения, предпочтительно, чтобы классифицирующий речевой интерфейс 202 мог также сообщить пользователю, что запрашиваемая характеристика активации голосом недоступна.
[0049] Классифицирующий речевой интерфейс 202 может активировать за