Способ мультимедийного вывода
Иллюстрации
Показать всеИзобретение относится к мультимедийным инфокоммуникационным системам. Техническим результатом является повышение целостности выводимой информации. В способе принимают через сеть и декодируют множество мультимедийных потоков для события мультимедийной конференции, вычисляют общее количество доступных фреймов отображения в визуальной композиции на основе технических ограничений, связанных с сетью, и ограничений просмотра, связанных с дисплеем, определяют, что общее количество декодируемых мультимедийных потоков больше, чем общее количество доступных фреймов отображения в визуальной композиции, выбирают активную группу декодируемых мультимедийных потоков из общего количества декодируемых мультимедийных потоков для сопоставления с доступными фреймами отображения на основе оценок речевой и/или двигательной активности, характеризующих большинство ситуаций, возникающих при изменении состава участников мультимедийной конференции, и выбирают члена активной группы декодируемых мультимедийных потоков в качестве активного кандидата на замену, который будет заменен членом неактивной группы декодируемых мультимедийных потоков, на основе указанных оценок активности. 3 ил., 1 табл.
Реферат
Изобретение относится к области электросвязи, а именно к мультимедийным инфокоммуникационным системам, и может быть применено для совместного вывода мультимедийного содержимого (контента) в ходе интерактивной (мультимедийной) конференции в реальном времени.
Мультимедийная конференция позволяет множеству участников (пользователей) осуществлять инфокоммуникационное взаимодействие и совместно использовать разные типы мультимедийного содержимого (контента), используя формы (окна) графического интерфейса пользователя (Graphical User Interface, GUI). Посредством указанных форм могут отображаться (выводиться) видеоизображения участников, слайды презентации, изображения с сенсорной панели, текстовые сообщения, которыми обмениваются пользователи, и т.п. Таким образом, территориально разнесенные участники могут обмениваться информацией в окружении виртуальной конференции, приближая свое интерактивное инфокоммуникационное взаимодействие к реальной конференции.
Однако отображение всех участников конференции (видеоизображение) и инцидентного им контента может представлять некоторую сложность. Данная проблема усиливается по мере увеличения количества участников мультимедийной конференции, поскольку возрастает вероятность отображения контента неактивных участников или, наоборот, невывод активных пользователей. Указанная проблема, в частности, характерна известным способам отображения активных участников (патенты US 6628767 B1, US 2005/0078171).
Известен способ (патент US 2005/0099492 А1), обеспечивающий изменение размеров форм, соответствующих видеоизображениям участников мультимедийной конференции, в зависимости от уровня их активности. При большом количестве активных участников соответствующие им видеоизображения при выводе будут иметь малый размер, неприемлемый с точки зрения восприятия человеческим зрением и снижающий достоверность передаваемой информации (контента). Кроме того, оценка уровня активности в указанном аналоге производится только на основе речевой активности участников мультимедийной конференции.
Известны способы (патенты US 6922718 В2, US 2004/0230651, US 2007/0299981), обеспечивающие вывод видеоизображений (видеопотоков) участников мультимедийной конференции на основе заранее определенных правил. Их общими недостатками являются: оценка активности участников только на основе аудиопотоков (речевой активности), нечувствительность к активности других видов мультимедийного контента, слабая зависимость от него выбранных правил вывода, что приводит к снижению целостности выводимой информации.
Наиболее близким по технической сущности к заявляемому способу и выбранным в качестве прототипа является способ управления мультимедийным содержимым (патент RU 2518423), заключающийся в том, что принимают через сеть множество мультимедийных потоков для события мультимедийной конференции; декодируют это множество мультимедийных потоков; вычисляют общее количество доступных фреймов отображения в визуальной композиции на основе, по меньшей мере, технических ограничений, связанных с сетью, и ограничений просмотра, связанных с дисплеем; определяют, что общее количество декодируемых мультимедийных потоков больше, чем общее количество доступных фреймов отображения в визуальной композиции; выбирают активную группу декодируемых мультимедийных потоков из общего количества декодируемых мультимедийных потоков для сопоставления с доступными фреймами отображения на основе речевой активности; генерируют первую оценку активности для представления величины отношения речевой активности к отсутствию речевой активности, вторую оценку активности для представления величины длительности речевой активности участника и третью оценку активности для представления самого последнего времени речевой активности участника; и выбирают члена активной группы декодируемых мультимедийных потоков в качестве активного кандидата на замену, который будет заменен членом неактивной группы декодируемых мультимедийных потоков, на основе первой, второй или третьей оценки активности.
Способ-прототип предусматривает замену мультимедийного контента (потока) активных участников виртуальной конференции, отображаемых в визуальной композиции, членами неактивной группы на основе одной из трех оценок речевой активности.
В случае проведения организованной мультимедийной конференции возможны следующие ситуации.
1. Для того чтобы присоединиться к обсуждению, член неактивной группы, как правило, поднимает руку. Далее, если администратор конференции не замечает его жеста, данный участник спрашивает разрешения присоединиться к обсуждению. Следовательно, в описанной ситуации для замены члена активной группы необходимо использовать его двигательную (жестовую) или двигательную и речевую активность. В способе-прототипе такая возможность отсутствует, замена участника конференции производится при его речевой активности, а следовательно, часть его выступления теряется, что сказывается на точности ТИНФ сообщаемой им информации.
Точность [на основе ГОСТ РВ 51987-2002. Информационная технология. Комплекс стандартов на автоматизированные системы. Типовые требования и показатели качества функционирования информационных систем. Общие положения. М.: Госстандарт России, 2001] - свойство системы мультимедийной конференции обеспечивать достижение согласованных результатов обработки и передачи информации, необходимых для получения достоверной выходной информации.
2. При формировании участниками конференции текстовых сообщений либо другого контента с использованием сенсорной панели или других устройств ввода информации в принимаемых мультимедийных потоках будет отсутствовать речевая активность. Тогда, согласно способу-прототипу не будет осуществляться замена участников конференции и отображение в визуальной композиции (на дисплее) инцидентных им мультимедийных потоков, а следовательно, не будет обеспечиваться полнота выводимой информации.
Полнота [на основе ГОСТ РВ 51987-2002] - свойство выходной информации отражать состояния всех требуемых декодируемых мультимедийных потоков:
где М - минимально необходимое для эффективного проведения конференции число декодируемых мультимедийных потоков, а m-й показатель полноты определяется как:
Исходя из вышеизложенного недостатком способа-прототипа является невозможность выбора члена активной группы декодируемых мультимедийных потоков в качестве активного кандидата на замену на основе двигательной активности, приводящая к уменьшению целостности выводимой информации
характеризующей полноту и точность отражения требуемых декодируемых мультимедийных потоков.
С учетом выражений (1) и (2) целостность выводимой мультимедийной информации можно определить как
где Дm - достоверность оценки m-го декодируемого мультимедийного потока. При этом под достоверностью следует понимать свойство информации отражать декодируемые мультимедийные потоки со степенью приближения (точностью), обеспечивающей эффективное использование этой информации при проведении мультимедийной конференции.
Задачей изобретения является разработка способа мультимедийного вывода, позволяющего повысить целостность информации (мультимедийного контента), выводимой участнику организованной мультимедийной конференции.
В заявленном способе эта задача решается тем, что в способе мультимедийного вывода, в котором принимают через сеть множество мультимедийных потоков для события мультимедийной конференции; декодируют это множество мультимедийных потоков; вычисляют общее количество доступных фреймов отображения в визуальной композиции на основе, по меньшей мере, технических ограничений, связанных с сетью, и ограничений просмотра, связанных с дисплеем; определяют, что общее количество декодируемых мультимедийных потоков больше, чем общее количество доступных фреймов отображения в визуальной композиции; выбирают члена активной группы декодируемых мультимедийных потоков в качестве активного кандидата на замену, который будет заменен членом неактивной группы декодируемых мультимедийных потоков, на основе первой, второй или третьей оценки активности, дополнительно после того как определяют, что общее количество декодируемых мультимедийных потоков больше, чем общее количество доступных фреймов отображения в визуальной композиции, выбирают активную группу декодируемых мультимедийных потоков из общего количества декодируемых мультимедийных потоков для сопоставления с доступными фреймами отображения на основе речевой и/или двигательной активности. Формируют первую оценку активности на основе речевой активности, вторую оценку активности на основе двигательной активности и третью оценку активности на основе речевой и двигательной активности совместно, а затем выбирают члена активной группы декодируемых мультимедийных потоков в качестве активного кандидата на замену.
Новая совокупность существенных признаков позволяет достичь указанного технического результата за счет выбора активной группы декодируемых мультимедийных потоков из общего количества декодируемых мультимедийных потоков для сопоставления с доступными фреймами отображения на основе речевой и/или двигательной активности.
Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного способа управления мультимедийным содержимым, отсутствуют. Следовательно, заявленное изобретение соответствует условию патентоспособности «новизна».
Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».
Заявленное изобретение поясняется следующими чертежами:
- фиг. 1, на которой представлена блок-схема последовательности действий, реализующих предлагаемый способ;
- фиг. 2, отображающей вариант возможного размещения доступных фреймов отображения в визуальной композиции;
- фиг. 3, на которой представлен многомодальный входной интерфейс, объединяющий речь и жесты.
Реализация заявленного способа заключается в следующем (фиг. 1).
В блоке 101 принимают через сеть множество мультимедийных потоков для события мультимедийной конференции. В блоке 102 декодируют это множество мультимедийных потоков. Кодирование и декодирование, передача и прием мультимедийной информации, а также другие обеспечивающие процедуры подробно описаны, например, в стандарте Международного союза электросвязи Н.323.
Затем в блоке 103 вычисляют общее количество доступных фреймов отображения в визуальной композиции (фиг. 2) на основе, по меньшей мере, технических ограничений, связанных с сетью, и ограничений просмотра, связанных с дисплеем. Когда общее число декодируемых мультимедийных потоков не превышает общего числа фреймов отображения (N-3) в визуальной композиции, все участники конференции отображаются в ней.
В блоке 104 определяют, что общее количество декодируемых мультимедийных потоков больше, чем общее количество доступных фреймов отображения в визуальной композиции. В данном случае требуется сопоставление поднабора общего количества декодируемых мультимедийных потоков доступным фреймам отображения.
Когда общее количество декодируемых мультимедийных потоков не больше общего количества фреймов отображения в визуальной композиции, согласно предлагаемому способу происходит сопоставление декодируемых мультимедийных потоков доступным фреймам отображения. В этом случае видеокомпозиция (фиг. 2) может иметь достаточное количество доступных фреймов отображения, чтобы отобразить всех участников в декодируемых мультимедийных потоках для заданного события мультимедийной конференции.
Когда общее количество декодируемых мультимедийных потоков больше общего количества фреймов отображения в визуальной композиции, может потребоваться сопоставить поднабор общего количества декодируемых мультимедийных потоков доступным фреймам отображения. В этом случае видеокомпозиция (фиг. 2) не всегда может иметь достаточное количество доступных фреймов отображения, чтобы отобразить всех участников в декодируемых мультимедийных потоках для заданного события мультимедийной конференции. Конкретный поднабор декодируемых мультимедийных потоков, который должен быть воспроизведен посредством доступных фреймов отображения, может быть выбран посредством формирования активной группы декодируемых мультимедийных потоков.
В блоке 105 выбирают активную группу декодируемых мультимедийных потоков из общего количества декодируемых мультимедийных потоков для сопоставления с доступными фреймами отображения на основе речевой и/или двигательной активности. Активная группа декодируемых мультимедийных потоков может обозначать те декодируемые мультимедийные потоки, которые в текущее время сопоставляются доступному фрейму отображения. В отличие от этого декодируемые мультимедийные потоки, которые в текущее время не сопоставлены доступному фрейму отображения, обозначаются как неактивная группа декодируемых мультимедийных потоков. Члены неактивной группы, как правило, не видны в видеосодержимом из декодируемого мультимедийного содержимого, но их можно услышать в аудиосодержимом из декодируемого мультимедийного содержимого.
При инициализации (в начале события мультимедийной конференции) активная группа декодируемых мультимедийных потоков может выбираться множеством различных способов, например случайным образом или согласно набору правил выбора, такому как порядок, в котором участники присоединялись к событию мультимедийной конференции. В некоторых случаях выбор активной группы может быть осуществлен на основании некоторого набора эвристических правил, с помощью которых можно предсказывать участников, которые, скорее всего, примут участие в событии мультимедийной конференции. Например, определенные участники могут быть обозначены как «докладчики» для события мультимедийной конференции, тогда как другие участники могут быть обозначены как «слушатели». Поскольку в течение события мультимедийной конференции докладчики, как правило, говорят больше, чем слушатели, участники, они могут быть изначально выбраны в активную группу. В любом случае изначально выбирается активная группа для сопоставления с доступным фреймом отображения.
В течение события мультимедийной конференции требуется периодически реконфигурировать активную группу, чтобы отобразить других участников мультимедийной конференции (членов неактивной группы).
Член неактивной группы декодируемых мультимедийных потоков может быть выбран как неактивный кандидат для замены члена активной группы декодируемых мультимедийных потоков на основании речевой активности. Есть вероятность, что в течение события мультимедийной конференции участник в неактивной группе декодируемых мультимедийных потоков может принять участие в речевой активности, например, в ситуации, когда слушатель задает вопрос докладчику.
Поэтому в блоке 106 формируют первую оценку активности на основе речевой активности. Оценки на основе речевой активности могут формироваться на основании различных характеристик речевой активности, которые в некоторой степени предсказывают, когда член активной группы заговорит снова. Например, оценка активности может быть сформирована на основе:
- последнего времени речевой активности для участника;
- величины отношения речевой активности к отсутствию речевой активности;
- числа событий, когда участник проявлял речевую активность;
- длительности речевой активности участника;
- их интегральной характеристики.
Мониторинг декодируемых мультимедийных потоков с целью детектирования активности речи может быть осуществлен с помощью известного устройства, например, описанного в [Обнаружитель активности речи // патент на полезную модель №77717 от 27.10.2008]. Расчет характеристик речевой активности может быть реализован на известных устройствах сходящихся вычислений, в частности на комплексных умножителях PDSP16112A (Mitel) и комплексных накопителях PDSP16318A (Mitel) и устройствах оперативной памяти (ОЗУ). Схемы ОЗУ известны и описаны, например, в книге В.Н. Вениаминова, О.Н. Лебедева, А.И. Мирошниченко. Микросхемы и их применение. М.: Радио и связь, 1989. - с. 146, рис. 5.2. В частности, ОЗУ может быть реализовано на микросхемах К565 серии.
Член неактивной группы декодируемых мультимедийных потоков может быть выбран как неактивный кандидат для замены члена активной группы декодируемых мультимедийных потоков на основании двигательной активности. Указанная ситуация характерна для случаев:
- когда участник в неактивной группе декодируемых мультимедийных потоков поднимает руку и/или встает для того, чтобы обратиться к докладчику, задать ему вопрос или «взять слово»;
- когда участник в неактивной группе декодируемых мультимедийных потоков формирует текстовые сообщения либо другой контент с использованием сенсорной панели или других устройств ввода информации.
Поэтому в блоке 107 формируют вторую оценку активности на основе двигательной активности. Такая оценка может формироваться на основании различных характеристик двигательной активности (движения рук, телодвижения, изменение положения тела и/или его отдельных частей), которые в некоторой степени указывают на желание члена неактивной группы участвовать в событии мультимедийной конференции. Например, оценка активности может быть сформирована на основе:
- последнего времени двигательной активности для участника;
- величины отношения длительности двигательной активности к отсутствию двигательной активности;
- числа событий, когда участник проявлял двигательную активность;
- длительности двигательной активности участника;
- их интегральной характеристики.
Мониторинг декодируемых мультимедийных потоков с целью детектирования двигательной активности может быть осуществлен с помощью известных алгоритмов, например, описанных в [Aggarwal J.K., Cai Q. Human motion analysis: a review // Comput. Vis. Image Understanding. Vol. 73, 1999. - P. 428-440; Mitra S., Acharya T. Gesture Recognition: a survey // IEEE Transactions on Systems, Man, and Cybernetics - Part C: Applications and reviews. Vol. 37, No. 3, May 2007]. Указанные алгоритмы, а также расчет характеристик двигательной активности могут быть реализованы на известных устройствах сходящихся вычислений, в частности на комплексных умножителях PDSP16112A (Mitel) и комплексных накопителях PDSP16318A (Mitel) и устройствах оперативной памяти (ОЗУ). Схемы ОЗУ известны и описаны, например, в книге В.Н. Вениаминова, О.Н. Лебедева, А.И. Мирошниченко. Микросхемы и их применение. М.: Радио и связь, 1989. - с. 146, рис. 5.2. В частности, ОЗУ может быть реализовано на микросхемах К565 серии.
Член неактивной группы декодируемых мультимедийных потоков может быть выбран как неактивный кандидат для замены члена активной группы декодируемых мультимедийных потоков на основании речевой и двигательной активности. В случае проведения организованной мультимедийной конференции возможна ситуация, когда участник в неактивной группе декодируемых мультимедийных потоков поднимает руку и спрашивает разрешения у докладчика задать ему вопрос или «взять слово». Указанный случай характеризует процесс многомодального взаимодействия участника мультимедийной конференции и соответствующих устройств ввода (технических средств).
Поэтому в блоке 108 формируют третью оценку активности на основе речевой и двигательной активности совместно. Типичный процесс совместной обработки жестов и речи показан на фиг. 3.
На первых двух этапах обработки информация, поступающая по разным каналам, обрабатывается параллельно и независимо. Далее обработанная информация в форме наборов лучших гипотез по каждой из модальностей (движение рукой и речь) объединяется (используя фреймо-ориентированные или иные семантические подходы) в единое представление с учетом ситуативного контекста. Важным этапом здесь является синхронизация информации, поступающей от разных каналов, так как временное расхождение между речью и жестами, выражающими один многомодальный коммуникативный акт (попытку члена неактивной группы стать членом активной группы), может достигать нескольких секунд. В процессе интеграции альтернативные лексические гипотезы по каждой модальности сортируются по их вероятностным оценкам для дальнейшей финальной многомодальной интерпретации. Наилучшая гипотеза, полученная после интеграции модальностей, передается в подсистему управления диалогом, которая обеспечивает связь с конкретным приложением.
В случае мультимедийной конференции в данном приложении формируется оценка активности на основе представленных выше характеристик речевой и двигательной активности, а также на основе:
- времени рассинхронизации речевой и двигательной активности для участника;
- величины отношения длительности двигательной активности к речевой активности;
- числа событий, когда участник проявлял речевую и двигательную активность совместно;
- их интегральной характеристики.
Мониторинг декодируемых мультимедийных потоков с целью детектирования двигательной активности может быть осуществлен с помощью известных систем, например, QuickSet, Human-Centric Word Processor, VR Aircraft Maintenance Training System и Portable Voice Assistant [Oviatt, S.L. Multimodal interfaces. In The Human-Computer Interaction Handbook: Fundamentals, Evolving Technologies and Emerging Applications, J. Jacko and A. Sears, Eds. Lawrence Erlbaum Assoc. Mahwah, NJ, chap.14, 2003. - P. 286-304], или алгоритмов, например, рассмотренных в [Карпов, А.А. Аудиовизуальный речевой интерфейс для систем управления и оповещения // Известия ЮФУ. Технические науки. - Таганрог: ТТИ ЮФУ, №3 (104), 2010. - С. 218-222.].
Далее в блоке 109 выбирают члена активной группы декодируемых мультимедийных потоков в качестве активного кандидата на замену, который будет заменен членом неактивной группы декодируемых мультимедийных потоков, на основе первой, второй или третьей оценки активности. Например, в визуальной композиции (фиг. 2) может быть удален активный кандидат из доступного фрейма отображения, а неактивный кандидат сопоставлен с освобожденным доступным фреймом отображения. Таким образом, доступные фреймы отображения могут использоваться для отображения более активных участников мультимедийной конференции. При этом достигается сокращение количества переходов между мультимедийным содержимым, отображаемым на доступных фреймах отображения.
Визуальная композиция (фиг. 2) может содержать различные фреймы (формы) отображения, расположенные в определенной порядке для представления участникам организованной мультимедийной конференции. Каждый фрейм отображения устроен так, чтобы воспроизводить или отображать мультимедийное содержимое из мультимедийных потоков, такое как видеоизображение выступающего участника, слайды презентации, изображения с сенсорной панели (F4) и видеоизображения членов активной группы (F5,…FN), а также: основные данные о текущем мероприятии (F1), изображение выступающего участника, заставку текущего мероприятия, текстовые сообщения (F2), которыми обмениваются участники, индикатор длительности выступления (F3).
Заявленный способ мультимедийного вывода позволяет повысить целостность информации (мультимедийного контента), выводимой участнику организованной мультимедийной конференции. Для доказательства достижения заявленного технического результата приведены следующие экспериментальные исследования.
Рассматривалась мультимедийная конференция с М=16 участником при числе доступных фреймов отображения N=8 (5 из них для отображения членов активной группы). При числе активных участников МА=5 моделировались и исследовались следующие ситуации:
1) шестой участник поднимал руку, желая выступить, затем спустя 5 с начинал свое выступление;
2) о своем желании активно участвовать в обсуждении заявили (путем поднятия руки) 3 члена неактивной группы;
3) о своем желании активно участвовать в обсуждении заявили (путем поднятия руки) 7 членов неактивной группы;
4) шестой участник поднимал руку, желая выступить, а затем спрашивал разрешения присоединиться к обсуждению и:
4а) начинал выступление, не дождавшись разрешения администратора конференции (или не получив его);
4б) начинал выступление, дождавшись разрешения администратора конференции;
5) шестой участник формировал текстовое сообщение с использованием сенсорной панели.
Результаты оценки целостности информации, выводимой участнику организованной мультимедийной конференции, при реализации способа-прототипа и заявленного способа представлены ниже (таблица 1).
Из анализа результатов экспериментальных исследований, представленных в таблице 1, видно, что применение заявленного способа мультимедийного вывода позволяет повысить целостность информации (мультимедийного контента), выводимой участнику организованной мультимедийной конференции, во всех практических случаях по сравнению со способом-прототипом.
Способ мультимедийного вывода, заключающийся в том, что принимают через сеть множество мультимедийных потоков для события мультимедийной конференции; декодируют это множество мультимедийных потоков; вычисляют общее количество доступных фреймов отображения в визуальной композиции на основе, по меньшей мере, технических ограничений, связанных с сетью, и ограничений просмотра, связанных с дисплеем; определяют, что общее количество декодируемых мультимедийных потоков больше, чем общее количество доступных фреймов отображения в визуальной композиции; выбирают члена активной группы декодируемых мультимедийных потоков в качестве активного кандидата на замену, который будет заменен членом неактивной группы декодируемых мультимедийных потоков, на основе первой, второй или третьей оценки активности, отличающийся тем, что после того как определяют, что общее количество декодируемых мультимедийных потоков больше, чем общее количество доступных фреймов отображения в визуальной композиции, выбирают активную группу декодируемых мультимедийных потоков из общего количества декодируемых мультимедийных потоков для сопоставления с доступными фреймами отображения на основе речевой и/или двигательной активности; формируют первую оценку активности на основе речевой активности, формируют вторую оценку активности на основе двигательной активности, формируют третью оценку активности на основе речевой и двигательной активности совместно, выбирают члена активной группы декодируемых мультимедийных потоков в качестве активного кандидата на замену.