Процессор данных и транспорт данных пользовательского управления на устройства декодирования и воспроизведения аудио
Иллюстрации
Показать всеИзобретение относится к обработке аудиоданных в установках домашней бытовой электроники. Технический результат заключается в повышении эффективности обработки аудиоданных. Предложен процессор аудиоданных, содержащий: интерфейс приемника для приема кодированных аудиоданных и метаданных, связанных с кодированными аудиоданными; анализатор метаданных для анализа метаданных, чтобы определять возможности манипулирования аудиоданными; интерфейс взаимодействия для приема вводимых данных взаимодействия и для формирования исходя из вводимых данных взаимодействия, данных управления взаимодействием, связанных с возможностью манипулирования аудиоданными; и генератор потока данных для получения данных управления взаимодействием и кодированных аудиоданных и метаданных и для формирования выходного потока данных, выходной поток данных содержит кодированные аудиоданные по меньшей мере часть метаданных и данные управления взаимодействием. 3 н. и 12 з.п. ф-лы, 8 табл., 9 ил.
Реферат
Настоящее изобретение имеет отношение к процессору аудиоданных по п.1, способу для обработки аудиоданных по п.14 и компьютерной программе по п.15 для выполнения способа обработки аудиоданных.
В установках домашней бытовой электроники (CE) функциональность разнесена по нескольким устройствам, соединенным через стандартизированные интерфейсы. Кроме того, (высокого качества) оборудование часто встроено не только в единственное устройство, но и сложные отдельные устройства (если рассмотреть телевизионную абонентскую приставку, ТВ-приемник, AVR-приемник (приемник-аудио-видео)) являются доступными. Эти устройства осуществляют связь через стандартизированные интерфейсы (такой как HDMI (интерфейс мультимедиа высокой четкости)).
Тогда как первое устройство извлекает требуемые потоки и предлагает все интерфейсы пользователю, второе устройство часто выполняет декодирование в ʺрежиме ведомогоʺ без какого-либо пользовательского интерфейса. Когда дело доходит до взаимодействия пользователя и управления декодером, является существенным передача этой пользовательской информации от устройства #1 к устройству #2 в этом сценарии.
Например, как показано на Фиг. 9, телевизионную программу часто принимает первое устройство, такое как телевизионная абонентская приставка, которое выбирает надлежащий канал передачи и извлекает соответствующие элементарные потоки, содержащие требуемое кодированное содержание. Эти извлеченные потоки могут подаваться на второе устройство, такое как приемник аудио-видео, для воспроизведения. Передача между этими двумя устройствами может выполняться путем либо осуществления передачи декодированного/разуплотненного представления (аудио с импульсно-кодовой модуляцией (PCM)), либо в кодированном представлении, особенно если ограничения полосы пропускания применяют на используемой линии внутренней связи.
Кроме того, если выбор требуемых потоков и/или необязательно взаимодействие пользователя выполняется в устройстве #1 (например, телевизионной абонентской приставке), в большинстве случаев только это устройство предлагает интерфейс управления пользователю. Второе устройство (например, приемник A/V) обеспечивает только интерфейс конфигурации, к которому обычно пользователем осуществляется доступ только один раз при настройке системы, и действует в ʺрежиме ведомогоʺ в периоды нормальной работы.
Современные схемы кодека аудио не только поддерживают кодирование аудиосигналов, но также и обеспечивают средство для интерактивности пользователя, чтобы приспосабливать проигрывание и воспроизведение аудио к предпочтениям слушателя. Поток аудиоданных состоит из ряда кодированных аудиосигналов, например, сигналов каналов или аудиообъектов, и сопутствующей информации метаданных, которая описывает, каким образом эти аудиосигналы формируют аудио сцену, которая воспроизводится на громкоговорителях.
Примерами для аудио (звуковых) объектов являются:
- диалог на различных языках,
- дополнительный диалог подобный аудиосопровождению, или
- музыкальный и с эффектами фон (задний план).
Примерами для информации метаданных являются:
- значение «по умолчанию» уровня громкости каждого сигнала объекта (то есть, несколько громким он должен смешиваться в смешанный сигнал для представления громкоговорителем),
- значение «по умолчанию» пространственной позиции (то есть где он должен воспроизводиться),
- информация, если взаимодействие пользователя разрешено для специфического объекта, или
- информация, каким образом пользователю разрешено взаимодействовать, например, минимальный/максимальный уровни громкости или ограничения на позиции, к которой пользователь может повторно панорамировать объекты.
- классификация и/или описание аудиообъектов
Чтобы выполнить интерактивность пользователя, устройству декодирования/воспроизведения аудио (например, устройству #2) требуется обеспечить дополнительный интерфейс (ввода или взаимодействия) для управляющей информации для требуемого взаимодействия пользователя.
Альтернативно может также требоваться реализовывать пользовательское управление выбором и манипулированием аудиообъектом в устройстве #1 и подавать эти данные на устройство #2, когда декодирование и воспроизведение реализуются в устройстве #2, а не в устройстве #1.
Однако передача таких данных ограничена вследствие факта, что существующие стандартизированные соединения не поддерживают передачу данных пользовательского управления и/или информации устройства воспроизведения.
Альтернативно, выбор потоков и взаимодействие пользователя, как описано выше для устройства #1, и декодирование, как описано выше для устройства #2, могут обрабатываться двумя отдельными функциональными компонентами, содержащимися в том же устройстве и с теми же ограничениями на передачу данных между обоими компонентами, а именно, что доступным является только один интерфейс для кодированных данных и данных взаимодействия пользователя, предпочтительно интерфейс взаимодействия устройства #1, тогда как второй интерфейс для данных взаимодействия пользователя, то есть интерфейс, обычно обеспечиваемый устройством #2, можно опустить. Даже если и устройство #1, и устройство #2 содержатся или реализованы в рамках того же (аппаратно-реализованного) устройства, это ведет к той же ситуации, как описано для случая отдельных устройств #1 и #2.
Чтобы выполнить описанный вариант использования и устранить описанные выше ограничения, предлагается вкладывать данные информации пользовательского управления, или данные взаимодействия в общем, в кодированный поток аудиоданных.
Соответственно, объект настоящего изобретения состоит в усовершенствовании существующих процессоров обработки аудиоданных.
Обычно, первое устройство может быть сконфигурировано в виде процессора аудиоданных, содержащего: интерфейс приемника для приема кодированных аудиоданных и метаданных, связанных с кодированными аудиоданными; (синтаксический) анализатор метаданных для анализа метаданных, чтобы определять возможность манипулирования аудиоданными; интерфейс взаимодействия для приема вводимых данных взаимодействия и для формирования, из вводимых данных взаимодействия, данных управления взаимодействием, связанных с возможностью манипулирования аудиоданными; и генератор потока данных для получения данных управления взаимодействием и кодированных аудиоданных и метаданных и для генерирования потока выходных данных, выходной поток данных содержит кодированные аудиоданные, по меньшей мере, часть метаданных и данные управления взаимодействием, как определено в п.1. Другие предпочтительные варианты осуществления определены во включенных в документ зависимых и дополнительных независимых пунктах формулы изобретения.
Кодированные аудиоданные могут содержать отдельные кодированные аудиообъекты, причем, по меньшей мере, часть метаданных связана с соответствующим аудиообъектом, при этом анализатор метаданных сконфигурирован для анализа соответствующей части для кодированных аудиообъектов, чтобы определить, для, по меньшей мере, аудиообъекта, возможности манипулирования объектом, причем интерфейс взаимодействия сконфигурирован для генерирования, по меньшей мере, для одного кодированного аудиообъекта, данных управления взаимодействием из вводимых данных взаимодействия, связанного, по меньшей мере, с одним кодированным аудиообъектом. Таким образом, аудиообъектами можно легко и непосредственно манипулировать в рамках их соответствующих возможностей манипулирования объектами, сохраненных в метаданных, путем использования соответственных данных управления взаимодействием.
Интерфейс взаимодействия может быть сконфигурирован для представления пользователю возможности манипулирования аудиоданными, выведенной из метаданных анализатором метаданных, и для приема от пользователя пользовательского ввода по конкретному манипулированию данными в возможности манипулирования данными. Это может реализовывать практический способ предоставления пользовательского интерфейса пользователю для осуществления взаимодействия с устройством по изобретению, например, для манипулирования аудиообъектами, предпочтительно внешне от декодера.
Генератор потока данных может быть сконфигурирован для обработки потока данных, содержащего кодированные аудиоданные и метаданные, принятые интерфейсом приемника, без декодирования кодированных аудиоданных, или для копирования кодированных аудиоданных и, по меньшей мере, части метаданных без изменений в выходном потоке данных, причем генератор потока данных сконфигурирован для добавления добавочной части данных, содержащей данные управления взаимодействием, к кодированным аудиоданным и/или метаданным в выходном потоке данных. Это обеспечивает преимущество меньшей сложности, поскольку процессору аудиоданных не требуется декодировать аудиосигналы. Он нуждается только в анализе метаданных и записывает их обратно в часть метаданных кодированного потока аудиоданных.
Генератор потока данных может быть сконфигурирован для формирования в выходном потоке данных данных управления взаимодействием в том же формате, что и метаданные. Таким образом, любые данные управления взаимодействием могут быть полезно интегрированы в выходной поток данных.
Генератор потока данных может быть сконфигурирован для увязки с данными управления взаимодействием идентификатора в выходном потоке данных, идентификатор является отличным от идентификатора, увязанного с метаданными. Преимущество использования другого идентификатора для манипулируемых метаданных состоит в том, что удаленному декодеру может предоставляться возможность идентифицировать взаимодействие из принятого потока манипулируемых данных, принимая при этом исходные (необработанные) данные.
Генератор потока данных может быть сконфигурирован для добавления, к данным управления взаимодействием, данные (цифровой) подписи, указывающие информацию о приложении, устройстве или пользователе, выполняющем взаимодействие, например, манипулирование аудиоданными, или обеспечивающем пользовательский ввод. Посредством транспорта (передачи) исходных и манипулируемых данных является возможной перенастройка метаданных. Подпись в метаданных позволяет отслеживать источник манипулирования.
Анализатор метаданных может быть сконфигурирован для идентификации возможности отключения для одного или нескольких аудиообъектов, представленных кодированными аудиоданными, причем интерфейс взаимодействия сконфигурирован для приема информации отключения для одного или нескольких аудиообъектов, и при этом генератор потока данных сконфигурирован для пометки одного или нескольких аудиообъектов как «отключенный» в данных управления взаимодействием, или для удаления отключенного одного или нескольких аудиообъектов из кодированных аудиоданных, так что выходной поток данных не включает кодированные аудиоданные для отключенного одного или нескольких аудиообъектов. Таким образом, поток данных может быть приспособлен к тем аудиообъектам, которые являются фактически или в текущий момент доступными, так что общий контент данных текущего потока битов может быть уменьшен.
Генератор потока данных может быть сконфигурирован для динамического формирования выходного потока данных, причем в ответ на новый вводимые данные взаимодействия, данные управления взаимодействием обновляются, чтобы соответствовать новому вводимым данным взаимодействия, и при этом генератор потока данных сконфигурирован для включения обновленных данных управления взаимодействием в выходной поток данных. Таким образом, поток данных может посылаться с информацией реального времени. Другими словами, вводимые данные взаимодействия относительно каких-либо конкретных значений аудиообъектов может обновляться и обрабатываться быстро, предпочтительно в реальном времени.
Интерфейс приемника может быть сконфигурирован для приема основного потока аудиоданных, содержащего кодированные аудиоданные и метаданные, связанные с кодированными аудиоданными, и для дополнительного приема необязательных аудиоданных, содержащих необязательный аудиообъект, причем метаданные, связанные с упомянутым необязательным аудиообъектом, содержатся в упомянутом основном потоке аудиоданных. С помощью этой конфигурации процессор аудиоданных может объединить кодированные аудиоданные выбранного необязательного аудиообъекта в основной поток аудиоданных, получая в результате полный выходной поток аудиоданных, формируемый генератором потока данных. Таким образом, необязательные аудиообъекты могут быть дополнительно предоставлены пользователю впоследствии или по запросу.
Анализатор метаданных может быть сконфигурирован для определения возможности манипулирования аудио относительно отсутствующего аудиообъекта, не включенного в кодированные аудиоданные, причем интерфейс взаимодействия сконфигурирован для приема вводимых данных взаимодействия для отсутствующего аудиообъекта, и при этом интерфейс приемника сконфигурирован для запроса аудиоданных относительно отсутствующего аудиообъекта от поставщика аудиоданных или для приема аудиоданных относительно отсутствующего аудиообъекта из другого подпотока, содержащегося в широковещательном потоке, или соединения по межсетевому протоколу. Таким образом, устройство или пользователь могут манипулировать необязательно доступным добавочным аудиообъектом заранее, то есть, тогда как он фактически отсутствует. Добавочный аудиообъект может затем запрашиваться впоследствии через сеть Интернет или другой широковещательный поток.
Генератор потока данных может быть сконфигурирован для назначения, в выходном потоке данных, дополнительного типа пакета данным управления взаимодействием, дополнительный тип пакета является отличным от типов пакетов для кодированных аудиоданных и метаданных, или при этом генератор потока данных сконфигурирован для добавления, в выходной поток данных, данных заполнения в типе пакета данных заполнения, причем количество данных заполнения определяют на основании требования к скорости передачи данных, определенного выходным интерфейсом процессора аудиоданных. Таким образом, только один дополнительный тип пакета требуется назначать для того, чтобы выполнить транспорт манипулируемых метаданных, или данных управления взаимодействием, соответственно. Кроме того, процессор аудиоданных может пожелать добавить добавочные данные заполнения в последующий поток передачи данных, чтобы удовлетворять заданному требованию обычно более высокой скорости передачи данных для этой линии связи. Эти данные заполнения могут не содержать информацию и, считается, что подлежат игнорированию декодером.
Процессор аудиоданных может быть реализован как отдельное устройство, причем интерфейс приемника может образовывать вход в отдельное устройство через проводное или беспроводное соединение, при этом процессор аудиоданных может дополнительно содержать выходной интерфейс, подключенный к генератору потока данных, выходной интерфейс является конфигурируемым для вывода выходного потока данных, причем выходной интерфейс выполняет выход устройства и содержит беспроводной интерфейс или проводной блок соединения. Таким образом, может обеспечиваться простая связность, например в рамках сети.
Настоящее изобретение дополнительно может быть осуществлено посредством способа для обработки аудиоданных, способ содержит: прием кодированных аудиоданных и метаданных, связанных с кодированными аудиоданными; анализ метаданных для определения возможности манипулирования аудиоданными; прием вводимых данных взаимодействия и формирование из вводимых данных взаимодействия, данных управления взаимодействием, связанных с возможностью манипулирования аудиоданными; и получение данных управления взаимодействием и кодированных аудиоданных и метаданных и генерирование выходного потока данных, выходной поток данных содержит кодированные аудиоданные, по меньшей мере, часть метаданных и данные управления взаимодействием.
Настоящее изобретение дополнительно может быть реализовано посредством компьютерной программы для выполнения, при исполнении на компьютере или процессоре, вышеупомянутого способа обработки аудиоданных.
Настоящее изобретение дополнительно может быть реализовано согласно последующим вариантам осуществления:
Возможность манипулирования аудиоданными может выбираться из группы, содержащей, по меньшей мере, одно из выбора объекта, выбора из нескольких языков, выбора необязательных добавочных аудиообъектов, манипулирования объектом, изменения громкости для одного или нескольких объектов, изменения позиции объектов подобно перемещению дополнительного комментария от центрального динамика к правому динамику или произвольной позиции между ними, выбора предварительных установок, вместо выбора и манипулирования каждым объектом отдельно, причем выбирается предварительная установка из метаданных, где предварительная установка является предварительной выборкой объектов, рекомендуемых создателем контента для конкретного приложения или конкретного сценария использования, где предварительная установка содержит комбинацию объектов, например, с данными для различных уровней громкости, позиций и громкости/динамического диапазона сжатия по сравнению с представлением по умолчанию.
Генератор потока данных может быть сконфигурирован для формирования данных управления взаимодействием в виде независимой информации или в виде зависимой информации, причем зависимая информация зависит от метаданных и приводит, если применяется к декодированным аудиоданным, вместе с метаданными к манипулированию данными, заданному вводимыми данными взаимодействия.
Кодированные аудиоданные могут содержать необязательные аудиообъекты, и метаданные могут содержать метаданные для необязательных аудиообъектов, причем интерфейс приемника может быть сконфигурирован, чтобы дополнительно принимать основной поток аудиоданных, имеющий основные аудиоданные, при этом генератор потока данных может быть сконфигурирован для формирования выходного потока данных так, что выходной поток данных дополнительно содержит основные аудиоданные.
Генератор потока данных может быть сконфигурирован для добавления данных защиты от ошибок к выходному потоку данных и назначать дополнительный тип пакета данным защиты от ошибок, при этом генератор потока данных сконфигурирован, чтобы вывести данные защиты от ошибок из кодированных аудиоданных, метаданных или данных управления взаимодействием.
Генератор потока данных может быть сконфигурирован для формирования выходного потока данных в виде потока данных для потоковой передачи или в виде файла на основе контейнера в файловом формате, таком как файловый формат стандарта MPEG-4 ISO.
Кроме того предлагается, что процессор аудиоданных не имеет функциональности для декодирования кодированных аудиоданных.
Процессор аудиоданных может быть реализован в телевизионной абонентской приставке, телевизионном приемнике или записывающем-приемном устройстве аудио/видео.
Процессор аудиоданных может дополнительно содержать выходной интерфейс, чтобы передавать выходной поток данных на последующее устройство через соединение HDMI.
Также может быть обеспечен процессор аудиоданных, то есть интегрирован или реализован, вместе с декодером в рамках того же (аппаратно-реализованного) устройства. Например, процессор аудиоданных и декодер могут обеспечиваться вместе в TV-приемнике, телевизионной абонентской приставке, A/V приемнике или подобном. Процессор аудиоданных и декодер могут осуществлять связь через структуры внутренних шин данных. Такая конфигурация может быть особенно требуемой в телевизионных устройствах, содержащих решения «Система на кристалле» (SoC).
Соответственно или альтернативно, процессор аудиоданных может быть реализован как независимый и отдельный функциональный компонент в том же устройстве, подобно случаю, описанному выше для случая отдельного устройства, с единственным отличием, что выходной интерфейс выполняет выход процессора аудиоданных на соединение, внутреннее к устройству, например, используя внутреннюю шину данных.
Относительно упомянутых выше признаков, процессор аудиоданных согласно изобретению способен обеспечить легкое взаимодействие с устройством или пользователем, тогда как обеспечивая в то же время простую настройку устройства, предпочтительно используя существующие установки.
Кроме того, процессор аудиоданных согласно изобретению обеспечивает решение вышеупомянутой проблемы, вкладывая взаимодействие устройства или взаимодействие пользователя в виде добавочных данных взаимодействия в битовый поток аудио. Путем реализации вышеописанных признаков, реализации декодера могут требовать только одного интерфейса, который воспринимает и кодированные данные представления, и данные управления взаимодействием. Уже существующие соединения могут не требовать реализации новых каналов для управляющей информации, но усилие по реализации перемещается в кодек непосредственно. В сложных настройках дополнительно гарантируется, что информация управления взаимодействием тесно связана с кодированным содержанием и, следовательно, не может потеряться, когда подается через несколько этапов обработки.
Примеры вариантов осуществления согласно настоящему изобретению показаны на чертежах и будут пояснены в последующем, причем:
Фиг.1 показывает процессор аудиоданных согласно настоящему изобретению,
Фиг.2 показывает способ для обработки аудиоданных согласно изобретению,
Фиг.3 показывает пример кодированных аудиоданных и связанных метаданных,
Фиг.4 показывает пример обработки входных и выходных потоков,
Фиг.5 показывает дополнительный пример обработки входных и выходных потоков,
Фиг.6 показывает процессор аудиоданных, обрабатывающий необязательные аудиоданные,
Фиг.7 показывает процессор аудиоданных, реализуемый в отдельном устройстве,
Фиг.8 показывает примерный вариант использования с первым устройством и вторым устройством, и
Фиг.9 показывает примерный сценарий с телевизионной абонентской приставкой и приемником аудио-видео.
В этом документе в целом, и конкретно в последующем описании термин "взаимодействие" используется в смысле взаимодействия пользователем или взаимодействия устройством, а также взаимодействия в общем, то есть, взаимодействия в общем смысле. Другими словами, "взаимодействие" может означать ʺвзаимодействие пользователяʺ или ʺвзаимодействие устройстваʺ, или взаимодействие в общем. В некоторых частях описания термины "пользователь" и "взаимодействие" используются синонимично. Например, пользовательский интерфейс может синонимично использоваться в смысле интерфейса взаимодействия и наоборот.
Кроме того, "пользователь" может быть или пользователем- человеком, или пользователем-машиной, таким как (аппаратно-реализованное) устройство или программно-реализованное устройство.
Кроме того, пользовательский интерфейс может присутствовать как специфическая для устройства предварительно установленная конфигурация, которая, исключительно или в дополнение к пользовательскому вводу, может управлять манипулированием данными.
Фиг. 1 показывает процессор 1 аудиоданных согласно настоящему изобретению. Процессор 1 аудиоданных содержит интерфейс 2 приемника для приема кодированного входного потока 15, который содержит кодированные аудиоданные 3 и метаданные 4. Метаданные 4 связаны с кодированными аудиоданными 3, каковая связь указана стрелкой 110. Например, кодированные аудиоданные 3 могут содержать аудиообъекты, тогда как метаданные 4 могут содержать дополнительную информацию о возможностях манипулирования для упомянутых аудиообъектов.
Процессор 1 аудиоданных дополнительно содержит анализатор 5 метаданных для анализа метаданных 4, чтобы определить возможность манипулирования аудиоданными. Например, регулируемый уровень громкости, регулируемая пространственная позиция или выбираемый язык могут представлять возможность манипулирования аудиоданными для аудиообъекта.
Кроме того, процессор 1 аудиоданных содержит интерфейс 6 взаимодействия для приема вводимых данных 7 взаимодействия. Интерфейс 6 взаимодействия дополнительно сконфигурирован для формирования данных 8управления взаимодействием на основе вводимых данных 7 взаимодействия. Упомянутые данных 8 управления взаимодействием связаны с вышеупомянутой возможностью манипулирования аудиоданными. Например, пользователь может взаимодействовать с устройством путем регулировки громкости или пространственной позиции аудиообъекта, или путем выбора языка через интерфейс 6 взаимодействия. В этом случае интерфейс 6 взаимодействия является пользовательским интерфейсом 6, который может формировать соответствующие данные 8 пользовательского управления, которые связаны с пользовательским выбором.
Дополнительно или альтернативно, интерфейс 6 взаимодействия может быть интерфейсом 6 взаимодействия (специфическим для) устройства. В этом случае, интерфейс 6 взаимодействия устройства конфигурируется для формирования данных 8 управления взаимодействием устройства на основании вводимых данных 7 взаимодействия устройства. Например, устройство, такое как наушники и т.п. может быть соединено с интерфейсом 6 взаимодействия. Соединение между наушниками и интерфейсом 6 взаимодействия, может обнаруживаться посредством аудио процессора и таким образом рассматриваться в качестве вводимых данных 7 взаимодействия. Таким образом, при подключении наушников, интерфейс 6 взаимодействия обеспечивает специфические для наушников данные 8 управления взаимодействием, такие как манипулирования аудио-объектом, например, автоматическое снижение громкости, предварительно выбранный язык или настройка в аппаратной конфигурации.
Другими словами, вместо ручного взаимодействия пользователя, интерфейс 6 взаимодействия автоматически выбирает объекты или настройки на основании обнаружения некоторых устройств. Интерфейс 6 взаимодействия формирует специфические для устройства данные 8 управления взаимодействием.
Процессор 1 аудиоданных дополнительно содержит генератор 9 потока данных. Генератор 9 потока данных получает данные 8 управления взаимодействием, кодированные аудиоданные 3 и метаданные 4. Генератор 9 потока данных сконфигурирован для формирования выходного потока 10 данных, который содержит вышеупомянутые данные 8 управления взаимодействием, кодированные аудиоданные 3 и метаданные 4.
Фиг. 2 показывает соответствующий способ для обработки аудиоданных согласно настоящему изобретению.
На этапе 201 принимают кодированные аудиоданные 3 и связанные метаданные 4.
На этапе 202 метаданные 4 анализируют для определения возможности манипулирования аудиоданными.
На этапе 203 принимают вводимые данные взаимодействия, причем данные управления взаимодействием, связанные с возможностью манипулирования аудиоданными, формируют из упомянутого вводимых данных взаимодействия на этапе 204.
На этапе 205 получают данные управления взаимодействием и кодированные аудиоданные и метаданные, и формируют выходной поток данных, причем упомянутый выходной поток данных содержит кодированные аудиоданные, по меньшей мере, часть метаданных и данные управления взаимодействием.
Со ссылкой на Фиг. 3 кодированные аудиоданные 3 содержат отдельные кодированные аудиообъекты 11, 12. Кроме того, по меньшей мере, часть 13, 14 метаданных 4 относится (указано стрелками 110, 120) к соответствующему аудиообъекту 11, 12. Например, часть ʹMD1ʹ, 13 метаданных 4 связана с соответствующим кодированным аудиообъектом ʹAO1ʹ 11, тогда как часть ʹMD2ʹ 14 метаданных 4 связана с соответствующим кодированным аудиообъектом ʹAO2ʹ 12.
Анализатор 5 метаданных сконфигурирован для анализа соответствующей части 13, 14 относительно кодированных аудиообъектов 11, 12, чтобы определять возможность манипулирования объектом, по меньшей мере, для одного из упомянутых аудиообъектов 11, 12. Другими словами, анализатор 5 метаданных осуществляет анализ метаданных 13, 14 относительно соответственных аудиообъектов 11, 12, чтобы определить возможность манипулирования аудиообъектом для каждого аудиообъекта 11, 12. Например, анализатор 5 метаданных определяет, что аудиообъект ʹAO1ʹ 11 может содержать регулируемый уровень громкости. Анализатор 5 метаданных может представить эту потенциальную регулируемость уровня громкости (возможность манипулирования аудиообъектом) пользователю через пользовательский интерфейс 6.
Пользовательский интерфейс 6 сконфигурирован для формирования, для, по меньшей мере, одного аудиообъекта 11, 12, данных 8 пользовательского управления из пользовательского ввода 7, связанного, по меньшей мере, с одним кодированным аудиообъектом 11, 12. Например, пользователь может пожелать скорректировать уровень громкости аудиообъекта ʹAO1ʹ 11 и таким образом обеспечивает соответственный ввод 7 через пользовательский интерфейс 6. Пользовательский интерфейс 6 формирует соответственные данные 8 пользовательского управления, содержащие информацию, что и насколько пользователь желает скорректировать уровень громкости аудиообъекта ʹAO1ʹ 11.
Соответственно, пользовательский интерфейс 6 конфигурируется для представления пользователю возможности манипулирования аудиообъектом для аудиообъекта 11, 12, выведенной из метаданных 4 анализатором 5 метаданных. Пользовательский интерфейс 6 дополнительно сконфигурирован для приема пользовательского ввода 7 от пользователя относительно конкретного манипулирования данными (например, конкретного уровня громкости или конкретного языка) для возможности манипулирования данными (например, диапазона регулировки уровня громкости или набора доступных языков).
Со ссылкой на Фиг.1 и 9, генератор 9 потока данных сконфигурирован для обработки потока 15 данных, содержащего кодированные аудиоданные 3 и метаданные 4, принятые интерфейсом 2 приемника, без декодирования кодированных аудиоданных 3. Например, при условии, что процессор 1 аудиоданных согласно изобретению реализован в телевизионной абонентской приставке 19, 26, он может пересылать выходной поток 10, 32 данных на внешний приемник 28, 33 аудио-видео, который содержит декодер. В этом случае, выходной поток 10, 32 данных может быть еще кодированным, поскольку декодирование будет выполняться не телевизионной абонентской приставкой 19, 26, а приемником 28, 33 аудио-видео.
Альтернативно, генератор 9 потока данных сконфигурирован для копирования кодированных аудиоданных 3 и метаданных 4 без изменений в выходном потоке 10 данных.
В любом случае генератор 9 потока данных сконфигурирован для добавления добавочной части данных, содержащей данные 8 управления взаимодействием, к кодированным аудиоданным 3 и/или метаданным 4 в выходном потоке 10 данных, как можно видеть на Фиг.4.
Со ссылкой на Фиг.5 генератор 9 потока данных дополнительно сконфигурирован, чтобы объединять два входных потока 15a, 15b в общий выходной поток 10, причем дополнительная часть данных, содержащая данные 8 управления взаимодействием, добавляется к кодированным аудиоданным 3 и/или метаданным 4 в выходном потоке 10 данных.
Предпочтительно, генератор 9 потока данных сконфигурирован для формирования в выходном потоке 10 данных данных 8 управления взаимодействием в том же формате, что и метаданные 4. Таким образом, данные 8 управления взаимодействием могут легко объединяться с доступными метаданными 4.
Если, как упомянуто выше, генератор 9 потока данных копирует метаданные 4, исходные метаданные 4 могут оставаться в выходном потоке 10 в дополнение к каким-либо манипулируемым метаданным, содержащим дополнительные данные 8 управления взаимодействием для соответственных аудиообъектов 11, 12. И исходные и манипулируемые метаданные могут посылаться на декодер 28, 33, чтобы позволять декодеру 28, 33 либо идентифицировать различия как результат взаимодействия (пользователя) и получать всю информацию о значениях по умолчанию, как предназначено создателем контента, либо вычислять результат взаимодействия (пользователя) из исходных метаданных 4 и манипулируемых метаданных 4ʹ (или данных 8 управления взаимодействием).
Кроме того со ссылкой на Фиг.1, генератор 9 потока данных сконфигурирован для динамического формирования выходного потока 10 данных. Каждый раз, когда пользователь или устройство обеспечивает новые вводимые данные 7 взаимодействия в интерфейс 6 взаимодействия, данные 8 управления взаимодействием обновляются соответственно, чтобы соответствовать упомянутым новым вводимым данным 7 взаимодействия. Генератор 9 потока данных включает эти обновленные данные 8 управления взаимодействием в выходной поток 10 данных.
Фиг. 6 показывает процессор 1 аудиоданных согласно изобретению, причем обрабатывается необязательная аудио информация. Как можно видеть, входной поток 15 данных является основным потоком аудиоданных, содержащим кодированные аудиоданные 3 и связанные метаданные 4. Кроме того, интерфейс 2 приемника дополнительно принимает необязательные аудиоданные 16, содержащие необязательный аудиообъект 17.
Однако метаданные, связанные с упомянутым дополнительным необязательным аудиообъектом ʹAOxʹ 17, то есть информация относительно возможностей манипулирования для упомянутого необязательного аудиообъекта ʹAOxʹ 17, содержится в основном потоке 15 аудиоданных. Таким образом, аудиообъект 17 является известным, но не присутствующим и, следовательно, необязательным.
Например, пользователь прослушивает оркестр, содержащий барабаны, струнные и фортепьяно. Духовые инструменты могут включаться по выбору. Если слушатель желает теперь добавить духовой инструмент, он может сделать это добавлением необязательного духового инструмента, например трубы, в качестве необязательного аудиообъекта 17. Поскольку возможности манипулирования для упомянутой трубы уже содержатся в метаданных 4 в основном потоке 15 аудиоданных, пользователь имеет возможность манипулирования добавленной в текущий момент трубой согласно своим желаниям.
Кроме того со ссылкой на Фиг. 6, упомянутый добавочный аудиообъект ʹAOxʹ 17 может быть отсутствующим аудиообъектом, который не включен в кодированные аудиоданные 3 и/или метаданные 4. Таким образом, аудиообъект 17 не является известным и, следовательно, является отсутствующим.
В этом случае, интерфейс 2 приемника конфигурируется для запроса аудиоданных 16, принадлежащих упомянутому отсутствующему аудиообъекту 17, от поставщика аудиоданных 35. Интерфейс 2 приемника также конфигурируется для приема упомянутых аудиоданных 16 из другого подпотока, содержащегося в широковещательном потоке 36. Интерфейс 2 приемника дополнительно конфигурируется для извлечения упомянутых аудиоданных 16 из сети Интернет 37 через соединение по межсетевому протоколу.
Например, пользователь, смотрящий фильм, может выбрать конкретный язык из доступного набора языков, содержащего, например, английский язык, немецкий язык и французский язык. Четвертый язык является известным, но не присутствующим и, следовательно, является отсутствующим. Однако четвертый язык может впоследствии обеспечиваться через сеть Интернет, например.
Снова со ссылкой на Фиг. 4 и 5, входной поток 15 данных и выходной поток 10 данных могут быть обычно доступными в пакетизированной структуре. Например, транспорт аудио MPEG-H поверх последовательных интерфейсов определен синтаксисом транспорта MHAS (см. раздел 13 в N14459 (проект текста документа Комитета ISO/IEC 23008-3) [1]). Этот синтаксис определяют пакетизированным образом.
Следовательно, для выполнения транспорта манипулируемых метаданных 4 или данных 8 управления взаимодействием только один дополнительный тип пакета подлежит назначению для новой управляющей информации.
Кроме того, первое устройство ʹустройство #1ʹ 19, содержащее процессор 1 аудиоданных, может пожелать добавить доб