Система и способ для генерирования, кодирования и представления данных адаптивного звукового сигнала
Иллюстрации
Показать всеИзобретение относится к обработке звуковых сигналов. Технический результат – повышение эффективности системы путем генерирования и представления звуковых сигналов в различных средах проигрывания. Предложенная система адаптивного звука обрабатывает аудиоданные, содержащие некоторое количество независимых монофонических аудиопотоков. С одним или несколькими из потоков были связаны метаданные, которые описывают, является указанный поток потоком на основе каналов или потоком на основе объектов. Потоки на основе каналов содержат информацию представления данных, кодированную посредством названия канала; а потоки на основе объектов содержат информацию местоположения, кодированную через выражения местоположения, закодированные в связанных метаданных. Кодек упаковывает независимые аудиопотоки в единую двоичную последовательность, которая содержит все аудиоданные. Такая конфигурация позволяет представлять данные звука в соответствии с аллоцентрической системой отсчета, в которой местоположение представления данных звука основывается на характеристиках среды проигрывания. Метаданные положения объектов содержат соответствующую информацию аллоцентрической системы отсчета, необходимую для верного проигрывания звука с использованием положений доступных громкоговорителей в помещении, которое приспособлено для проигрывания адаптивного звукового содержимого. 5 н. и 13 з.п. ф-лы, 11 ил., 12 табл.
Реферат
ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИ
[0001] Данная заявка заявляет приоритет предварительной заявки на патент США №61/504005, поданной 1 июля 2011 г., и предварительной заявки на патент США №61/636429, поданной 20 апреля 2012 г.; обе эти заявки ссылкой включаются в данное раскрытие полностью во всех отношениях.
ОБЛАСТЬ ТЕХНИЧЕСКОГО ПРИМЕНЕНИЯ
[0002] Одна или несколько реализаций, в общем, относятся к обработке звуковых сигналов и, конкретнее, к гибридной обработке звука на основе объектов и каналов для использования в кинематографических, домашних и других средах.
ПРЕДПОСЫЛКИ
[0003] Не следует полагать, что предмет изобретения, обсуждаемый в разделе предпосылок, представляет собой известный уровень техники единственно в результате его упоминания в разделе предпосылок. Аналогично, не следует полагать, что проблема, упоминаемая в разделе предпосылок или связанная с предметом изобретения в разделе предпосылок, является признанной на известном уровне техники. Предмет изобретения в разделе предпосылок лишь представляет различные подходы, которые сами по себе также могут представлять собой изобретения.
[0004] С момента введения звука в фильмы происходило устойчивое развитие технологии, предназначенной для фиксации художественного замысла создателя звуковой дорожки кинокартины и для его точного воспроизведения в среде кинотеатра. Основополагающая роль звука в кинематографии заключается в содействии сюжету на экране. Типичные звуковые дорожки для кинематографии содержат множество различных звуковых элементов, соответствующих элементам и изображениям на экране, диалогам, шумам и звуковым эффектам, которые исходят от различных элементов на экране и сочетаются с музыкальным фоном и эффектами окружающей среды, создавая общее впечатление от просмотра. Художественный замысел создателей и продюсеров отображает их желание воспроизводить указанные звуки таким образом, который как можно точнее соответствует тому, что демонстрируется на экране в том, что касается положения, интенсивности, перемещения и других аналогичных параметров источников звука.
[0005] Современная авторская разработка, распространение и проигрывание кинофильмов страдает от ограничений, которые сдерживают создание по-настоящему жизненного и создающего эффект присутствия звука. Традиционные аудиосистемы на основе каналов передают звуковое содержимое в форме сигналов, подаваемых на громкоговорители, для отдельных громкоговорителей в такой среде проигрывания, как стереофоническая система или система 5.1. Внедрение цифровой кинематографии создало такие новые стандарты звука в фильмах, как объединение до 16 звуковых каналов, что позволяет увеличить творческие возможности создателей содержимого, а также больший охват и реалистичность впечатлений от прослушивания для зрителей. Введение окружающих систем 7.1 обеспечило новый формат, который увеличивает количество окружающих каналов путем разбиения существующего левого и правого окружающих каналов на четыре зоны, что, таким образом, расширяет пределы возможностей операторов обработки и синтеза звука и операторов микширования при управлении местоположениями звуковых элементов в кинотеатре.
[0006] Для дальнейшего улучшения пользовательского восприятия, проигрывание звука в виртуальных трехмерных средах стало областью усиленных проектно-конструкторских разработок. Представление звука в пространстве использует звуковые объекты, которые представляют собой звуковые сигналы со связанными параметрическими описаниями источников для положений кажущегося источника (например, трехмерных координат), ширины кажущегося источника и других параметров. Звук на основе объектов во все возрастающей мере используется для многих современных мультимедийных приложений, таких как цифровые кинофильмы, видеоигры, симуляторы и трехмерное видео.
[0007] Решающим является выход за пределы традиционных сигналов, подаваемых на громкоговорители, и звука на основе каналов как средств распространения звука в пространстве, и существует значительный интерес к описанию звука на основе моделей, которое является многообещающим для того, чтобы давать слушателю/кинопрокатчику свободу выбора конфигурации проигрывания, которая соответствует их индивидуальным потребностям или бюджету, со звуком, данные которого представляются специально для выбранной ими конфигурации. На высоком уровне в настоящее время существует четыре основных формата пространственного описания звука: сигналы, подаваемые на громкоговорители, где звук описывается как сигналы, предназначенные для громкоговорителей в номинальных положениях громкоговорителей; сигнал, подаваемый на микрофон, где звук описывается как сигналы, захватываемые виртуальными или фактическими микрофонами в предварительно определяемом массиве; описание на основе моделей, в котором звук описывается в терминах последовательности звуковых событий в описываемых положениях; и бинауральный, в котором звук описывается сигналами, которые достигают ушей пользователя. Эти четыре формата описания часто связаны с одной или несколькими технологиями представления данных, которые преобразовывают звуковые сигналы в сигналы, подаваемые на громкоговорители. Современные технологии представления данных включают панорамирование, при котором аудиопоток преобразовывается в сигналы, подаваемые на громкоговорители, с использованием набора законов панорамирования и известных, или предполагаемых, положений громкоговорителей (как правило, представление данных происходит перед распространением); амбифонию, при которой сигналы микрофонов преобразовываются в подаваемые сигналы для масштабируемого массива громкоговорителей (как правило, представление данных происходит после распространения); WFS (синтез волнового поля), при котором звуковые события преобразовываются в соответствующие сигналы громкоговорителей для синтеза звукового поля (как правило, представление данных происходит после распространения); и бинауральную технологию, в которой бинауральные сигналы L/R (левый/правый) доставляются в уши L/R, как правило, с использованием наушников, но также с использованием громкоговорителей и подавления перекрестных помех (представление данных происходит до или после распространения). Среди этих форматов наиболее общим является формат подачи сигналов на громкоговорители, поскольку он является простым и эффективным. Наилучшие акустические результаты (наиболее точные, наиболее достоверные) достигаются путем микширования/текущего контроля и распространения непосредственно в сигналы, подаваемые на громкоговорители, поскольку между создателем содержимого и слушателем обработка отсутствует. Если проигрывающая система известна заранее, описание сигналов, подаваемых на громкоговорители, обычно обеспечивает наивысшую точность воспроизведения. Однако во многих применениях на практике проигрывающая система неизвестна. Наиболее адаптируемым считается описание на основе моделей, поскольку оно не делает предположений о технологии представления данных, и поэтому оно легче всего применяется для любой технологии представления данных. Несмотря на то, что описание на основе моделей эффективно собирает пространственную информацию, оно становится чрезвычайно неэффективным по мере увеличения количества источников звука.
[0008] В течение многих лет системы для кинематографии характеризовались дискретными экранными каналами в форме левого, центрального, правого и, иногда, «внутреннего левого» и «внутреннего правого» каналов. Эти дискретные источники обычно имеют достаточную амплитудно-частотную характеристику и коммутируемую мощность для того, чтобы позволять точно размещать звуки в разных областях экрана и допускать тембральное согласование по мере того, как звуки перемещаются, или панорамируются, между местоположениями. Современные разработки по усилению восприятия слушателя стремятся к точному воспроизведению местоположения звуков относительно слушателя. В установке 5.1 окружающие «зоны» включают массив громкоговорителей, все из которых несут одинаковую звуковую информацию в пределах каждой, левой окружающей или правой окружающей зоны. Указанные массивы могут быть эффективны для эффектов «окружающей среды» и рассеянного окружающего звука, однако в повседневной жизни многие звуковые эффекты возникают из случайно размещенных точечных источников. Например, в ресторане кажется, что окружающая музыка играет со всех сторон, в то время как из определенных точек возникают дискретные звуки: разговор человека – из одной точки, стук ножа по тарелке – из другой. Наличие возможности дискретного размещения этих звуков вокруг зрительного зала может создавать усиленное ощущение реальности, не являясь при этом слишком заметным. Также важной составляющей четкости окружающего звука являются звуки сверху. В реальном мире звуки приходят со всех направлений, и не всегда – из единственной горизонтальной плоскости. Дополнительное чувство реальности может достигаться, если звуки могут слышаться сверху, иными словами из «верхней полусферы». Современные системы, однако, не предлагают по-настоящему точного воспроизведения звука для разных типов звука для ряда разных сред проигрывания. Потребуется еще немало сделать в области обработки, знания и конфигурации фактических сред проигрывания, чтобы, используя существующие системы, попытаться точно воспроизводить местоположение определенных звуков и, таким образом, сделать современные системы негодными к употреблению для большинства применений.
[0009] То, что является необходимым, представляет собой систему, которая поддерживает несколько экранных каналов, что в результате приводит к повышенной четкости и улучшенной аудиовизуальной когерентности для звуков или диалога на экране и к возможности точно располагать источники где угодно в окружающих зонах, улучшая аудиовизуальный переход от экрана в помещение. Например, если герой на экране смотрит внутрь помещения в направлении источника звука, звукоинженер («оператор микширования») должен иметь возможность точно размещать звук так, чтобы он совпадал с линией взгляда героя и чтобы этот эффект был единообразным для всех зрителей. Однако при традиционном микшировании окружающего звука 5.1 или 7.1 эффект сильно зависит от положения посадочного места слушателя, что является неблагоприятным для большинства крупных сред прослушивания. Повышенное разрешение окружающего звука создает новые возможности для использования звука центрированным в помещении образом, в отличие от традиционного подхода, где содержимое создается в предположении единственного слушателя в «зоне наилучшего восприятия».
[0010] Помимо пространственных проблем, многоканальные системы на современном уровне техники страдают в отношении тембра. Например, при воспроизведении массивом громкоговорителей может страдать тембральное качество некоторых звуков, таких как шипение пара, выходящего из поврежденной трубы. Способность направлять определенные звуки в единственный громкоговоритель дает оператору микширования возможность устранять искажения при воспроизведении массивом и добиваться более реалистичного восприятия зрителями. Традиционно, окружающие громкоговорители не поддерживают столь же полный диапазон звуковых частот и уровень, которые поддерживают большие экранные каналы. В прошлом это создавало трудности для операторов микширования, уменьшая их возможности свободно перемещать широкополосные звуки от экрана в помещение. В результате, владельцы кинотеатров не ощущали необходимости в модернизации конфигурации окружающих каналов, что препятствовало широкому внедрению более высококачественных установок.
КРАТКОЕ ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ
[0011] Системы и способы описываются для формата звука для кинематографии и системы обработки данных, которая включает новый слой громкоговорителей (конфигурацию каналов) и связанный формат пространственного описания. Определена система адаптивного звука и формат, который поддерживает несколько технологий представления данных. Аудиопотоки передаются наряду с метаданными, которые описывают «замысел оператора микширования», включающий требуемое положение аудиопотока. Указанное положение может быть выражено как названный канал (из каналов в пределах предварительно определенной конфигурации каналов) или как информация о трехмерном положении. Такой формат – каналы плюс объекты - сочетает оптимальные способы описания звуковой картины на основе каналов и на основе моделей. Аудиоданные для системы адаптивного звука содержат некоторое количество независимых монофонических аудиопотоков. Каждый поток имеет связанные с ним метаданные, которые описывают, будет поток представлять собой поток на основе каналов или поток на основе объектов. Потоки на основе каналов содержат информацию представления данных, кодированную посредством названия канала; а потоки на основе объектов содержат информацию местоположения, кодированную через математические выражения, кодированные в дополнительных связанных метаданных. Оригинальные независимые аудиопотоки упаковываются как единая двоичная последовательность, которая содержит все аудиоданные. Данная конфигурация позволяет представлять звук в соответствии с аллоцентрической системой отсчета, в которой представление данных местоположения звука основывается на характеристиках среды проигрывания (например, на размере помещения, его форме и т.д.) для соответствия замыслу оператора микширования. Метаданные положения объекта содержат соответствующую информацию аллоцентрической системы координат, необходимую для правильного проигрывания звука с использованием положений доступных громкоговорителей в помещении, которое подготовлено для проигрывания адаптивного звукового содержимого. Это позволяет оптимально микшировать звук для определенной среды проигрывания, которая может отличаться от среды микширования, испытываемой звукоинженером.
[0012] Система адаптивного звука повышает качество звука в различных помещениях посредством таких преимуществ, как усовершенствованное управление коррекцией амплитудно-частотной характеристики в помещении и окружающими басами с тем, чтобы оператор микширования мог свободно обращаться к громкоговорителям (как находящимся на экране, так и вне экрана) без необходимости думать о тембральном согласовании. Система адаптивного звука добавляет в традиционные последовательности операций на основе каналов гибкость и возможности динамических звуковых объектов. Указанные звуковые объекты позволяют создателям контролировать дискретные звуковые элементы независимо от конкретных конфигураций проигрывающих громкоговорителей, в том числе верхних громкоговорителей. Система также вносит новую эффективность в процесс компоновки, позволяя звукоинженерам эффективно фиксировать все их замыслы а затем, в ходе текущего контроля в реальном времени или автоматически, генерировать версии окружающего звука 7.1 или 5.1.
[0013] Система адаптивного звука упрощает распространение, выделяя звуковую сущность художественного замысла в единый файл дорожки в устройстве обработки данных для цифровой кинематографии, который может точно проигрываться в широком диапазоне конфигураций кинотеатров. Система обеспечивает оптимальное воспроизведение художественного замысла, когда средства микширования и представления данных используют одинаковую конфигурацию каналов и единый инвентарь с нисходящей адаптацией к конфигурации представления данных, т.е. с понижающим микшированием.
[0014] Эти и другие преимущества представлены через варианты осуществления изобретения, которые направлены на звуковую платформу для кинематографии, обращаясь к ограничениям современных систем, и доставляют впечатления от звука, который находится за пределами досягаемости систем, доступных в настоящее время.
КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВ
[0015] В нижеследующих графических материалах сходные ссылочные позиции используются для ссылки на сходные элементы. Несмотря на то, что следующие фигуры изображают различные примеры, одна или несколько реализаций не ограничиваются примерами, изображенными на указанных фигурах.
[0016] ФИГ. 1 представляет собой общий вид сверху среды создания и проигрывания звука, использующей систему адаптивного звука согласно одному из вариантов осуществления изобретения.
[0017] ФИГ. 2 иллюстрирует объединение данных на основе каналов и на основе объектов с целью генерирования адаптивного звукового микса согласно одному из вариантов осуществления изобретения.
[0018] ФИГ. 3 представляет собой блок-схему, иллюстрирующую последовательность операций создания, упаковки и представления данных адаптивного звукового содержимого согласно одному из вариантов осуществления изобретения.
[0019] ФИГ. 4 представляет собой блок-схему этапа представления данных системы адаптивного звука согласно одному из вариантов осуществления изобретения.
[0020] ФИГ. 5 представляет собой таблицу, в которой перечисляются типы метаданных и связанные элементы метаданных для системы адаптивного звука согласно одному из вариантов осуществления изобретения.
[0021] ФИГ. 6 представляет собой схему, которая иллюстрирует компоновку и окончательную обработку для системы адаптивного звука согласно одному из вариантов осуществления изобретения.
[0022] ФИГ. 7 представляет собой схему одного из примеров последовательности операций процесса упаковки цифрового кинофильма с использованием файлов адаптивного звука согласно одному из вариантов осуществления изобретения.
[0023] ФИГ. 8 представляет собой вид сверху одного из примеров схемы расположения предполагаемых местоположений громкоговорителей для их использования с системой адаптивного звука в типовом зрительном зале.
[0024] ФИГ. 9 представляет собой вид спереди одного из примеров размещения предполагаемых местоположений громкоговорителей на экране для использования в типовом зрительном зале.
[0025] ФИГ. 10 представляет собой вид сбоку одного из примеров схемы расположения предполагаемых местоположений громкоговорителей для их использования с системой адаптивного звука в типовом зрительном зале.
[0026] ФИГ. 11 представляет собой один из примеров расположения верхних окружающих громкоговорителей и боковых окружающих громкоговорителей относительно начала отсчета согласно одному из вариантов осуществления изобретения.
ПОДРОБНОЕ ОПИСАНИЕ
[0027] Описываются системы и способы для системы адаптивного звука и связанного звукового сигнала и формата данных, которые поддерживают несколько технологий представления данных. Особенности для одного или нескольких вариантов осуществления изобретения, описываемые в данном раскрытии, могут реализовываться в аудиосистеме или аудиовизуальной системе, которая обрабатывает исходную звуковую информацию в системе микширования, представления данных и проигрывания, которая содержит один или несколько компьютеров или устройств обработки данных, исполняющих команды программного обеспечения. Любой из описываемых вариантов осуществления изобретения может использоваться сам по себе или совместно с какими-либо другими вариантами в любом сочетании. Несмотря на то, что различные варианты осуществления изобретения могли быть мотивированы различными недостатками на известном уровне техники, которые могут обсуждаться или упоминаться в одном или нескольких местах в данном описании, варианты осуществления изобретения необязательно обращаются к какому-либо из этих недостатков. Иными словами, различные варианты осуществления изобретения могут обращаться к различным недостаткам, которые могут обсуждаться в данном описании. Некоторые варианты осуществления изобретения могут лишь частично обращаться к некоторым недостаткам или только к одному недостатку, описываемому в данном описании, а некоторые варианты осуществления изобретения могут не обращаться ни к одному из этих недостатков.
[0028] Для целей настоящего описания нижеследующие термины имеют следующие связанные значения.
[0029] Канал, или звуковой канал: монофонический звуковой сигнал, или аудиопоток, плюс метаданные, в которых положение закодировано как идентификатор канала, например «левый передний» или «правый верхний окружающий». Канальный объект может управлять несколькими громкоговорителями, например, левые окружающие каналы (Ls) будут подаваться на громкоговорители массива Ls.
[0030] Конфигурация каналов: предварительно определенный набор зон громкоговорителей со связанными номинальными местоположениями, например, 5.1, 7.1 и т.д.; 5.1 относится к шестиканальной аудиосистеме окружающего звука, содержащей передние левый и правый каналы, центральный канал, два окружающих канала и сверхнизкочастотный канал; 7.1 относится к восьмиканальной системе окружающего звука, в которой к системе 5.1 добавлено два дополнительных окружающих канала. Примеры конфигураций 5.1 и 7.1 включают системы Dolby® surround.
[0031] Громкоговоритель: преобразователь звука или набор преобразователей, которые представляют данные звукового сигнала.
[0032] Зона громкоговорителей: массив из одного или нескольких громкоговорителей, которые могут быть однозначно отнесены и которые принимают единственный, например, левый окружающий, звуковой сигнал, обычно находятся в кинотеатре и, в частности, предназначены для исключения или включения в представление данных объекта.
[0033] Канал громкоговорителя, или канал сигнала, подаваемого на громкоговоритель: звуковой канал, который связан с названным громкоговорителем, или зоной громкоговорителей, в пределах определенной конфигурации громкоговорителей. Канал громкоговорителя обычно представляется с использованием связанной зоны громкоговорителей.
[0034] Группа каналов громкоговорителей: набор из одного или нескольких каналов громкоговорителей, соответствующих конфигурации каналов (например, со стереодорожками, монодорожками и т.д.).
[0035] Объект, или канал объекта: один или несколько звуковых каналов с таким параметрическим описанием источника, как положение кажущегося источника (например, трехмерные координаты), ширина кажущегося источника и т.д. Аудиопоток плюс метаданные, в которых положение закодировано как трехмерное положение в пространстве.
[0036] Звуковая программа: полный набор каналов громкоговорителей и/или объектных каналов и связанных метаданных, которые описывают требуемое представление звука в пространстве.
[0037] Аллоцентрическая система отсчета: пространственная система отсчета, в которой звуковые объекты определяются в пределах среды представления данных относительно таких признаков, как стены и углы помещения, стандартные местоположения громкоговорителей и местоположение экрана (например, передний левый угол помещения).
[0038] Эгоцентрическая система отсчета: пространственная система отсчета, в которой объекты определяются относительно перспективы (зрителей) слушателя, и которая часто определяется относительно углов по отношению к слушателю (например, 30 градусов справа от слушателя).
[0039] Кадр: кадры представляют собой короткие, независимо декодируемые сегменты, на которые разделяется полная звуковая программа. Размер и границы аудиокадров обычно выровнены с видеокадрами.
[0040] Адаптивный звук: звуковые сигналы на основе каналов и/или на основе объектов плюс метаданные, которые представляют данные звуковых сигналов на основе среды проигрывания.
[0041] Описываемый в данном раскрытии формат звука для кинематографии и система обработки данных, также именуемая «системой адаптивного звука», используют новую технологию описания и представления пространственных данных звука, позволяющую усиливать эффект присутствия у зрителей, повышать художественный контроль, гибкость и масштабируемость системы и простоту установки и обслуживания. Варианты осуществления звуковой платформы для кинематографии включают несколько дискретных компонентов, в том числе инструментальные средства микширования, устройство упаковки/кодер, устройство распаковки/декодер, компоненты окончательного микширования и представления данных в кинотеатре, новые схемы громкоговорителей и объединенные в сеть усилители. Система включает рекомендации для новой конфигурации каналов, подлежащей использованию создателями и кинопрокатчиками. Система использует описание на основе моделей, которое поддерживает несколько таких характерных признаков, как: единый инвентарь с нисходящей и восходящей адаптацией к конфигурации представления данных, т.е. отсроченное представление данных и обеспечение возможности оптимального использования доступных громкоговорителей; улучшенный охват звука, включение оптимизированного понижающего микширования во избежание корреляции между каналами; повышенное пространственное разрешение через сквозное управление массивами (например, звуковой объект динамически приписывается к одному или нескольким громкоговорителям в пределах массива окружающего звука); и поддержка альтернативных способов представления данных.
[0042] ФИГ. 1 представляет собой общий вид сверху среды создания и проигрывания звука, использующей систему адаптивного звука, согласно одному из вариантов осуществления изобретения. Как показано на ФИГ. 1, полная, непрерывная среда 100 содержит компоненты создания содержимого, упаковки, распространения и/или проигрывания/представления данных в большое количество конечных устройств и вариантов использования. Система 100 в целом ведет свое начало от содержимого, захваченного из и для некоторого количества разных вариантов использования, которые включают восприятие 112 зрителями. Элемент 102 захвата данных содержимого включает, например, кинематографию, телевидение, прямую трансляцию, содержимое, генерируемое пользователем, записанное содержимое, игры, музыку и т.п. и может включать звуковое/визуальное или чисто звуковое содержимое. Содержимое по мере продвижения через систему 100 от этапа 102 захвата данных к восприятию 112 конечными пользователями проходит несколько ключевых этапов обработки через дискретные компоненты системы. Указанные этапы процесса включают предварительную обработку звука 104, инструментальные средства и процессы 106 авторской разработки, кодирование аудиокодеком 108, который ведет сбор, например, аудиоданных, дополнительных метаданных и информации воспроизведения, и объектные каналы. Для успешного и защищенного распространения посредством различных носителей, к объектным каналам могут применяться такие разнообразные воздействия обработки, как сжатие (с потерями или без потерь), шифрование и т.п. Для воспроизведения и передачи определенного восприятия 112 пользователем адаптивного звука, затем применяются соответствующие специфичные для конечных точек процессы 110 декодирования и представления данных. Восприятие 112 звука представляет проигрывание звукового или аудиовизуального содержимого через соответствующие громкоговорители и проигрывающие устройства, и может представлять любую среду, в которой слушатель испытывает воспроизведение захваченного содержимого, такую как кинотеатр, концертный зал, открытый кинотеатр, дом или помещение, кабинка для прослушивания, автомобиль, игровая приставка, наушники или гарнитура, система оповещения или другая проигрывающая среда.
[0043] Данный вариант осуществления системы 100 включает аудиокодек 108, который способен эффективно распространять и хранить в памяти многоканальные звуковые программы, и поэтому может именоваться как «гибридный» кодек. Кодек 108 сочетает традиционные аудиоданные на основе каналов со связанными метаданными, образуя звуковые объекты, которые облегчают создание и доставку звука, который является адаптированным и оптимизированным для представления данных и проигрывания в средах, которые, возможно, отличаются от среды микширования. Это позволяет звукоинженеру кодировать его или ее замысел в том, как конечный звук должен слышаться слушателем, на основе фактической среды прослушивания слушателем.
[0044] Традиционные аудиокодеки на основе каналов действуют в предположении, что звуковая программа будет воспроизводиться массивом громкоговорителей, находящихся в предварительно определенных положениях относительно слушателя. Для создания полной многоканальной звуковой программы, звукоинженеры обычно микшируют большое количество отдельных аудиопотоков (например, диалог, музыку, эффекты) с целью создания требуемого общего восприятия. При микшировании звука решения обычно принимаются путем прослушивания звуковой программы, воспроизводимой массивом громкоговорителей, находящихся в предварительно определенных положениях, например, в частности, в системе 5.1 или 7.1 в определенном кинотеатре. Конечный, микшированный сигнал служит вводом в аудиокодек. Пространственно точные звуковые поля достигаются при воспроизведении только тогда, когда громкоговорители размещаются в предварительно определенных положениях.
[0045] Одна из новых форм кодирования звука, называемая кодированием звуковых объектов, предусматривает в качестве ввода в кодер отдельные источники звука (звуковые объекты) в форме отдельных аудиопотоков. Примеры звуковых объектов включают диалоговые дорожки, отдельные инструменты, отдельные звуковые эффекты и другие точечные источники. Каждый звуковой объект связан с пространственными параметрами, которые могут включать в качестве неограничивающих примеров положение звука, ширину звука и информацию скорости. Для распространения и хранения, звуковые объекты и связанные параметры затем кодируются. Окончательное микширование и представление данных звукового объекта выполняется на стороне приема в цепи распространения звука как часть проигрывания звуковой программы. Этот этап может основываться на сведениях о фактических положениях громкоговорителей, поэтому результатом является система распространения звука, которая является настраиваемой в соответствии с условиями прослушивания конкретным пользователем. Две указанные формы кодирования, на основе каналов и на основе объектов, оптимально действуют для разных условий входного сигнала. Аудиокодеры на основе каналов обычно более эффективны для кодирования входных сигналов, содержащих плотные смеси разных источников звука, а также для рассеянных звуков. Кодеры звуковых объектов, наоборот, более эффективны для кодирования небольшого количества высоконаправленных источников звука.
[0046] В одном из вариантов осуществления изобретения, способы и компоненты системы 100 включают систему кодирования, распространения и декодирования звука, сконфигурированную для генерирования одного или нескольких битовых потоков, содержащих как традиционные звуковые элементы на основе каналов, так и элементы кодирования звуковых объектов. Такой комбинированный подход обеспечивает бóльшую эффективность кодирования и гибкость представления данных по сравнению с взятыми по отдельности подходами на основе каналов и на основе объектов.
[0047] Другие особенности описываемых вариантов осуществления изобретения включают расширение обратно совместимым образом предварительно определенного аудиокодека на основе каналов для включения элементов кодирования звуковых объектов. Новый «слой расширения», содержащий элементы кодирования звуковых объектов, определяется и добавляется к «основному», или «обратно совместимому», слою битового потока аудиокодека на основе каналов. Такой подход позволяет унаследованным декодерам обрабатывать один или несколько битовых потоков, которые содержат слой расширения, и, в то же время, обеспечивает улучшенное впечатление от прослушивания для пользователей с новыми декодерами. Один из примеров усиления пользовательского восприятия включает управление представлением данных звукового объекта. Дополнительным преимуществом этого подхода является то, что звуковые объекты могут добавляться или модифицироваться повсюду на протяжении цепочки распространения без декодирования/микширования/повторного кодирования многоканального звука, кодированного аудиокодеком на основе каналов.
[0048] В отношении системы координат, пространственные эффекты звуковых сигналов являются решающими при обеспечении для слушателя впечатления эффекта присутствия. Звуки, которые подразумеваются как исходящие из определенной области зрительного экрана или помещения должны воспроизводиться через громкоговоритель (громкоговорители), расположенный в том же самом относительном местоположении. Поэтому первичным элементом метаданных звука для звукового события в описании на основе моделей является положение, хотя могут также описываться и такие другие параметры, как размер, ориентация, скорость и дисперсия звука. Для передачи положения трехмерное пространственное описание звука на основе моделей требует трехмерной системы координат. Система координат, используемая для передачи (эвклидова, сферическая и т.д.), обычно выбирается для удобства или компактности, однако для обработки представления данных могут использоваться и другие системы координат. В дополнение к системе координат, для представления местоположений объектов в пространстве, требуется система отсчета. Выбор надлежащей системы отсчета может быть решающим фактором точного воспроизведения звука системами на основе положения во множестве различных сред. В аллоцентрической системе отсчета положение источника звука определяется относительно таких признаков в пределах среды представления данных, как стены и углы помещения, стандартные местоположения громкоговорителей и местоположение экрана. В эгоцентрической системе отсчета местоположения представляются относительно перспективы слушателя, как, например, «передо мной, немного влево», и т.д. Научные исследования пространственного восприятия (звука и др.) показали, что наиболее универсальным является использование эгоцентрической перспективы. Однако для кинематографа по ряду причин более подходящей является аллоцентрическая система. Например, точное местоположение звукового объекта является более важным, когда связанный объект находится на экране. При использовании аллоцентрической системы отсчета для каждого положения прослушивания и для экрана любого размера, звук будет локализоваться в одном и том же положении на экране, например, на треть левее середины экрана. Другой причиной является то, что операторы микширования склонны рассуждать и микшировать в аллоцентрическом исчислении, и средства панорамирования компонуются в аллоцентрической системе отсчета (стены помещения), и операторы микширования ожидают, что представляться эти средства будут именно таким образом, например, «этот звук должен находиться на экране», «этот звук должен находиться за экраном» или «от левой стены» и т.д.
[0049] Несмотря на использование аллоцентрической системы отсчета в среде для кинематографии, существуют некоторые случаи, для которых может быть полезна эгоцентрическая система отсчета. Эти случаи включают закадровые звуки, т.е. звуки, которые не присутствуют в «пространстве фильма», например, музыкальное сопровождение, для которого может требоваться однородное эгоцентрическое представление. Другой случай – эффекты в ближней зоне (например, жужжание комара в левом ухе слушателя), которые требуют эгоцентрического представления. В настоящее время не существует средств для представления данных такого ближнего звукового поля с использованием наушников или громкоговорителей ближней зоны. Кроме того, бесконечно удаленные источники звука (и результирующие плоские волны) кажутся приходящими из постоянного эгоцентрического положения (например, 30 градусов слева), и такие звуки легче описать в эгоцентрическом исчислении, а не в аллоцентрическом.
[0050] В некоторых случаях, можно использовать аллоцентрическую систему отсчета до тех пор, пока определено номинальное положение прослушивания, несмотря на то, что некоторые примеры требуют эгоцентрического