Временное согласование данных обработки на основе квадратурного зеркального фильтра
Иллюстрации
Показать всеИзобретение относится к средствам для временного согласования данных обработки на основе квадратурного зеркального фильтра. Технический результат заключается в уменьшении задержки при кодировании и декодировании звука. Определяют восстановленный кадр звукового сигнала по блоку доступа принимаемого потока данных. Причем блок доступа содержит данные о форме сигнала и метаданные. Причем данные о форме сигнала и метаданные связаны с одним и тем же восстановленным кадром звукового сигнала. Генерируют множество форм субполосных сигналов по данным о форме сигнала. Генерируют декодированные метаданные по метаданным. Согласовывают по времени множества форм субполосных сигналов и декодированных метаданных. Генерируют восстановленный кадр звукового сигнала по согласованному по времени множеству форм субполосных сигналов и декодированных метаданных. 5 н. и 32 з.п. ф-лы, 6 ил., 1 табл.
Реферат
ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИ
Настоящая заявка испрашивает приоритет Предварительной Заявки на Патент Соединенных Штатов № 61/877.194, зарегистрированной 12 сентября 2013 г., и Предварительной Заявки на Патент Соединенных Штатов № 61/909.593, зарегистрированной 27 ноября 2013 г., содержание каждой из которых полностью включено в настоящий документ путем ссылки.
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Настоящее изобретение относится к временному согласованию кодированных данных звукового кодера с соответствующими метаданными, такими как метаданные копирования спектрального диапазона (SBR), в частности, Высокоэффективного (НЕ) Усовершенствованного Звукового Кодирования (ААС).
УРОВЕНЬ ТЕХНИКИ ИЗОБРЕТЕНИЯ
Техническая проблема в области звукового кодирования состоит в создании систем звукового кодирования и декодирования, обладающих малой задержкой, например, с целью обеспечения возможности решения прикладных задач реального времени, таких как прямая трансляция. Кроме того, целесообразно создавать системы звукового кодирования и декодирования, обменивающиеся кодированными битовыми потоками, которые могут соединяться с другими битовыми потоками. Помимо этого, следует создавать вычислительно эффективные системы звукового кодирования и декодирования, чтобы обеспечивать экономически эффективную реализацию систем. В настоящем документе рассматривается техническая проблема создания кодированных битовых потоков, которые могут соединяться эффективным образом, вместе с тем одновременно поддерживая время задержки на соответствующем уровне для прямой трансляции. В настоящем документе описывается система звукового кодирования и декодирования, которая обеспечивает соединение битовых потоков с приемлемыми задержками при кодировании, тем самым, обеспечивая возможность решения прикладных задач, таких как прямая трансляция, в которых транслируемый битовый поток может генерироваться из множества исходных битовых потоков.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
В соответствии с одним из аспектов, описывается звуковой декодер, выполненный с возможностью определения восстановленного кадра звукового сигнала по блоку доступа принимаемого потока данных. Как правило, поток данных содержит последовательность блоков доступа для определения соответствующей последовательности восстановленных кадров звукового сигнала. Кадр звукового сигнала, как правило, содержит заранее задаваемое число N выборок временной области звукового сигнала (при величине N, большей единицы). В этой связи, последовательность блоков доступа может соответственно описывать последовательность кадров звукового сигнала.
Блок доступа содержит данные о форме сигнала и метаданные, причем данные о форме сигнала и метаданные связаны с одним и тем же восстановленным кадром звукового сигнала. Иными словами, данные о форме сигнала и метаданные для определения восстановленного кадра звукового сигнала содержатся в одном и том же блоке доступа. Каждый из блоков доступа в последовательности блоков доступа может содержать данные о форме сигнала и метаданные для генерирования соответствующего восстановленного кадра в последовательности восстановленных кадров звукового сигнала. В частности, блок доступа конкретного кадра может содержать (например, все) данные, необходимые для определения восстановленного кадра для конкретного кадра.
В одном из примеров блок доступа конкретного кадра может содержать (например, все) данные, необходимые для реализации схемы восстановления высоких частот (HFR) для генерирования сигнала верхнего диапазона конкретного кадра на основе сигнала нижнего диапазона конкретного кадра (содержащегося в данных о форме сигнала ии блока доступа) и на основе декодированных метаданных.
В качестве альтернативы или помимо этого, блок доступа конкретного кадра может содержать (например, все) данные, необходимые для реализации расширения динамического диапазона конкретного кадра. В частности, расширение или развертывание сигнала нижнего диапазона конкретного кадра может осуществляться на основе декодированных метаданных. С этой целью декодированные метаданные могут содержать один или более из параметров развертывания. Указанные один или более из параметров развертывания могут свидетельствовать об одном или более из следующего: должно или нет сжатие/расширение применяться к конкретному кадру; должно или нет сжатие/расширение применяться равномерным образом для всех каналов многоканального звукового сигнала (т.е., должен ли применяться один и тот же коэффициент (коэффициенты) усиления развертывания для всех каналов многоканального звукового сигнала, или должен ли применяться различный коэффициент (коэффициенты) усиления развертывания для различных каналов многоканального звукового сигнала); и/или о временном разрешении коэффициента усиления развертывания.
Обеспечение в последовательности блоков доступа таких блоков доступа, каждый из которых содержит данные, необходимые для генерирования соответствующего восстановленного кадра звукового сигнала, независимо от предыдущего или следующего блока доступа, целесообразно для решения задач соединения, поскольку это позволяет соединять поток данных между двумя смежными блоками доступа, не оказывая влияния на качество восприятия восстановленного кадра звукового сигнала в точке соединения (например, непосредственно вслед за ней).
В одном из примеров восстановленный кадр звукового сигнала содержит сигнал нижнего диапазона и сигнал верхнего диапазона, причем данные о форме сигнала ии указывают сигнал нижнего диапазона, и причем метаданные указывают огибающую спектра сигнала верхнего диапазона. Сигнал нижнего диапазона может соответствовать компоненте звукового сигнала, охватывающей диапазон относительно низких частот (например, содержащей частоты, меньшие заранее задаваемой частоты разделения). Сигнал верхнего диапазона может соответствовать компоненте звукового сигнала, охватывающей диапазон относительно высоких частот (например, содержащей частоты, большие заранее задаваемой частоты разделения). Сигнал нижнего диапазона и сигнал верхнего диапазона могут дополнять друг друга в отношении диапазона частот, охватываемого сигналом нижнего диапазона и сигналом верхнего диапазона. Звуковой декодер может быть выполнен с возможностью осуществления восстановления высоких частот (HFR), такого как копирование спектрального диапазона (SBR), сигнала верхнего диапазона с помощью метаданных и данных о форме сигнала . В этой связи, метаданные могут содержать метаданные HFR или SBR, указывающие огибающую спектра сигнала верхнего диапазона.
Звуковой декодер может содержать тракт обработки формы сигнала, выполненный с возможностью генерирования множества форм субполосных сигналов по данным о форме сигнала . Множество форм субполосных сигналов может соответствовать представлению формы сигнала во временной области в области субполосы (например, в области квадратурного зеркального фильтра (QMF)). Форма сигнала во временной области может соответствовать вышеуказанному сигналу нижнего диапазона, а множество форм субполосных сигналов может соответствовать множеству сигнала нижнего диапазона. Кроме того, звуковой декодер может содержать тракт обработки метаданных, выполненный с возможностью генерирования декодированных метаданных по метаданным.
Помимо этого, звуковой декодер может содержать блок применения и синтеза метаданных, выполненный с возможностью генерирования восстановленного кадра звукового сигнала по множеству форм субполосных сигналов и по декодированным метаданным. В частности, блок применения и синтеза метаданных может быть выполнен с возможностью реализации схемы HFR и/или SBR для генерирования множества (например, масштабированных) субполосных сигналов верхнего диапазона по множеству форм субполосных сигналов (т.е., в этом случае по множеству субполосных сигналов нижнего диапазона) и по декодированным метаданным. Восстановленный кадр звукового сигнала может при этом определяться на основе множества (например, масштабированных) субполосных сигналов верхнего диапазона и на основе множества сигналов нижнего диапазона.
В качестве альтернативы или помимо этого, звуковой декодер может содержать блок развертывания, выполненный с возможностью осуществления расширения - или выполненный с возможностью расширения - множества форм субполосных сигналов с помощью, по меньшей мере, некоторых декодированных метаданных, в частности, с помощью указанных одного или более из параметров развертывания, входящих в декодированные метаданные. С этой целью блок развертывания может быть выполнен с возможностью применения одного или более из коэффициентов усиления развертывания к множеству форм субполосных сигналов. Блок развертывания может быть выполнен с возможностью определения указанных одного или более из коэффициентов усиления развертывания на основе множества форм субполосных сигналов, на основе одного или более из заранее задаваемых правил или функций сжатия/развертывания и/или на основе указанных одного или более из параметров развертывания.
Тракт обработки формы сигнала и/или тракт обработки метаданных может включать в себя, по меньшей мере, один блок задержки, выполненный с возможностью временного согласования множества форм субполосных сигналов и декодированных метаданных. В частности, указанный, по меньшей мере, один блок задержки может быть выполнен с возможностью временного согласования множества форм субполосных сигналов и декодированных метаданных и/или введения, по меньшей мере, одной задержки в тракт обработки формы сигнала и/или в тракт обработки метаданных таким образом, что полная задержка тракта обработки формы сигнала соответствует полной задержке тракта обработки метаданных. В качестве альтернативы или помимо этого, указанный, по меньшей мере, один блок задержки может быть выполнен с возможностью временного согласования множества форм субполосных сигналов и декодированных метаданных таким образом, что множество форм субполосных сигналов и декодированные метаданные своевременно выдаются в блок применения и синтеза метаданных для обработки, выполняемой блоком применения и синтеза метаданных. В частности, множество форм субполосных сигналов и декодированные метаданные могут выдаваться в блок применения и синтеза метаданных таким образом, что блок применения и синтеза метаданных не обязательно должен буферизовать множество форм субполосных сигналов и/или декодированные метаданные перед выполнением обработки (например, обработки HFR или SBR) множества форм субполосных сигналов и/или декодированных метаданных.
Иными словами, звуковой декодер может быть выполнен с возможностью задержки выдачи декодированных метаданных и/или множества форм субполосных сигналов в блок применения и синтеза метаданных, который может быть выполнен с возможностью реализации схемы HFR, таким образом, что декодированные метаданные и/или множество форм субполосных сигналов выдаются для обработки по мере необходимости. Введенная задержка может выбираться для уменьшения (например, минимизации) полной задержки аудиокодека (содержащего звуковой декодер и соответствующий звуковой кодер), вместе с тем одновременно обеспечивая соединение битового потока, содержащего последовательность блоков доступа. В этой связи, звуковой декодер может быть выполнен с возможностью обработки согласованных по времени блоков доступа, которые содержат данные о форме сигнала и метаданные, для определения конкретного кадра звукового сигнала при минимальном влиянии на полную задержку аудиокодека. Кроме того, звуковой декодер может быть выполнен с возможностью обработки согласованных по времени блоков доступа без необходимости повторной выборки метаданных. При этом звуковой декодер выполнен с возможностью определения конкретного восстановленного кадра звукового сигнала вычислительно эффективным образом и без ухудшения качества звука. Следовательно, звуковой декодер может быть выполнен с возможностью обеспечения решения задач соединения вычислительно эффективным образом, вместе с тем сохраняя высокое качество звука и малую полную задержку.
Кроме того, использование, по меньшей мере, одного блока задержки, выполненного с возможностью временного согласования множества форм субполосных сигналов и декодированных метаданных, может обеспечивать точное и стабильное временное согласование множества форм субполосных сигналов и декодированных метаданных в области субполосы (в которой, как правило, выполняется обработка множества форм субполосных сигналов и декодированных метаданных).
Тракт обработки метаданных может включать в себя блок задержки метаданных, выполненный с возможностью задержки декодированных метаданных на большее нуля целое кратное длины N восстановленного кадра звукового сигнала. Дополнительная задержка, которая вносится блоком задержки метаданных, может называться задержкой метаданных. Длина N может соответствовать числу N выборок во временной области, содержащихся в восстановленном кадре звукового сигнала. Целое кратное может быть таким, что задержка, вносимая блоком задержки метаданных, больше задержки, вносимой обработкой тракта обработки формы сигнала (например, без учета дополнительной задержки формы сигнала, вносимой в тракт обработки формы сигнала). Задержка метаданных может зависеть от длины N восстановленного кадра звукового сигнала. Это может быть связано с тем, что задержка, вызываемая обработкой в тракте обработки формы сигнала, зависит от длины N кадра. В частности, целое кратное может составлять единицу для длин N кадра, превышающих 960, и/или целое кратное может составлять два для длин N кадра, не превышающих 960.
Как указано выше, блок применения и синтеза метаданных может быть выполнен с возможностью обработки декодированных метаданных и множества форм субполосных сигналов в области субполосы (например, в области QMF). Кроме того, декодированные метаданные могут указывать метаданные (например, указывать спектральные коэффициенты, описывающие огибающую спектра сигнала верхнего диапазона) в области субполосы. Помимо этого, блок задержки метаданных может быть выполнен с возможностью задержки декодированных метаданных. Использование задержек метаданных, которые являются большими нуля целыми кратными длины N кадра, может оказаться целесообразным, поскольку это обеспечивает стабильное выравнивание множества форм субполосных сигналов и декодированных метаданных в области субполосы (например, для обработки в блоке применения и синтеза метаданных). В частности, это гарантирует, что декодированные метаданные могут применяться к надлежащему кадру формы сигнала (т.е., к надлежащему кадру множества форм субполосных сигналов) без необходимости повторной выборки метаданных.
Тракт обработки формы сигнала может содержать блок задержки формы сигнала, выполненный с возможностью задержки множества форм субполосных сигналов таким образом, что полная задержка тракта обработки формы сигнала соответствует большему нуля целому кратному длины N восстановленного кадра звукового сигнала. Дополнительная задержка, которая вносится блоком задержки формы сигнала, может называться задержкой формы сигнала. Целое кратное тракта обработки формы сигнала может соответствовать целому кратному тракта обработки метаданных.
Блок задержки формы сигнала и/или блок задержки метаданных могут быть реализованы в виде буферов, которые выполнены с возможностью хранения множества форм субполосных сигналов и/или декодированных метаданных в течение промежутка времени, соответствующего задержке формы сигнала, и/или в течение промежутка времени, соответствующего задержке метаданных. Блок задержки формы сигнала может быть установлен в любом месте в тракте обработки формы сигнала перед блоком применения и синтеза метаданных. В этой связи, блок задержки формы сигнала может быть выполнен с возможностью задержки данных о форме сигнала и/или множества форм субполосных сигналов (и/или промежуточных данных или сигналов в тракте обработки формы сигнала). В одном из примеров блок задержки формы сигнала может быть распределен вдоль тракта обработки формы сигнала, причем каждый из распределенных блоков задержки обеспечивает некоторую долю полной задержки формы сигнала. Распределение блока задержки формы сигнала может оказаться целесообразным для экономически-эффективной реализации блока задержки формы сигнала. Аналогично блоку задержки формы сигнала, блок задержки метаданных может быть установлен в любом месте в тракте обработки метаданных перед блоком применения и синтеза метаданных. Кроме того, блок задержки формы сигнала может быть распределен вдоль тракта обработки метаданных.
Тракт обработки формы сигнала может содержать блок декодирования и деквантизации, выполненный с возможностью декодирования и деквантизации данных о форме сигнала для получения множества частотных коэффициентов, указывающих форму сигнала. В этой связи, данные о форме сигнала могут содержать множество частотных коэффициентов или могут указывать их, что обеспечивает генерирование формы сигнала восстановленного кадра звукового сигнала. Кроме того, тракт обработки формы сигнала может содержать блок синтеза формы сигнала, выполненный с возможностью генерирования формы сигнала по множеству частотных коэффициентов. Блок синтеза формы сигнала может быть выполнен с возможностью осуществления преобразования из частотной области во временную область. В частности, блок синтеза формы сигнала может быть выполнен с возможностью осуществления обратного модифицированного дискретного косинусного преобразования (MDCT). Блок синтеза формы сигнала или обработка блока синтеза формы сигнала могут вносить задержку, которая зависит от длины N восстановленного кадра звукового сигнала. В частности, задержка, вносимая блоком синтеза формы сигнала, может соответствовать длине N кадра.
После восстановления формы сигнала по данным о форме сигнала может обрабатываться в соответствии с декодированными метаданными. В одном из примеров формы сигнал может использоваться применительно к схеме HFR или SBR для определения сигнала верхнего диапазона с помощью декодированных метаданных. С этой целью тракт обработки формы сигнала может содержать блок анализа, выполненный с возможностью генерирования множества форм субполосных сигналов по форме сигнала. Блок анализа может быть выполнен с возможностью осуществления преобразования из временной области в область субполосы, например, путем применения набора квадратурных зеркальных фильтров (QMF). Как правило, частотное разрешение преобразования, выполняемого блоком синтеза формы сигнала, выше (например, по меньшей мере, в 5 или 10 раз), чем частотное разрешение преобразования, выполняемого блоком анализа. Это может обозначаться терминами «частотная область» и «область субполосы», причем частотная область может быть связана с более высоким частотным разрешением, чем область субполосы. Блок анализа может вносить постоянную задержку, которая не зависит от длины N восстановленного кадра звукового сигнала. Постоянная задержка, которая вносится блоком анализа, может зависеть от длины фильтров в наборе фильтров, используемом блоком анализа. Например, постоянная задержка, которая вносится блоком анализа, может соответствовать 320 выборкам звукового сигнала.
Полная задержка тракта обработки формы сигнала может дополнительно зависеть от заранее определенного прогноза между метаданными и данными о форме сигнала. Такой прогноз может оказаться целесообразным для увеличения непрерывности между смежными восстановленными кадрами звукового сигнала. Заранее задаваемый прогноз и/или соответствующая задержка прогноза могут соответствовать 192 или 384 выборкам звуковой выборки. Задержка прогноза может представлять собой задержку в случае определения метаданных HFR или SBR, указывающих огибающую спектра сигнала верхнего диапазона. В частности, прогноз может позволять соответствующему звуковому кодеру определять метаданные HFR или SBR конкретного кадра звукового сигнала на основе заранее задаваемого числа выборок от непосредственно следующего кадра звукового сигнала. Это может оказаться целесообразным в тех случаях, когда конкретный кадр включает в себя акустический переходный процесс. Задержка прогноза может применяться блоком задержки прогноза, содержащимся в тракте обработки формы сигнала.
В этой связи, полная задержка тракта обработки формы сигнала, т.е., задержка формы сигнала может зависеть от различной обработки, которая выполняется в тракте обработки формы сигнала. Кроме того, задержка формы сигнала может зависеть от задержки метаданных, которая вносится в тракт обработки метаданных. Задержка формы сигнала может соответствовать произвольному кратному выборки звукового сигнала. По этой причине может оказаться целесообразным использовать блок задержки формы сигнала, который выполнен с возможностью задержки формы сигнала, причем форма сигнала представлена во временной области. Иными словами, может оказаться целесообразным применять задержку формы сигнала к форме сигнала. При этом может обеспечиваться точное и стабильное применение задержки формы сигнала, которая соответствует произвольному кратному выборки звукового сигнала.
Один из примеров декодера может содержать блок задержки метаданных, который выполнен с возможностью применения задержки метаданных к метаданным, причем метаданные могут быть представлены в области субполосы, и блок задержки формы сигнала, который выполнен с возможностью применения задержки формы сигнала к форме сигнала, представленному во временной области. Блок задержки метаданных может применять задержку метаданных, которая соответствует целому кратному длины N кадра, а блок задержки формы сигнала может применять задержку метаданных, которая соответствует целому кратному выборки звукового сигнала. Вследствие этого, может обеспечиваться точное и стабильное выравнивание множества форм субполосных сигналов и декодированных метаданных для обработки в блоке применения и синтеза метаданных. Обработка множества форм субполосных сигналов и декодированных метаданных может происходить в области субполосы. Выравнивание множества форм субполосных сигналов и декодированных метаданных может достигаться без повторной выборки декодированных метаданных, тем самым обеспечивая вычислительно эффективное и сохраняющее качество средство выравнивания.
Как отмечалось выше, звуковой декодер может быть выполнен с возможностью реализации схемы HFR или SBR. Блок применения и синтеза метаданных может содержать блок применения метаданных, который выполнен с возможностью осуществления восстановления высоких частот (такого как SBR) с помощью множества сигналов нижнего диапазона и с помощью декодированных метаданных. В частности, блок применения метаданных может быть выполнен с возможностью транспонирования одного или более из множества сигналов нижнего диапазона для генерирования множества субполосных сигналов верхнего диапазона. Кроме того, блок применения метаданных может быть выполнен с возможностью применения декодированных метаданных к множеству субполосных сигналов верхнего диапазона для получения множества масштабированных субполосных сигналов верхнего диапазона. Множество масштабированных субполосных сигналов верхнего диапазона может указывать сигнал верхнего диапазона восстановленного кадра звукового сигнала. Для генерирования восстановленного кадра звукового сигнала блок применения и синтеза метаданных может дополнительно содержать блок синтеза, выполненный с возможностью генерирования восстановленного кадра звукового сигнала из множества сигналов нижнего диапазона и из множества масштабированных субполосных сигналов верхнего диапазона. Блок синтеза может быть выполнен с возможностью осуществления обратного преобразования по отношению к преобразованию, осуществляемому блоком анализа, например, путем применения набора обратных QMF. Число фильтров, содержащихся в наборе фильтров блока синтеза, может быть выше, чем число фильтров, содержащихся в наборе фильтров блока анализа (например, для учета расширенного диапазона частот ввиду множества масштабированных субполосных сигналов верхнего диапазона).
Как указано выше, звуковой декодер может содержать блок развертывания. Блок развертывания может быть выполнен с возможностью изменения (например, увеличения) динамического диапазона множества форм субполосных сигналов. Блок развертывания может быть установлен перед блоком применения и синтеза метаданных. В частности, множество развернутых форм субполосных сигналов может использоваться для реализации схемы HFR или SBR. Иными словами, множество сигналов нижнего диапазона, используемых для реализации схемы HFR или SBR, может соответствовать множеству развернутых форм субполосных сигналов на выходе блока развертывания.
Блок развертывания предпочтительно устанавливается после блока задержки прогноза. В частности, блок развертывания может устанавливаться между блоком задержки прогноза и блоком применения и синтеза метаданных. Благодаря установке блока развертывания после блока задержки прогноза, т.е., благодаря применению задержки прогноза к данным о форме сигнала до развертывания множества форм субполосных сигналов гарантируется, что указанные один или более из параметров развертывания, содержащихся в метаданных, применяются к надлежащим данным о форме сигнала. Иными словами, осуществление развертывания данных о форме сигнала, которые уже были задержаны с помощью задержки прогноза, гарантирует, что указанные один или более из параметров развертывания из метаданных синхронизированы с данными о форме сигнала.
В этой связи, декодированные метаданные могут содержать один или более из параметров развертывания, а звуковой декодер может содержать блок развертывания, выполненный с возможностью генерирования множества развернутых форм субполосных сигналов на основе множества форм субполосных сигналов с помощью указанных одного или более из параметров развертывания. В частности, блок развертывания может быть выполнен с возможностью генерирования множества развернутых форм субполосных сигналов с помощью обратной функции по отношению к заранее задаваемой функции сжатия. Указанные один или более из параметров развертывания могут указывать обратную функцию по отношению к заранее задаваемой функции сжатия. Восстановленный кадр звукового сигнала может определяться по множеству развернутых форм субполосных сигналов.
Как указано выше, звуковой декодер может содержать блок задержки прогноза, выполненный с возможностью задержки множества форм субполосных сигналов в соответствии с заранее задаваемым прогнозом для получения множества задержанных форм субполосных сигналов. Блок развертывания может быть выполнен с возможностью генерирования множества развернутых форм субполосных сигналов путем развертывания множества задержанных форм субполосных сигналов. Иными словами, блок развертывания может быть установлен после блока задержки прогноза. Это обеспечивает синхронность между указанными одним или более из параметров развертывания и множеством форм субполосных сигналов, к которым применимы указанные один или более из параметров развертывания.
Блок применения и синтеза метаданных может быть выполнен с возможностью генерирования восстановленного кадра звукового сигнала с помощью декодированных метаданных (а именно, с помощью соответствующих метаданных SBR/HFR) для временного элемента множества форм субполосных сигналов. Временной элемент может соответствовать числу временных интервалов множества форм субполосных сигналов. Длительность временного элемента может быть переменной, т.е., длительность временного элемента множества форм субполосных сигналов, к которым применяются декодированные метаданные, может изменяться от одного кадра к другому. Иными словами, кадрирование для декодированных метаданных может изменяться. Изменение длительности временного элемента может ограничиваться заранее заданными пределами. Заранее заданные пределы могут соответствовать длительности кадра минус задержка и длительности кадра плюс задержка соответственно. Применение декодированных данных о форме сигнала (или их частей) для временных элементов различных длительностей может оказаться целесообразным для обработки переходных звуковых сигналов.
Блок развертывания может быть выполнен с возможностью генерирования множества развернутых форм субполосных сигналов с помощью указанных одного или более из параметров развертывания для одного и того же временного элемента множества форм субполосных сигналов. Иными словами, кадрирование указанных одного или более из параметров развертывания может быть таким же, как и кадрирование декодированных метаданных, которые используются блоком применения и синтеза метаданных (например, кадрирование для метаданных SBR/HFR). При этом может обеспечиваться стабильность схемы SBR и схемы компандирования и может быть улучшено качество системы кодирования.
В соответствии с еще одним аспектом, описывается звуковой кодер, выполненный с возможностью кодирования кадра звукового сигнала в блок доступа потока данных. Звуковой кодер может быть выполнен с возможностью осуществления соответствующих задач обработки с учетом задач обработки, выполняемых звуковым декодером. В частности, звуковой кодер может быть выполнен с возможностью определения данных о форме сигнала и метаданных по кадру звукового сигнала и введения данных о форме сигнала и метаданных в блок доступа. Данные о форме сигнала и метаданные могут указывать кадр, восстановленный из кадра звукового сигнала. Иными словами, данные о форме сигнала и метаданные могут позволить соответствующему звуковому декодеру определить восстановленную версию исходного кадра звукового сигнала. Кадр звукового сигнала может содержать сигнал нижнего диапазона и сигнал верхнего диапазона. Данные о форме сигнала могут указывать сигнал нижнего диапазона, а метаданные могут указывать огибающую спектра сигнала верхнего диапазона.
Звуковой кодер может содержать тракт обработки формы сигнала, выполненный с возможностью генерирования данных о форме сигнала по кадру звукового сигнала, например по сигналу нижнего диапазона (например, с помощью базового звукового декодера, такого как Усовершенствованный Звуковой Кодер (ААС). Кроме того, звуковой кодер содержит тракт обработки метаданных, выполненный с возможностью генерирования метаданных по кадру звукового сигнала, например, по сигналу верхнего диапазона и по сигналу нижнего диапазона. В качестве примера звуковой кодер может быть выполнен с возможностью реализации Высокоэффективного (НЕ) ААС, а соответствующий звуковой декодер может быть выполнен с возможностью декодирования принимаемого потока данных в соответствии с НЕ ААС.
Тракт обработки формы сигнала и/или тракт обработки метаданных могут содержать, по меньшей мере, один блок задержки, выполненный с возможностью временного согласования данных о форме сигнала и метаданных таким образом, что блок доступа для кадра звукового сигнала содержит данные о форме сигнала и метаданные для одного и того же кадра звукового сигнала. Указанный, по меньшей мере, один блок задержки может быть выполнен с возможностью временного согласования данных о форме сигнала и метаданных таким образом, что полная задержка тракта обработки формы сигнала соответствует полной задержке тракта обработки метаданных. В частности, указанный, по меньшей мере, один блок задержки может представлять собой блок задержки формы сигнала, выполненный с возможностью внесения дополнительной задержки в тракт обработки формы сигнала таким образом, что полная задержка тракта обработки формы сигнала соответствует полной задержке тракта обработки метаданных. В качестве альтернативы или помимо этого, указанный, по меньшей мере, один блок задержки может быть выполнен с возможностью временного согласования данных о форме сигнала и метаданных таким образом, что данные о форме сигнала и метаданные своевременно выдаются в блок генерирования блока доступа звукового кодера для генерирования одиночного блока доступа по данным о форме сигнала и метаданным. В частности, данные о форме сигнала и метаданные могут выдаваться таким образом, что одиночный блок доступа может генерироваться без необходимости в буфере для буферизации данных о форме сигнала и/или метаданных.
Звуковой кодер может содержать блок анализа, выполненный с возможностью генерирования множества субполосных сигналов по кадру звукового сигнала, причем множество субполосных сигналов может включать в себя множество сигналов нижнего диапазона, указывающих сигнал нижнего диапазона. Звуковой кодер может содержать блок сжатия, выполненный с возможностью сжатия множества сигналов нижнего диапазона с помощью функции сжатия для получения множества сжатых сигналов нижнего диапазона. Данные о форме сигнала могут указывать множество сжатых сигналов нижнего диапазона, а метаданные могут указывать функцию сжатия, используемой блоком сжатия. Метаданные, указывающие огибающую спектра сигнала верхнего диапазона, могут быть применимы к тому же элементу звукового сигнала, что и метаданные, указывающие функцию сжатия. Иными словами, метаданные, указывающие огибающую спектра сигнала верхнего диапазона, могут быть синхронизированы с метаданными, указывающими функцию сжатия.
В соответствии с еще одним аспектом, описывается поток данных, содержащий последовательность блоков доступа для последовательности кадров звукового сигнала соответственно. Блок доступа из последовательности блоков доступа содержит данные о форме сигнала и метаданные. Данные о форме сигнала и метаданные связаны с одним и тем же конкретным кадром из последовательности кадров звукового сигнала. Данные о форме сигнала и метаданные могут указывать восстановленный кадр конкретного кадра. В одном из примеров конкретный кадр звукового сигнала содержит сигнал нижнего диапазона и сигнал верхнего диапазона, причем данные о форме сигнала указывают сигнал нижнего диапазона и причем метаданные указывают огибающую спектра сигнала верхнего диапазона. Метаданные могут позволять звуковому декодеру генерировать сигнал верхнего диапазона по сигналу нижнего диапазона с помощью схемы HFR. В качестве альтернативы или помимо этого, метаданные могут указывать функцию сжатия, применяемую к сигналу нижнего диапазона. Следовательно, метаданные могут позволять звуковому декодеру выполнять расширение динамического диапазона принимаемого сигнала нижнего диапазона (с помощью обратной функции по отношению к функции сжатия).
В соответствии с еще одним аспектом, описывается способ определения восстановленного кадра звукового сигнала по блоку доступа принимаемого потока данных. Блок доступа содержит данные о форме сигнала и метаданные, причем данные о форме сигнала и метаданные связаны с одним и тем же восстановленным кадром звукового сигнала. В одном из примеров восстановленный кадр звукового сигнала содержит сигнал нижнего диапазона и сигнал верхнего диапазона, причем данные о форме сигнала указывают сигнал нижнего диапазона (например, о частотных коэффициентах, описывающих сигнал нижнего диапазона), и причем метаданные указывают огибающую спектра сигнала верхнего диапазона (например, о коэффициентах масштабирования для множества диапазонов коэффициента масштабирования сигнала верхнего диапазона). Способ включает в себя генерирование множества форм субполосных сигналов по данным о форме сигнала и генерирование декодированных метаданных по метаданным. Кроме того, способ включает в себя временное согласование множества форм субполосных сигналов и декодированных метаданных, как описывается в настоя