Аудиодекодер, устройство формирования выходных кодированных аудиоданных и способы, позволяющие инициализацию декодера

Иллюстрации

Показать все

Изобретение относится к области аудиокодирования/декодирования. Технический результат – обеспечение доставки аудиоконтента по каналу передачи с переменной битовой скоростью передачи и повышение качества звука. Аудиодекодер содержит устройство определения, выполненное с возможностью определения, является ли кадр кодированных аудиоданных специальным кадром, содержащим кодированные значения аудиовыборки, и дополнительную информацию, содержащую кодированные значения аудиовыборки нескольких кадров, предшествующих специальному кадру, чтобы инициализировать декодер для возможности декодирования значений аудиовыборки, ассоциированных со специальным кадром, если специальный кадр является первым кадром после запуска декодера. Декодер содержит устройство инициализации, выполненное с возможностью инициализации декодера, при этом инициализация декодера содержит декодирование кодированных значений аудиовыборки, введенных в дополнительную информацию перед тем, как декодировать кодированные значения аудиовыборки, ассоциированные со специальным кадром. 6 н. и 15 з.п. ф-лы, 11 ил., 2 табл.

Реферат

Настоящее изобретение относится к аудиокодированию/ декодированию и, в частности, к подходу к кодированию и декодированию данных, позволяющему инициализацию декодера, которая может потребоваться при переключениях между различными конфигурациями кодека.

Варианты осуществления изобретения могут применяться к сценариям, в которых свойства каналов передачи могут значительно различаться в зависимости от технологии доступа, такой как DSL, Wi-Fi, 3G, LTE и т.п. Принимаемый сигнал мобильного телефона может испытывать замирания в закрытых помещениях или в удаленных районах. Качество соединений беспроводного интернета сильно зависит от расстояния до базовой станции и технологии доступа, приводя к флюктуациям битовой скорости передачи. Доступная битовая скорость передачи у каждого пользователя может также изменяться в зависимости от количества клиентов, соединенных с одной базовой станцией.

Задача изобретения состоит в обеспечении концепции, позволяющей доставку аудиоконтента гибким способом.

В соответствии с изобретением, эта задача решается аудиодекодером, соответствующим формуле изобретения, устройством формирования выходных кодированных аудиоданных, соответствующим п. 9 формулы изобретения, способом декодирования входных аудиоданных, соответствующим п. 18 формулы изобретения, способом формирования кодированных аудиоданные, соответствующим п. 22 формулы изобретения, и компьютерной программой, соответствующей п. 25 формулы изобретения.

Варианты осуществления изобретения обеспечивают аудиодекодер для декодирования битового потока кодированных аудиоданных, причем битовый поток битов кодированных аудиоданных представляет собой последовательность значений аудиовыборки и содержит множество кадров, при этом каждый кадр содержит ассоциированные кодированные значения аудиовыборки, причем упомянутый аудиодекодер содержит:

устройство определения, выполненное с возможностью определения, является ли кадр кодированных аудиоданных специальным кадром, содержащим кодированные значения аудиовыборки, ассоциированные со специальным кадром, и дополнительную информацию, при этом дополнительная информация содержит кодированные значения аудиовыборки множества кадров, предшествующих специальному кадру, в котором кодированные значения аудиовыборки предшествующих кадров кодируются, используя ту же самую конфигурацию кодека, что и при кодировании специального кадра, причем количество предшествующих кадров достаточно, чтобы инициализировать декодер для возможности декодирования значений аудиовыборки, ассоциированных со специальным кадром, если специальный кадр является первым кадром после запуска декодера; и

устройство инициализации, выполненное с возможностью инициализации декодера, если устройство определения решает, что кадр является специальным кадром, причем инициализация декодера содержит декодирование кодированных значений аудиовыборки, введенных в дополнительную информацию перед декодированием кодированных значений аудиовыборки, ассоциированных со специальным кадром.

Варианты осуществления изобретения обеспечивают устройство формирования битового потока кодированных аудиоданных, представляющих собой последовательность значений аудиовыборки аудиосигнала, причем битовый поток кодированных аудиоданных содержит множество кадров, при этом каждый кадр содержит ассоциированные кодированные значения аудиовыборки, и упомянутое устройство содержит:

устройство обеспечения специального кадра, выполненное с возможностью обеспечения по меньшей мере одного из кадров в качестве специального кадра, причем специальный кадр содержит кодированные значения аудиовыборки, ассоциированные со специальным кадром, и дополнительную информацию, при этом дополнительная информация содержит кодированные значения аудиовыборки множества кадров, предшествующих специальному кадру, причем кодированные значения аудиовыборки предшествующих кадров кодируются, используя ту же самую конфигурацию кодека, что и при кодировании специального кадра, и при этом количество предшествующих кадров достаточно, чтобы инициализировать декодер для возможности декодирования значений аудиовыборки, ассоциированных со специальным кадром, если специальный кадр является первым кадром после запуска декодера; и

устройство вывода, выполненное с возможностью вывода битового потока кодированных аудиоданных.

Варианты осуществления изобретения обеспечивают способ декодирования битового потока кодированных аудиоданных, в котором битовый поток кодированных аудиоданных представляет собой последовательность значений аудиовыборки и содержит множество кадров, причем каждый кадр содержит ассоциированные кодированные значения аудиовыборки, и в которых упомянутый способ содержит этапы, на которых:

определяют, является ли кадр кодированных аудиоданных специальным кадром, содержащим кодированные значения аудиовыборки, ассоциированные со специальным кадром, и дополнительную информацию, причем дополнительная информация содержит кодированные значения аудиовыборки множества кадров, предшествующих специальному кадру, при этом кодированные значения аудиовыборки предшествующих кадров кодируются, используя ту же самую конфигурацию кодека, что и при кодировании специального кадра, при этом количество предшествующих кадров достаточно,что инициализировать декодер для возможности декодирования значений аудиовыборки, ассоциированных со специальным кадром, если специальный кадр является первым кадром после запуска декодера; и

инициализируют декодер, если определено, что кадр является специальным кадром, причем инициализация содержит декодирование кодированных значений аудиовыборки, содержащихся в дополнительной информации перед декодированием кодированных значений аудиовыборки, ассоциированных со специальным кадром.

Варианты осуществления изобретения обеспечивают способ формирования битового потока кодированных аудиоданных, представляющего собой последовательность значений аудиовыборки аудиосигнала, причем битовый поток кодированных аудиоданных содержит множество кадров, при этом каждый кадр содержит ассоциированные кодированные значения аудиовыборки, и упомянутый способ содержит этапы, на которых:

обеспечивают по меньшей мере один из кадров в качестве специального кадра, причем специальный кадр содержит кодированные значения аудиовыборки, ассоциированные со специальным кадром, и дополнительную информацию, при этом дополнительная информация содержит кодированные значения аудиовыборки множества кадров, предшествующих специальному кадру, при этом кодированные значения аудиовыборки предшествующих кадров кодируются, используя ту же самую конфигурацию кодека, что и при кодировании специального кадра, и при этом количество предшествующих кадров достаточно, чтобы инициализировать декодер для возможности декодирования значений аудиовыборки, ассоциированных со специальным кадром, если специальный кадр является первым кадром после запуска декодера; и

формируют битовый поток, связывая специальный кадр с другими кадрами из множества кадров.

Варианты осуществления изобретения основаны на обнаружении, что немедленное воспроизведение битового потока кодированных аудиоданных, представляющих собой последовательность значений аудиовыборки аудиосигнала и содержащих множество кадров, может быть достигнуто, если один из кадров обеспечивается в качестве специального кадра, содержащего кодированные значения аудиовыборки, ассоциированные с предыдущими кадрами, необходимыми, чтобы инициировать декодер для возможности декодирования кодированных значений аудиовыборки, ассоциированных со специальным кадром. Количество кадров, необходимое для инициирования декодера, соответственно, зависит от используемой конфигурации кодека и известно конфигурациям кодека. Варианты осуществления изобретения основаны на обнаружении того, что переключение между различными конфигурациями кодека может быть достигнуто предпочтительным способом, если такой специальный кадр располагается в положении, при этом должно иметь место переключение между конфигурациями кодирования. Специальный кадр может не только содержать кодированные значения аудиовыборки, ассоциированные со специальным кадром, но и дополнительную информацию, позволяющую переключение между конфигурациями кодека и немедленное воспроизведение после переключения. В вариантах осуществления изобретения устройство и способ формирования кодированных выходных аудиоданных и аудиокодер выполнены с возможностью подготовки кодированных аудиоданных таким способом, чтобы на стороне декодера могло иметь место немедленное воспроизведение после переключения между конфигурациями кодека. В вариантах осуществления изобретения такие аудиоданные, сформированные и выведенные на стороне кодера, принимаются в качестве входных аудиоданных на стороне декодера и позволяют немедленное воспроизведение на стороне декодера. В вариантах осуществления изобретения немедленное воспроизведение разрешается на стороне декодера после переключения между различными конфигурациями кодека на стороне декодера.

В вариантах осуществления изобретения устройство инициирования выполнено с возможностью переключения аудиодекодера из текущей конфигурации кодека в другую конфигурацию кодека, если устройство определения решает, что кадр является специальным кадром, и если значения аудиовыборки специального кадра были кодированы, используя другую конфигурацию кодека.

В вариантах осуществления изобретения декодер выполнен с возможностью декодирования специального кадра, используя текущую конфигурацию кодека, и отбрасывания дополнительной информации, если устройство определения решает, что кадр является специальным кадром, и если значения аудиовыборки специального кадра были кодированы, используя текущую конфигурацию кодирования.

В вариантах осуществления изобретения дополнительная информация содержит информацию о конфигурации кодека, используемой для кодирования значений аудиовыборки, ассоциированных со специальным кадром, причем устройство определения выполнено с возможностью определения, отличается ли конфигурация кодека для дополнительной информации от текущей конфигурации кодека.

В вариантах осуществления изобретения аудиодекодер содержит устройство плавного наложения, выполненное с возможностью осуществления плавного наложения между множеством выходных значений выборки, полученных, используя текущую конфигурацию кодека, и множеством выходных значений выборки, полученных, декодируя кодированные значения аудиовыборки, ассоциированные со специальным кадром. В вариантах осуществления изобретения устройство плавного наложения выполнено с возможностью осуществления плавного наложения выходных значений выборки, полученных путем сброса декодера в текущей конфигурации кодека, и выходных значений выборки, полученных декодированием кодированных значения аудиовыборки, ассоциированных со специальным кадром.

В вариантах осуществления изобретения самый ранний кадр из числа кадров, содержащихся в дополнительной информации, не является дифференциально кодированным по времени или энтропийно кодированным относительно любого кадра, предшествующего самому раннему кадру, причем специальный кадр не является дифференциально кодированным по времени или энтропийно кодированным относительно любого кадра, предшествующего самому раннему кадру из числа кадров, предшествующих специальному кадру, или относительно любого кадра, предыдущего специальному кадру.

В вариантах осуществления изобретения специальный кадр содержит дополнительную информацию, такую как расширенная полезная нагрузка, причем устройство определения выполнено с возможностью оценки расширенной полезной нагрузки специального кадра. В вариантах осуществления изобретения дополнительная информация содержит информацию о конфигурации кодека, используемой для кодирования значений аудиовыборки, ассоциированных со специальным кадром.

В вариантах осуществления изобретения кодированные аудиоданные содержат множество сегментов, причем каждый сегмент ассоциируется с одной из множества частей последовательности значений аудиовыборки и содержит множество кадров, при этом сумматор специального кадра выполнен с возможностью добавления специального кадра в начало каждого сегмента.

В варианте осуществления изобретения кодированные аудиоданные содержат множество сегментов, причем каждый сегмент ассоциируется с одной из множества частей последовательности значений аудиовыборки и содержит множество кадров, причем устройство для формирования битового потока кодированных аудиоданных содержит устройство обеспечения сегментов, выполненное с возможностью предоставления сегментов, ассоциированных с различными части последовательности значений аудиовыборки и кодированных посредством различных конфигураций кодека, при этом устройство обеспечения специальных кадров выполнено с возможностью обеспечения первого кадра по меньшей мере одного из сегментов в качестве специального кадра; и формирователь, выполненный с возможностью формирования выходных аудиоданных, располагая сегменты по меньшей мере один за другим. В вариантах осуществления изобретения устройство обеспечения сегментов выполнено с возможностью выбора конфигурации кодека для каждого сегмента, основываясь на управляющем сигнале. В вариантах осуществления изобретения устройство обеспечения сегментов выполнено с возможностью обеспечения m кодированных версий последовательности значений аудиовыборки, причем m≥2, где m кодированных версий кодируются, используя различные конфигурации кодека, причем каждая кодированная версия содержит множество сегментов, представляющих множество частей последовательности значений аудиовыборки, и при этом устройство обеспечения специальных кадров выполнено с возможностью обеспечения специального кадра в начале каждого из сегментов.

В вариантах осуществления изобретения устройство обеспечения сегментов содержит множество кодеров, каждый из которых выполнен с возможностью кодирования, по меньшей мере частично, аудиосигнала в соответствии с одной из множества различных конфигураций кодека. В вариантах осуществления изобретения устройство обеспечения сегментов содержит память, хранящую m кодированных версий последовательности значений аудиовыборки.

В вариантах осуществления изобретения дополнительная информация имеет форму расширенной полезной нагрузки специального кадра.

В вариантах осуществления изобретения способ декодирования содержит переключение аудиодекодера из текущей конфигурации кодека в другую конфигурацию кодека, если определено, что кадр является специальным кадром, и если значения аудиовыборки специального кадра были кодированы, используя другую конфигурацию кодека.

В вариантах осуществления изобретения битовый поток кодированных аудиоданных содержит первую группу кадров, кодированных, используя первую конфигурацию кодека, и вторую группу кадров, следующую после первой группы кадров и кодированную, используя вторую конфигурацию кодека, при этом первый кадр второй группы кадров является специальным кадром.

В вариантах осуществления изобретения дополнительная информация содержит информацию о конфигурации кодека, используемой для кодирований значений аудиовыборки, ассоциированных со специальным кадром, и способ содержит определение, отличается ли конфигурация кодека, содержащаяся в дополнительной информации, от текущей конфигурации кодека, используя которую кодируются кодированные значения аудиовыборки кадров битового потока, предшествующих специальному кадру.

В вариантах осуществления изобретения способ формирования битового потока кодированных аудиоданных содержит обеспечение сегментов, ассоциированных с различными частями последовательности значений аудиовыборки и кодированных различными конфигурациями кодека, при этом первый кадр по меньшей мере одного из сегментов обеспечивается в качестве специального кадра.

Таким образом, в вариантах осуществления изобретения плавное наложение выполняется, чтобы позволить осуществлять плавное переключение между различными конфигурациями кодека. В вариантах осуществления изобретения дополнительная информация специального кадра содержит предварительные кадры, необходимые, чтобы инициализировать декодер для возможности декодирования специального кадра. Другими словами, в вариантах осуществления изобретения дополнительная информация содержит копию этих кадров кодированных значений аудиовыборки, предшествующих специальному кадру и кодированных, используя ту же самую конфигурацию кодека, что и кодированные значения аудиовыборки, представленные специальным кадром, необходимым для инициализации декодера, чтобы иметь возможность декодирования значений аудиовыборки, ассоциированных со специальным кадром.

В вариантах осуществления изобретения специальные кадры вводятся в кодированные аудиоданные с регулярными временными интервалами, то есть, периодически. В вариантах осуществления изобретения первый кадр каждого сегмента кодированных аудиоданных является специальным кадром. В вариантах осуществления аудиодекодер выполнен с возможностью декодирования специальных кадров и последующих кадров, используя конфигурацию кодека, указанную в специальном кадре, пока не появится следующий специальный кадр, указывающий другую конфигурацию кодека.

В вариантах осуществления изобретения декодер и способ декодирования выполнены с возможностью осуществления плавного наложения при переключении из одной конфигурации кодека в другую конфигурацию кодека, чтобы позволить плавное переключение между многочисленными сжатыми аудиопрезентациями.

В вариантах осуществления изобретения различные конфигурации кодека являются различными конфигурациями кодека согласно стандарту AAC (Advanced Audio Coding), то есть, различными конфигурациями кодека из семейства кодеков AAC. Варианты осуществления изобретения могут быть направлены на переключение между конфигурациями кодека из семейства кодеков AAC и конфигурациями кодека из семейства кодеков AMR (Adaptive Multiple Rate).

Таким образом, варианты осуществления изобретения позволяют немедленное воспроизведение на стороне декодера и переключение между различными конфигурациями кодека, так чтобы способ, которым предоставляется аудиоконтент, мог быть адаптирован к условиям окружающей среды, таким как канал передачи с переменной битовой скоростью. Таким образом, варианты осуществления изобретения позволяют предоставлять потребителю самое лучшее качество звука для данного состояния сети.

Варианты осуществления изобретения в дальнейшем обсуждаются со ссылкой на сопроводительные чертежи, на которых:

Фиг. 1 – изображает схематичное представление варианта осуществления устройства формирования выходных кодированных аудиоданных;

Фиг. 2 – изображает схематичное представление для объяснения варианта осуществления специального кадра;

Фиг. 3 – изображает схематичный вид различных презентаций аудиосигнала;

Фиг. 4A и Фиг. 4B – изображают схематические представления устройств формирования выходных кодированных аудиоданных;

Фиг. 5 – изображает схематичное представление аудиодекодера;

Фиг. 6 – изображает блок-схему последовательности выполнения операций варианта осуществления аудиодекодера и способа декодирования;

Фиг. 7 – изображает блок-схему последовательности выполнения операций переключения аудиодекодера между различными конфигурациями кодека;

Фиг. 8 – схему поведения декодера по стандарту AAC (Advanced Audio Coding);

Фиг. 9 – изображает переключение с первого потока 1 на второй поток 2; и

Фиг. 10 – изображает примерный элемент синтаксиса, обеспечивающий дополнительную информацию.

Обычно варианты осуществления изобретения направлены на доставку аудиоконтента, возможно, объединенную с видеодоставкой, по каналу передачи с переменной битовой скоростью передачи. Задачей может быть предоставление потребителю наилучшего качества звука для данного состояния сети. Варианты осуществления изобретения сосредоточены на внедрении семейства кодеков AAC в адаптивную среду потоковой передачи.

В вариантах осуществления изобретения, как они используются здесь, значения аудиовыборки, которые не являются значениями кодированных аудиовыборок, представленными во временной области, такими как PCM-выборки (импульсно-кодово модулированные). В вариантах осуществления изобретения термин "кодированное значение аудиовыборки" относится к значениям выборки в частотной области, полученным после кодирования значений аудиовыборок во временной области. В вариантах осуществления изобретения кодированными значениями аудиовыборки или выборками являются значения или выборки, полученные преобразованием выборок во временной области в спектральное представление, таким как MDCT (модифицированное дискретное косинусное преобразование), и кодированием результата, таким как квантование и кодирование Хаффмана. Соответственно, в варианте осуществления изобретения кодирование означает получение выборок в частотной области из выборок во временной области, а декодирование означает получение выборок во временной области из выборок в частотной области. Значения выборок (выборки), полученные декодированием кодированных аудиоданных, иногда упоминаются здесь как выходные значения выборок (выборки).

На фиг. 1 показан вариант осуществления устройства формирования выходных кодированных аудиоданных. Фиг. 1 представляет типичный сценарий адаптивной передачи аудиопотока, к которому могут быть применены варианты осуществления изобретения. Входной аудиосигнал 10 кодируется различными аудиокодерами 12, 14, 16 и 18, то есть, 1-m кодерами. 1-m кодеров могут быть выполнены с возможностью одновременного кодирования входного аудиосигнала 10. Как правило, 1-m кодеров могут быть выполнены таким образом, что может быть получен широкий диапазон битовых скоростей передачи. Кодеры формируют различные презентации, то есть, кодированные версии 22, 24, 26 и 28 входного аудиосигнала, то есть 1-m презентаций. Каждое презентация содержит множество 1-k сегментов, при этом второму сегменту первого презентации только для примера назначен ссылочный номер 30. Каждый сегмент содержит множество кадров (блоков доступа), обозначенных буквами AU и соответствующим индексом 1–n, указывающим положение кадра в соответствующем представлении. Восьмому кадру первого презентации только для примера назначен ссылочный номер 40.

Кодеры 12, 14, 16 и 18 выполнены с возможностью вставки точек 42 доступа к потоку (stream access point, SAP) в регулярные временные интервалы, которые определяют размеры сегментов. Таким образом, сегмент, такой как сегмент 30, состоит из многочисленных кадров, таких как AU5, AU6, AU7 и AU8, где первый кадр AU5 представляет SAP 42. На фиг. 1 SAP обозначаются штриховкой. Каждая из 1-m презентаций представляет сжатую аудиопрезентацию (compressed audio representation, CAR) входного аудиосигнала 10 и состоит из k таких сегментов. Переключение между различными CAR может иметь место на границах сегмента.

На стороне декодера клиент может запросить одну из презентаций, которая наилучшим образом подходит для данной ситуации, например, для данного состояния сети. Если по каким-то причинам состояние меняется, клиент должен быть способен запросить другую CAR, устройство для формирования кодированных выходных данных должно быть способно переключаться между различными CAR на каждой границе сегмента и декодер должен быть способен переключаться для декодирования другой CAR на каждой границе сегмента. Следовательно, клиент должен иметь возможность адаптировать битовую скорость передачи носителя к доступной битовой скорости передачи канала, чтобы максимизировать качество, минимизируя буфер в процессе работы ("повторная буферизация"). Если для загрузки сегментов используется протокол HTTP (Hyper Text Transfer Protocol, протокол передачи гипертекста), такая архитектура потоковой передачи может упоминаться как адаптивная потоковая передача по протоколу HTTP.

Текущие реализации содержат Apple HTTP Live Streaming (HLS), Microsoft Smooth Streaming, and Adobe Dynamic Streaming, которые все следуют основному принципу. Недавно, группа MPEG выпустила открытый стандарт Dynamic Adaptive Streaming over HTTP (MPEG DASH) (динамическая адаптивная потоковая передача по протоколу HTTP), смотрите "Руководства по реализации: DASH-AVC/264 Interoperability Points", <http://dashif.org/w/2013/08/DASH-AVC-264-v2.00-hd-mca.pdf>. HTTP обычно использует TCP/IP (протокол управления передачей/интернет-протокол) в качестве базового сетевого протокола. Варианты осуществления изобретения могут быть применимы ко всем этим текущим разработкам.

Переключение между презентациями (кодированными версиями) должен быть насколько возможно плавным. Другими словами, во время переключения не должно быть никакого звукового искажения или щелчка. Без дополнительных мер, предусмотренных вариантами осуществления изобретения, это требование может быть выполнено только при определенных ограничениях и когда во время процесса кодирования принимаются особые меры.

На фиг. 1 соответствующий кодер, с которого начинается сегмент, обозначается соответствующей меткой, помещенной внутри круга. Дополнительно на фиг. 1 показан механизм 50 принятия решения, определяющий, какая презентация должна загружаться для каждого сегмента. Формирователь 52 формирует выходные кодированные аудиоданные 54 из выбранных сегментов, которым на фиг. 1, связывая выбранные сегменты, назначены ссылочные позиции 44, 46 и 48. Выходные кодированные аудиоданные 54 могут быть поданы на декодер 60 выполненными с возможностью декодирования выходных кодированных аудиоданных в выходной аудиосигнал 62, содержащий выходные аудиовыборки.

В варианте осуществления, показанном на фиг. 1, сегменты и, следовательно, кадры, полученные от разных кодеров, подаются на один и тот же декодер, например, декодер 60, например, AU4 от кодера 2 и AU5 от кодера 3 в примере на фиг. 1. В случае, когда для декодирования этих AU используется один и тот же экземпляр декодера, необходимо, чтобы оба кодера были совместимыми друг с другом. В частности, без каких-либо дополнительных мер этот подход не может работать, если эти два кодера относятся к совершенно разным семействам кодеков, например, AMR для кодера 2 и G.711 для кодера 3. Однако, даже когда для всех презентаций используется один и тот же кодек, особое внимание должно быть уделено ограничению процесса кодирования. Поэтому современные аудиокодеки, такие как Advanced Audio Coding (AAC) обладают гибкими алгоритмами, которые могут работать в нескольких конфигурациях, используя различные инструменты и режимы кодирования. Примерами таких инструментов кодирования в AAC являются Spectral Band Replication (SBR) (дублирование спектральной полосы) или Short Blocks (SB) (короткие блоки). Другими важными параметрами конфигурации являются частота выборки (fs, например, 48 кГц) или конфигурация канала (моно, стерео, многоканальная). Чтобы правильно декодировать кадры (AU), декодер должен знать, какие инструменты используются и как они конфигурированы (например, fs или переходная частота SBR). Поэтому обычно требуемая информация кодируется в короткой строке конфигурации и становится доступной декодеру перед декодированием. Эти параметры конфигурации могут упоминаться как конфигурация кодека. В случае AAC, эта конфигурация известна как Audio Specific Config (ASC) (специфическая аудиоконфигурация).

До сих пор, чтобы выполнить плавное переключение, было необходимо ограничить конфигурацию кодека, чтобы он был совместимым для презентаций (кодированных версий). Например, частота выборки или инструменты кодирования обычно должны быть идентичными для всех презентаций. Если между презентациями используются несовместимые конфигурации кодека, то декодер должен быть переконфигурирован. Это, в основном, означает, что старый декодер должен быть отключен, а новый декодер должен быть запущен в новой конфигурации. Однако, этот процесс переконфигурации при всех обстоятельствах не является плавным и может вызывать кратковременное искажение. Одна из причин этого состоит в том, что новый декодер не может сразу же производить правильные выборки, а требует несколько предварительных AU, чтобы постепенно создать сигнал полной силы. Это поведение при запуске типично для кодеков, имеющих состояние декодера, то есть, при этом декодирование текущего AU не является полностью независимым от декодирования предшествующих AU.

В результате такого поведения, от конфигурации кодека обычно требовалось быть постоянной для всех презентаций и единственным изменяемым параметром была битовая скорость передачи. Это например, имеет место для профиля DASH-AVC/264, как определено отраслевым форумом по DASH.

Это ограничение действительно ограничивало гибкость кодека и, соответственно, эффективность кодирования во всем диапазоне битовых скоростей передачи. Например, SBR является ценным инструментом кодирования для очень низких битовых скоростей передачи, но ограничивает качество звука при высоких битовых скоростях передачи. Следовательно, если требуется, чтобы кодированная конфигурация была постоянной, то есть, с SBR или без SBR, нужно было пойти на компромисс и иметь высокую или низкую битовую скорость передачи. Точно также, эффективность кодирования могла выиграть от изменения частоты выборки для презентаций, но для плавного переключения она должна была поддерживаться постоянной из-за вышеупомянутых ограничений.

Варианты осуществления настоящего изобретения направлены на новый подход, позволяющий плавное аудиопереключение в адаптивной среде потоковой передачи и, в частности, позволяющий плавное аудиопереключение для аудиокодеков семейства AAC в адаптивной среде потоковой передачи. В изобретении разрабатывается подход, позволяющий обозначить все недостатки, вытекающие из ограничений на конфигурацию кодека, описанных выше. Общая цель заключается в том, чтобы иметь больше гибкости в конфигурации среди презентаций (кодированных версий) в отношении инструментов кодирования или частоты выборки, так чтобы плавное переключение все еще оставалось возможным или обеспечиваемым.

Варианты осуществления изобретения основаны на обнаружении, что ограничения, объясненные выше, могут быть преодолены и может быть достигнута более высокая гибкость, если между другими кадрами кодированных аудиоданных, такими как сжатая аудиопрезентация (CAR), добавить специальный кадр, несущий дополнительную информацию в дополнение к кодированным значениям аудиовыборки, ассоциированным со специальным кадром. Сжатая аудиопрезентация может рассматриваться как часть аудиоматериала (музыки, речи, ...) после сжатия аудиокодером без потерь или с потерями, например, аудиокодером семейства AAC (AAC, HE-AAC, MPEG-D USAC...) с постоянной общей битовой скоростью передачи. В частности, в специальном кадре разрабатывается дополнительная информация, чтобы позволить немедленное воспроизведение на стороне декодера, даже в случае переключения между различными конфигурациями кодека. Таким образом, специальный кадр может рассматриваться как кадр немедленного воспроизведения (instantaneous play-out frame, IPF). IPF выполняется с возможностью компенсации задержки при запуске декодера и используется для передачи аудиоинформации о предшествующих кадрах вместе с данными существующего кадра.

Пример такого IPF 80 показан на фиг. 2. На фиг. 2 представлено большое количество кадров (блоков доступа) 40, пронумерованных от n-4 до n+3. Каждый кадр содержит ассоциированные кодированные значения аудиовыборки, то есть, кодированные значения аудиовыборки для конкретного количества значений аудиовыборки во временной области последовательности значений аудиовыборки во временном интервале, представляющих аудиосигнал, такой как входной аудиосигнал 10. Например, каждый кадр может содержать кодированные значения аудиовыборки, представляющие 1024 значений аудиовыборки во временной области, то есть, значений аудиовыборки некодированного аудиосигнала. На фиг. 2 кадр n, расположенный между предыдущим кадром n-1 и после кадра n+1, представляет собой специальный кадр или IPF 80. Специальный кадр 80 содержит дополнительную информацию 82. Дополнительная информация 82 содержит информацию 84 о конфигурации кодека, то есть, информацию о конфигурации кодека, используемого при кодировании потока данных, содержащего кадры n-4 - n+3, и, следовательно, информацию о конфигурации кодека, используемой для кодирования значений аудиовыборки, ассоциированных со специальным кадром.

В варианте осуществления, показанном на фиг. 2, задержка, вносимая аудиодекодером, предполагается равной трем кадрам, то есть, предполагается, что необходимы три так называемых предварительных кадра, чтобы создать полный сигнал во время запуска аудиодекодера. Следовательно, предполагая, что конфигурация потока (конфигурация кодека) известна декодеру, декодер может обычно начинать декодировать с кадра n-3, чтобы создать правильные выборки на кадре n. Таким образом, чтобы сделать доступной декодеру необходимую информацию, дополнительная информация 82 содержит множество кадров кодированных значений аудиовыборки, предшествующих специальному кадру 80 и кодированных, используя конфигурацию 84 кодека, указанную в дополнительной информации 82. Эта группа кадров на фиг. 2 обозначается ссылочной позицией 86. Эта группа кадров 86 необходима, чтобы инициализировать декодер до состояния, дающего возможность декодирования значений аудиовыборки, ассоциированных со специальным кадром n. Соответственно, информация кадра 86 дублируется и переносится как часть специального кадра 80. Таким образом, эта информация доступна декодеру непосредственно после переключения на поток данных, показанный на фиг. 2 в кадре n. Без этой дополнительной информации в кадре n, ни конфигурация 84 кодека, ни кадры n-3 - n-1 не могут быть доступны декодеру после переключения. Добавление этой информации к специальному кадру 80 позволяет незамедлительно инициализировать декодер и поэтому незамедлительное воспроизведение после переключения на поток данных, содержащий специальный кадр. Декодер выполнен таким образом, что такая инициализация и декодирование кадра n могут быть выполнены в пределах временного окна времени, доступного, пока выходные выборки, полученные декодированием кадра n, не будут выведены.

Во время обычного декодирования, то есть, без переключения на другую конфигурацию кодека, декодируется только кадр n, а кадры, содержащиеся в дополнительной информации, n-3 - n-1, игнорируются. Однако, после переключения на другую конфигурацию кодека, вся информация, содержащаяся в специальном кадре 80, извлекается и декодер инициализируется, основываясь на введенной конфигурации кодека и основываясь на декодировании предварительных кадров (n-3 - n-1) перед окончательным декодированием и воспроизведением текущего кадра n. Декодирование предварительных кадров происходит перед тем, как декодируется и воспроизводится текущий кадр. Предварительные кадры не воспроизводятся, но декодер выполнен с возможностью декодирования предварительных кадров в пределах временного окна, доступного перед воспроизведением текущего кадра n.

Термин "конфигурация кодека" относится к конфигурации кодека, используемой в кодировании аудиоданных или кадров аудиоданных. Таким образом, конфигурация кодирования может указывать различные используемые инструменты кодирования и режимы, причем примерными инструментами кодирования, используемыми в AAC, являются дублирование спектральной полосы (SBR) или короткие блоки (SB). Одним из параметров конфигурации может быть частота SBR плавного наложения. Другими параметрами конфигурации могут быть частота выборки или конфигурация канала. Различные конфигурации кодека отличаются одним или более из этих параметров конфигурации. В вариантах осуществления изобретения различные конфигурации кодека могут также содержать абсолютно разные кодеки, такие как AAC, AMR или G.711.