Способ и кодер и декодер для воспроизведения без промежутка аудио сигнала

Иллюстрации

Показать все

Заявленное изобретение относится к средствам для выдачи информации относительно достоверности закодированных аудиоданных. Технический результат заключается в обеспечении возможности обрезания недостоверных данных. Каждый блок закодированных аудиоданных может содержать информацию относительно достоверных аудиоданных. Способ содержит: выдачу информации относительно уровня закодированных аудиоданных, которая описывает количество данных в начале блока аудиоданных, являющихся недостоверными, или выдачу информации относительно уровня закодированных аудиоданных, которая описывает количество данных в конце блока аудиоданных, являющихся недостоверными, или выдачу информации относительно уровня закодированных аудиоданных, которая описывает количество данных вначале и в конце блока аудиоданных, являющихся недостоверными. Также описан способ для приема закодированных данных, включающих в себя информацию относительно достоверности данных, и выдачи декодированных выходных данных. 6 н. и 12 з.п. ф-лы, 3 табл., 11 ил.

Реферат

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Варианты осуществления изобретения относятся к области кодирования источника аудиосигнала. Более конкретно, варианты осуществления изобретения относятся к способу для кодирования информации относительно оригинальных достоверных аудиоданных и ассоциированному декодеру. Более конкретно, варианты осуществления изобретения предоставляют восстановление аудиоданных с их оригинальной продолжительностью.

ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИ ИЗОБРЕТЕНИЯ

Аудиокодеры обычно используются для сжатия аудиосигнала для передачи или хранения. В зависимости от используемого кодера сигнал может кодироваться без потерь (разрешая идеальное восстановление) или с потерями (для не идеального, но достаточного восстановления). Ассоциированный декодер инвертирует операцию кодирования и создает идеальный или неидеальный аудиосигнал. Когда литература упоминает артефакты, то обычно подразумевается потеря информации, которая является обычной для кодирования с потерями. Они включают в себя ограниченную аудиополосу пропускания, эхо и звенящие артефакты и другую информацию, которая может быть слышимой или маскируемой из-за особенностей человеческого слуха.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Проблема, которой занимается настоящее изобретение, относится к другому набору артефактов, которые обычно не охвачены в литературе кодирования аудио: дополнительные периоды тишины в начале и в конце кодирования. Существуют решения для этих артефактов, которые часто называются способами воспроизведения без промежутка. Источниками для этих артефактов является в первую очередь «крупнозернистость» закодированных аудиоданных, где, например, один блок закодированных аудиоданных всегда содержит информацию для 1024 оригинальных незакодированных аудиовыборок. Во-вторых, обработка цифрового сигнала часто возможна только с алгоритмическими задержками из-за используемых цифровых фильтров и банков фильтров.

Множество приложений не требуют восстановления оригинально достоверных выборок. Радиопередачи, например, обычно не испытывают проблем, так как закодированный аудиопоток является непрерывным и конкатенация не имеет место между отдельными устройствами кодирования. Телевизионные программы также часто статически сконфигурированы, и единственный кодер используется перед передачей. Однако дополнительные периоды тишины становятся проблемой, когда несколько предварительно закодированных потоков «склеиваются вместе (как использовано для добавления-вставки), когда синхронизация аудио, видео становится проблемой для хранения сжатых данных, где декодирование не должно проявлять дополнительных аудиовыборок в начале и в конце (особенно для кодирования без потерь, требующего точного восстановления битов оригинальных несжатых аудиоданных) и для редактирования в сжатой области.

В то время как множество пользователей уже приспособились к этим дополнительным периодам тишины, другие пользователи жалуются на дополнительную тишину, что особенно проблематично, когда конкатенируются несколько кодирований и ранее несжатые аудиоданные без промежутка становятся прерванными при кодировании и декодировании.

Задачей настоящего изобретения является предоставление улучшенного подхода, разрешающего удаление не желаемой тишины вначале и в конце кодирований.

Кодирование видео, использующее различные механизмы кодирования, используя I-кадры, P-кадры и B-кадры, не вводит каких-либо дополнительных кадров в начале или в конце. Напротив, аудиокодер обычно имеет дополнительные предварительно обусловленные выборки. В зависимости от их количества они могут привести к заметной потере синхронизации аудио, видео. Это часто называется проблемой синхронизации артикуляции, несоответствием между осуществлением движения рта говорящего и слышимым звуком. Множество приложений занимаются этой проблемой посредством наличия выравнивания для синхронизации артикуляции, которая должна быть сделана пользователем, так как она является очень переменной в зависимости от используемого кодера-декодера и его настроек. Задачей настоящего изобретения является предоставление улучшенного подхода, разрешающего синхронизацию воспроизведения аудио и видео.

Цифровые вещания стали более гетерогенными в прошлом с региональными различиями и персонифицированными программами и объявлениями. Главный поток вещания, следовательно, заменяется и соединяется с локальным или специфичным для пользователя контентом, который может быть потоком в реальном времени или предварительно закодированными данными. Соединение этих потоков главным образом зависит от системы передачи; однако аудио может не всегда быть отлично соединено, как хотелось бы, из-за неизвестных периодов тишины. Текущий способ должен часто убирать периоды тишины в сигнале, хотя эти промежутки в аудиосигнале могут быть восприняты. Задачей настоящего изобретения является предоставление улучшенного подхода, разрешающего соединение двух сжатых аудиопотоков.

Редактирование обычно выполняют в несжатой области, где операции редактирования хорошо известны. Однако если исходный материал является уже закодированным аудиосигналом с потерями, тогда даже простые операции вырезания требуют нового полного кодирования, приводя к каскаду артефактов кодирования. Следовательно, нужно избегать каскадных операций декодирования и кодирования. Задачей настоящего изобретения является предоставление улучшенного подхода вырезания сжатого аудиопотока.

Другим аспектом является стирание недостоверных аудиовыборок в системах, которые требуют защищенного тракта данных. Защищенный тракт медиа используется для введения в действие управления цифровыми правами и для гарантии целостности данных при использовании зашифрованной связи между компонентами системы. В этих системах это требование может быть выполнено, если непостоянные продолжительности блока аудиоданных становятся возможными, так как только в доверенных элементах операции редактирования аудио защищенного тракта медиа могут быть применены. Этими доверенными элементами обычно являются только декодеры и элементы воспроизведения.

Варианты осуществления изобретения предоставляют способ для выдачи информации относительно достоверности закодированных аудиоданных, причем закодированные аудиоданные являются последовательностью блоков закодированных аудиоданных, при этом каждый блок закодированных аудиоданных может содержать информацию относительно достоверности аудиоданных, причем способ содержит:

выдачу или информации относительно уровня закодированных аудиоданных, которая описывает количество данных в начале блока аудиоданных, являющихся недостоверными,

или выдачу информации относительно уровня закодированных аудиоданных, которая описывает количество данных в конце блока аудиоданных, являющихся недостоверными,

или выдачу информации относительно уровня закодированных аудиоданных, которая описывает количество данных в начале и в конце блока аудиоданных, являющихся недостоверными.

Дополнительные варианты осуществления изобретения предоставляют кодер для выдачи информации относительно достоверности данных: причем кодер сконфигурирован для применения способа для выдачи информации относительно достоверности данных.

Дополнительные варианты осуществления изобретения предоставляют способ для приема закодированных данных, включающих в себя информацию относительно достоверности данных, и выдачи декодированных выходных данных, причем способ содержит:

прием закодированных данных или с информацией относительно уровня закодированных аудиоданных, которая описывает количество данных в начале блока аудиоданных, являющихся недостоверными,

или информацией относительно уровня закодированных аудиоданных, которая описывает количество данных в конце блока аудиоданных, являющихся недостоверными,

или информацией относительно уровня закодированных аудиоданных, которая описывает количество данных в начале и в конце блока аудиоданных, являющихся недостоверными;

и выдачу декодированных выходных данных, которые содержат только выборки, не маркированные как недостоверные,

или содержащих все аудиовыборки блока закодированных аудиоданных и выдачу информации в приложение, какая часть данных является достоверной.

Дополнительные варианты осуществления изобретения предоставляют декодер для приема закодированных данных и выдачи декодированных выходных данных, причем декодер содержит:

вход для приема последовательностей блоков закодированных аудиоданных с множеством закодированных аудиовыборок в них, где некоторые блоки аудиоданных содержат информацию относительно достоверности данных, причем информация форматирована, как описано в способе для приема закодированных аудиоданных, включающих в себя информацию относительно достоверности данных,

часть декодирования, подсоединенную к входу и сконфигурированную для применения информации относительно достоверности данных,

выход для выдачи декодированных аудиовыборок, где выдаются только достоверные аудиовыборки

или где выдается информация относительно достоверности декодированных аудиовыборок.

Варианты осуществления изобретения предоставляют считываемый компьютером носитель для хранения команд для выполнения по меньшей мере одного из способов в соответствии с вариантами осуществления изобретения.

Изобретение предоставляет новый подход для обеспечения информации относительно достоверности данных, отличающийся от существующих подходов, которые находятся вне подсистемы аудио, и/или подходы, которые выдают только значение задержки и продолжительность оригинальных данных.

Варианты осуществления изобретения выгодны, так как они применимы в аудиокодере и аудиодекодере, которые уже имеют дело со сжатыми и несжатыми аудиоданными. Это позволяет системам сжимать и выполнять декомпрессию только достоверных данных, как упомянуто выше, которые не нуждаются в дополнительной обработке аудиосигнала, вне кодера и декодера аудио. Варианты осуществления изобретения разрешают сигнализацию достоверных данных не только для основанных на файле приложений, но также и для основанных на потоке приложений и приложений, работающих в реальном времени, где продолжительность достоверных аудиоданных не известна в начале кодирования.

В соответствии с вариантами осуществления изобретения закодированный поток содержит информацию достоверности относительно уровня блока аудиоданных, которая может быть блоком аудиодоступа AAC MPEG-4. Для сохранения совместимости с существующими декодерами эта информация помещается в часть блока доступа, которая является дополнительной и может быть проигнорирована декодерами, не поддерживающими информацию достоверности. Такая часть является расширенной полезной информацией блока аудиодоступа AAC MPEG-4. Изобретение применимо к большинству существующих схем кодирования аудио, включающих в себя аудио уровня 3 MPEG-1 (MP3) и дополнительные схемы кодирования аудио, которые работают на основании блоков и/или страдают от алгоритмической задержки.

В соответствии с вариантами осуществления изобретения предоставлен новый подход для удаления недостоверных данных. Новый подход основан на уже существующей информации, доступной для кодера, декодера и уровней системы, включающих в себя кодер или декодер.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Варианты осуществления, соответствующие настоящему изобретению, будут впоследствии описаны со ссылками на приложенные чертежи, на которых:

Фиг. 1 иллюстрирует поведение декодера AAC НЕ: режим двойной скорости;

Фиг. 2 иллюстрирует обмен информацией между объектом уровня систем и аудиодекодером;

Фиг. 3 показывает схематичную блок-схему способа для выдачи информации относительно достоверности закодированных аудиоданных в соответствии с первым возможным вариантом осуществления;

Фиг. 4 показывает схематическую блок-схему способа для выдачи информации относительно достоверности закодированных аудиоданных в соответствии со вторым возможным вариантом осуществления описаний, раскрытых в настоящем описании;

Фиг. 5 показывает схематическую блок-схему способа для выдачи информации относительно достоверности закодированных аудиоданных в соответствии с третьим возможным вариантом осуществления описаний, раскрытых в настоящем описании;

Фиг. 6 показывает схематическую блок-схему способа для приема закодированных данных, включающих в себя информацию относительно достоверности данных в соответствии с вариантом осуществления описаний, раскрытых в настоящем описании;

Фиг. 7 показывает схематическую блок-схему способа для приема закодированных данных в соответствии с другим вариантом осуществления описаний, раскрытых в настоящем описании;

Фиг. 8 показывает диаграмму ввода/вывода кодера в соответствии с вариантом осуществления описаний, раскрытых в настоящем описании;

Фиг. 9 показывает схематическую диаграмму ввода/вывода кодера в соответствии с другим вариантом осуществления описаний, раскрытых в настоящем описании;

Фиг. 10 показывает схематическую блок-схему декодера в соответствии с вариантом осуществления описаний, раскрытых в настоящем описании; и

Фиг. 11 показывает схематическую блок-схему декодера в соответствии с другим вариантом осуществления описаний, раскрытых в настоящем описании.

ПОДРОБНОЕ ОПИСАНИЕ ИЛЛЮСТРАТИВНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ

Фиг. 1 показывает поведение декодера относительно блоков доступа (AU) и ассоциированных блоков (CU) композиции. Декодер подсоединяется к объекту, именованному "Системы", который принимает выходной сигнал, генерируемый посредством декодера. В качестве примера предполагается, что декодер должен выполнять функцию в соответствии со стандартом HE-AAC (усовершенствованное кодирование аудио с высокой эффективностью). Декодер HE-AAC является, по существу, декодером AAC, сопровождаемым каскадом последующей обработки SBR (уменьшения спектрального диапазона). Дополнительная задержка, наложенная инструментальным средством SBR, имеет место из-за банка QMF и буферов данных в инструментальном средстве SBR. Она может быть получена посредством следующей формулы:

DelaySBR-TOOL=LAnalysisFilter-NAnalysisChannels+1+Delaybuffer

где

NAnalysisChannels=32, LAnalysisFilter=320 и Delaybuffer=6×32.

Это означает, что задержка, внесенная инструментальным средством SBR (при входной частоте дискретизации, то есть выходной частоте дискретизации AAC), равна

DelaySBR-TOOL=320-32+1+6×32=481 выборок.

Как правило, инструмент SBR работает в режиме "повышения дискретизации" (или "двойной частоты"), в этом случае задержка 481 выборок при частоте дискретизации AAC преобразуется в задержку 962 выборки при частоте вывода SBR. Он может также работать при той же частоте дискретизации, как вывод AAC (обозначенный как "режим пониженной дискретизации SBR"), в этом случае дополнительной задержкой является только 481 выборка при частоте вывода SBR. Имеется режим "обратной совместимости", в котором пренебрегается инструмент SBR, и вывод AAC является выводом декодера. В этом случае дополнительной задержки нет.

Фиг. 1 показывает поведение декодера для большинства обычных случаев, в которых инструмент SBR работает в режиме повышения дискретизации и дополнительная задержка равна 962 выходных выборок. Эта задержка соответствует приблизительно 47% длины кадра AAC повышенной дискретизации (после обработки SBR). Должно быть отмечено, что T1 является отметкой времени, ассоциированной с CU 1 после задержки в 962 выборок, то есть отметкой времени для первой достоверной выборки вывода НЕ-AAC. Дополнительно должно быть отмечено, что если НЕ-AAC запущен в "режиме пониженной дискретизации SBR" или режиме "единственной частоты", задержка будет составлять 481 выборок, но отметка времени будет идентичной, так как в режиме единственной частоты CU составляют половину количества выборок таким образом, чтобы задержка оставалась по прежнему 47% от продолжительности CU.

Для всех доступных механизмов сигнализации (то есть неявной сигнализации, обратно совместимой явной сигнализации или иерархической явной сигнализации), если декодер является НЕ-AAC, то он должен передавать на Системы любую дополнительную задержку, подвергнутую обработке SBR, иначе отсутствие индикации от декодера указывает, что декодером является AAC. Следовательно, Системы могут регулировать отметку времени так, чтобы компенсировать дополнительную задержку SBR.

Следующая секция описывает, как кодер и декодер для основанного на преобразовании аудиокодека относятся к Системам MPEG, и предлагает дополнительный механизм для гарантий идентичности сигнала после передачи «туда и обратно» сигнала кодека, кроме "кодирования артефактов", особенно при наличии расширений кодека. Использование описанных способов гарантирует предсказуемую операцию с точки зрения Систем и также удаляет потребность в дополнительной составляющей собственность сигнализации "без промежутка", обычно необходимой для описания поведения кодера.

В этой секции ссылка сделана на следующие стандарты:

[1] ISO/IEC TR 14496-24:2007: Information Technology - Coding of audio-visual objects - Part 24: Audio and systems interaction

[2] ISO/IEC 14496-3:2009 Information Technology - Coding of audio-visual objects - Part 3: Audio

[3] ISO/IEC 14496-12:2008 Information Technology - Coding of audio-visual objects - Part 12: ISO base media file format

Кратко [1] описан в этой секции. В основном AAC (усовершенствованное кодирование аудио) и его преемники НЕ-AAC, НЕ-AAC v2 являются кодеками, которые не имеют соответствия 1:1 между сжатыми и несжатыми данными. Кодер добавляет дополнительные аудиовыборки в начало и в конец несжатых данных и также формирует блоки доступа со сжатыми данными для них в дополнение к блокам доступа, охватывающим несжатые оригинальные данные. Декодер, совместимый со стандартами, затем генерирует несжатый поток данных, содержащий дополнительные выборки, добавляемые посредством кодера.

[1] описывает, как существующие инструменты основанного на ISO формата [3] медиа файла могут быть повторно использованы для маркировки достоверного диапазона развернутых данных таким образом, чтобы (помимо артефактов кодека) мог быть восстановлен оригинальный несжатый поток. Маркировка достигается посредством использования списка редактирования с входом, содержащим достоверный диапазон после операции декодирования.

Так как это решение не было готово вовремя, составляющие собственность решения для маркировки достоверного периода теперь широко распространены в использовании (только два названия: Apple iTunes и Ahead Nero). Можно было утверждать, что предложенный способ в [1] является не очень практичным и страдает от проблемы, что списки редактирования были изначально предназначены для другой, потенциально сложной, цели, для которой доступны только несколько реализаций.

Дополнительно [1] показывает, как предварительный список данных может быть обработан посредством использования групп [3] выборки FF ISO (формат файла ISO). Предварительный список не маркирует, какие данные являются достоверными, но сколько блоков доступа (или выборок в номенклатуре FF ISO) должны быть декодированы до вывода декодера в произвольной точке во времени. Для AAC это всегда одна более ранняя выборка (то есть один блок доступа) из-за накладывающихся окон в области MDCT, следовательно, значением для предварительного запуска является 1 для всех блоков доступа.

Другой аспект относится к дополнительному предварительному просмотру множества кодеров. Дополнительные предварительные просмотры зависят, например, от внутренней обработки сигнала в кодере, который пытается создать вывод в реальном времени. Одна опция для принятия во внимание дополнительного предварительного просмотра может состоять в использовании списка редактирования также для задержки предварительного просмотра кодера.

Как упомянуто выше, вызывает сомнение, было ли оригинальной целью инструмента списка редактирования маркировать оригинальные достоверные диапазоны в медиа. [1] не содержит ничего относительно реализаций дополнительного редактирования файла со списками редактирования, следовательно, можно предположить, что использование списка редактирования для цели [1] добавляет некоторую слабость.

В качестве стороннего замечания, все составляющие собственность решения и решения для аудио MP3 определяли дополнительную задержку от начала до конца и длину оригинальных несжатых аудиоданных, очень похоже на решения Nero и iTunes, упомянутые выше, и для чего используют список редактирования в [1].

В общем, [1] не содержит ничего о корректном поведении поточных приложений в реальном времени, которые не используют формат файла MP4, но требуют отметок времени для корректной аудио-видеосинхронизации и часто работают в очень беззвучном режиме. Эти отметки времени часто устанавливаются некорректно, и, следовательно, в устройстве декодирования требуется кнопка для приведения всего назад в синхронизм.

Интерфейс между Аудио MPEG-4 и Системами MPEG-4 описан более подробно в следующих абзацах.

Каждый блок доступа, доставленный аудиодекодеру от интерфейса Систем, должен приводить к соответствующему блоку композиции, доставленному от аудиодекодера к интерфейсу систем, то есть компоновщику. Это должно включать в себя условия запуска и завершения, то есть когда блок доступа является первым или последним в конечной последовательности блоков доступа.

Для блока композиции аудиоотметка времени композиции (CTS) ISO/IEC 14496-1 подпункта 7.1.3.5 задает, что время композиции относится к n-й аудиовыборке в блоке композиции. Значение n равно 1, если не определено иначе в остальной части этого подпункта.

Для сжатых данных, таких как кодированное аудио НЕ-AAC, которое может быть декодировано различными конфигурациями декодера, необходима особая осторожность. В этом случае декодирование может быть сделано в форме обратной совместимости (только AAC), а также в расширенной форме (AAC+SBR). Для гарантии того, что отметки времени композиции обрабатываются корректно (таким образом, чтобы аудио оставался синхронизированным с другой медиа информацией), применяется следующее:

- Если сжатые данные разрешают как обратно совместимое, так и расширенное декодирование, и если декодер работает в форме обратной совместимости, то декодер не должен предпринимать специальных действий. В этом случае значение n равно 1.

- Если сжатые данные разрешают как обратную совместимость, так и расширенное декодирование, и если декодер работает в расширенной форме таким образом, что он использует пост-процессор, который вставляет некоторую дополнительную задержку (например, пост-процессор SBR в НЕ-AAC), то он должен гарантировать, что эта дополнительная задержка времени, внесенная относительно режима обратной совместимости, как описано соответствующим значением n, принята во внимание при представлении блока композиции. Значение n определено в следующей таблице.

Значение n Дополнительная задержка (Замечание 1) Режим работы декодера
1 0 А) Все режимы работы, не перечисленные где-нибудь еще в этой таблице
963 962 В1) Декодер НЕ-AAC или НЕ-AAC v2 с SBR, работающим в режиме двойной частоты; декодирование сжатого аудио НЕ-AAC или НЕ-AAC v2
482 481 В2) то же, что и В1), но с SBR, работающим в режиме понижения дискретизации
Отметка 1: задержка, введенная посредством последующей обработки, задается в количестве выборок (на каждый аудиоканал) при частоте дискретизации вывода для заданного режима работы декодера.

Описание интерфейса между Аудио и Системами доказало, что он работает надежно, охватывая большинство используемых в настоящее время случаев. Однако если посмотреть внимательно, не упоминаются две проблемы:

- Во многих системах началом отметки времени является значение ноль. Блоки AU предварительного списка не предполагаются как существующие, хотя например, AAC имеет неотъемлемую минимальную задержку кодера одного блока доступа, который требует один блок доступа перед блоком доступа в нулевой отметке времени. Решение для формата файла MP4 для этой проблемы описано в [1];

- нецелочисленные продолжительности размера кадра не охватываются. Структура AudioSpecificConfig () разрешает сигнализацию малого набора размеров кадров, которые описывают длины банка фильтров, например 960 и 1024 для AAC. Однако данные в реальном времени обычно не выравниваются по сетке фиксированных размеров кадров, и, следовательно, кодер должен дополнять последний кадр.

Эти два неучтенных результата недавно стали проблемой с появлением передовых мультимедийных приложений, которые требуют соединения двух потоков AAC или восстановления диапазона достоверных выборок после передачи «туда и обратно» сигнала кодека, особенно в отсутствии формата файла MP4 и способов, описанных в [1].

Для преодоления проблемы, упомянутой выше, предварительный список, пост-список и все другие источники должны быть описаны должным образом. Дополнительно, механизм для нецелочисленные множителей размеров кадров является необходимым, чтобы иметь аудио представления с точной выборкой.

Предварительный список требуется изначально для декодера таким образом, чтобы он был в состоянии полностью декодировать данные. Например, AAC требует предварительный список из 1024 выборок (один блок доступа) перед декодированием блока доступа таким образом, чтобы выходные выборки в операции наложения - добавления представляли желаемый оригинальный сигнал, как иллюстрировано в [1]. Другие аудиокодеки могут иметь другие требования предварительного списка.

Пост-список эквивалентен предварительному списку с тем лишь отличием, что больше данных после декодирования блока доступа должно быть загружено в декодер. Причиной для пост-списка является расширения кодека, которые повышают эффективность кодека в обмен на алгоритмическую задержку, такую как перечислена в таблице выше. Так как операция двойного режима часто желательна, предварительный список остается постоянным таким образом, чтобы декодер без реализованных расширений мог полностью использовать закодированные данные. Следовательно, предварительный список и отметки времени относятся к способностям унаследованного декодера. Затем требуется пост-список в дополнение к декодеру, поддерживающему эти расширения, так как существующая внутренняя линия задержки должна закончиться, чтобы извлечь полное представление оригинального сигнала. К сожалению, пост-список является зависимым от декодера. Однако возможно обрабатывать предварительный список и пост-список независимо от декодера, если значения предварительного списка и пост-списка известны уровню систем, и может быть просмотрен вывод предварительного списка и пост-списка из декодера.

Относительно переменного размера аудиокадра, так как аудиокодеки всегда кодируют блоки данных с фиксированным количеством выборок, представление с точностью до выборки становится возможным только посредством дополнительной сигнализации на уровне Систем. Так как для декодера проще всего работать с обрезанием с точностью до выборки, кажется желательным иметь декодер, вырезающий сигнал. Следовательно, предлагается дополнительный механизм расширения, который разрешает обрезку выходных выборок посредством декодера.

Относительно задержки специфичного для вендора кодера, MPEG задает только операцию декодера, тогда как кодеры предоставляются только произвольно. Это одно из преимуществ технологий MPEG, где кодеры могут улучшаться со временем, чтобы полностью использовать способности кодека. Гибкость в проектировании кодера, однако, приводит к проблемам взаимодействия задержек. Так как кодеры обычно нуждаются в предварительном просмотре аудиосигнала для принятия более "разумных" решений кодирования, это является преимущественно специфичным для вендора. Причинами для этой задержки кодера являются, например, решения с коммутацией блоков, которые требуют задержки возможных наложений окна и других оптимизаций, которые главным образом относятся к кодерам в реальном времени.

Основанное на файле кодирование, доступное для офлайн контента, не требует этой задержки, которая является уместной, только когда кодируются данные в реальном времени, тем не менее большинство кодеров достоверно добавляет паузу также к началу офлайн кодирований.

Одной частью решения для этой проблемы является корректная установка отметок времени на уровне систем таким образом, чтобы эти задержки были неуместными и имели, например, отрицательные значения отметки времени. Это может также быть достигнуто со списком редактирования, как предложено в [1].

Другой частью решения является выравнивание задержки кодера по границам кадра, таким образом, чтобы целое число блоков доступа, например, с отрицательными отметками времени могло быть пропущено изначально (помимо блоков доступа предварительного списка).

Способы, описанные в настоящем описании, также относятся к промышленному стандарту ISO/IEC 14496-3:2009, подраздел 4, секция 4.1.1.2. В соответствии с описаниями, раскрытыми в настоящем описании, предложено следующее:

при наличии, пост-декодерный инструмент обрезания выбирает часть восстановленного аудиосигнала таким образом, чтобы два потока могли быть соединены вместе в закодированной области, и восстановление точной выборки становится возможным на уровне аудио.

Вводом в пост-декодерный инструмент обрезания является:

- восстановленный аудиосигнала во временной области

- информация управления пост-обрезанием.

Выводом пост-декодерного инструмента обрезания является:

- восстановленный аудиосигнал во временной области.

Если пост-декодерный инструмент обрезания не является активным, восстановленный аудиосигнал во временной области непосредственно переходит на выход декодера. Этот инструмент применяется после любого предыдущего инструмента кодирования аудио.

Следующая таблица иллюстрирует предложенный синтаксис структуры данных extension_payload(), который может быть использован для реализации способов, описанных в настоящем описании.

Нижеследующая таблица иллюстрирует предложенный синтаксис структуры данных trim_info (), который может быть использован для реализации способа, описанного в настоящем описании.

со следующими определениями, относящимися к пост-декодерному обрезанию:

custom_resolution_present - флаг, который указывает, присутствует ли custom_resolution.

custom_resolution - настраиваемое разрешение в Гц, которое используется для операции обрезания. Рекомендуется установить настраиваемое разрешение, когда возможна мульти-частотная обработка аудиосигнала, и операция обрезания должна быть выполнена с самым высоким подходящим разрешением.

trim_resoIution - значение по умолчанию является номинальной частотой дискретизации, как указано в Таблице 1.16 ISO/IEC 14496-3:2009 посредством samplingFrequency или samplingFrequencyldx. Если установлен флаг custom_resolution_present, то разрешение для пост-декодерного инструмента обрезания является значением custom_resolution.

trim_from_beginning (NB) - количество выборок PCM, которые должны быть удалены из начала блока композиции. Значение является достоверным для аудиосигнала только со скоростью trim_resolution. Если trim_resolution не равно частоте дискретизации входного сигнала во временной области, значение должно быть соответственно измерено в соответствии со следующим уравнением:

NB=floor (NB sampling_frequency/trim_resolution)

trim_from_end (NE) - количество выборок PCM, которые должны быть удалены из конца блока композиции. Если trim_resolution не равно частоте дискретизации входного сигнала во временной области, значение должно быть соответственно измерено в соответствии со следующим уравнением:

NE=floor (NE sampling_frequency/trim_resolution)

Другой возможный алгоритм смешивания потоков может принимать во внимание неразрывное соединение (без возможности прерываний сигнала). Эта проблема также достоверна для несжатых данных PCM и является ортогональной способам, описанным в настоящем описании.

Вместо настраиваемого разрешения процентное содержание может также быть подходящим. Альтернативно может быть использована самая высокая частота выборок, но она может конфликтовать с обработкой на двойной частоте и декодерами, которые поддерживают обрезание, но не обработку на двойной частоте, следовательно, предпочитается реализация решения с независимым декодером, и персональное разрешение обрезания кажется разумным.

Относительно процесса декодирования применяется пост-декодерное обрезание после обработки всех данных блока доступа (то есть после того как будут применены расширения, такие как DRC, SBR, PS и т.д.). Обрезание не выполняется на уровне Систем MPEG-4; однако отметки времени и значения длительности блока доступа должны соответствовать предположению, что применяется обрезание.

Обрезание выполняется для блока доступа, который переносит информацию, только если никакая дополнительная задержка не была введена из-за дополнительных расширений (например, SBR). Если эти расширения находятся в месте и используются в декодере, то применение операции обрезания задерживается посредством задержки опциональных расширений. Следовательно, информация об обрезании должна храниться в декодере и дополнительные блоки доступа должны быть предоставлены уровнем Систем.

Если декодер может работать с более чем одной частотой, рекомендуется использовать настраиваемое разрешение для операции обрезания с самой высокой частотой.

Обрезание может приводить к прерываниям сигнала, что может вызвать искажение сигнала. Следовательно, информация обрезания должна быть вставлена в поток битов только в начале или в конце всего кодирования. Если два потока соединяются вместе, этих прерываний нельзя избежать, кроме кодера, который тщательно устанавливает значения trim_from_end и trim_from_beginning таким образом, чтобы два выходных сигнала временной области подходили друг другу без прерываний.

Обрезанные блоки доступа могут привести к неожиданным вычислительным требованиям. Множество реализаций принимают постоянное время обработки для блоков доступа с постоянной длительностью, которая больше не является достоверной, если длительность изменяется из-за обрезания, но вычислительные требования для блока доступа остаются. Следовательно, должны быть приняты декодеры с ограниченными вычислительными ресурсами, и, следовательно, обрезание должно быть использовано редко предпочтительно посредством кодирования данных способом, который по границам блока доступа, и обрезание используется только в конце кодирования, как описано в [ISO/IEC 14496-24:2007 Приложение B.2].

Описания, раскрытые в настоящем описании, также относятся к промышленному стандарту ISO/IEC 14496-24:2007. В соответствии с описаниями, раскрытыми в настоящем описании, нижеследующее предлагается относительно интерфейса аудиодекодера для доступа с точностью до выборки: аудиодекодер будет всегда создавать один блок композиции (CU) из одного блока доступа (AU). Необходимое количество блоков AU предварительного списка и пост-списков является постоянным для последовательного набора блоков AU посредством одного кодера.

Когда начинается операция декодирования, декодер инициализируется посредством AudioSpecificConfig (ASC). После того как декодер обработал эту структуру, наиболее релевантные параметры могут быть запрошены у декодера. Дополнительно, уровень Систем передает параметры, которые в общем являются независимыми от типа потока, будь это аудио-, или видео-, или другие данные. Они включают в себя информацию тактирования, данные предварительного списка и пост-списка. В общем, декодер нуждается в блоках AU предварительного списка перед AU, который содержит требуемую выборку. Дополнительно, необходим предварительный список rpost, это зависит, однако, от режима декодирования (декоди