2625560 - Устройство и способ кодирования или декодирования аудиосигнала с использованием перекрытия, зависящего от местоположения перехода

Устройство и способ кодирования или декодирования аудиосигнала с использованием перекрытия, зависящего от местоположения перехода

Иллюстрации

Показать все

Изобретение относится к обработке аудиосигналов и предназначено для кодирования или декодирования аудиосигналов при наличии переходов. Технический результат - предоставление усовершенствованного аудиокодирования/декодирования, обеспечивающего повышение производительности устройства. Устройство содержит: управляемый модуль кадрирования для кадрирования аудиосигнала, чтобы предоставить последовательность блоков кадрированных выборок; конвертор для преобразования последовательности блоков кадрированных выборок в спектральное представление, содержащее последовательность кадров спектральных значений; детектор местоположения перехода для идентификации местоположения перехода в области упреждения перехода в кадре; и контроллер для управления управляемым модулем кадрирования, чтобы применить конкретное окно, имеющее заданную длину перекрытия, к аудиосигналу в ответ на идентифицированное местоположение перехода, где контроллер конфигурируется для выбора конкретного окна из группы по меньшей мере из трех окон, содержащей первое окно, имеющее первую длину перекрытия, второе окно, имеющее вторую длину перекрытия, и третье окно, имеющее третью длину перекрытия или не имеющее перекрытия. 6 н. и 29 з.п. ф-лы, 44 ил.

Реферат

Настоящее изобретение относится к обработке аудиосигналов или сигналов изображения, и в частности, к кодированию или декодированию аудиосигналов или сигналов изображения при наличии переходов.

Современные схемы кодирования речи/аудио в частотной области на основе перекрывающихся FFT или модифицированного дискретного косинусного преобразования (MDCT) предлагают некоторую степень адаптации к характеристикам нестационарных сигналов. Универсальные кодеки, стандартизованные в MPEG, а именно MPEG-1 Уровень 3, более известный как MP3, MPEG-4 (HE-)AAC [1] и совсем недавний MPEG-0 xHE-AAC (USAC), а также кодек Opus/Celt, определенный IETF [2], допускают кодирование кадра с использованием одной из, по меньшей мере, двух разных длин преобразования - одно длинное преобразование с длиной M для прохождений стационарных сигналов или 8 коротких преобразований с длиной M/8 каждое. В случае кодеков MPEG переключение преобразований с длинных на короткие и с коротких на длинные (также известное как переключение блоков) требует использования асимметрично кадрированных преобразований перехода, а именно начального и стопового окна соответственно. Эти формы преобразования вместе с другими известными формами из известного уровня техники изображены на фиг. 16. Следует отметить, что линейный наклон перекрытия является всего лишь пояснительным и меняется по своей точной форме. Возможные формы окон приводятся в стандарте AAC [1] и в разделе 6 документа [3].

Если предстоящий кадр нужно кодировать кодером MPEG с помощью коротких преобразований, текущий кадр нужно кодировать с начальным преобразованием перехода, то становится очевидным, что кодер, реализованный в соответствии с одним из вышеупомянутых стандартов MPEG, требует по меньшей мере одной длины кадра для упреждения. Однако в применениях связи с малой задержкой желательно минимизировать или даже избегать этого дополнительного упреждения. С этой целью предложены две модификации универсальной парадигмы кодирования. Одна модификация, которая была выбрана, например, в Celt [2], состоит в уменьшении перекрытия у длинного преобразования до такового у короткого преобразования, чтобы можно было избежать асимметричных окон перехода. Другая модификация, которая используется, например, в схемах кодирования AAC с (улучшенной) малой задержкой MPEG-4, состоит в запрете переключения на более короткие преобразования и применении вместо этого инструмента кодирования с Временным ограничением шума (TNS) [4], воздействующего на коэффициенты длинного преобразования, чтобы минимизировать временной разброс ошибки кодирования возле переходов.

Кроме того, как и xHE-AAC, AAC с малой задержкой допускает использование двух ширин перекрытия кадров - 50%-ное перекрытие по умолчанию для стационарного входа или уменьшенное перекрытие (аналогично короткому перекрытию у преобразований перехода) для нестационарных сигналов. Уменьшенное перекрытие эффективно ограничивает удлинение времени преобразования и, соответственно, его ошибку кодирования в случае квантования коэффициентов.

Патент США 2008/0140428 A1, переданный Samsung Electronics Co., а также патенты США 5502789 и 5819214, переданные Sony Corp., раскрывают адаптивное к сигналу окно или узлы определения размера преобразования. Однако узлы преобразователя, управляемые упомянутым окном или узлами определения размера преобразования, воздействуют на значения поддиапазона QMF или LOT (подразумевая, что обе описанные системы применяют каскадные гребенки фильтров или преобразования), в отличие от работы непосредственно с полнодиапазонным входным сигналом временной области, как в настоящем случае. Кроме того, в 2008/0140428 A1 не описываются подробности касательно формы или управления перекрытием окон, а в 5819214 формы перекрытия соответствуют – то есть, являются его результатом – выходу из узла определения размера преобразования, что противоположно предлагаемому предпочтительным вариантом осуществления настоящего изобретения.

Патент США 2010/0076754 A1, переданный France Telecom, придерживается той же мотивировки, что и настоящее изобретение, а именно – способность выполнять переключение длины преобразования в сценариях кодирования связи, чтобы усовершенствовать кодирование переходных сегментов сигнала, и выполнение этого без дополнительного упреждения в кодере. Однако, тогда как упомянутый документ показывает, что цель малой задержки достигается избеганием окон перехода длины преобразования и постобработкой восстановленного сигнала в декодере (невыгодно: путем усиления частей декодированного сигнала и, соответственно, ошибки кодирования), настоящее изобретение предлагает простую модификацию окна перехода в системе известного уровня техники, которая будет представлена ниже, так что можно минимизировать дополнительное упреждение в кодере, и можно избежать особой (рискованной) постобработки в декодере.

Преобразование перехода, к которому нужно применить патентоспособную модификацию, является начальным окном, описанным в двух вариантах в патенте США 5848391, переданном Fraunhofer-Gesellschaft e.V. и Dolby Laboratories Licensing Corp., а также, немного в ином виде, в патенте США 2006/0122825 A1, переданном Samsung Electronics Co. Фиг. 16 показывает эти начальные окна и показывает, что отличие между окнами Fraunhofer/Dolby и окном Samsung состоит в наличии неперекрывающегося сегмента, то есть области окна, имеющей постоянное максимальное значение, которое не принадлежит никакому наклону перекрытия. Окна Fraunhofer/Dolby демонстрируют такую "неперекрывающуюся часть, имеющую длину", а окна Samsung – нет. Можно сделать вывод, что кодер с наименьшей величиной дополнительного упреждения, но использующий переключение преобразования из известного уровня техники, можно реализовать с применением подхода окна перехода от Samsung. При таких преобразованиях упреждения, равного ширине перекрытия между короткими преобразованиями, хватает для полного переключения с длинных на короткие преобразования заблаговременно перед переходом сигнала.

Дополнительный известный уровень техники можно найти в WO 90/09063 или "Coding of audio signals with overlap block transform and adaptive window functions", Frequenz, Band 43, сентябрь 1989, страницы 2052 – 2056, или в документе 4929 конвенции AES, "MPEG-4 Low Delay Audio Coding based on the AAC Codec", E. Allamanche и др., 106 конвенция, 1999.

Тем не менее, в зависимости от длины короткого преобразования упреждение может оставаться довольно большим, и его не следует исключать. Фиг. 17 иллюстрирует выполнение переключения блоков в ситуации входа в наихудшем случае, а именно, при наличии резкого перехода в начале области упреждения, которая, в свою очередь, начинается в конце длинного наклона, то есть области перекрытия между кадрами. В соответствии с подходами известного уровня техники по меньшей мере один из двух изображенных переходов простирается в преобразование перехода. В системе кодирования с потерями, использующей кодер без дополнительного упреждения - кодер, который не "видит будущий переход" - это условие вызывает временной разброс ошибки кодирования вплоть до начала длинного наклона, и соответственно, даже с использованием TNS опережающее эхо, скорее всего, будет слышимым в декодированном сигнале.

Два ранее упомянутых пути обхода упреждения обладают своими недостатками. С одной стороны, уменьшение перекрытия длинного преобразования вплоть до 8 раз, как в кодере Celt, сильно ограничивает эффективность (то есть эффективность кодирования, спектральное уплотнение) на стационарном, особенно сильно тональном, входном материале. С другой стороны, запрет коротких преобразований, как в AAC с (улучшенной) малой задержкой, снижает производительность кодека на значительных переходах с длительностями гораздо меньше длины кадра, часто приводя к слышимому опережающему или запаздывающему эху даже с использованием TNS.

Таким образом, процедуры определения последовательности окон из известного уровня техники являются субоптимальными по отношению к гибкости из-за ограниченных длин окон, субоптимальными по отношению к необходимой задержке из-за минимально необходимых периодов упреждения перехода, субоптимальными по отношению к качеству звучания из-за опережающих и запаздывающих эхо, субоптимальными по отношению к эффективности из-за потенциально необходимой дополнительной предварительной обработки, использующей дополнительные функциональные возможности помимо процедур кадрирования с помощью некоторых окон, или субоптимальными по отношению к гибкости и эффективности из-за возможной необходимости изменения растра кадра/блока при наличии перехода.

Цель настоящего изобретения – предоставить усовершенствованную идею аудиокодирования/декодирования, которая обеспечивает повышенную производительность относительно по меньшей мере одного из недостатков известного уровня техники.

Эта цель достигается с помощью устройства для кодирования аудиосигнала или сигнала изображения по п. 1, устройства декодирования аудиосигнала или сигнала изображения по п. 17, способа кодирования аудиосигнала или сигнала изображения по п. 32, способа декодирования аудиосигнала или сигнала изображения по п. 33 или компьютерной программы по п. 34.

Аспекты настоящего изобретения опираются на заключение, что для того, чтобы аудиокодек или кодек изображения с малой задержкой мог достичь качества кодирования универсальных кодеков, полезно поддерживать высокое процентное отношение перекрытия между длинными преобразованиями во время ввода стационарного сигнала и допускать мгновенное переключение на более короткие перекрытия и преобразования на участках аудиосигнала или сигнала изображения, охватывающих нестационарности сигнала. Кроме того, желательно допускать отчасти большую гибкость, нежели предложение лишь парного выбора относительно ширины перекрытия, и дополнительно или в качестве альтернативы по отношению к длинам преобразования, чтобы ширину перекрытия или длины преобразования (преобразований) в кадре можно было точно адаптировать на основе местоположения возможного перехода во временной области кадра, чтобы минимизировать опережающие эхо или другие артефакты.

В частности, детектор местоположения перехода конфигурируется для идентификации местоположения перехода в области упреждения перехода в кадре, и на основе местоположения перехода в кадре выбирается определенное окно из группы, состоящей по меньшей мере из трех окон, где эти три окна отличаются по их длинам перекрытия с соответствующими соседними окнами. Таким образом, первое окно имеет длину перекрытия больше второго окна, второе окно имеет длину перекрытия больше длины перекрытия у третьего окна, а третье окно в качестве альтернативы также может иметь нулевое перекрытие, то есть отсутствие перекрытия. Определенное окно выбирается на основе местоположения перехода так, что одно из двух соседних по времени перекрывающихся окон имеет первые оконные коэффициенты в местоположении перехода, а другое из двух соседних во времени перекрывающихся окон имеет вторые оконные коэффициенты в местоположении перехода, где вторые коэффициенты по меньшей мере в девять раз больше первых коэффициентов. Таким образом, обеспечивается, что переход достаточно ослаблен относительно первого окна, и переход достаточно выражен относительно второго окна. Другими словами и предпочтительно, чтобы более раннее окно уже находилось на значениях близко к нулю в местоположении перехода, где обнаружен переход, и второе окно имело оконные коэффициенты в этой области близко к единице или равные ей, чтобы в течение по меньшей мере участка перехода переход ослаблялся в более раннем окне и не ослаблялся в более позднем или следующем окне.

При реализации длины перекрытия отличаются в целое число раз, так что вторая длина перекрытия, например, равна половине третьей длины перекрытия, а третья длина перекрытия равна половине второй длины перекрытия или отличается от второй длины перекрытия в другое количество раз, но больше либо равна по меньшей мере 64 выборкам, или больше либо равна по меньшей мере 32 выборкам, или больше либо равна по меньшей мере даже 16 выборкам аудио или изображения.

Выбор окна, выведенный из местоположения перехода, передается вместе с кадрами аудиосигнала или сигнала изображения, чтобы декодер мог выбрать соответствующие окна синтеза в соответствии с выбором окон анализа кодером, обеспечивая то, что кодер и декодер синхронизируются на протяжении всей операции кодирования/декодирования.

При реализации управляемый модуль кадрирования, конвертор, детектор местоположения перехода и контроллер образуют устройство для кодирования, и конвертор применяет любое из известных вносящих наложение преобразований, например MDCT (модифицированное дискретное косинусное преобразование), DST (модифицированное дискретное синусное преобразование) или любое другое аналогичное преобразование. На стороне декодера процессор взаимодействует с управляемым конвертором, чтобы преобразовать последовательность блоков спектральных значений в представление временной области, используя обработку сложения с перекрытием в соответствии с последовательностями окон, указанными информацией об окнах, принятой декодером.

В зависимости от реализации переключение длины преобразования можно реализовать в дополнение к выбору перекрытия преобразования, опять на основе местоположения перехода в кадре. В результате реализации секции с множественным перекрытием, в которой перекрываются друг с другом по меньшей мере три окна, реализуется идея кодека с очень малой задержкой, которая к тому же существенно сокращает необходимую задержку упреждения перехода по отношению к более ранним идеям. В дополнительной реализации предпочтительно выполнить, прежде всего, выбор перекрытия, а впоследствии выполнить решение длины преобразования, чтобы определить код перекрытия для каждого кадра. В качестве альтернативы решение о переключении длины преобразования может выполняться независимо от решения о ширине перекрытия, и код перекрытия определяется на основе этих двух решений. На основе кода перекрытия для текущего кадра и кода перекрытия более раннего кадра осуществляется выбор последовательности окон для определенного перехода, на основе которого кодер, а также декодер работают синхронно друг с другом.

В дополнительном аспекте контроллер последовательности окон, препроцессор и конвертор спектра вместе составляют устройство для формирования кодированного сигнала, где три окна имеют участок с множественным перекрытием. Этот участок с множественным перекрытием, в котором не только два окна, как на известном уровне техники, а три окна перекрываются друг с другом, делает возможной идею очень малой задержки благодаря тому, что дополнительно сокращается необходимая задержка для упреждения перехода. Соответствующий декодер образуется из процессора декодера, временного конвертора и постпроцессора. Постпроцессор и препроцессор выполняют дополнительные операции по кадрированию, используя одно и то же вспомогательное окно на стороне кодера и на стороне декодера, чтобы можно было получить эффективную реализацию, в частности, в мобильных устройствах или дешевых устройствах, в которых необходимое ROM или RAM должно быть как можно меньше.

Предпочтительные варианты осуществления опираются на определенную последовательность окон и определенное взаимодействие окон, обладающих разными длинами, так что короткое окно "размещается" на переходе, чтобы избежать длинных опережающих или запаздывающих эхо. Для обеспечения того, что участок с множественным перекрытием не приводит к артефактам аудио или изображения, препроцессор на стороне кодера выполняет операцию по кадрированию с использованием вспомогательной оконной функции и операцию по предварительной обработке с использованием операции свертки, чтобы получить модифицированный участок с множественным перекрытием, который затем преобразуется в спектральную область, используя вносящее наложение преобразование. На стороне декодера соответствующий постпроцессор конфигурируется для выполнения операции развертки после соответствующих преобразований во временное представление, а после операции развертки выполняется кадрирование с использованием вспомогательной оконной функции и завершающее сложение с перекрытием с предыдущим блоком выборок, возникающим от оконной операции с длинным окном.

В варианте осуществления, в котором выполняется выбор перекрытия преобразования, получается улучшенное качество звучания или изображения.

В отличие от существующих систем кодирования, которые применяют только парный выбор ширины перекрытия преобразования (большая/максимальная либо малая), вариант осуществления предлагает набор из трех ширин перекрытия, из которого кодер может выбирать на основе кадра (или, при желании, на основе преобразования): максимальное перекрытие, половинное перекрытие или минимальное перекрытие. Максимальное перекрытие может быть равно длине кадра, как для длинных преобразований в AAC, то есть 50%-ное перекрытие, но также может быть равно половине длины кадра, то есть 33%-ное перекрытие, или меньше, что будет описываться в предпочтительном варианте осуществления. Соответственно, минимальное перекрытие может указывать нулевую ширину перекрытия, то есть отсутствие перекрытия, но также может представлять перекрытие больше нулевого со сверхмалым количеством временных выборок или миллисекунд, что продемонстрирует упомянутый предпочтительный вариант осуществления. В конечном счете половинное перекрытие могло бы составлять половину максимального перекрытия, но это не обязательно.

В частности, в соответствии с аспектом настоящего изобретения задается узел определения ширины перекрытия, который для каждого кадра (или, при желании, для каждого преобразования в кадре) выбирает одну из трех возможных ширин перекрытия. Точнее говоря, упомянутый узел определения ширины перекрытия в качестве входа получает выход узла обнаружения перехода, чтобы с достаточной точностью идентифицировать положение перехода в текущем кадре (или, при желании, в преобразовании в текущем кадре) и вывести ширину перекрытия, так что достигается по меньшей мере одна из двух целей:

- Ширина выбирается такой, что только одно из перекрывающихся преобразований содержит переход.

- Хорошо устраняются псевдо-переходы из-за наложенного по времени ограничения TNS ошибки кодирования.

Другими словами, ширина перекрытия определяется с целью предотвращения искажения в виде опережающего или запаздывающего эха возле кодированного по восприятию перехода, расположенного в данном кадре. Нужно отметить, что возможна некоторая степень свободы касательно средства определения точного местоположения перехода. Временной индекс или индекс субблока, обозначающий местоположение перехода, может быть равен началу (возникновению) того местоположения перехода, как в предпочтительном варианте осуществления, но также может быть местоположением максимальной энергии или амплитуды перехода, или центром энергии.

Кроме того, в отличие от схем кодирования известного уровня техники, которые выводят мгновенные перекрытия между преобразованиями из заданного выбора длин преобразования для пары кадров (то есть ширина перекрытия соответствует выходу узла определения размера преобразования), в соответствии с другим аспектом настоящего изобретения система кодирования при определенных условиях, рассматриваемых ниже в предпочтительном варианте осуществления, может управлять или выводить длину (длины) преобразования для использования для конкретного кадра, используя ширину перекрытия, связанную с тем кадром, и, при желании, ширину перекрытия предыдущего кадра (то есть размер преобразования соответствует данным от узла определения ширины перекрытия).

В дополнительном варианте осуществления, в котором используется участок с множественным перекрытием или применяется переключение длины преобразования, получается идея с очень малой задержкой.

Усовершенствование в схемах переключения блоков известного уровня техники является полезной модификацией преобразований перехода из фиг. 16, которая позволяет уменьшить вполовину дополнительное упреждение в кодере, необходимое для работы с устойчивым качеством во время нестационарностей сигнала. Как обсуждалось выше, начальные окна, предложенные Fraunhofer/Dolby или Samsung, отличаются наличием или отсутствием, соответственно, "неперекрывающейся части, имеющей длину". Вариант осуществления идет еще дальше и позволяет левому и правому наклонам перекрытия у окна перехода заходить друг на друга. Другими словами, модифицированное преобразование перехода показывает область "двойного перекрытия" ненулевой длины, в которой она перекрывается как с длинным преобразованием предыдущего кадра, так и следующим коротким преобразованием. Результирующая форма патентоспособного преобразования перехода иллюстрируется на фиг. 13. По сравнению с окном перехода от Samsung, показанным на фиг. 17, понятно, что в результате разрешения области "с двойным перекрытием" при преобразовании наклон короткого перекрытия с правой стороны преобразования можно сдвинуть влево на - и посредством этого необходимое упреждение в кодере можно уменьшить на - половину ширины перекрытия короткого преобразования. Уменьшенная длина такого модифицированного окна перехода дает три ключевых преимущества, которые упрощают реализацию, особенно на мобильных устройствах.

Ядро преобразования, то есть длина вектора коэффициентов, получающегося в результате временного/частотного преобразования внахлестку (предпочтительно – MDCT), составляет ровно половину ширины области перекрытия между двумя длинными преобразованиями. Учитывая, что упомянутая ширина длинного перекрытия обычно равна длине кадра или половине длины кадра, это подразумевает, что патентоспособное окно перехода и последующие короткие окна отлично помещаются в кадровую сетку, и что все размеры преобразований у результирующего кодека связаны целой степенью двух, как видно на фиг. 13.

- Оба местоположения перехода, изображенные на фиг. 17 и снова на фиг. 13, находятся вне преобразования перехода, поэтому временное "размывание" ошибки кодирования из-за переходов можно ограничить расширением первых двух коротких окон после преобразования. Поэтому, вопреки схемам Fraunhofer/Dolby и Samsung из известного уровня техники, вряд ли возникает слышимое опережающее эхо возле переходов при использовании патентоспособного подхода переключения блоков из фиг. 13.

- Как кодер, так и декодер могут использовать точно такие же окна для прямого и обратного преобразований. Соответственно, в устройстве связи, выполняющем кодирование и декодирование, нужно хранить только один набор данных окна в ROM. Кроме того, также можно избежать специальной предварительной или постобработки сигнала, которая потребовала бы дополнительного ROM и/или RAM для программы.

Традиционно окна перехода с сегментом "двойного перекрытия", как в настоящем изобретении, не использовались при кодировании речи, аудио или изображений, скорее всего потому, что они считались нарушающими некоторые принципы, которые обеспечивают точное восстановление формы волны при отсутствии квантования коэффициентов преобразования. Однако можно точно восстановить вход при использовании патентоспособного преобразования перехода, и кроме того, не требуется никакой специальной постобработки на стороне декодера, как в предложении France Telecom.

Дополнительно отметим, что использование упомянутого патентоспособного окна перехода может управляться посредством патентоспособного узла определения ширины перекрытия вместо узла определения длины преобразования или в дополнение к нему.

Далее обсуждаются и подробнее иллюстрируются предпочтительные варианты осуществления настоящего изобретения. Кроме того, приводится конкретная ссылка на зависимые пункты формулы изобретения, в которых задаются дополнительные варианты осуществления.

Кроме того, описание изобретения более точно иллюстрирует аспект, связанный с адаптивным к местоположению перехода переключением перекрытия, в частности, по отношению к фиг. 1a–7. Дополнительный аспект, связанный с участком с множественным перекрытием, иллюстрируется и описывается по отношению к фиг. 8a–15f. Эти отдельные аспекты можно реализовать независимо друг от друга, то есть переключение перекрытия может применяться без области с множественным перекрытием, или область с множественным перекрытием может применяться без адаптивного к местоположению перехода переключения перекрытия. Однако при реализации оба аспекта можно выгодно объединить, получая в результате идею кодирования/декодирования, содержащую адаптивное к местоположению перехода переключение перекрытия и область с множественным перекрытием. Такую идею можно дополнительно расширить процедурой переключения длины преобразования, опять зависимой от местоположения перехода в области упреждения перехода в кадре. Переключение длины преобразования может выполняться в зависимости от определения ширины перекрытия или независимо от переключения перекрытия.

Настоящее изобретение полезно не только для аудиосигналов, но также полезно для сигналов видео или сигналов изображения в целом. Например, при кодировании неподвижных изображений или так называемых I-кадров в AVC либо менее или более продвинутых технологиях настоящее изобретение может применяться для избегания блочных артефактов. Переход в поле изображения был бы резкой границей, а кадр соответствовал бы, например, макроблоку. Изображение затем кодируется, предпочтительно двумерно, с использованием вносящего наложение преобразования и соответствующего пространственного перекрытия. Это, с одной стороны, уменьшает блочные артефакты, а с другой стороны – уменьшает любые другие артефакты из-за участков перехода, то есть участков с резкими границами. Поэтому последующее раскрытие изобретения в равной степени применяется к сигналам изображения, хотя это не указывается особо на всем протяжении раскрытия изобретения.

Варианты осуществления и аспекты обсуждаются далее по отношению к прилагаемым чертежам, на которых:

Фиг. 1a иллюстрирует устройство для кодирования применительно к аспекту переключения перекрытия;

Фиг. 1b иллюстрирует устройство для декодирования для аспекта переключения перекрытия;

Фиг. 2a иллюстрирует последовательность окон с полным перекрытием между соседними окнами;

Фиг. 2b иллюстрирует последовательность окон с половинным перекрытием между двумя соседними окнами;

Фиг. 2c иллюстрирует последовательность окон с четвертным перекрытием между соседними окнами и половинным перекрытием между соседними окнами и последующим полным перекрытием между соседними окнами;

Фиг. 3a и 3c иллюстрируют разные ширины перекрытия для разных местоположений перехода для варианта осуществления с длиной преобразования 20 мс, например TCX 20;

Фиг. 4a–4g иллюстрируют выбор длин перекрытий преобразования для длины преобразования 10 мс, например TCX 10, в зависимости от местоположения перехода;

Фиг. 5a–5c иллюстрируют кодирование ширины перекрытия;

Фиг. 6a иллюстрирует кодирование ширины перекрытия и длины преобразования на основе положения перехода;

Фиг. 6b иллюстрирует таблицу решений длины преобразования;

Фиг. 7 иллюстрирует разные последовательности окон, зависимые от предыдущих и текущих кодов перекрытия;

Фиг. 8a иллюстрирует кодер применительно к участку с множественным перекрытием в варианте осуществления настоящего изобретения;

Фиг. 8d иллюстрирует декодер для аспекта участка с множественным перекрытием в варианте осуществления настоящего изобретения;

Фиг. 9a иллюстрирует процедуру в соответствии с предпочтительным вариантом осуществления, иллюстрирующим сторону кодера;

Фиг. 9b иллюстрирует блок-схему алгоритма предпочтительной процедуры, выполняемой на стороне кодера;

Фиг. 10a иллюстрирует вариант осуществления процедуры на стороне декодера;

Фиг. 10b иллюстрирует дополнительный вариант осуществления процедуры, выполняемой на стороне декодера;

Фиг. 11a иллюстрирует операции, выполняемые на стороне кодера в варианте осуществления;

Фиг. 11b иллюстрирует операции, выполняемые декодером в варианте осуществления настоящего изобретения;

Фиг. 12a и 12b иллюстрируют дополнительный вариант осуществления процедур для выполнения на стороне кодера/декодера применительно к аспекту множественного перекрытия в изобретении;

Фиг. 13 иллюстрирует разные последовательности окон, имеющие участок с множественным перекрытием;

Фиг. 14a иллюстрирует последовательность окон, имеющую переключаемую длину преобразования в зависимости от местоположения перехода;

Фиг. 14b иллюстрирует дополнительную последовательность окон, имеющую участок с множественным перекрытием;

Фиг. 15a–15f иллюстрируют разные последовательности окон и соответствующие участки упреждения и опережающие эхо;

Фиг. 16 иллюстрирует формы окон из известного уровня техники; и

Фиг. 17 иллюстрирует последовательности окон из известного уровня техники, образованные формами окон из фиг. 16.

Фиг. 1a иллюстрирует устройство для кодирования аудиосигнала 100. Устройство для кодирования аудиосигнала содержит управляемый модуль 102 кадрирования для кадрирования аудиосигнала 100, чтобы предоставить последовательность блоков кадрированных выборок по ссылке 103. Кроме того, декодер содержит конвертор 104 для преобразования последовательности 103 блоков кадрированных выборок в спектральное представление, содержащее последовательность кадров спектральных значений, указанную по ссылке 105. Кроме того, предоставляется детектор 106 местоположения перехода. Детектор конфигурируется для идентификации местоположения перехода в области упреждения перехода в кадре. Кроме того, контроллер 108 для управления управляемым модулем кадрирования конфигурируется для применения определенного окна, обладающего заданной длиной перекрытия, к аудиосигналу 100 в ответ на идентифицированное местоположение перехода, проиллюстрированное по ссылке 107. Кроме того, контроллер 108 в варианте осуществления конфигурируется для предоставления информации 112 об окнах не только управляемому модулю 102 кадрирования, но также выходному интерфейсу 114, который обеспечивает на выходе кодированный аудиосигнал 115. Спектральное представление, содержащее последовательность 105 кадров спектральных значений, вводится в кодирующий процессор 110, который может выполнять любой вид операции кодирования, например операцию предсказания, операцию временного ограничения шума, операцию квантования, предпочтительно по отношению к психоакустической модели или, по меньшей мере, по отношению к психоакустическим принципам, или может содержать операцию кодирования с уменьшением избыточности, например операцию кодирования Хаффмана или операцию арифметического кодирования. Выход кодирующего процессора 110 затем перенаправляется в выходной интерфейс 114, и выходной интерфейс 114 в конечном счете предоставляет кодированный аудиосигнал, имеющий ассоциированную с каждым кодированным кадром некоторую информацию 112 об окнах.

Контроллер 108 конфигурируется для выбора определенного окна из группы по меньшей мере из трех окон. Группа содержит первое окно, имеющее первую длину перекрытия, второе окно, имеющее вторую длину перекрытия, и третье окно, имеющее третью длину перекрытия либо отсутствие перекрытия. Первая длина перекрытия больше второй длины перекрытия, а вторая длина перекрытия больше нулевого перекрытия. Определенное окно выбирается управляемым модулем 102 кадрирования на основе местоположения перехода так, что одно из двух соседних по времени перекрывающихся окон имеет первые оконные коэффициенты в местоположении перехода, а другое из двух соседних во времени перекрывающихся окон имеет вторые оконные коэффициенты в местоположении перехода, и вторые оконные коэффициенты по меньшей мере в девять раз больше первых коэффициентов. Это обеспечивает, что переход значительно ослабляется первым окном, имеющим первые (небольшие) коэффициенты, и переход почти не затрагивается вторым окном, имеющим вторые оконные коэффициенты. Предпочтительно, чтобы первые оконные коэффициенты были равны 1 в пределах допуска плюс/минус 5%, например между 0,95 и 1,05, а вторые оконные коэффициенты были равны 0 или, по меньшей мере, меньше 0,05. Оконные коэффициенты с тем же успехом могут быть отрицательными, и в этом случае отношения и величины оконных коэффициентов относятся к абсолютной величине (модулю).

Фиг. 2a иллюстрирует последовательность окон только с первыми окнами, и первые окна имеют первую длину перекрытия. В частности, прошлый кадр имеет ассоциированное первое окно 200, текущий кадр имеет ассоциированное окно 202, и третий или следующий кадр имеет ассоциированное окно 204. В этом варианте осуществления соседние окна перекрываются на 50%, то есть на полную длину. Кроме того, кадры размещаются относительно окон, чтобы идентифицировать, какой участок аудиосигнала обрабатывается кадром. Это объясняется со ссылкой на текущий кадр. Текущий кадр имеет левый участок 205a и правый участок 205b. Соответственно, прошлый кадр имеет правый участок 204b и левый участок 204a. По аналогии следующий кадр имеет левый участок 206a и правый участок 206b. Лево/право относится к более раннему по времени и более позднему по времени, как проиллюстрировано на фиг. 2a. Когда формируется текущий кадр спектральных значений, используются аудиовыборки, полученные путем кадрирования с помощью окна 202. Аудиовыборки возникают из участков 204b–206a.

Как известно в области обработки MDCT, обычно при обработке с использованием вносящего наложение преобразования это вносящее наложение преобразование можно разделить на этап свертки и последующий этап преобразования, использующий некоторое не вносящее наложение преобразование. В примере фиг. 2a секция 204b свертывается в секцию 205a, а секция 206a свертывается в секцию 205b. Результат операции свертки, то есть взвешенная комбинация 205a, 204b с одной стороны и 206a и 205b, затем преобразуется в спектральную область с использованием некоего преобразования, например преобразования DCT. В случае MDCT применяется преобразование DCT IV.

Впоследствии это иллюстрируется посредством ссылки на MDCT, но аналогичным образом можно применять другие вносящие наложение преобразования. В качестве преобразования внахлестку MDCT является немного необычным по сравнению с другими относящимися к Фурье преобразованиями в том, что оно имеет вдвое меньше выходов, чем входов (вместо одинакового количества). В частности, это линейная функция F: R^2N→R^N (где R обозначает набор вещественных чисел). 2N вещественных чисел x0, …, x2N-1 преобразуются в N вещественных чисел X0, …, XN-1 в соответствии с формулой:

(Коэффициент нормализации впереди этого преобразования, здесь – единица, является произвольным соглашением и отличается между обработками. Ограничивается только произведение нормализаций MDCT и IMDCT, ниже).

Обратное преобразование

Обратное MDCT известно как IMDCT. Поскольку имеются разные количества входов и выходов, поначалу может показаться, что MDCT не должно быть обратимым. Однако полная обратимость достигается путем сложения перекрывающихся IMDCT соседних по времени перекрывающихся блоков, вызывая подавление ошибок и извлечение исходных данных; эта методика известна как компенсация наложения временной области (TDAC).

IMDCT преобразует N вещественных чисел X0, …, XN-1 в 2N вещественных чисел y0, …, y2N-1 в соответствии с формулой:

(Как и для DCT-IV, ортогонального преобразования, противоположность имеет такой же вид, как и прямое преобразование).

В случае кадрированного MDCT при обычной нормализации окон (см. ниже) коэффициент нормализации впереди IMDCT следует умножить на 2 (то есть становится 2/N).

В типичных применениях со сжатием сигнала свойства преобразования дополнительно улучшаются с использованием оконной функции wn (n=0, …, 2N-1), которая умножается на xn и yn в формулах MDCT и IMDCT выше, чтобы избежать разрывносте

Устройство и способ кодирования или декодирования аудиосигнала с использованием перекрытия, зависящего от местоположения перехода

Патент 2625560