2407068 - Многоканальное кодирование и декодирование

Многоканальное кодирование и декодирование

Иллюстрации

Показать все

Устройство (1) кодирования для преобразования первого числа (М) входных аудиоканалов во второе, меньшее, число (N) выходных аудиоканалов содержит по меньшей мере один блок (12) преобразования для преобразования первого сигнала (Lf; Rf; Co) и второго сигнала (Lr; Rr; Le) в третий сигнал (L; R; С) и четвертый сигнал (Ls; Rs; Cs). Третий, основной, сигнал содержит большую часть энергии первого и второго сигнала, а четвертый, остаточный, сигнал содержит остаток упомянутой энергии. Устройство кодирования выполнено с возможностью использования третьего сигнала (L; R; С) для получения выходного сигнала и с возможностью вывода четвертого сигнала (Ls; Rs; Cs). Устройство (2) декодирования для преобразования первого числа (N) входных аудиоканалов во второе, большее число (М) выходных аудиоканалов содержит, по меньшей мере, один блок (24) преобразования, для преобразования первого сигнала (L; R; С) и второго сигнала (Ld; Rd; Ld) в третий сигнал (Lf, Rf; Co) и четвертый сигнал (Lr; Rr; Le). Первый, основной, сигнал содержит большую часть энергии третьего и четвертого сигнала, а второй, остаточный, сигнал содержит остаток упомянутой энергии. Устройство кодирования выполнено с возможностью приема, по меньшей мере, одного второго сигнала (Ld; Rd; Cd). Технический результат - улучшение качества декодированного аудиосигнала. 6 н. и 9 з.п. ф-лы, 13 ил.

Реферат

Настоящее изобретение относится к многоканальному кодированию и декодированию. Более конкретно, настоящее изобретение относится к устройству и способу для преобразования некоторого числа звуковых каналов в меньшее число звуковых каналов (кодирование) и устройству и способу для преобразования некоторого числа звуковых каналов в большее число звуковых каналов (декодирование).

Звуковые системы, использующие множество каналов, хорошо известны. Тогда как обычные стереосистемы используют только два звуковых канала, современные 5.1-системы используют 6 каналов: левый передний (lf), левый задний (lr), правый передний (rf), правый задний (rr), центральный (co) и низкочастотных эффектов (lfe или le). Большее число каналов является причиной увеличения количества звуковых данных, которые будут сохраняться и/или передаваться. Это увеличение данных привело к попыткам уменьшения количества данных с помощью кодирования.

Один из этих методов кодирования известен как кодирование Mid/Side (M/S), или кодирование Sum/Difference, и рассмотрен в работе J.D. Johnston и A.J. Ferreira «Sum-difference stereo transform coding», Proceedings of the International Conference on Acoustics and Speech Signal Processing (ICASSP), San Francisco, USA, 1992, pp. II 569-572. Кодирование Mid/Side обычно используют для кодирования пары стереосигналов. Используя кодирование M/S, звуковой сигнал, состоящий из первого (например, левого) сигнала l[n] и второго (например, правого) сигнала r[n], кодируется как суммарный сигнал m[n] и разностный (или остаточный) сигнал s[n]:

m[n] = r[n] + l[n] s[n] = r[n] − l[n]

(1)

Для (почти) одинаковых сигналов l[n] и r[n] это дает высокую эффективность кодирования, так как соответствующий разностный сигнал s[n] близок к нулю, тогда как суммарный сигнал содержит практически всю энергию сигнала. Следовательно, в этой ситуации битовая скорость передачи данных, требуемая для кодирования суммарного и разностного сигналов, близка к битовой скорости передачи данных, требуемой для кодирования только одного канала.

В качестве альтернативы, процесс кодирования Mid/Side по формуле (1) может быть описан с помощью матрицы поворота:

Здесь левый и правый сигналы были повернуты на угол π/4. Суммарный сигнал может быть интерпретирован как проекция левых и правых отсчетов на прямую l = r, тогда как разностный (или остаточный) сигнал может быть интерпретирован как проекция левых и правых отсчетов на прямую l = −r.

Этот метод может быть обобщен с помощью разрешения поворота на углы, отличные от π/4. Для того чтобы минимизировать мощность сигнала в остаточном сигнале (т.е. максимизируя эффективность кодирования), для широкого класса входных сигналов угол поворота может, кроме того, быть зависящим от сигнала. Следующий унитарный поворот может быть применен к паре каналов:

где m'[n] и s'[n] представляют основной и остаточный сигналы соответственно и угол α выбирают так, чтобы минимизировать мощность остаточного сигнала, таким образом максимизируя мощность основного сигнала. Данный обобщенный метод поворота часто упоминается как анализ главных компонент (PCA).

Так как поворот по формуле (3) минимизирует мощность остаточного сигнала, обычно полагают, что остаточный сигнал содержит мало значимой для восприятия информации, в частности на высоких частотах. По этой причине традиционные системы кодирования отбрасывают остаточные сигналы, производимые при повороте по формуле (3) и при подобных преобразованиях.

Хотя вышеуказанные методы предназначены в первую очередь для стереосигналов, они могут применяться к звуковым сигналам, имеющим множество каналов, к таким как 5.1-сигналы, с помощью повторного сокращения пар сигналов до основного сигнала, который сохраняется и/или передается, и остаточного сигнала, который отбрасывается.

Отбрасывание остаточного сигнала, конечно, приводит к уменьшению данных. Однако авторы настоящего изобретения поняли, что только значительное уменьшение данных достигается тогда, когда остаточный сигнал содержит относительно большое количество информации. Отбрасывание остаточного сигнала в таких случаях неизбежно приводит к нежелательному воспринимаемому искажению звукового сигнала.

В устройствах декодирования обсуждавшиеся выше методы используются для восстановления исходных сигналов из кодированных сигналов. Если было использовано, например, кодирование M/S, чтобы воспроизвести пару исходных сигналов с помощью обратного поворота, требуются и основной сигнал, и остаточный сигнал. В устройствах декодирования предшествующего уровня техники остаточные сигналы не принимаются, и поэтому синтезируемый остаточный сигнал получают из каждого основного сигнала, используя декоррелятор. Хотя это и позволяет аппроксимировать исходные сигналы, форма волны синтезируемых остаточных сигналов обычно отличается от формы волны реальных остаточных сигналов. В результате будет иметься отличие между декодированными сигналами и исходными сигналами.

Задача настоящего изобретения как раз и состоит в том, чтобы преодолеть эти и другие проблемы предшествующего уровня техники и предоставить устройство кодирования и устройство декодирования, которые делают возможным улучшенное качество сигнала.

Соответственно, настоящее изобретение предоставляет устройство кодирования для преобразования первого числа входных звуковых каналов во второе число выходных звуковых каналов, где первое число больше второго числа, причем устройство содержит по меньшей мере два блока преобразования, каждый для преобразования первого сигнала и второго сигнала в третий сигнал и четвертый сигналы, причем третий сигнал содержит большую часть сигнальной энергии первого и второго сигналов, и четвертый сигнал содержит остаток упомянутой сигнальной энергии; данное устройство кодирования выполнено с возможностью использования третьих сигналов для получения выходного сигнала, причем устройство кодирования, кроме того, выполнено с возможностью вывода четвертого сигнала.

С помощью вывода по меньшей мере одного четвертого сигнала, т.е. вышеупомянутого остаточного сигнала, вместо его отбрасывания декодером может быть произведено значительно лучшее восстановление исходного сигнала.

Если устройство кодирования содержит более двух блоков преобразования, четвертый сигнал предпочтительно выводить для каждого блока преобразования, хотя это и не является необходимым, четвертый сигнал выбранных блоков преобразования мог бы использоваться для улучшения качества сигнала в декодере. Отметим, что блоки преобразования могут быть установлены параллельно или последовательно (каскадно) и что блоки преобразования могут иметь более двух входных каналов, например три.

Хотя возможно выводить весь четвертый сигнал, т.е. для всей длительности первого и второго сигналов, предпочтительно выбрать временные сегменты, для которых четвертый сигнал должен выводиться. Более конкретно, с помощью выбора значимых для восприятия временных сегментов (например, временных кадров) емкость передачи или хранения, необходимая для передачи или сохранения четвертого(ых) сигнала(ов), снижается, в то же время все еще обеспечивая значительное улучшение качества сигнала по отношению к предшествующему уровню техники. Например, могут быть выбраны только временные сегменты, содержащие частоты ниже 5 кГц, используя, таким образом, частотно-зависимый выбор.

В дополнительном предпочтительном варианте осуществления выбор временных сегментов или частей сигналов выполняют с помощью пропускания в основном значимых для восприятия частей четвертых (т.е. остаточных) сигналов, ослабления менее значимых для восприятия частей четвертого сигнала и подавления наименее значимых частей четвертых сигналов. Т.е. части сигнала (или кадры) делят на по меньшей мере три группы: те части сигнала, которые, будучи наиболее значимыми для восприятия, пропускаются в основном без ослабления, те части сигнала, которые, будучи менее значимыми для восприятия, также пропускаются, но с ослаблением, и те части сигнала, которые, будучи наименее значимыми для восприятия, подавляются. Таким образом, достигается более гладкий переход между частями сигнала, имеющими каждая различную значимость, приводя к более высокому качеству сигнала.

Значимость для восприятия может быть определена рядом способов, например с помощью использования весовой функции, которая дает весовую (т.е. усиление или ослабление) оценку, зависящую от отношения, например отношения мощности четвертого сигнала и третьего сигнала блока преобразования в течение отдельного временного сегмента.

Вместо или вдобавок к выбору временного и/или частотного сегментов соответствующих каналов, также могут быть выбраны каналы, для которых четвертый сигнал является выходным. Если по меньшей мере два блока преобразования расположены каскадно, предпочтительно, чтобы блок преобразования, ближайший к выходной клемме устройства кодирования, выбирался для вывода его четвертого сигнала, тогда как четвертый сигнал одного или более далеких (в направлении обработки сигнала) блоков преобразования может быть отброшен. Другими словами, блоки преобразования, расположенные ниже (в направлении обработки сигнала), выбирают ранее других блоков преобразования для вывода их соответствующего четвертого сигнала. Авторы настоящего изобретения поняли, что четвертые сигналы, производимые наиболее близко к выходной клемме - т.е. на последней стадии - устройства кодирования обычно будут использоваться на первых стадиях устройства декодирования и поэтому будут иметь наибольшую значимость для качества декодированного сигнала. По этой причине предпочтительно, чтобы эти четвертые сигналы передавались, тогда как четвертые сигналы блоков преобразования, имеющих меньшую значимость, могут быть отброшены, в частности, когда доступная пропускная способность передачи не позволяет передачу всех четвертых сигналов.

Этот выбор блоков преобразования может быть временным или постоянным. Если выбор временный, все блоки преобразования могут быть снабжены блоком выбора, который может пропускать или блокировать соответствующий четвертый сигнал в зависимости от доступной пропускной способности передачи или других факторов. Если выбор постоянный, блоки выбора некоторых блоков преобразования, обычно самых дальних от выходной клеммы устройства, могут быть опущены.

Настоящее изобретение также предоставляет устройство декодирования для декодирования звуковых сигналов, которые были закодированы с использованием устройства кодирования, как определено выше. Соответственно, настоящее изобретение предоставляет устройство декодирования для преобразования первого числа входных звуковых каналов во второе число выходных звуковых каналов, где первое число меньше второго числа, причем устройство содержит по меньшей мере два блока преобразования, каждый для преобразования первого сигнала и второго сигнала в третий сигнал и четвертый сигнал, причем первый сигнал содержит большую часть сигнальной энергии третьего и четвертого сигнала, и второй сигнал содержит остаток упомянутой сигнальной энергии; устройство, кроме того, содержит по меньшей мере один блок декорреляции для декорреляции первого сигнала с тем, чтобы создать синтезируемый второй сигнал; данное устройство декодирования, кроме того, выполнено с возможностью приема по меньшей мере одного дополнительного второго сигнала.

С помощью приема дополнительного второго сигнала (т.е. остаточного сигнала, называемого четвертым сигналом в устройстве кодирования), может быть достигнуто улучшенное качество декодированного звукового сигнала, так как любой синтезируемый остаточный сигнал, генерируемый в устройстве декодирования, обычно не идентичен исходному остаточному сигналу.

В предпочтительном варианте осуществления принятый второй сигнал объединяют с полученным синтезируемым вторым сигналом, так что второй сигнал, подаваемый на блок преобразования, является комбинацией двух сигналов. Это дает то преимущество, что синтезируемый остаточный сигнал всегда доступен также и для временных сегментов, для которых остаточный сигнал не передается. Для тех временных сегментов, для которых остаточный сигнал действительно передается, остаточный сигнал, используемый блоком преобразования, представляет собой комбинацию переданного остаточного сигнала и синтезируемого остаточного сигнала и будет поэтому только частично состоять из синтезируемого остаточного сигнала.

В предпочтительном варианте осуществления устройство декодирования снабжают блоками ослабления, управляемыми принятыми остаточными сигналами, для ослабления синтезируемых остаточных сигналов. Это дает более гладкий переход между выбранными и невыбранными остаточными сигналами и освобождает от всевозможных артефактов переключения. Более конкретно, это делает возможным, чтобы амплитуда каждого синтезируемого остаточного сигнала управлялась соответствующим принятым остаточным сигналом. Соответственно достигается существенно улучшенное смешивание синтезируемого остаточного сигнала и реально переданного остаточного сигнала.

Выше упоминалось кодирование M/S и PCA. В качестве альтернативы, или дополнительно, может использоваться метод амплитудно-зависимого кодирования.

Отметим, что настоящее изобретение относится к пространственному звуковому кодированию, т.е. звуковому кодированию, обычно затрагивающему более двух каналов, в противоположность стереокодированию, которое затрагивает только два канала.

Настоящее изобретение, кроме того, предоставляет способ преобразования первого числа входных звуковых каналов во второе число выходных звуковых каналов, где первое число больше второго числа, причем способ включает по меньшей мере два этапа преобразования первого сигнала и второго сигнала в третий сигнал и четвертый сигнал, причем третий сигнал содержит большую часть сигнальной энергии первого и второго сигналов, и четвертый сигнал содержит остаток упомянутой сигнальной энергии, и этап использования третьих сигналов для получения выходного сигнала; данный способ включает, кроме того, этап вывода четвертого сигнала.

Настоящее изобретение еще, кроме того, предоставляет способ преобразования первого числа входных звуковых каналов во второе число выходных звуковых каналов, где первое число меньше второго числа, причем способ включает по меньшей мере два этапа преобразования первого сигнала и второго сигнала в третий сигнал и четвертый сигнал, причем первый сигнал содержит большую часть сигнальной энергии третьего и четвертого сигналов, и второй сигнал содержит остаток упомянутой сигнальной энергии, и этап получения второго сигнала из первого сигнала; данный способ включает, кроме того, этап приема дополнительного второго сигнала.

Способ может содержать дополнительный этап декорреляции первого сигнала, с тем чтобы создать получаемый синтезируемый второй сигнал. Предпочтительно, чтобы способ содержал еще один дополнительный этап ослабления синтезируемого второго сигнала, причем упомянутый этап управлялся соответствующим принятым вторым сигналом. Как преимущество, способ может содержать, помимо этого, дополнительные этапы объединения синтезируемого второго сигнала и принятого второго сигнала и использования объединенного сигнала на этапе преобразования.

Настоящее изобретение, кроме того, предоставляет компьютерный программный продукт для осуществления способа кодирования и/или декодирования, определенного выше. Компьютерный программный продукт может содержать набор выполняемых компьютером инструкций, сохраненных на носителе данных, таком как CD или DVD. Набор выполняемых компьютером инструкций, который дает возможность программируемому компьютеру осуществлять способы как определено выше, может также быть доступен для загрузки с удаленного сервера, например через Интернет.

Настоящее изобретение будет дополнительно объяснено ниже со ссылками на примеры вариантов осуществления, изображенные на сопроводительных чертежах.

На фиг.1 схематически показана часть устройства кодирования в соответствии с настоящим изобретением.

На фиг.2 схематически показана часть устройства декодирования в соответствии с настоящим изобретением.

На фиг.3 схематически показана функция выбора сигнала в соответствии с предшествующим уровнем техники.

На фиг.4 схематически показана первая функция выбора сигнала в соответствии с настоящим изобретением.

На фиг.5 схематически показана вторая функция выбора сигнала в соответствии с настоящим изобретением.

На фиг.6 схематически показан первый вариант осуществления устройства кодирования в соответствии с предшествующим уровнем техники.

На фиг.7 схематически показан первый вариант осуществления примера устройства декодирования в соответствии с предшествующим уровнем техники.

На фиг.8 схематически показан первый вариант осуществления устройства кодирования в соответствии с настоящим изобретением.

На фиг.9 схематически показан первый вариант осуществления устройства декодирования в соответствии с настоящим изобретением.

На фиг.10 схематически показан второй вариант осуществления устройства кодирования в соответствии с предшествующим уровнем техники.

На фиг.11 схематически показан второй вариант осуществления устройства декодирования в соответствии с предшествующим уровнем техники.

На фиг.12 схематически показан второй вариант осуществления устройства кодирования в соответствии с настоящим изобретением.

На фиг.13 схематически показан второй вариант осуществления устройства декодирования в соответствии с настоящим изобретением.

Обладающая признаками изобретения схема 10, показанная единственно с целью неограничивающего примера на фиг.1, содержит блок 12 преобразования 2-в-1 и блок 15 выбора и ослабления (S&A). Блок 12 преобразования может быть обычным блоком преобразования, выполненным с возможностью преобразования первой пары сигналов во вторую пару сигналов, причем вторая пара состоит из основного сигнала, содержащего большую часть энергии сигнала, и остаточного сигнала, содержащего остающуюся энергию сигнала. Вторая пара сигналов (т.е. основной и остаточный сигналы) могут быть получены из первой пары, используя поворот сигнала или подобный метод, например, используя вышеприведенную формулу (3).

В примере на фиг.1 блок 12 преобразования принимает левый сигнал l[k] и правый сигнал r[k], которые вместе составляют стереосигнал. Индекс k представляет полосу частот или элемент разрешения по частоте, сигналы l[k] и r[k] предпочтительно получают из временных сигналов l[n] и r[n], с использованием оконного преобразования Фурье (STFT) или подобного преобразования. Соответственно сигналы l[k] и r[k] представляют частотные компоненты временного сегмента, такого как временной кадр.

В схемах предшествующего уровня техники основной сигнал m[k] используют для кодирования, в то время как остаточный сигнал s[k] отбрасывают, причем блок 12 преобразования производит основной сигнал m[k] и набор параметров (Pars), связанный с преобразованием. Европейская заявка на патент EP 04103168.3 (PHNL 040762), зарегистрированная 05 июля 2004, описывает схему кодера, в котором используют часть остаточного сигнала s[k]. Более конкретно, в схеме более ранней заявки используют селектор, который выбирает значимые для восприятия части остаточного сигнала, отбрасывая в то же время незначимые для восприятия части. Соответственно некоторые части (которые могут быть частотными представлениями временных кадров) или выбирают, или отбрасывают. Европейская заявка на патент EP 04103168.3, полное содержание которой настоящим включается в данный документ, описывает выбор частей остаточного сигнала в стереокодере и -декодере. Однако выбор частей остаточного сигнала в многоканальном устройстве кодирования и декодирования, таком как схема 5.1, не описывается.

Выбор в соответствии с вышеупомянутой европейской заявкой на патент схематически иллюстрируется на фиг.3, которая изображает весовую функцию W'. Вес w, назначенный частям остаточного сигнала, зависит от фактора значимости z, который может быть отношением мощности остаточного сигнала s[k] к мощности основного сигнала m:z = P(s[k])/P(m[k]), или любым другим фактором, указывающим на (относительную) значимость для восприятия остаточного сигнала, в частности, по сравнению с основным сигналом. Когда относительная мощность остаточного сигнала превышает некоторое пороговое значение z₀, весовой фактор w приравнивают 1, что означает, что часть остаточного сигнала полностью кодируют и передают. Когда относительная мощность остаточного сигнала меньше порогового значения z₀, весовой фактор w равен 0, и значимую часть остаточного сигнала отбрасывают.

Авторы настоящего изобретения поняли, что этот выбор является слишком грубым и может вызывать слышимые артефакты переключения. В частности качество декодированного сигнала может быть улучшено без значительного увеличения количества переданных данных. Соответственно, настоящее изобретение обеспечивает выбор (частей) остаточного сигнала, который проводит различие не только между значимыми и незначимыми частями, но также опознает менее значимые части: части, которые не являются такими же значимыми, как (наиболее) значимые части, но также не являются незначимыми.

Примеры весовой функции W в соответствии с настоящим изобретением схематически показаны на фиг.4 и 5. В примере по фиг.4 весовая функция W имеет два пороговых значения z₀ и z₁. Если z меньше, чем z₀, весовой фактор w равен нулю. Если z больше, чем z₀, но меньше, чем z₁, весовой фактор w (в данном примере) равен 0,5 (можно понять, что другие значения, например 0,25 или 0,67 также могут быть использованы). Если z больше, чем z₁, w равно единице. В примере по фиг.4 поэтому используются три различных значения весового фактора.

В примере по фиг.5 весовой фактор w постепенно увеличивается от 0 (при z = z₀) через 0,5 (при z = z₁) до 1,0 (при z = 1). В результате только наиболее значимые части сигнала (z = 1) имеют весовой фактор, равный 1, и все части сигнала, имеющие фактор значимости z больше, чем z₀, имеют ненулевой весовой фактор w. В примере по фиг.5 используют теоретически бесконечное число различных значений весового фактора. Постепенное увеличение весовой функции W приводит в результате к гладкому «переключению» между разными уровнями ослабления.

Конечно, могут быть использованы и другие функции, нежели те, что изображены на фиг.4 и 5. Вообще, весовая функция будет иметь то свойство, что те части остаточного сигнала, которые не дают значительного вклада в восстановление исходной пары сигналов l[k], r[k], удаляются, части остаточного сигнала, имеющие среднюю значимость, ослабляются, и очень значительные части пропускаются по существу не ослабленными.

Отметим, что вместо отношений мощности могут использоваться другие критерии, например ширина спектра сигнала. Например, можно принять решение выбирать части сигнала, имеющие частоты, меньшие, чем некоторый порог частоты, независимо от их мощности сигнала.

Блок 15 выбора и ослабления (S&A) в соответствии с настоящим изобретением, показанный на фиг.1, не только выбирает части сигнала, но также ослабляет некоторые выбранные части сигнала. Вдобавок к остаточному сигналу s[k] блок 15 выбора и ослабления принимает основной сигнал m[k]. В показанном варианте осуществления блок 15 выбора и ослабления также принимает параметры сигнала (Pars), производимые блоком 12 преобразования 2-1, и пару исходных сигналов l[k] и r[k]. Подача пары исходных сигналов в блок 15 выбора и ослабления предоставляет возможность включения относительных мощностей (или других характеристик) пары исходных сигналов в принятие решений о выборе и ослаблении, вдобавок к или вместо относительных мощностей (или других характеристик) основного сигнала и остаточного сигнала. Подача параметров сигнала в блок 15 выбора и ослабления позволяет, чтобы дополнительные характеристики использовались в процессе выбора и ослабления.

Блок 15 выбора и ослабления выдает взвешенный остаточный сигнал ws[k], который может быть закодирован вместе с основным сигналом m[k]. Следует понимать, что взвешенный остаточный сигнал ws[k] содержит меньше информации, чем исходный остаточный сигнал s[k], и поэтому снижает битовую скорость передачи данных, необходимую для передачи кодированной пары сигналов. С другой стороны включение взвешенного остаточного сигнала ws[k] предлагает значительное улучшение качества сигнала по сравнению со схемами предшествующего уровня техники, в которых остаточный сигнал отбрасывают. Блок 15 выбора и ослабления использует весовую функцию W, как показано на фиг.4 и 5, или любое эквивалентное средство для выбора и (там, где уместно) для ослабления остаточного сигнала s[k].

Схема по настоящему изобретению для применения в устройстве декодирования схематически изображена на фиг.2. Не более чем иллюстративная схема 20 содержит блок 24 микширования и блок 29 взвешивания. Схема 20 принимает основной сигнал m[k], взвешенный остаточный сигнал ws[k] и параметры сигнала (Pars). Основной сигнал m[k] подают на декоррелятор (D) 23, чтобы получить синтезируемый остаточный сигнал s_d[k], как это делают в схемах предшествующего уровня техники, где остаточный сигнал не передают. Этот синтезируемый остаточный сигнал s_d[k] подают на аттенюатор 26, где он ослабляется под управлением взвешенного остаточного сигнала ws[k]. Параметры сигнала могут также подаваться на аттенюатор 26 для дополнительного управления ослаблением синтезируемого остаточного сигнала. Получающийся в результате ослабленный синтезируемый остаточный сигнал и взвешенный остаточный сигнал объединяют в блоке 27 объединения, который в настоящем варианте осуществления состоит из сумматора. Получающийся в результате объединенный остаточный сигнал s_h[k] подают на вход блока 24 микширования. Основной сигнал m[k] подают на другой вход блока 24 микширования, тогда как параметры сигнала (например включающие IID и ICC) подают на управляющий вход блока 24 микширования для преобразования пары сигналов m[k], s_h[k] в пару сигналов l'[k], r'[k], например, с помощью поворота сигнала, как выражено формулой (3) выше, или с помощью любого другого подходящего способа.

Соответственно в схеме 20 настоящего изобретения остаточный сигнал s_h[k], подаваемый на блок 24 микширования, представляет собой комбинацию (декодированного) остаточного сигнала ws[k] и ослабленного варианта синтезируемого остаточного сигнала. Если (переданный) остаточный сигнал ws[k] недоступен, используют декоррелированный сигнал s_d[k], по существу неослабленный. Если остаточный сигнал ws[k] доступен, декоррелированный сигнал s_d[k] ослабляют соответствующим образом.

Устройства кодирования и декодирования в соответствии с настоящим изобретением будут обсуждаться ниже со ссылками на фиг.8, 9, 12 и 13. Однако, сначала устройство кодирования и устройство декодирования в соответствии с предшествующим уровнем техники будут обсуждаться со ссылками на фиг.6 и 7.

Устройство кодирования предшествующего уровня техники 1' разработано для кодирования шестиканального входного звукового сигнала, такого как так называемый 5.1-сигнал, в двухканальный выходной звуковой сигнал. В показанном примере входными каналами являются lf (левый передний), lr (левый задний), rf (правый передний), rr (правый задний), co (центральный) и le (низкочастотных эффектов). Все эти сигналы, как предполагается, являются цифровыми временными сигналами и могут быть записаны как lf[n], lr[n] и т.д., где n является номером отсчета.

Входные звуковые сигналы вводят в блоки 11 сегментации и преобразования (T), которые делят сигналы на временные сегменты, которые затем преобразуют например в частотное пространство, используя FFT (быстрое преобразование Фурье). Временные сегменты, на которые делят временные сигналы, предпочтительно, чтобы частично перекрывались, как это хорошо известно в данной области техники.

Блоки 11 сегментации и преобразования производят преобразованные сигналы Lf, Lr, Rf, Rr, Co и Le, которые являются представлениями в частотном пространстве временных сегментов, и могут быть записаны как Lf[k], Lr[k] и т.д., где k является частотным индексом. Эти преобразованные сигналы подают на преобразователи 2-в-1 12, которые преобразуют каждую пару входных сигналов (например Lf и Lr) в основной сигнал (например L) и остаточный сигнал, наряду с тем производя связанный набор параметров сигнала (например PS1). Это преобразование обычно включает в себя поворот сигналов, так чтобы основной сигнал содержал большую часть энергии сигнала, тогда как остаточный сигнал содержал остаток энергии сигнала.

В устройстве предшествующего уровня техники по фиг.6 остаточный сигнал отбрасывают, тогда как основной сигнал подают на блок 13 преобразования 3-в-2. Как можно видеть, каждый блок 12 преобразования 2-в-l производит основной сигнал L, R и C и связанный набор параметров PS1, PS2 и PS3 соответственно. Набор параметров содержит параметры, относящиеся к преобразованию, осуществляемому блоком 12, такие как угол поворота α, параметр межканальных разностей интенсивности IID и/или межканальный корреляционный параметр ICC.

Блок 13 преобразования 3-в-2 преобразовывает три входных сигнала L, R и C в два выходных сигнала L₀ и R₀, наряду с тем производя связанный набор параметров PS4. Отметим, что входные сигналы L и R могут соответственно быть отождествлены с первым и вторым сигналами, определенными выше, тогда как сигналы L₀ и C₀ могут соответственно быть отождествлены с третьим и четвертым сигналами, определенными выше.

Сигнал (в преобразованном пространстве) L₀ и R₀ подают на блок 14 обратного преобразования (T^-1) и перекрывания-и-сложения (OLA), который выдает сигналы во временном пространстве l₀ и r₀. Обратное преобразование является дополнительным к преобразованию блока 11 и обычно является обратным FFT. Операция перекрывания-и-сложения является по существу обращением операции сегментирования блока 11 и складывает частично перекрывающиеся временные кадры.

Таким образом, можно видеть, что кодер предшествующего уровня техники 1' преобразует шестивходные звуковые (временные) сигналы в двухвыходные звуковые (временные) сигналы плюс четыре набора параметров. В каждом блоке 12 или 13 преобразования отбрасывают выходной сигнал для уменьшения числа сигналов и, следовательно, требуемой скорости передачи.

Совместимое устройство декодирования в соответствии с предшествующим уровнем техники изображено на фиг.7. Устройство 2' декодирования, которое разработано для преобразования двух входных звуковых каналов в шесть выходных звуковых каналов, содержит блок 21 сегментации и преобразования (T) для сегментации и преобразования входных (временных) сигналов l₀ и r₀. Как и в устройстве кодирования, может использоваться оконное преобразование Фурье (STFT). Получающиеся в результате (в преобразованном пространстве) сигналы L₀ и R₀ подают на блок 22 преобразования 2-в-3, к которому также доставляют (четвертый) набор параметров PS4 (соответствует фиг.6). Блок 22 преобразования 2-в-3 преобразует два сигнала L₀ и R₀ в три сигнала L, R и C, каждый из которых подают на декорреляционный (D) блок 23 и блок 24 микширования (M). Блок 23 декорреляции производит декоррелированные варианты L_d, R_d и C_d сигналов L, R и C соответственно. Эти декоррелированные сигналы служат в качестве синтезируемых остаточных сигналов, эффективно заменяя сигналы, которые были отброшены в устройстве кодирования.

Каждый из трех блоков 24 микширования принимает соответствующий набор параметров PS1, PS2 и PS3, который управляет операцией (повышающего) микширования. Если применяют PCA (анализ главных компонент), поворот сигнала осуществляется на угол α, содержащийся в наборах параметров сигнала. Другими подходящими параметрами являются, например, IID и ICC, упомянутые выше. Не все из этих параметров необходимы, угол может быть получен из параметров IID и ICC, используя:

Сигналы, произведенные блоками 24 микширования, являются парами сигналов Lf и Lr, Rf и Rr, и Co и Le соответственно. Над этими сигналами осуществляется обратное преобразование (T^-1) блоками 25 обратного преобразования и перекрывания-и-сложения, которые выполняют соответствующее обратное преобразование, такое как обратное FFT, и затем воссоздают пары временных сигналов lf и lr, rf и rr, и co и le. Таким образом, можно видеть, что декодер 2' предшествующего уровня техники преобразовывает пару входных звуковых сигналов (l₀ и r₀) в шесть выходных звуковых сигналов.

Недостаток известного устройства 2' декодирования состоит в том, что качество выходного сигнала неизбежно ограничено. Кроме того, любое увеличение доступной емкости передачи не ведет к соответствующему увеличению качества выходного сигнала. Это главным образом происходит из-за того факта, что остаточные сигналы, используемые блоком 24 микширования, являются синтезируемыми, т.е. полученными из основных сигналов. Настоящее изобретение, как уже продемонстрировано со ссылкой на фиг.1-5, решает эти проблемы, передавая также выбранные части остаточного сигнала.

Устройство 1 кодирования в соответствии с настоящим изобретением, изображенное на фиг.8, подобно устройству 1' кодирования предшествующего уровня техники, показанному на фиг.6, за исключением оперирования с остаточными сигналами, произведенными тремя блоками 2-в-1 12 и одним блоком 3-в-2 13. В устройстве предшествующего уровня техники остаточные сигналы, произведенные с помощью операций обработки сигнала (обычно поворота сигнала) блоков 12, отбрасывают, отсюда ссылка на блоки «2-в-1». В устройстве по настоящему изобретению, однако, эти остаточные сигналы не отбрасываются, а выводятся блоками 12 и потом обрабатываются блоками 15 выбора и ослабления. Это соответствует схеме 10 фиг.1, которая содержит блок 2-в-1 12 и блок 15 выбора и ослабления. Поэтому следует понимать, что преобразованные входные сигналы (такие как Lf и Lr), произведенные блоком 11 сегментации и преобразования, и/или параметры сигнала (обозначенные на фигуре 8 PS1 … PS3), произведенные блоком 12, могут также быть поданы на блок 15 выбора и ослабления.

Каждый блок 15 выбора и ослабления производит соответствующий остаточный сигнал Ls, Rs и Cs, который выводится устройством 1 кодера. Специалисты в данной области техники поймут, что эти остаточные сигналы, так же как и наборы параметров PS1, …, PS4, могут быть соответствующим образом кодированы и/или квантованы перед тем, как быть выведенными устройством кодирования.

Этот дополнительный остаточный канал E₀, произведенный блоком 3-в-2 13, может факультативно быть также выведен. Этот остаточный канал E₀ представляет ошибку предсказания остаточного канала C₀, упомянутого со ссылкой на фиг.6. Ошибка предсказания равна разности остаточного канала C₀ и его предсказания, которое в свою очередь может быть линейной комбинацией L₀ и R₀. Дополнительный остаточный канал E₀ предпочтительно, чтобы не подвергался операции выбора и ослабления (блок 15), хотя это, конечно, возможно. Блок 14 обратного преобразования (T^-1) и перекрывания-и-сложения выводит, в показанном варианте осуществления, остаточный (временной) сигнал e₀ вдобавок к обычно выводимым (временным) сигналам l₀ и r₀.

Дополнительные остаточные каналы могут использоваться, если доступна дополнительная емкость передачи (битовый бюджет). Соответственно, дополнительная емкость передачи может быть распределена по всем дополнительным остаточным каналам. Могут быть сформулированы некоторые предпочтения распределения:

дополнительные каналы выделяют симметрично в левосторонних модулях звуковых каналов и правосторонних модулях звуковых каналов (модуль является, например, рядом блоков, связанных с каналом);

дополнительные каналы выделяют сначала в модулях, наиболее близких к выходу

Многоканальное кодирование и декодирование

Патент 2407068