Оптимизированное по точности кодирование с переменной длиной кадра
Иллюстрации
Показать всеИзобретение относится к кодированию аудиосигналов, в частности к кодированию многоканальных аудиосигналов. Техническим результатом является повышение качества восприятия многоканальных звуковых сигналов, достигаемый тем, что полифонические сигналы используются для создания основного сигнала, в типовом случае моносигнала, и побочного сигнала. Обеспечивается ряд схем кодирования побочного сигнала (xside), каждая схема кодирования характеризуется набором субкадров различной длины, причем общая длина субкадров соответствует длине кадра кодирования схемы кодирования. Схема кодирования для побочного сигнала (xside) выбирается в зависимости от текущего содержимого полифонических сигналов, а побочный остаточный сигнал создается как разность между побочным сигналом и основным сигналом, масштабированный с использованием коэффициента симметрирования, который выбирается для минимизации побочного остаточного сигнала. Оптимизированный побочный остаточный сигнал и коэффициент симметрирования кодируются и обеспечиваются в качестве параметров кодирования, представляющих побочный сигнал. 5 н. и 21 з.п. ф-лы, 11 ил.
Реферат
Область техники, к которой относится изобретение
Настоящее изобретение относится, к кодированию аудиосигналов, в частности к кодированию многоканальных аудиосигналов.
Предшествующий уровень техники
На рынке существует большая потребность передавать и сохранять аудиосигналы на низкой скорости передачи в битах, одновременно сохраняя высокое качество звука. В частности, в случаях, когда ресурсы передачи или объем памяти ограничены, работа с низкой скоростью передачи в битах является важнейшим фактором стоимости. В типовом случае это имеет место, например, в приложениях потоковой передачи и обмена сообщениями в системах мобильной связи, например, GSM, UMTS или CDMA.
В настоящее время не существует стандартизированных кодеков, обеспечивающих высокое стереофоническое качество звука на скоростях передачи в битах, которые представляют экономический интерес для использования в системах мобильной связи. С помощью доступных кодеков возможна монофоническая передача звуковых сигналов. Также доступна стереофоническая передача в некоторой степени. Тем не менее, ограничения на скорость передачи в битах обычно требуют достаточно радикального ограничения на представление стерео.
Наиболее простой способ стереофонического или многоканального кодирования аудиосигналов - кодировать сигналы различных каналов по отдельности как отдельные и независимые сигналы. Еще один базовый способ, используемый при ЧМ-стереорадиопередаче, который обеспечивает совместимость с традиционными монофоническими радиоприемниками, - передавать суммарный и разностный сигнал двух используемых каналов.
Современные аудиокодеки, например, MPEG-1/2 Layer III и MPEG-2/4 AAC применяют так называемое объединенное стереокодирование. Согласно этому методу сигналы различных каналов обрабатываются совместно, а не отдельно и один за другим. Два наиболее часто используемых метода объединенного стереокодирования известны как стереокодирование по методу "Mid/Side" (M/S) и стереокодирование по интенсивности, которые обычно применяются на поддиапазонах стерео- или многоканальных сигналов, которые должны кодироваться.
M/S-стереокодирование аналогично описанной процедуре в ЧМ-стереорадиопередаче в том смысле, что оно кодирует и передает суммарный и разностный сигналы поддиапазонов канала и тем самым использует избыточность между поддиапазонами канала. Структура и работа кодера, основанного на M/S-стереокодировании, описана, например, в патенте США № 5285498, на имя J.D.Johnston.
Стереокодирование по интенсивности, с другой стороны, может использовать нерелевантность стерео. Оно передает объединенную интенсивность каналов (различных поддиапазонов) вместе с определенной информацией о местоположении, показывающей, как интенсивность распределена между каналами. Стереокодирование по интенсивности не только предоставляет информацию о спектральной амплитуде каналов. Информация о фазах не передается. По этой причине и поскольку временная межканальная информация (более конкретно, межканальная разность времен) представляет важнейшую психоакустическую значимость, особенно на более низких частотах, стереокодирование по интенсивности может быть использовано только на высоких частотах около, к примеру, 2 КГц. Способ стереокодирования по интенсивности описан, к примеру, в Европейском патенте № 0497413, на имя R, Veldhuis et al.
Недавно разработанный способ стереокодирования, описан, к примеру, в материалах конференции с названием C.Faller et al. "Binaural cue coding applied to stereo and multi-channel audio compression", 112th AES convention, май 2002 года, Мюнхен, Германия, С. Фаллер и др. Этот способ представляет собой способ параметрического кодирования многоканального аудиосигнала. Базовый принцип состоит в том, что на стороне кодирования входные сигналы из N каналов C1, C2,..., CN объединяются в один моносигнал m. Моносигнал представляет собой аудиосигнал, закодированный с использованием любого традиционного монофонического аудиокодека звука. Параллельно извлекаются параметры из канальных сигналов, которые описывают многоканальное изображение. Параметры кодируются и передаются декодеру вместе битовым потоком аудиосигнала. Декодер сначала декодирует моносигнал m' и затем регенерирует канальные сигналы C1', C2',..., CN' на основе параметрического описания многоканального изображения.
Принцип способа стереофонического кодирования по меткам (BCC) заключается в том, что он передает закодированный моносигнал и так называемые параметры BCC. Параметры BCC содержат закодированные разности межканальных уровней и разности межканальных времен для поддиапазонов исходного многоканального входного сигнала. Декодер восстанавливает различные канальные сигналы посредством применения регулирования по поддиапазонам уровня фазы моносигнала на основе параметров BCC. Преимущество по сравнению с M/S- или стереокодированием по интенсивности заключается в том, что стереоинформация, содержащая временную межканальную информацию, передается на гораздо более низких скоростях в битах. Тем не менее, этот метод требует частотно-временных преобразований, требующих больших объемов вычислений, по каждому из каналов, как в кодере, так и в декодере.
Более того, BCC не использует тот факт, что значительная часть стереоинформации, особенно на низких частотах, рассеяна, т.е. она не поступает с какого-либо конкретного направления. Диффузные акустические поля существуют в обоих каналах стереозаписи, но они в значительной степени не совпадают по фазе по отношению друг к другу. Если такой алгоритм, как BCC, применяется для записей с большим количеством диффузных акустических полей, воспроизведенное стереоизображение будет искаженным из-за скачков слева направо, поскольку алгоритм BCC может выбирать сигнал для отображения только в конкретных полосах частот слева или справа.
Возможным средством кодирования стереосигнала и обеспечения хорошего воспроизведения диффузных акустических полей является использование схемы кодирования, сходной с методом, использованным в ЧМ-стереорадиовещании, а именно, кодирование моно- (левый+правый) и разностного (левый-правый) сигналов отдельно.
Способ, описанный в патенте США 5434948, на имя С. Е. Holt et al., использует аналогичный метод, как и в BCC, для кодирования моносигнала и дополнительной информации. В этом случае дополнительная информация состоит из фильтров предсказателей и факультативно остаточного сигнала. Фильтры предсказателей, оцененные посредством алгоритма наименьших квадратов, в применении к моносигналу дают возможность предсказания многоканальных звуковых сигналов. С помощью этого способа можно реализовать кодирование на очень низких скоростях передачи в битах многоканальных источников звука, однако ценой снижения качества, как дополнительно описано ниже.
Наконец, для полноты следует упомянуть метод, используемый в трехмерном аудиосигнале. Этот метод синтезирует сигналы правого и левого канала посредством фильтрации сигналов источника звука с помощью так называемых основанных на положении головы фильтров. Однако этот метод требует, чтобы сигналы различных источников звука были разделены и, таким образом, не может быть в общем случае применен для стерео- или многоканального кодирования.
Сущность изобретения
Проблема в существующих схемах кодирования, основанных на кодировании кадров сигналов, в частности основного сигнала и одного или более побочных сигналов, заключается в том, что деление звуковой информации на кадры может вводить непривлекательные дефекты восприятия. Деление информации на кадры относительно большой длительности в общем снижает среднюю требуемую скорость передачи в битах. Это может быть полезно, например, для музыки, содержащей большую долю диффузного звука. Однако для насыщенной музыки с множеством переходов или речи быстрые временные вариации "размазываются" в течение длительности кадра, приводя к паразитным звукам или даже к проблемам с упреждающим эхо. Кодирование коротких кадров, напротив, обеспечивает более точное представление звука, минимизируя энергию, но требует более высоких скоростей передачи в битах и больших вычислительных ресурсов. Эффективность кодирования по существу также может падать при кадрах очень небольшой длины. Введение большего числа границ кадров может также привести к неоднородностям параметров кодирования, которые могут проявляться как дефекты восприятия.
Дополнительная проблема в схемах, основанных на кодировании основного и одного или нескольких побочных сигналов, заключается в том, что они требуют относительно значительных вычислительных ресурсов. В частности, когда используются короткие кадры, обработка неоднородностей параметров от одного кадра к другому является сложной задачей.
Когда используются длинные кадры, ошибки оценки звука с переходами могут вызывать очень значительные побочные сигналы, в свою очередь увеличивающие требование к скорости передачи.
Цель настоящего изобретения, следовательно, заключается в обеспечении способа и устройства кодирования, повышающих качество восприятия многоканальных звуковых сигналов, в частности, чтобы избежать дефектов, таких как упреждающее эхо, паразитные звуки или дефекты неоднородности кадров. Дополнительная цель настоящего изобретения заключается в обеспечении способа и устройства кодирования, требующих меньшей вычислительной мощности и имеющих более постоянные требования к скорости передачи в битах.
Вышеуказанные цели достигаются посредством способов и устройств согласно формуле изобретения. В основном полифонические сигналы используются для создания основного сигнала, в типовом случае моносигнала, и побочного сигнала. Основной сигнал кодируется согласно известным принципам кодирования. Преложен ряд схем кодирования побочного сигнала. Каждая схема кодирования характеризуется набором субкадров различной длины. Общая длина субкадров соответствует длине кадра кодирования схемы кодирования. Наборы субкадров содержат, по меньшей мере, один субкадр. Схема кодирования, которая должна быть использована для побочного сигнала, выбирается, по меньшей мере частично, на основе текущего содержимого полифонических сигналов.
В одном варианте осуществления выбор делается (либо до кодирования) на основе анализа характеристик сигнала. В другом варианте осуществления побочный сигнал кодируется посредством каждой из схем кодирования и на основе измерений качества кодирования выбирается наилучшая схема кодирования.
В предпочтительном варианте осуществления побочный остаточный сигнал создается как разность между побочным сигналом и основным сигналом, масштабированная с помощью коэффициента симметрирования. Коэффициент симметрирования выбирается, чтобы минимизировать побочный остаточный сигнал. Оптимизированный побочный остаточный сигнал и коэффициент симметрирования кодируются и предоставляются в качестве параметров, представляющих побочный сигнал. На стороне декодера коэффициент симметрирования, побочный остаточный сигнал и основной сигнал используются для восстановления побочного сигнала.
В дополнительном предпочтительном варианте осуществления кодирование побочного сигнала содержит масштабирование контура энергии, чтобы избежать эффектов упреждающего эхо. Более того, различные схемы кодирования содержат различные процедуры кодирования в отдельных субкадрах.
Основное преимущество настоящего изобретения заключается в том, что повышается надежность восприятия звуковых сигналов. Более того, настоящее изобретение по-прежнему дает возможность передачи многоканальных сигналов на очень низких скоростях в битах.
Краткое описание чертежей
Изобретение вместе со своими дополнительными целями и преимуществами поясняются в последующем описании, со ссылками на чертежи, из которых:
Фиг.1 - блок-схема системы передачи полифонических сигналов;
Фиг.2a - блок-схема кодера в передающем устройстве;
Фиг.2b - блок-схема декодера в передающем устройстве;
Фиг.3a - схема, иллюстрирующая кодирование кадров различной длины;
Фиг.3b и 3c - блок-схемы вариантов осуществления устройств кодирования побочных сигналов согласно настоящему изобретению;
Фиг.4 - блок-схема варианта осуществления кодера, использующего кодирование побочного сигнала с учетом коэффициента симметрирования;
Фиг.5 - блок-схема варианта осуществления кодера в многосигнальных системах;
Фиг.6 - блок-схема варианта осуществления декодера, подходящего для декодирования сигналов с устройства, показанного на фиг.5;
Фиг.7a и 7b - схемы, иллюстрирующие дефект упреждающего эхо;
Фиг.8 - блок-схема варианта осуществления устройства кодирования побочного сигнала согласно настоящему изобретению, использующего различные принципы кодирования в различных субкадрах;
Фиг.9 иллюстрирует применение различных принципов кодирования в различных поддиапазонах частот;
Фиг.10 - блок-схема последовательности основных этапов варианта осуществления способа кодирования согласно настоящему изобретению; и
Фиг.11 - блок-схема последовательности основных этапов варианта осуществления способа декодирования согласно настоящему изобретению.
Подробное описание изобретения
Фиг.1 иллюстрирует типичную систему 1, в которой настоящее изобретение может быть преимущественно использовано. Передающее устройство 10 содержит антенну 12, включающую в себя аппаратные средства и программное обеспечение, обеспечивающие возможность передавать радиосигналы 5 приемному устройству 20. Передающее устройство 10 содержит помимо других компонентов многоканальный кодер 14, который преобразует сигналы ряда входных каналов 16 в выходные сигналы, подходящие для радиопередачи. Примеры подходящих многоканальных кодеров 14 подробнее описаны ниже. Сигналы входных каналов 16 могут быть предоставлены, к примеру, из памяти 18 аудиосигналов, например, из файла данных цифрового представления аудиозаписей, аудиозаписи звука на магнитной ленте или виниловом диске и т.д. Сигналы входных каналов 16 также могут обеспечиваться "вживую", к примеру, из набора микрофонов 19. Аудиосигналы оцифровываются, если не находятся уже в цифровой форме, перед вводом в многоканальный кодер 14.
На стороне приемного устройства 20 антенна 22 со связанными аппаратными средствами и программным обеспечением обеспечивают обработку фактического приема радиосигналов 5, представляющих полифонические аудиосигналы. Реализуются типовые функциональные возможности, например коррекция ошибок. Декодер 24 декодирует принятые радиосигналы 5 и преобразует аудиоданные, передаваемые, таким образом, в сигналы ряда выходных каналов 26. Выходные сигналы могут выдаваться, например, на громкоговорители 29 для немедленного представления или могут быть сохранены в памяти 28 аудиосигналов любого типа.
Системой 1 может быть, например, система телефонных конференций, система для предоставления аудиоуслуг или других аудиоприложений. В некоторых системах, таких как, к примеру, система телефонных конференций, обмен данными должен быть дуплексного типа, тогда как, к примеру, распространение музыки от поставщика услуг к абоненту должно быть, по существу, одностороннего типа. Передача сигналов от передающего устройства 10 к приемному устройству 20 также может выполняться любыми другими средствами, к примеру, посредством других видов электромагнитных волн, кабелей или оптоволокна, а также их сочетаний.
Фиг.2a иллюстрирует вариант осуществления кодера согласно настоящему изобретению. В данном варианте осуществления полифонический сигнал представляет собой стереосигнал, содержащий два канала a и b, принятый на входе 16A и 16B соответственно. Сигналы канала a и b подаются в устройство 32 предварительной обработки, где могут выполняться различные процедуры предварительного формирования сигнала. Сигналы (возможно, модифицированные) из выхода устройства 32 предварительной обработки, суммируются в устройстве 34 суммирования. Устройство 34 суммирования также делит сумму на два. Сигнал xmono, генерируемый таким образом, является основным сигналом из стереосигналов, поскольку он по существу содержит все данные из обоих каналов. В этом варианте осуществления основной сигнал, таким образом, представляет чистый "моно-" сигнал. Основной сигнал xmono подается на устройство 38 кодирования основного сигнала, которое кодирует основной сигнал согласно любым надлежащим принципам кодирования. Эти принципы известны из предшествующего уровня техники и поэтому дополнительно не описываются. Устройство 38 кодирования основного сигнала выдает выходной сигнал pmono, представляющий параметры кодирования, характеризующие основной сигнал.
В устройстве 36 вычитания разность (поделенная на два) канальных сигналов обеспечивается как побочный сигнал xside. В этом варианте осуществления побочный сигнал представляет разницу между двумя каналами в стереосигнале. Побочный сигнал xside подается в устройство 30 кодирования побочных сигналов. Предпочтительные варианты осуществления устройства 30 кодирования побочных сигналов дополнительно описываются ниже. Согласно процедуре кодирования побочных сигналов, которая подробнее описана ниже, побочный сигнал xside преобразуется в параметры кодирования pside, представляющие побочный сигнал xside. В некоторых вариантах осуществления данное кодирование осуществляется с использованием также информации основного сигнала xmono. Стрелка 42 показывает такую возможность, когда используется исходный некодированный основной сигнал xmono. В других вариантах осуществления информация основного сигнала, которая используется в устройстве 30 кодирования побочных сигналов, может быть выведена из параметров кодирования pmono, представляющих основной сигнал, как показано прерывистой линией 44.
Параметры кодирования pmono, представляющие основной сигнал xmono, являются первым выходным сигналом, а параметры кодирования pside, представляющие побочный сигнал xside, являются вторым выходным сигналом. В типичном случае эти два выходных сигнала, pmono и pside, вместе представляющие полностью стереофонический звук, мультиплексируются в один сигнал 52 передачи в устройстве 40 мультиплексирования. В других вариантах осуществления передача первого и второго выходных сигналов pmono, pside может выполняться раздельно.
На фиг.2b вариант осуществления декодера 24 согласно настоящему изобретению проиллюстрирован как блок-схема. Принятый сигнал 54, содержащий параметры кодирования, представляющие информацию основного и побочного сигнала, подается в устройство 56 демультиплексирования, которое разделяет первый и второй входной сигнал соответственно. Первый входной сигнал, соответствующий параметрам кодирования pmono основного сигнала, подается в устройство 64 декодирования основного сигнала. Традиционно параметры кодирования pmono, представляющие основной сигнал, используются, чтобы генерировать декодированный основной сигнал x''mono, который в максимальной степени подобен основному сигналу xmono (фиг.2a) кодера 14 (фиг.2a).
Аналогично второй входной сигнал, соответствующий побочному сигналу, подается в устройство 60 декодирования побочных сигналов. Здесь параметры кодирования pside, представляющие побочный сигнал, используются для восстановления декодированного побочного сигнала x"side. В некоторых вариантах осуществления процедура декодирования использует информацию об основном сигнале x''mono, что показано стрелкой 65.
Декодированный основной и побочные сигналы x''mono, x"side подаются в устройство 70 суммирования, которое выдает выходной сигнал, который является представлением исходного сигнала канала a. Аналогично разность, обеспеченная устройством 68 вычитания, является выходным сигналом, который является представлением исходного сигнала канала b. Эти канальные сигналы могут быть обработаны в постпроцессоре 74 согласно процедурам обработки сигналов предшествующего уровня техники. Наконец, канальные сигналы a и b подаются на выходы 26A и 26B декодера.
Как упоминалось при описании сущности изобретения, кодирование в типовом случае выполняется на покадровой основе. Кадр содержит аудиовыборки за заранее определенный период времени. В нижней части фиг.3a проиллюстрирован кадр SF2 длительностью L. Аудиовыборки в незаштрихованной области должны кодироваться вместе. Предшествующие выборки и последующие выборки кодируются в других кадрах. Деление выборок на кадры в любом случае приведет к некоторым неоднородностям в границах кадров. Смещение звуков приведет к смещению параметров кодирования, существенно изменяясь на границе каждого кадра. Это приведет к воспринимаемым ошибкам. Возможный способ в какой-то степени компенсировать это состоит в кодировании не только на основе выборок, которые должны быть закодированы, но также выборок в абсолютной окрестности кадра, как указано заштрихованными частями. Таким образом достигается более мягкий переход между различными кадрами. В качестве альтернативы или дополнения иногда также используются методы интерполяции для уменьшения дефектов восприятия, вызываемых границами кадров. Тем не менее, все эти процедуры требуют значительных дополнительных вычислительных ресурсов, и для некоторых специальных методов кодирования также может быть трудно обеспечить их определенными ресурсами.
С этой точки зрения выгодно использовать кадры настолько большой длины, насколько это возможно, поскольку число границ кадров будет небольшим. Также эффективность кодирования в типовом случае становится высокой, а необходимая скорость передачи в битах минимизируется. Тем не менее, кадры большой длины приводят к проблемам с дефектами упреждающего эхо и паразитным звукам.
Посредством использования более коротких кадров, например, SF1 или даже SF0, имеющих длительность L/2 и L/4 соответственно, как понимают специалисты в данной области техники, эффективность кодирования может быть уменьшена, скорость передачи в битах, возможно, будет выше и проблемы с дефектами границ кадров увеличатся. Тем не менее, более короткие кадры меньше подвержены, к примеру, другим дефектам восприятия, таким как паразитные звуки и упреждающее эхо. Чтобы иметь возможность минимизировать ошибки кодирования в максимальной степени, следует использовать кадр максимально короткой длины.
Согласно настоящему изобретению восприятие аудиосигналов улучшается посредством использования длины кадра для кодирования подобного сигнала, которая зависит от текущего содержимого сигнала. Поскольку влияние различных длин кадров на восприятие аудиосигнала различается в зависимости от характера звука, который должен кодироваться, улучшение может быть достигнуто посредством обеспечения возможности самого характера сигнала влиять на используемую длину кадра. Кодирование основного сигнала не является целью настоящего изобретению и поэтому не описывается подробно. Однако, длины кадров, используемых для основного сигнала, могут равняться или не равняться длинам кадров, используемых для побочного сигнала.
Вследствие незначительных временных вариаций может быть выгодно, например, в некоторых случаях кодировать побочный сигнал с использованием относительно длинных кадров. Это может иметь место в случае с записями с большим количеством диффузного акустического поля, к примеру, концертными записями. В других случаях, например разговорах в режиме стерео, короткие кадры, возможно, предпочтительнее. Решение о том, какую длину кадра предпочесть, может приниматься двумя основными способами.
Один вариант осуществления устройства 30 кодирования побочных сигналов согласно настоящему изобретению проиллюстрирован на фиг.3b, в котором используется решение с обратной связью. Здесь используется базовый кадр кодирования длины L. Создается ряд схем 81 кодирования, отличающихся отдельным набором 80 субкадров 90. Каждый набор 80 субкадров 90 содержит один или более субкадров 90 равной или различной длины. Общая длина набора 80 субкадров 90, тем не менее, всегда равна длине базового кадра L кодирования. Согласно фиг.3b, верхняя схема кодирования характеризуется набором субкадров, содержит только один субкадр длины L. Следующий набор субкадров содержит два кадра длины L/2. Третий набор содержит два кадра длины L/4, за которыми следует кадр L/2.
Сигнал xside, подаваемый на устройство 30 кодирования побочного сигнала, кодируется посредством всех схем 81 кодирования. В верхней схеме кодирования весь базовый кадр кодирования кодируется в полном кадре. Однако в других схемах кодирования сигнал xside кодируется в каждом субкадре независимо друг от друга. Результат от каждой схемы кодирования подается в селектор 85. Средство 83 измерения точности определяет измеренное значение точности для каждого из кодированных сигналов. Измеренное значение точности является объективным значением качества, предпочтительно мерой отношения "сигнал-шум" или взвешенным соотношением "сигнал-шум". Измеренные значения точности, связанные с каждой схемой кодирования, сравниваются, и результат управляет средством 87 переключения для выбора параметров кодирования, представляющих побочный сигнал, из схемы кодирования, обеспечивающих наилучшее измеренное значение точности, в качестве выходного сигнала pside из устройства 30 кодирования побочных сигналов.
Предпочтительно все возможные сочетания длины кадров тестируются, и выбирается набор субкадров, который обеспечивает наилучшее объективное качество, к примеру, соотношение "сигнал-шум".
В настоящем варианте осуществления длина используемых субкадров выбирается согласно:
где lsf - это длины субкадров, lf- длина кадра кодирования, а n- целое число. В настоящем варианте осуществления n выбирается от 0 до 3. Тем не менее, возможно использовать любую длину кадров, если общая длина набора сохраняется постоянной.
На фиг.3c проиллюстрирован другой вариант осуществления устройства 30 кодирования побочных сигналов. Здесь решение о длине кадра является решением без обратной связи, основанным на статистике сигнала. Другими словами, спектральные характеристики побочного сигнала используются в качестве базы для принятия решения о том, какая схема кодирования будет использована. Как и раньше, имеются различные схемы кодирования, характеризующиеся различными наборами субкадров. Однако в данном варианте осуществления селектор 85 предшествует фактическому кодирования. Входной побочный сигнал xside поступает в селектор 85 и блок 84 анализа сигналов. Результат анализа является входным сигналом переключателя 86, в котором используется только одна из схем 81 кодирования. Выходной сигнал этой схемы кодирования также является выходным сигналом pside устройства 30 кодирования побочных сигналов.
Преимущество решения без обратной связи заключается в том, что должно быть выполнено только одно фактическое кодирование. Недостаток заключается в том, что анализ характеристик сигнала может быть очень усложнен, и может быть трудно предсказывать возможные линии поведения заранее, чтобы иметь возможность предоставлять соответствующий выбор в переключателе 86. Большой объем статистического анализа звука должен быть выполнен и включен в устройство 84 анализа сигнала. Любое незначительное изменение в схемах кодирование может привести к кардинальному изменению статистической линии поведения.
Посредством выбора с обратной связью (фиг.3b) схемы кодирования могут заменяться без выполнения каких-либо изменений в остальном устройстве. С другой стороны, если должно быть проанализировано множество схем кодирования, то требования по вычислениям будут высокими.
Преимущество такого кодирования с переменной длиной кадра для побочного сигнала заключается в том, что можно осуществить выбор между точным временным разрешением и грубым частотным разрешением, с одной стороны, и грубым временным разрешением и точным частотным разрешением, с другой стороны. Вышеперечисленные варианты осуществления сохраняют стереоизображение наилучшим возможным образом.
Существуют также некоторые требования по фактическому кодированию, используемому в различных схемах кодирования. В частности, когда используется выбор с обратной связью, вычислительные ресурсы, чтобы выполнять ряд более или менее одновременных операций кодирования, должны быть значительными. Чем более сложен процесс кодирования, тем больше вычислительной мощности требуется. Более того, низкая скорость передачи в битах также предпочтительна.
Способ, представленный в патенте США № 5434948, использует фильтрованную версию моносигнала (основного), для воссоздания побочного или разностного сигнала. Параметры фильтрации оптимизированы и могут меняться во времени. Затем передаются параметры фильтрации, представляющие кодирование побочного сигнала. В одном варианте осуществления также передается остаточный побочный сигнал. Во многих случаях этот подход может быть возможен, чтобы использовать в качестве способа кодирования побочного сигнала в объеме настоящего изобретения. Тем не менее, этот подход имеет некоторые недостатки. Квантование коэффициентов фильтрации и любой остаточный побочный сигнал часто требуют относительно высоких скоростей передачи в битах, поскольку порядок фильтрации должен быть высоким, чтобы предоставлять точную оценку побочного сигнала. Оценка самой фильтрации может быть проблематична, особенно в случаях насыщенной музыки с множеством переходов. Ошибки оценки предоставляют модифицированный побочный сигнал, который иногда больше по амплитуде, чем не модифицированный сигнал. Это приводит к более высоким требованиям по скорости передачи в битах. Более того, если новый набор коэффициентов фильтрации вычисляется каждые N выборок, то коэффициенты фильтрации должны интерполироваться для достижения плавного перехода от одного набора коэффициентов фильтрации к другому, как описано выше. Интерполяция коэффициентов фильтрации является сложной задачей, и ошибки интерполяции будут проявляться в больших ошибках побочных сигналов, приводящих к более высоким скоростям передачи в битах, необходимым для кодера разностных сигналов ошибки.
Чтобы избежать необходимости в интерполяции, необходимо обновлять коэффициенты фильтрации для каждой выборки и использовать анализ с обратной совместимостью. Для получения хорошего результата необходимо, чтобы скорость передачи в битах кодера остаточного сигнала была достаточно высокой. Поэтому это не является оптимальной альтернативой стереокодированию с низкой скоростью передачи.
Существуют случаи, к примеру, достаточно часто в музыке, когда моносигналы и разностные сигналы практически некоррелированы. Оценка фильтрации в таком случае становится очень сложной с дополнительным риском ухудшения ситуации в кодере разностных сигналов ошибки.
Решение согласно патенту США 5434948 может работать достаточно хорошо в случаях, когда коэффициенты фильтрации изменяются очень медленно во времени, к примеру, в системах телефонных конференций. В случае музыкальных сигналов этот подход не работает оптимальным образом, поскольку фильтры должны изменяться очень быстро, чтобы отслеживать стереоизображение. Это означает, что должна быть использована длина субкадров с существенно различающейся величиной, т.е. число тестируемых комбинаций быстро возрастает. Это, в свою очередь, означает, что требования к вычислению всех возможных схем кодирования становятся невыполнимо высокими.
Поэтому в предпочтительном варианте осуществления кодирование побочного сигнала основано на идее снижения избыточности между моносигналами и побочными сигналами посредством использования простого коэффициента симметрирования вместо сложного фильтра предсказателя с высокими требованиями по скорости передачи в битах. Затем кодируется остаточный сигнал, получаемый в результате этой операции. Величина этого остаточного сигнала относительно мала и не требует очень высокой скорости передачи в битах. Данная идея очень подходит для сочетания с описанным выше подходом, основанным на наборе переменных кадров, поскольку вычислительная сложность невысока.
Использование коэффициента симметрирования в сочетании с подходом кадров переменной длины устраняет необходимость в сложной интерполяции и связанные проблемы, которые может вызывать интерполяция. Более того, использование простого коэффициента симметрирования вместо сложного фильтра вызывает меньше проблем с оценкой, поскольку возможные ошибки оценки для коэффициента симметрирования имеют меньшее влияние. Предпочтительное решение позволяет воспроизводить и панорамированные сигналы и диффузные акустические поля с хорошим качеством и с ограниченными требованиями к скорости передачи в битах и вычислительным ресурсам.
Фиг.4 иллюстрирует предпочтительный вариант осуществления стереокодера согласно настоящему изобретению. Этот вариант во многом аналогичен показанному на фиг.2a, но с более детальным представлением устройства 30 кодирования побочных сигналов. Кодер 14 данного варианта осуществления не имеет устройства предварительной обработки, и входные сигналы подаются непосредственно на устройства 34, 36 суммирования и вычитания. Моносигнал xmono умножается на конкретный коэффициент симметрирования gsm в умножителе 33. В устройстве 35 вычитания умноженный моносигнал вычитается из побочного сигнала xside, т.е. фактически разности между двумя каналами для формирования остаточного побочного сигнала. Коэффициент симметрирования gsm определяется на основе содержимого моно- и побочных сигналов оптимизатором 37, чтобы минимизировать побочный остаточный сигнал согласно критерию качества. Критерием качества является предпочтительно критерий метода наименьших квадратов. Остаточный побочный сигнал кодируется в кодере 39 остаточных побочных сигналов согласно любым процедурам кодирования. Предпочтительно кодер 39 остаточных побочных сигналов представляет собой кодер с преобразованием на низких скоростях передачи в битах или линейный предикативный кодер с возбуждением по коду (CELP). Параметры кодирования pside, представляющие побочный сигнал, затем содержат параметры кодирования pside residual, представляющие остаточный побочный сигнал и оптимизированный коэффициент симметрирования 49.
В варианте осуществления по фиг.4 моносигналом 42, используемым для синтеза побочных сигналов, является целевой сигнал xmono для кодера 38 моносигналов. Как упоминалось выше (в связи с фиг.2a), также может быть использован локальный синтезированный сигнал кодера 38 моносигналов. В последнем случае общая задержка в кодере может быть увеличена и вычислительная сложность побочного сигнала может возрасти. С другой стороны, качество может быть лучше, поскольку в таком случае можно устранять ошибки кодирования, обусловленные кодером моносигналов.
С математической точки зрения, базовая схема кодирования может быть описана следующим образом. Обозначим два канальных сигнала как a и b, которые могут быть левым и правым каналом стереопары. Канальные сигналы объединяются в моносигнал посредством суммирования и в побочный сигнал посредством вычитания. В форме уравнения операции описываются следующим образом:
Полезно уменьшить масштаб сигналов xmono и xside в два раза. При этом подразумевается, что имеются другие способы создания xmono и xside. Можно, к примеру, использовать:
В блоках входных сигналов модифицированный, или остаточный, побочный сигнал вычисляется согласно:
где f(xmono, xside) - функция коэффициента симметрирования, которая, на основе блока из N выборок, т.е. субкадра, побочных и моносигналов стремится увеличить долю сигнала, удаляемого из побочного сигнала. Другими словами, коэффи