2488896 - Микширование входящих информационных потоков и генерация выходящего информационного потока

Микширование входящих информационных потоков и генерация выходящего информационного потока

Иллюстрации

Показать все

Изобретение относится к области телекоммуникационных систем. Техническим результатом является осуществление передачи сигналов без ухудшения качества звучания и уменьшение необходимого количества оборудования. Для достижения указанного технического результата используется устройство (500) для микширования множества входящих информационных потоков (510), в котором каждый из входящих информационных потоков (510) содержит фрейм (540) аудио данных в спектральной области, фрейм (540) входящего информационного потока (510), содержащий спектральную информацию для множества спектральных компонентов. Устройство содержит блок обработки данных (520), выполненный так, чтобы сравнивать фреймы (540) множества входящих информационных потоков (510). Блок обработки данных (520) также выполнен так, чтобы определять, основываясь на сравнении, для спектрального компонента выходящего фрейма (550) выходящего информационного потока (530) только один входящий информационный поток (510) из множества входящих информационных потоков (510). Блок обработки данных (520) далее выполнен так, чтобы генерировать выходящий информационный поток (530) путем копирования, по крайней мере, части информации соответствующего спектрального компонента фрейма определенного информационного потока (510), чтобы описать спектральный компонент выходящего фрейма (550) выходящего информационного потока (530). 3 н. и 13 з.п. ф-лы, 14 ил.

Реферат

Осуществление данного изобретения позволяет выполнять микширование множества входящих потоков информации (данных), чтобы получить выходящий информационный поток путем микширования первого и второго потока соответственно. Выходящий информационный поток может быть, к примеру, использован в области оснащения конференций, в том числе в телекоммуникационных системах.

Во многих областях применения более чем один сигнал необходимо преобразовать таким образом, чтобы из некоторого количества аудио сигналов генерировать один или несколько (сокращенное количество) сигналов, процесс, часто называемый «микшированием».

Процесс микширования аудио сигналов можно таким образом назвать смешением нескольких отдельных аудио сигналов в результативный сигнал. Этот процесс используется, например, при создании музыкальных записей для компакт дисков («монтаж звукозаписи»). В этом случае различные аудио сигналы, исходящие от разных инструментов, а также одного и более вокалистов обычно микшируются в единое целое, песню.

К другим областям применения, где микширование играет важную роль, относятся системы видео и теле конференций. Подобные системы обычно способны осуществлять соединение (коммуникацию) удаленных друг от друга в пространстве участников конференции с помощью центрального сервера, который должным образом микширует входящую видео-аудио информацию зарегистрированных участников и в обратном направлении посылает каждому участнику результативный сигнал. Этот результативный сигнал или выходящий сигнал объединяет сигналы всех остальных участников конференции.

В современных цифровых телекоммуникационных системах приходится сталкиваться с частично противоречащими друг другу целями и задачами. Необходимо учитывать качество реконструированного (воссозданного) аудио сигнала, а также применимость и полезность некоторых техник кодирования и декодирования аудио звука (например, звуков речи в сравнении с обычными звуковыми сигналами и музыкальными сигналами). Следующие аспекты, требующие внимания при проектировании и применении систем конференций, это доступные пропускная способность каналов связи и время запаздывания передачи сигнала.

Например, когда необходимо выбрать между качеством с одной стороны и пропускной способностью с другой, необходимо компромиссное решение. Улучшение качества звука могут быть достигнуто с помощью применения современных кодирующих и декодирующих технологий, таких как ААС-ELD (AAC = Advanced Audio Codec; ELD = Enhanced Low Delay). Однако применение таких современных технологий помимо улучшения качества может привести к серьезным проблемам и сбоям в системах.

Одна из проблем, с которой приходится сталкиваться при любой цифровой передаче сигнала - это необходимое квантование, которого теоретически можно избежать при идеальных условиях в бесшумных аналоговых системах. В результате процесса квантования некоторое количество квантовых шумов неизбежно проникает в преобразуемый (передаваемый) сигнал. Чтобы избежать возможного искажения звучания часто прибегают к увеличению уровня квантования и, таким образом, увеличению разрешения квантования. Это, однако, приводит к увеличению числа параметров сигнала, которые надо передать и, тем самым увеличивает количество передаваемых данных. Другими словами, улучшение качества путем сокращения возможных искажений, вызываемых квантовыми шумами, может при определенных условиях увеличивать количество передаваемых данных и в итоге нарушить лимит пропускной способности передающей системы.

В случае с системами для конференций, проблемы достижения компромиссного соотношения между качеством, доступной пропускной способностью и другими параметрами могут усложняться тем фактом, что обычно должен быть передан более чем один входящий аудио сигнал. Таким образом, должны приниматься во внимание пограничные условия, задаваемые более чем одним аудио сигналом при генерации выходящего сигнала или результирующего сигнала в системе конференций.

Если учитывать дополнительные сложности проведения конференции с низкой задержкой сигнала для осуществления прямой телекоммуникации между участниками конференции без существенных задержек сигнала, что может быть неприемлемым для участников, то это создает еще большие трудности.

При использовании конференц систем для снижения задержки сигнала обычно сокращают количество источников задержки, что, с другой стороны, может привести к проблеме вывода данных за пределы временной области, в которой микширование аудио сигналов может быть достигнуто путем специального введения или добавления соответствующих сигналов.

Обобщая сказанное, можно утверждать, что необходимо аккуратно находить компромисс (баланс) между качеством, доступной пропускной способностью полосы частот и другими параметрами, подходящими для конференц систем для того, чтобы справиться с обработкой сигналов для микширования в реальном времени, уменьшить необходимое количество оборудования, и придерживаться разумных затрат на оборудование и передачу сигналов без ухудшения качества звучания.

Чтобы сократить количество передаваемых данных, современные кодеки аудиосигнала часто используют очень сложные средства (программы) для описания спектральной информации, касающейся спектральных компонентов соответствующего аудио сигнала. Используя такие средства (программы), которые основаны на психоакустических явлениях и проверочных данных, можно достигнуть улучшения компромисса между частично противоречащими параметрами и пограничными условиями, такими как качество реконструированного аудио сигнала из передаваемых данных, сложность вычислений, скорость подачи данных, и другими параметрами.

Примерами таких программ могут быть, например, вытеснение (замещение) персептивных шумов (PNS), временное изменение шумов (TNS) или расщепление (мультипликация) спектральной полосы частот (SBR), и это не полный список. Все эти техники основаны на описании, по крайней мере, части спектральной информации с сокращенным количеством битов так, чтобы, по сравнению с информационным потоком, не основанном на использовании данных программ, большее количество битов могло быть помещено в важные части спектра. Как следствие этого, при сохранении скорости подачи данных ощутимый уровень качества может быть улучшен благодаря использованию данных программ. Естественно, может быть выбран другой компромисс, а именно, сокращение количества битов, передаваемых на каждый фрейм аудио данных при сохранении общего воздействия аудио сигнала. Различные другие компромиссные решения, находящиеся между этими экстремальными вариантами, могут быть также хорошо выполнимы.

Эти программы могут также применяться в области телекоммуникаций.

Однако когда присутствует более двух участников в такой коммуникативной ситуации, может быть очень эффективным использование конференц систем для микширования двух и более потоков информационных данных от двух и более участников. Подобные ситуации возникают как в аудио и телекоммуникациях, так и в видеоконференциях.

Конференц система, работающая в диапазоне частот, описывается, например, в US 2008/0097764 А1, который осуществляет непосредственное микширование в диапазоне частот и, таким образом, обходится без обратного преобразования входящих аудио сигналов назад во временную область.

Однако описанная выше конференц система не принимает во внимание возможности описанных выше программ, которые позволяют осуществлять описание спектральной информации, по крайней мере, одного спектрального компонента в более сжатом виде.

В результате такая конференц система требует дополнительных трансформационных (преобразующих шагов) шагов, чтобы преобразовать аудио сигналы, передаваемые в конференц системе, по крайней мере, до такой степени, чтобы соответствующие аудио сигналы присутствовали в диапазоне частот. Более того, результативный микшированный аудио сигнал необходимо также преобразовать, используя дополнительные программы, описанные выше. Такие преобразования туда и обратно требуют, однако, применения сложных алгоритмов, которые могут привести к сложности вычислений и, например, в случае портативности, к неоправданно энергоемкому применению, к увеличению уровня потребления энергии и, как следствие, к ограниченному оперативному времени (к ограничению времени выполнения).

Эта проблема решается в осуществлении данного изобретения, чтобы предоставить возможность улучшить компромисс между качеством, доступной пропускной способностью полосы частот и другими параметрами, подходящими для конференц систем, или чтобы дать возможность сократить необходимую вычислительную сложность в конференц системе, как это описано выше.

Эта цель достигается устройством согласно пункту 1 или 12, способом микширования множества входящих информационных потоков согласно пунктам 10 или 26, или компьютерной программой согласно пунктам 11 или 27.

Согласно первому аспекту, осуществление данного изобретения основано на обнаружении, что при микшировании множества входящих информационных потоков улучшенный компромисс между вышеупомянутыми параметрами и целями может быть достигнут путем выделения одного входящего информационного потока на основе сравнения и копирования, по крайней мере, части спектральной информации из выделенного входящего информационного потока в выходящий информационный поток.

С помощью копирования, по крайней мере, части спектральной информации с одного входящего информационного потока можно избежать повторного квантования и соответствующего ему шума квантования. В случае спектральной информации, для которой нельзя выделить никакой доминирующий входящий информационный поток, микширование соответствующей спектральной информации в частотном диапазоне может быть выполнено с помощью примера осуществления данного изобретения.

Сравнение может, например, быть основано на психо-акустической модели. Сравнение далее может соотноситься со спектральной информацией, соответствующей общему спектральному компоненту (например, частоте или полосе частот) из, по крайней мере, двух разных входящих информационных потоков. Это может быть также межканальным сравнением. В этом случае сравнение основано на психо-акустической модели, и поэтому может быть описано как межканальная маскировка звука.

Согласно второму аспекту, осуществление данного изобретения основано на открытии, что сложность операций, выполняемых во время микширования первого входящего информационного потока и второго входящего информационного потока, чтобы генерировать выходящий информационный поток, может быть уменьшена, если учитывать контрольные параметры, соотносимые с данными о полезной нагрузке соответствующего входящего информационного потока, в котором контрольные параметры показывают, каким образом данные полезной нагрузки представляют, по крайней мере, часть соответствующей спектральной информации или спектральной области соответствующих аудио сигналов. В случае если контрольные параметры двух входящих информационных потоков идентичны (одинаковы), можно пропустить (не принимать) новое решение о пути спектральной области в соответствующем фрейме выходящего информационного потока, а вместо этого генерирование выходящего информационного потока может основываться на решении, определенно установленном самим кодирующим устройством входящих информационных потоков, то есть на основе его контрольного параметра. В зависимости от способа, показанного контрольными параметрами, может быть также возможно и предпочтительно избежать обратного преобразования соответствующих данных полезной нагрузки назад в другой вид представления спектральной области а, например, в обычный и простой вид с одним спектральным параметром в единицу времени. В последнем случае, прямая передача данных полезной нагрузки для выработки соответствующих данных полезной нагрузки выходящего информационного потока и контрольных параметров, одинаковых с контрольными параметрами первого и второго входящих информационных потоков может быть генерирована «напрямую», то есть «без изменения вида, в котором представлена спектральная область», посредством PNS или сходных параметров, описанных более подробно выше.

Согласно осуществлению данного изобретения, контрольные параметры соотносятся, по крайней мере, с одним конкретным спектральным компонентом. Более того, согласно осуществлению данного изобретения могут выполняться такие операции, когда форматы первого входящего информационного потока и второго входящего информационного потока соответствуют общему временному индексу в отношении соответствующей последовательности фреймов двух входящих информационных потоков.

В случае, когда контрольные параметры первого и второго информационного потоков не идентичны, согласно осуществлению данного изобретения можно выполнять шаг преобразования данных полезной нагрузки одного из фреймов первого и второго входящих информационных потоков, чтобы получить представление данных полезной нагрузки фрейма другого входящего информационного потока. Данные полезной нагрузки выходящего информационного потока могут затем быть генерированы на основании преобразованных данных полезной нагрузки и данных полезной нагрузки двух других потоков. В некоторых случаях, согласно осуществлению данного изобретения, преобразование данных полезной нагрузки фрейма одного из входящих информационных потоков в представление данных полезной нагрузки фрейма второго входящего информационного потока может быть напрямую выполнено без преобразования соответствующего аудио сигнала назад в простой диапазон частот.

Осуществление данного изобретения будет описано далее с учетом следующих фигур.

Фиг.1 показывает блок-схему конференц системы;

Фиг.2 показывает блок-схему конференц системы основанную на основном (главном) аудио ко деке;

Фиг.3 показывает блок-схему конференц-системы, работающей в диапазоне частот с использованием технологии микширования бит потоков;

Фиг.4 показывает схематичный рисунок потоков данных, содержащих множество форматов данных;

Фиг.5 иллюстрирует различные формы спектральных компонентов и спектральных данных или информации;

Фиг.6 иллюстрирует устройство для микширования множества входящих информационных потоков согласно осуществлению данного изобретения более детально;

Фиг.7 иллюстрирует режим работы устройства в Фиг.6 согласно осуществлению данного изобретения;

Фиг.8 показывает блок-схему устройства для микширования множества входящих информационных потоков согласно будущему осуществлению данного изобретения в контексте (работе) конференц-системы;

Фиг.9 показывает упрощенную блок-схему устройства для генерирования выходящего информационного потока согласно осуществлению данного изобретения;

Фиг.10 показывает более подробную блок-схему устройства для генерирования выходящего информационного потока согласно осуществлению данного изобретения;

Фиг.11 показывает блок-схему устройства для генерирования выходящего информационного потока согласно будущему осуществлению данного изобретения в работе конференц-системы;

Фиг.12A иллюстрирует работу устройства по генерированию выходящего информационного потока согласно осуществлению данного изобретения с применением PNS;

Фиг.12B иллюстрирует работу устройства по генерированию выходящего информационного потока согласно осуществлению данного изобретения с применением SBR; и

Фиг.12C иллюстрирует работу устройства по генерированию выходящего информационного потока согласно осуществлению данного изобретения с применением M/S.

С учетом фиг. с 4 по 12C, различия в осуществлении данного изобретения будут описаны подробно. Однако прежде, чем описать данные различия подробнее, учитывая фиг. с 1 по 3, будет дано краткое изложение тех сложностей (проблем) и требований, которые могут представиться важными в рамках работы конференц-систем.

Фиг.1 показывает блок-схему конференц-системы 100, которая также может быть названа как многофункциональное управляющее устройство (a multi-point control unit (MCU)). Как это видно из дальнейшего описания, касающегося функциональности, конференц-система 100, как показано на фиг.1, является системой, работающей во временной области.

Конференц-система 100, как это показано на фиг.1, выполнена так, чтобы получать множество входящих информационных потоков через соответствующий номер входа 110-1, 110-2, 110-3,… из которых на фиг.1 показаны только три. Каждый из входов 110 связан с соответствующим ему декодером 120. Говоря точнее, вход 110-1 для первого входящего информационного потока соединен с первым декодером 120-1, в то время как второй вход 110=2 соединен со вторым декодером 120-2, и третий вход 110-3 соединен с третьим декодером 120-3.

Конференц-система 100 также содержит соответствующие номера сумматоров 130-1, 130-2, 130-3,… из которых снова только три показаны на фиг.1. Каждый из сумматоров соответствует одному из входов 110 в конференц-системе 100. Например, первый сумматор 130-1 соответствует первому входу 110-1, и соответствующему декодеру 120-1.

Каждый из сумматоров 130 соединен с выходами из всех декодеров 120, кроме декодера 120, который соединен со входом 110. Другими словами, первый сумматор 130-1 соединен со всеми декодерами 120, кроме декодера 120-1. Соответственно, второй декодер 130-2 соединен со всеми декодерами 120, кроме второго декодера 120-2.

Каждый из сумматоров 130 также содержит выход, который соединен с одним кодирующим устройством 140. Так, что первый сумматор 130-1 соединен с соответствующим ему выходом на первое кодирующее устройство 140-1. Соответственно, второй и третий сумматоры 130-2, 130-3, также соединены со вторым и третьим кодирующими устройствами 140-2, 140-3, соответственно.

В свою очередь, каждое из кодирующих устройств 140 соединено с соответствующим выходом 150. Другими словами, первое кодирующее устройство, например, соединено с первым выходом 150-1, Второе и третье кодирующие устройства 140-2, 140-3, также соединены со вторым и третьим выходами 150-2, 150-3, соответственно.

С целью описания работы конференц-системы 100, как показано более подробно на фиг.1, фиг.1 также показывает конференц-терминал 160 первого участника. Конференц-терминал 160 может, например, быть цифровьм телефоном (например, ISDN - телефон (ISDN = integrated service digital network)), системой, содержащей встроенную IP- телефонию, или подобным терминалом.

Конференц-терминал 160 содержит кодирующее устройство 170, которое соединено с первым входом 110-1 конференц-системы 100. Конференц-терминал также содержит декодер 180, который соединен с первым выходом 150-1 конференц-системы 100.

Подобные конференц-терминалы 160 могут также находиться на рабочих местах будущих участников конференции. Эти конференц-терминалы не показаны на фиг.1 с целью упрощения схемы. Следует также отметить, что конференц-система 100 и конференц-терминалы 160 не должны физически находиться в непосредственной близости друг от друга. Конференц-терминалы 160 и конференц-система 100 могут находиться на разных рабочих площадках, которые могут, например, соединяться между собой только посредством WAN - технологий (WAN=wide area networks).

Конференц-терминалы 160 могут также содержать или быть подсоединены к дополнителным компонентам, таким как микрофоны, усилители и громкоговорители (колонки) или наушники, чтобы обеспечить возможность обмена аудиосигналами с пользователем более доступным способом. Эти дополнительные компоненты не показаны на фиг.1 с целью упрощения схемы.

Как было отмечено ранее, конференц-система 100, показанная на фиг.1, является системой, работающей во временномй области. Когда, например, первый участник говорит в микрофон (непоказанный на фиг.1), кодирующее устройство 170 конференц-терминала 160 кодирует соответствующий аудиосигнал в соответствующий битовый поток и передает поток битов на первый вход 110-1 конференц-системы 100.

Внутри конференц-системы 100, битовый поток расшифровывается первым декодером 120-1 и преобразуется обратно во временную область. Так как первый декодер 120-1 соединен со вторым и третьим микширующими устройствами 130-2,130-3, аудиосигнал, генерированный от первого участника может быть микширован во временной области путем простого добавления восстановленного аудиосигнала к также восстановленным аудиосигналам от второго и третьего участников, соответственно.

Это также верно для аудиосигналов, исходящих от второго и третьего участников, которые подаются на второй и третий входы 110-2,110-3, и преобразуются вторым и третьим декодером 120=2,120-3 соответственно. Эти восстановленные аудиосигналы второго и третьего участников далее подаются на первое микширующее устройство 130-1, которое, в свою очередь, передает дополнительный аудиосигнал во временную область первого кодирующего устройства 140-1. Кодирующее устройство 140-1 снова кодирует дополнительный (суммированный) аудиосигнал, чтобы сформировать битовый поток и подает его на первый выход 150-1 к конференц-терминалу первого участника 160.

Подобным образом, второе и третье кодирующие устройства 14-2, 140-3 кодируют дополнительные (суммированные) аудиосигналы во временной области, полученные от второго и третьего сумматоров 130-2,130-3 соответственно, и передают кодированные данные назад к соответствующим участникам через второй и третий выходы 150-2, 150-3 соответственно.

Для выполнения непосредственного микширования, аудиосигналы полностью декодируются и дополняются (суммируются) в несжатом виде. После этого, при необходимости уровневая подстройка может быть произведена с помощью сжатия соответствующих выходящих сигналов, чтобы избежать эффектов ограничения сигнала (например, нарушение разрешенного набора параметров). Ограничение может возникнуть, когда отдельные виды параметров превышают или находятся ниже разрешенного набора значений так, что соответствующие параметры срезаются (ограничиваются). В случае с 16-битовым квантованием, которое применяется, например, в CD дисках, доступен набор целочисленных значений от -32768 до -32768 значений на образец.

Чтобы противостоять возможному превышению или снижению параметров сигнала, применяются алгоритмы компрессии (сжатия). Данные алгоритмы ограничивают выход за определенные предельные значения, чтобы сохранить дискретные параметры в рамках разрешенного набора значений.

Во время кодирования аудио данных в конференц системах, таких как конференц-система 100, как показано на фиг.1, должны быть приняты некоторые погрешности, чтобы выполнить микширование в не кодированном (un-encoded) состоянии наиболее легко доступным способом. Более того, скорость передачи данных кодированных аудиосигналов дополнительно ограничивается до меньшего набора передаваемых частот, так как меньшая пропускная способность полосы частот позволяет передавать более низкую дискретную частоту и, тем самым, меньшее количество информации, согласно теореме отсчетов Нейквиста-Шэннона (теорема Котельникова). Теорема Нейквиста-Шэннона утверждает, что частота дискретизации зависит от пропускной способности полосы частот дискретного сигнала и должна быть, по крайней мере, в два раза больше пропускной способности.

Международный союз электросвязи (МСЭ) и его Сектор стандартизации электросвязи (МСЭ-Т) разработали несколько стандартов для мултимедийных конференц-систем. Н.320 определяет стандарт протокола для видеоконференций посредством ISDN. Н.323 определяет стандарт для конференц-систем для сети, использующей пакетную передачу данных (TCP/IP). H.324 определяет стандарты конференц-систем для аналоговых телефонных сетей и систем телерадиокоммуникаций.

Данные стандарты регламентируют не только передачу сигналов, но и кодирование и обработку аудио данных. Управление конференцией производится одним и более серверами, так называемыми серверами многоточечной конференции (Multipoint Control Unit - MCU),согласно стандарту Н.231. Серверы многоточечной конференции также отвечают за обработку и распределение аудио и видео данных от нескольких участников.

Для достижения этих целей сервер многоточечной конференции посылает каждому участнику смешанный выходящий или результирующий сигнал, содержащий аудио данные от всех участников и доставляет сигнал соответствующим участникам. Фиг.1 не только показывает блок-схему конференц-системы 100, но также сигнальный поток в данной конференц ситуации.

В рамках стандартов Н.323 и Н.320, аудио кодеки класса G.7xx предназначены для работы с соответствующими конференц-системами. Стандарт G.711 используется для ISDN-передачи в кабельных телефонных системах. При частоте дискретизации 8 кГц, стандарт G.711 определяет диапазон аудио частот между 300 и 3400 Гц, при требуемой скорости битового потока в 64 кБит/с с величиной квантования 8 Бит. Кодирование осуществляется путем простого логарифмического кодирования, называемого µ-Law или A-Law, которое создает очень небольшую задержку всего в 0,125 мс.

Стандарт G.722 кодирует больший диапазон аудио частот от 50 до 7000 Гц с частотой дискретизации в 16 кГц. Как следствие, кодек обеспечивает большее качество по сравнению с более узко-полостными аудио кодеками G.7xx со скоростью битового потока 48, 56, и 64 кБит/с, с задержкой сигнала в 1.5 мс. Более того, существуют еще два усовершенствованных стандарта G.722.1 и G.722.2, которые обеспечивают сравнительно лучшее качество передачи речи даже при более низких скоростях битового потока. G.722.2 позволяет выбирать скорость битового потока между 6.6 кБит/с и 23.85 кБит/с с задержкой в 25 мс.

Стандарт G.729 обычно применяется в случае IP-телекоммуникации, которую также называют голосовой IP коммуникацией (VoIP). Кодек оптимизирован для речи и передает набор анализируемых речевых параметров для последующего синтеза наряду с ошибочным сигналом. В результате, стандарт G.729 осуществляет значительно лучшее кодирование со скоростью примерно 8 кБит/с при сопоставимой скорости дискретизации и широте аудио диапазона по сравнению со стандартом G.711. Более сложный алгоритм, однако, создает задержку примерно 15 мс.

Недостатком (погрешности вызваны) является и то, что кодеки G.7.xx оптимизированы для кодирования речи и шоу, не говоря о маленькой частоте диапазона, значительных проблемах при кодировании музыки вместе с речью или только музыки.

Следовательно, хотя конференц система 100, как показано на фиг.1, может быть использована для приемлемого качества при передаче и обработке речевых сигналов, общие аудио сигналы не достаточно хорошо обрабатываются, если применяются кодеки с низкой задержкой, оптимизированные (разработанные) для речи.

Другими словами, применение кодеков для кодирования и декодирования речевых сигналов для обработки общих аудио сигналов, включая, например, аудио сигналы с музыкой, не приводит к удовлетворительному качеству. Благодаря применению кодеков для кодирования и декодирования речевых сигналов в рамках конфернц системы 100, как это показано на фиг.1, качество можно улучшить.

Однако, как будет описано в контексте фиг.2 более подробно, применение общих аудио кодеков в такой конференц системе может привести к дальнейшим нежелательным эффектам, таким как, например, увеличивающаяся задержка сигнала.

Однако перед более подробным описанием фиг.2, следует отметить, что в настоящем описании объекты обозначены теми же или подобными условными знаками, когда соответствующие им объекты появляются более одного раза в осуществлении изобретения или фигуре, или появляются в нескольких примерах осуществления изобретения или фигурах. Если не обозначены эксплицитно или имплицитно каким либо другим путем, объекты, обозначенные теми же или подобными знаками, могут быть применены подобным или равным образом, например, в отношении их схемотехники, программирования, характеристик или других параметров. Таким образом, объекты, появляющиеся в нескольких примерах осуществления изобретения в фигурах и обозначенные теми же или подобными условными знаками, могут применяться с теми же спецификациями, параметрами и характеристиками. Естественно, также могут применяться разновидности и варианты (adaptations), например, когда пограничные условия или другие параметры меняются от фигуры к фигуре, или от примера к примеру.

Более того, следующие обобщающие условные обозначения будут использоваться для обозначения группы или класса объектов скорее, чем одного объекта. В рамках фиг.1 это было уже сделано, например, при обозначении первого входа как входа 110-1, второго входа как входа 101-2, и третьего входа как входа 110-3, в то время как все входы были обозначены обобщающим условным знаком 110. Другими словами, если эксплицитно никак не обозначены иначе, части описания, соответствующие объектам, обозначенным обобщающими условными знаками, могут также соотноситься с другими объектами, имеющими соответствующие индивидуальные условные обозначения.

Так как это также верно для объектов, обозначенных теми же самыми или подобными условными обозначениями (знаками), обе процедуры (меры) позволяют сократить описание и описать осуществление данного изобретения в более ясном и кратком виде.

Фиг.2 показывает блок-схему будущей конференц системы 100 вместе с конференц терминалом 160, которые похожи на те, которые показаны на фиг.1. Конференц система 100, показанная на фиг.2 также содержит входы 110, декодеры 120, сумматоры 130, кодирующие устройства 140, и выходы 150, которые также соединены между собой, как это можно увидеть в конференц системе 100 на фиг.1. Конференц система 100 на Фиг.2 также содержит входы 110, декодеры 120, сумматоры 130, кодирующие устройства 140, и выходы 150, которые также соединены между собой, как можно видеть в конференц системе 100 на фиг.1 Конференц терминал 160 на фиг.2 также содержит кодирующее устройство 170 и декодер 180. Поэтому, делается указание (ссылка) на описание соответствующей системы 100, показанной на фиг.1

Однако конференц система 100, показанная на фиг.2, так же как и конференц терминал 160, показанный на фиг.2, выполнены так, чтобы использовать общий аудио кодек (кодирующее устройство- декодер). Вследствие этого, каждое из кодирующих устройств 140, 170, содержит сложное (комплексное) соединение временного/частотного пакета 190, присоединенного к устройству квантования/ кодирующему устройству 200. Временной/частотный пакет 190 также показан на фиг.2 как "T/F" (В/Ч), в то время как устройство квантования/кодирующее устройство отмечено на фиг.2 как "Q/С" (К/К)

Каждый из декодеров 120,180 содержит декодер/устройство обратного квантования 210, который обозначен на фиг.2 как "Q/С^-1", подсоединенный в последовательности к частотно/временному преобразователю 190, устройству квантования/ кодирующему устройству 200 и декодеру/ устройству обратного квантования 210, в то же время частотно/временной преобразователь 220 обозначен таким образом только в случае с кодирующим устройством 140-3 и декодером 120-3. Однако следующее описание также соответствует другим подобным элементам.

Проходя через кодирующее устройство, такое как кодирующее устройство 140, или кодирующее устройство 170, аудио сигнал поступает во временной/частотный преобразователь 190 и преобразуется из временной области в частотную область или частотно-соотносимую область с помощью преобразователя 190. Затем, преобразованные аудио данные, генерированные в спектральном виде временным/частотным преобразователем 190, квантуются и кодируются для формирования битового потока, который далее подается, например, к выходам 150 конференц системы 100 в случае применения кодирующего устройства 140.

Что касается декодеров, таких как декодер 120 или декодер 180, битовый поток, подаваемый к декодерам, вначале декодируется и проходит процесс обратного квантования (переквантования), чтобы сформировать в спектральном виде хотя бы часть аудио сигнала, который затем преобразуется назад во временную область с помощью частотно/временных преобразователей 220.

Временные/частотные преобразователи 190, также как элементы обратной связи, частотно/временные преобразователи 220, поэтому, выполнены так, чтобы генерировать спектральное представление (вид), по крайней мере, части поданного к ним аудио сигнала, и преобразовать спектральное представление (вид) в соответствующие части аудио сигнала во временную область, соответственно.

В процессе преобразования аудио сигнала из временной области в частотную область, и обратно, из частотной области во временную область, могут возникать изменения, из-за которых вновь восстановленный, преобразованный и декодированный аудио сигнал может отличаться от оригинала или аудио сигнала источника. Дополнительная посторонняя информация (шумы) может присоединяться путем дополнительных шагов квантования и повторного (обратного) квантования, выполняемых в рамках работы кодирующего устройства квантования 200 и декодера 210. Другими словами, оригинальный аудио сигнал, так же как и восстановленный аудио сигнал, могут отличаться друг от друга.

Временные/частотные преобразователи 190, также как и частотно/временные преобразователи 220 могут, например, применяться на основе MDCT (Модификатора дискретного косинусного преобразования) и MDST (Модификатора дискретного синусного преобразования), FFT - преобразователя (РРТ = Быстрое преобразование Фурье (БПФ), или другого преобразователя Фурье. Квантование и обратное квантование (деквантованйе) в структуре работы устройства квантования/кодирующего устройства 200 и декодера/устройства обратного квантования (деквантизатора) 210 может, например, осуществляться на основе линейного квантования, логарифмического квантования, или другого более сложного алгоритма квантования, например, с учетом характеристик восприятия слушающего. Кодирующие и декодирующие части (элементы) устройства квантования/кодера 200 и декодера/устройства обратного квантования 210 могут, например, работать по схеме кодирования и декодирования Хаффмана.

Однако более сложные временные/частотные и частотно/временные преобразователи 190, 220, также как и более сложные устройства квантования/кодирования и декодирования/обратного квантования 200, 210 могут применяться в разных примерах осуществления (изобретения) и системах, как описано здесь, являясь частью или формируя, например, AAC-ELD кодирующее устройство как кодирующие устройства 140,170, и AAC-ELD декодер как декодеры 120,180.

Понятно, что желательно использовать идентичные, или хотя бы совместимые (сходные) кодирующие устройства 170, 140 и декодеры 180,120 в структуре работы конференц систем 100 и конференц терминалов 160.

Конференц система 100, как показано на фиг.2, основанная на схеме кодирования и декодирования общего аудио сигнала, также выполняет непосредственное микширование аудио сигналов во временной области. Восстановленные аудио сигналы поступают на сумматоры 130 во временной области, чтобы выполнить совмещение, и передать микшированные сигналы во временной области на временной/частотный преобразователь 190 следующих кодирующих устройств 140. Таким образом, конференц система снова содержит последовательное соединение декодеров 120 и кодирующих устройств 140, в силу чего конференц систему 100, показанную на фиг.1 и 2, обычно относят к «каскадным кодирующим системам» ("tandem coding systems").

Каскадные кодирующие системы часто имеют недостатки (помехи) высокой сложности. Сложность микширования сильно зависит от сложности применяемых декодеров и кодирующих устройств, и может значительно увеличиваться в случае работы с несколькими входящими и выходящими аудио сигналами. Более того, из-за того, что большинство схем кодирования и декодирования не могут обойтись без потерь, каскадная кодирующая схема, применяемая в конференц системах 100, показанных на фиг.1 и 2, обычно негативно влияет на качество.

К другим недостаткам (помехам) относятся повторяющиеся шаги декодирования и кодирования, которые также увеличивают общую задержку (сигнала) между входами 110 и выходами 150 в конференц системе 100, которая также называется end-to-end delay (задержка от начала до конца). В зависимости от изначальной задержки используемых декодеров и кодирующих устройств, конференц система 100 может сама увеличивать задержку сигнала до уровня, который делает использо

Микширование входящих информационных потоков и генерация выходящего информационного потока

Патент 2488896