Устройство для микширования множества входных данных

Иллюстрации

Показать все

Изобретение относится к устройствам для микширования множества входных потоков данных для получения потока данных, которые могут применяться, например, в области систем конференц-связи, включая системы видео- и телеконференций. Техническим результатом является уменьшение сложности вычислений при микшировании кодированных с помощью SBR-кодера аудиосигналов. Указанный результат достигается тем, что устройство (500) для микширования первого фрейма (540-1) первого входного потока данных (510-1) и второго фрейма (540-2) второго входного потока данных (510-2) содержит блок обработки (520), предназначенный для формирования выходного фрейма (550), где выходной фрейм (550) содержит выходные спектральные данные, характеризующие нижнюю часть выходного спектра до выходной частоты перехода, и где выходной фрейм содержит выходные SBR-данные, характеризующие верхнюю часть выходного спектра выше выходной частоты перехода посредством значений энергии в выходном разрешении временно-частотной сетки; процессорный блок (520) функционирует таким образом, что выходные спектральные данные, соответствующие частотам ниже минимального значения частот перехода первого фрейма, второго фрейма и выходной частоты перехода, формируются в спектральной области, а выходные SBR-данные, соответствующие частотам выше максимального значения частот перехода первого и второго фреймов и выходной частоты перехода, обрабатываются в SBR-области. 4 н. и 12 з.п. ф-лы, 15 ил.

Реферат

Настоящее изобретение относится к устройствам для микширования множества входных потоков данных для получения потока данных, которые могут применяться, например, в области систем конференц-связи, включая системы видео- и телеконференций.

Во многих приложениях в результате обработки нескольких аудиосигналов формируется один или как минимум меньшее количество аудиосигналов; такая обработка называется «микшированием». Поэтому процесс микширования аудиосигналов можно определить как объединение нескольких индивидуальных аудиосигналов в результирующий сигнал. Этот процесс используется, например, для создания музыкальных произведений для компакт-диска («dubbing»). В этом случае аудиосигналы различных инструментов вместе с одним или несколькими аудиосигналами, содержащими вокальные партии, обычно микшируются в песню.

Следующими областями применения, в которых микширование играет важную роль, являются системы видео- и телеконференций. Такая система обычно способна объединить несколько удаленных участников в конференцию, используя центральный сервер, который соответствующим образом микширует входящие аудио- и видеоданные от каждого зарегистрированного участника и отправляет каждому из них в ответ результирующий сигнал. Этот результирующий или выходной сигнал содержит аудиосигналы всех остальных участников конференции.

В современных цифровых системах конференц-связи необходимо учитывать ряд противоречивых целей и различных аспектов. Необходимо принимать во внимание качество воспроизводимого аудиосигнала и также возможность применения и эффективность разнообразных методов кодирования и декодирования для различных видов аудиосигналов (например, речевых, музыкальных и обычных сигналов). Следующий аспект, который требует внимания при разработке и внедрении систем конференц-связи, - это доступный частотный диапазон и проблема задержки в процессе передачи аудиосигнала.

Например, при решении проблемы соотношения качества, с одной стороны, и частотного диапазона, с другой стороны, приходится искать компромисс. Улучшение качества звука возможно при применении современных методик кодирования и декодирования, таких как ААС и ELD (AAC - улучшенный аудиокодек, с меньшей потерей качества при кодировании, чем МР3 при одинаковых размерах; ELD - усовершенствованная низкая задержка аудиосигнала).

При применении подобных систем качество аудиосигнала может снизиться в связи с более фундаментальными проблемами.

Одной из таких проблем является тот факт, что все передачи цифровых сигналов сталкиваются с проблемой необходимости квантования, которой можно избежать (по меньшей мере, в теории) при идеальных условиях бесшумной аналоговой системы. В связи с процессом квантования в сигнал, который должен быть подвергнут обработке, неизбежно привносятся шумы. Чтобы предотвратить возможные улавливаемые на слух отклонения, следует увеличить количество уровней квантования и таким образом увеличить разрешающую способность квантования. Это, в свою очередь, ведет к увеличению объема передаваемого сигнала. Иными словами, при использовании метода квантования уменьшается уровень возможных помех, а значит, улучшается качество сигнала. При определенных условиях это приводит к увеличению объема передаваемых данных, что может привести к несоответствию с шириной полосы, которая применяется в данной системе передачи аудиосигналов.

При работе с системами конференц-связи проблема соответствия качества, доступной ширины полосы и других параметров оказывается более сложной в связи с тем, что обычно обрабатываются два и более входных аудиосигналов. Поэтому при формировании выходного или итогового аудиосигнала должны учитываться пограничные параметры, имеющиеся у двух или более входных аудиосигналов.

Функционирование систем конференц-связи осложняется тем, что для ее эффективной работы необходима минимальная задержка передачи данных, которая позволяет участникам общаться напрямую.

В конфигурациях систем конференц-связи с низкой задержкой обычно ограничено число источников задержки, что может привести к проблеме обработки данных за пределами временной области, в которой микширование аудиосигналов производится путем накладывания или добавления соответствующих сигналов.

В случае работы с обычным аудиосигналом существует целый ряд методов для достижения компромисса между качеством сигнала и битрейтом. Эти методы позволяют найти оптимальное соответствие между такими противоречивыми параметрами, как качество восстановленного сигнала, битрейт, задержка, сложность вычисления и т.д.

Удобным методом нахождения соответствия, о котором идет речь, является так называемый метод репликации спектральной полосы (SBR). SBR-модуль обычно не используется в качестве составляющей части центрального кодера (такого, как кодер MPEG-4 AAC), но он является дополнительным кодером или декодером. Метод SBR применяет корреляцию между высокими и низкими частотами в составе аудиосигнала. Функционирование SBR-модуля основано на предположении, что более высокие частоты сигнала могут быть восстановлены на основе частот нижнего спектра. В связи с тем, что человеческое ухо воспринимает высокие частоты не линейно, незначительные отклонения в частоте могут услышать только люди с идеальным слухом. Поэтому неточности, появляющиеся в результате применения SBR-кодера, останутся незамеченными для большинства слушателей.

Кодер SBR предварительно обрабатывает аудиосигнал, который направляется в кодек MPEG-4, и разделяет входной сигнал по частотным диапазонам. Полоса низких частот или низкочастотный диапазон отделяется от полосы или диапазона высоких частот так называемой частотой перехода, которая устанавливается в зависимости от доступного битрейта и других параметров. Кодер SBR применяет блок фильтров для анализа частоты, который обычно представляет собой квадратурный зеркальный фильтр (QMF).

Кодер SBR выделяет значения энергии в диапазоне высоких частот, которые позже будут использоваться для их восстановления на основе диапазона низких частот.

Таким образом, SBR-кодер направляет SBR-данные или SBR-параметры вместе с фильтрованным аудиосигналом или фильтрованными аудиоданными в центральный кодер, который обрабатывает низкочастотный диапазон, то есть половину частот исходного аудиосигнала. В связи с этим обрабатывается меньший по объему образец, поэтому есть возможность установить более точно уровни квантования. Дополнительная информация, предоставляемая SBR-кодером, а именно SBR-параметры, присоединяется к битовому потоку с помощью кодера MPEG-4 или любого другого кодера в качестве вспомогательной информации. Для этого используется подходящий мультиплексор битового потока.

На стороне декодера входные битовые потоки демультиплексируются при помощи демультиплексора битового потока, который, по меньшей мере, отделяет SBR-данные и передает их в SBR-декодер. Однако до обработки SBR-данных SBR-декодером центральный декодер декодирует низкочастотный поддиапазон для того, чтобы восстановить аудиосигнал низкочастотного поддиапазона. Основываясь на SBR-значениях энергии (SBR-параметрах) и спектральной информации низкочастотного поддиапазона, SBR-декодер самостоятельно вычисляет высокочастотный поддиапазон аудиосигнала. Иными словами, SBR-декодер восстанавливает высокочастотный спектр диапазона, основываясь на данных низкочастотного поддиапазона, а также на SBR-параметрах, которые были переданы в битовом потоке, как объяснялось выше.

Кроме указанных выше возможностей SBR-модуля по улучшению качества восстановленного аудиосигнала SBR-модуль имеет возможность кодирования дополнительных источников шума как отдельных синусоидальных сигналов.

Таким образом, SBR-модуль представляет собой устройство, позволяющее найти компромисс между качеством аудиосигнала и подходящим битрейтом, что делает его эффективным при применении в области систем конференц-связи.

Однако из-за сложности и большого количества возможностей и опций кодированные при помощи SBR-кодера аудиосигналы микшируются во временной области после полного декодирования соответствующего аудиосигнала. После этого проводится следующий этап кодирования микшированного сигнала в SBR-сигнал. Кроме дополнительной задержки, связанной с кодированием сигналов во временную область, восстановление спектральной информации кодированного аудиосигнала может повлечь за собой значительную вычислительную сложность, которая будет нежелательна для портативных энергосберегающих устройств или приложений, применяющих сложные вычисления.

Целью настоящего изобретения является уменьшение сложности вычислений при микшировании кодированных с помощью SBR-кодера аудиосигналов.

Поставленная задача решается с помощью устройства в соответствии с п.1 или 3 формулы, метода согласно п.15 и программы согласно п.16.

Реализации настоящего изобретения основываются на предположении, что сложность вычисления можно уменьшить при следующих условиях: для частот, находящихся ниже частоты перехода, проводится микширование спектральных значений в спектральной области; для частот выше частоты перехода микширование проводится в SBR-области; для частот в промежутке между минимальным и максимальным значениями вычисляется, по меньшей мере, одно SBR-значение, на основе которого вычисляется SBR-значение на следующем этапе обработки аудиосигнала, или вычисляется спектральное значение или спектральная информация на основе соответствующих SBR-параметров.

Иными словами, реализация настоящего изобретения основывается на идее о том, что для частот, находящихся за пределом максимальной границы частоты перехода, микширование можно производить в SBR-области. Для частот, находящихся ниже минимальной границы частоты перехода, микширование можно производить в той же спектральной области путем прямой обработки соответствующих спектральных значений. Кроме этого, настоящее изобретение может производить микширование частот между максимальными и минимальными значениями в SBR-области или в спектральной области, определяя по соответствующим SBR-параметрам спектральные значения или определяя из спектральных значений SBR-параметры, а затем производя собственно микширование на основе полученных значений в SBR-области или в спектральной области. В этом контексте необходимо отметить, что частота перехода на выходе может быть определена на основе любой частоты перехода на входе.

Вследствие этого количество стадий обработки звукового сигнала при использовании настоящего устройства уменьшается и вычислительная сложность снижается, так как микширование частот за пределами верхней и нижней границ частоты перехода производится на основе прямого микширования в соответствующих областях. Определение параметров производится только для средней полосы между минимальным и максимальным значениями всех переходных частот. Основываясь на этих параметрах, вычисляется SBR-параметр и действительное спектральное значение. Во многих случаях, даже в зоне средних частот вычислительная сложность снижается, так как обработка данных и определение параметров производится не для всех потоков входных аудиосигналов.

В соответствии с настоящим изобретением, частота перехода на выходе может равняться одной их частот перехода на входе или может быть выбрана произвольно, принимая во внимание, например, психоакустическую оценку.

В вариантах настоящего изобретения полученные SBR-параметры или спектральные значения могут применяться в различных целях для выравнивания или для изменения SBR-параметров или спектральных значений в средней полосе диапазона.

Варианты настоящего изобретения будут продемонстрированы далее с помощью следующих фигур:

Фиг.1 показывает блок-схему системы конференц-связи.

Фиг.2 показывает блок-схему системы конференц-связи на основе общего аудиопотока.

Фиг.3 показывает блок-схему системы конференц-связи, функционирующую в частотной области с использованием метода микширования битового потока.

Фиг.4 показывает схему потока данных, состоящего из множества фреймов.

Фиг.5 иллюстрирует различные формы спектральных компонентов и спектральных данных.

Фиг.6а показывает упрощенную блок-схему устройства микширования первого фрейма первого входного потока данных и второй фрейм второго потока входных данных в соответствии с реализацией настоящего изобретения.

Фиг.6b показывает блок-схему разрешения частотно-временной сетки фрейма потока данных.

Фиг.7 показывает более детальную блок-схему одного из вариантов настоящего изобретения.

Фиг.8 показывает блок-схему устройства для микширования множественных входных потоков данных в соответствии с вариантом настоящего изобретения в контексте системы конференц-связи.

Фиг.9а и 9b показывают соответственно первый и второй фреймы первого и второго входных потоков данных так, как они поступают в устройство.

Фиг.9с показывает ситуацию наложения входящих фреймов, показанных на фиг.9а и 9b.

Фиг.9d показывает фрейм на выходе, полученный устройством в соответствии с настоящим изобретением, вместе с выходной частотой перехода, которая была уменьшена вдвое по сравнению с частотой перехода входных фреймов.

Фиг.9е показывает фрейм на выходе, полученный устройством в соответствии с настоящим изобретением. Частота перехода на выходе была увеличена по сравнению с частотами перехода входных фреймов.

Фиг.10 показывает соответствие высокочастотных и низкочастотных разрешений.

В соответствии с фиг.4-10 различные варианты настоящего изобретения будут описаны подробно.

Однако сначала, в соответствии с фиг.1-3, остановимся на основных проблемах, связанных с работой систем конференц-связи.

На фиг.1 показана блок-схема системы конференц-связи 100, так называемый сервер многоточечной конференции (MCU). При описании функционирования этой системы становится очевидно, что система конференц-связи 100, как это показано на фиг.1, работает во временной области.

Система конференц-связи 100, как это показано на фиг.1, принимает множественные потоки данных через необходимое количество входных каналов 110-1, 110-2, 110-3, на фиг.1 показано только три канала. Каждый из входных каналов 110 соединен с соответствующим декодером 120, а именно входной канал 110-1 первого входного потока данных соединяется с первым декодером 120-1, второй входной канал 110-2 соединяется со вторым декодером 120-2, третий входной канал 110-3 соединяется с третьим декодером 120-3.

Система конференц-связи 100 далее содержит необходимое количество сумматоров 130-1, 130-2, 130-3, три сумматора показаны на фиг.1. Каждый сумматор соответствует одному из входных каналов 110. Например, первый сумматор 130-1 соответствует первому входному каналу 110-1 и соответствующему декодеру 120-1.

Каждый из сумматоров 130 соединяется с выходным каналом декодера 120, который соответствует входному каналу 110. Иными словами, первый сумматор 130-1 соединяется со всеми декодерами 120, кроме первого декодера 120-1. Соответственно, второй сумматор 130-2 соединен со всеми декодерами 120, кроме второго декодера 120-2.

Каждый из сумматоров 130 имеет выходной канал, каждый из которых соединен с кодером 140. Так, первый сумматор 130-1 соединяется при помощи выходного канала с первым кодером 140-1. Соответственно, второй и третий сумматоры 130-2 и 130-3 соединяются со вторым и третьим кодерами 140-2 и 140-3.

В свою очередь, каждый из кодеров 140 соединен с соответствующим выходным каналом 150. Иными словами, первый кодер соответствует первому выходному каналу 150-1. Второй и третий кодеры 140-2 и 140-3 соответствуют выходным каналам 150-2 и 150-3.

Для более детальной иллюстрации системы конференц-связи 100 на фиг.1 показан терминал 160 первого участника конференции. Терминал 160 может представлять собой, например, цифровой телефон (например, телефон ISDN), систему передачи аудиосигнала через Интернет и т.д.

Терминал 160 содержит кодер 170, который соответствует первому входному каналу 110-1 системы конференц-связи 100. Терминал 160 также имеет декодер 180, который соединяется с первым выходным каналом 150-1 системы конференц-связи 100.

Подобные терминалы могут присутствовать на стороне остальных участников конференции. Эти терминалы не показаны на фиг.1 в целях упрощения. Необходимо отметить, что система конференц-связи 100 и терминалы 160 могут не располагаться в непосредственной близости друг от друга. Терминалы 160 и система конференц-связи 100 могут располагаться на расстоянии и связываться между собой с помощью WAN-технологии (WAN - глобальная сеть).

К терминалам 160 возможно подключение дополнительных устройств таких, как микрофоны, усилители, колонки, наушники, которые используются для более качественной передачи аудиосигнала к слушателю. В целях упрощения они не представлены на фиг.1.

Как было указано выше, система конференц-связи 100, представленная на фиг.1, - это система, функционирующая во временной области. Когда, например, первый участник говорит в микрофон (не показанный на фиг.1), кодер 170 терминала 160 кодирует аудиосигнал в соответствующий битовый поток и передает его в первый входной канал 110-1 системы конференц-связи 100.

Внутри системы конференц-связи 100 битовый поток декодируется первым декодером 120-1 и преобразуется обратно во временную область. Так как первый декодер 120-1 соединяется со вторым и третьим модулями микширования 130-1, 130-3, аудиосигнал, созданный первым участником, микшируется во временной области путем добавления восстановленного аудиосигнала к восстановленным далее аудиосигналам второго и третьего участников соответственно.

Подобным образом обрабатываются сигналы, полученные от второго и третьего участников на второй и третий входные каналы 110-2, 110-3, которые декодируются вторым и третьим декодерами 120-2 120-3 соответственно. Обработанные аудиосигналы второго и третьего участников передаются на первый модуль микширования 130-1, который, в свою очередь, передает микшированный во временной области аудиосигнал в первый кодер 140-1. Кодер 140-1 повторно кодирует аудиосигнал, формирует битовый поток и передает его на первый выходной канал 150-1 первому участнику конференции на терминал 160.

Подобным образом второй и третий кодеры 140-2, 140-3 кодируют добавленные аудиосигналы во временной области, которые были получены от второго и третьего сумматоров 130-2, 130-3 соответственно, и передают кодированные данные обратно соответствующим участникам через второй и третий выходные каналы 150-2, 150-3.

Для выполнения собственно микширования аудиосигналы полностью декодируются и добавляются в полном, несжатом виде. Далее, если это необходимо, проводится уровневая корректировка путем сжатия соответствующих выходных сигналов для того, чтобы избежать эффекта отсечения (в случае превышения допустимого диапазона значений). Отсечение происходит в том случае, если параметры одного из сигналов превышают или находятся ниже минимальной границы допустимого диапазона значений. В случае 16-битового квантования, которое применяется в работе с CD-дисками, допускается диапазон целых значений между -32768 и 32767 для отдельного дискретного значения.

В целях предотвращения возможных отклонений от допустимого диапазона применяются алгоритмы компрессии. Эти алгоритмы не допускают появление значений за пределами пороговых значений и таким образом поддерживают оцифрованный звуковой фрагмент в необходимом диапазоне значений.

При кодировании аудиоданных в системах конференц-связи, таких как система конференц-связи 100, показанная на фиг.1, иногда приходится производить микширование некодированных данных, что приводит к некоторым негативным последствиям. Кроме этого, скорость передачи данных при работе с кодированными аудиосигналами ограничена малым диапазоном частоты передачи, т.к. низкий диапазон означает низкую частоту дискретизации, а значит, меньший объем передаваемых данных согласно теореме Найквиста-Шэннона-Сэмплинга. Теорема Найквиста-Шэннона-Сэмплинга утверждает, что частота дискретизации зависит от диапазона дискретизируемого сигнала и она должна быть, по меньшей мере, в два раза больше диапазона.

Международный союз по телекоммуникациям (ITU) и отдел стандартизации в области телекоммуникаций (ITU-T) разработали несколько стандартов в области мультимедийных систем конференц-связи. Н.320 - это стандарт конференц-протоколов для ISDN. H.323 - это стандарт для систем конференц-связи, применяющих пакетную передачу данных (TCP/IP). H.323 представляет собой стандарт для аналоговых телефонных сетей и радиотелекоммуникационных систем.

Эти стандарты определяют не только процесс передачи сигналов, но и процессы кодирования и обработки аудиосигналов. Согласно стандарту Н.231 конференцией управляет один или несколько серверов, так называемые серверы многоточечной конференции (MCU). Сервер многоточечной конференции отвечает за обработку и распределение видео- и аудиоданных нескольким участникам конференции.

Для этого сервер многоточечной конференции отправляет каждому участнику микшированный выходной или результирующий сигнал, который содержит аудиоданные всех остальных участников конференции и обеспечивает данными соответствующих участников. На фиг.1 представлена не только блок-схема системы конференц-связи 100, но и показан поток сигналов в условиях конференции.

В рамках стандартов H.323 и Н.320 аудиокодеки класса G. 7хх применяются для работы в системах конференц-связи. Стандарт G. 711 применяется для ISDN-передачи в кабельных телефонных системах. При частоте дискретизации 8 кГц стандарт G. 711 покрывает аудиочастоту 300-3400 кГц, при этом необходимая скорость передачи составляет 64 Кбит/с при 8-битном квантовании. При кодировании применяется простое логарифмическое кодирование M-Law и A-Law, которое создает очень низкую задержку в 0.125 мс.

Согласно стандарту G.722 кодирование производится для большего диапазона частот от 50 до 7000 Гц при частоте дискретизации 16 кГц. Вследствие этого кодек достигает более высокого качества по сравнению с G. 7хх, который применяет более узкий диапазон. Скорость передачи составляет 48, 56 или 64 Кбит/с, задержка составляет 1,5 мс. Кроме этого существуют стандарты G.722.2 и G. 722.3, которые обеспечивают различимое качество речи при более низких битрейтах. Стандарт G.722.2 позволяет выбирать скорость передачи между 6.6 Кбит/с и 23.85 Кбит/с при задержке в 25 мс.

Стандарт G. 729 обычно применяется в IP-телефонии, которая определяется как voice-over-IP (голос через Интернет) коммуникация (VoIP). Данный кодек оптимизирован специально для передачи речи, он передает набор обработанных речевых параметров для последующего синтеза совместно с сигналом ошибки. В результате G. 729 достигает значительно лучшего уровня кодирования при приблизительной скорости 8 Кбит/с при аналогичной частоте дискретизации и диапазоне, как и стандарт G. 711. Однако более сложный алгоритм создает задержку около 15 мс.

Недостатком кодеков стандарта G.7.xx является то, что, специализируясь на кодировании речи, они обладают узкой частотой диапазона и вызывают трудности, если при кодировании речи необходимо добавить кодирование музыки, или при кодировании одной только музыки.

Несмотря на то, что система конференц-связи 100, как показано на фиг.1, может применяться для передачи и обработки речевых сигналов приемлемого качества, обычные аудиосигналы после обработки кодеками с низким уровнем задержки, которые применяются для речи, оказываются невысокого качества.

Иначе говоря, применение кодеков, предназначенных для кодирования и декодирования речевых сигналов, для обработки общих аудиосигналов, включая музыку, не приводит к положительным результатам с точки зрения качества. В процессе применения аудиокодеков для кодирования и декодирования общих аудиосигналов в рамках системы конференц-связи 100, как показано на фиг.1, возможно улучшение качества. Однако, как это будет детально показано на фиг.2, применение общих аудиокодеков в подобной системе конференц-связи может привести к другим нежелательным эффектам, одним из которых является увеличение периода задержки.

Прежде чем перейти к подробному описанию фиг.2, необходимо отметить, что в настоящем описании объекты обозначаются одним и тем же знаком, когда аналогичные объекты появляются в нескольких вариантах изобретения и показаны на нескольких схемах. Если нет необходимости дополнительного уточнения, объекты, обозначенные одинаково, могут функционировать аналогичным образом или быть полными эквивалентами, например, в программе, в отдельных характеристиках и т.д. В связи с этим объекты, которые указаны аналогичным образом на разных схемах для разных вариантов изобретения, могут применяться с одинаковыми спецификациями, параметрами и характеристиками. Конечно, могут появляться отклонения и различия в том случае, если, например, пограничные условия меняются от фиг. к фиг., от одного варианта изобретения к другому варианту.

Кроме того, обобщающие знаки будут использованы для обозначения групп или классов объектов, а не для отдельных объектов. На фиг.1 это уже было показано. Например, при обозначении первого входного канала на входе как входной канал 110-1, второго входного канала как входной канал 110-2, третьего входного канала как 110-3 входные каналы в целом обозначаются знаком 110. Иначе говоря, если нет особых указаний, в различных пунктах описания обобщающим знаком могут обозначаться любые объекты, относящиеся к этому классу.

Такой подход, когда классу объектов приписывается один знак, помогает сократить описание или описать варианты изобретения более кратко и понятно.

Фиг.2 показывает блок-схему системы конференц-связи 100 совместно с конференц-терминалом 160, которая является аналогичной системе конференц-связи на фиг.1. Система конференц-связи 100, показанная на фиг.2, также включает входные каналы 110, декодеры 120, сумматоры 130, кодеры 140 и выходные каналы 150, которые взаимосвязаны таким же образом, как и система конференц-связи 100, показанная на фиг.1. Конференц-терминал 160 на фиг.2 включает кодер 170 и декодер 180. Поэтому дается ссылка на систему конференц-связи 100, показанную на фиг.1.

Однако система конференц-связи 100, показанная на фиг.2, вместе с конференц-терминалом 160 на фиг.2 адаптированы для использования общего аудиокодека (кодер-декодер). Вследствие этого каждый из кодеров 140, 170 включает частотно-временной преобразователь 190, связанный с квантизатором/кодером 200. Частотно-временной преобразователь 190 обозначен на фиг.2 как «T/F», а квантизатор/кодер 200 - как «Q/С».

Каждый декодер 120, 180 включает декодер/деквантизатор 210, показанный на фиг.2 как «О/С-1», связанный с частотно-временным преобразователем 220, обозначенным на фиг.2 как «T/F-1». С целью упрощения временно-частотный преобразователь 190, квантизатор/кодер 200 и декодер/деквантизатор 210, так же как и частотно-временной преобразователь 220, показаны только для кодера 140-3 и декодера 120-3. Однако это описание относится и к другим аналогичным элементам.

Начиная с кодера 140 или кодера 170, аудиосигнал, поступающий во временно-частотный преобразователь 190, конвертируется в нем из временной области в частотную область или частотно-зависимую область. Далее аудиоданные, преобразованные в спектральные данные после обработки временно-частотным преобразователем 190, квантуются и кодируются в битовый поток, который затем поступает на выходные каналы 150 системы конференц-связи 100.

В случае декодеров 120 или 180 битовый поток, поступающий в декодеры, сначала декодируется и повторно квантуется, чтобы сформировать, по крайней мере, часть спектральной репрезентации аудиосигнала, который затем обратно конвертируется во временную область частотно-временным преобразователем 220.

Временно-частотные преобразователи 190, так же как и обратные элементы - частотно-временные преобразователи 220, применяются для формирования спектральной репрезентации, по крайней мере, части поступающего в них аудиосигнала и обратного преобразования спектральной части в соответствующую часть аудиосигнала во временной области.

В процессе преобразования аудиосигнала из временной области в частотную и обратно из частотной во временную область могут появляться отклонения, в связи с чем восстановленный или декодированный аудиосигнал может отличаться от исходного аудиосигнала. Дополнительно дефекты могут быть добавлены на последующих этапах квантования и деквантования, осуществляемых квантизатором/кодером 200 и декодером/деквантизатором 210. Другими словами, исходный аудиосигнал и восстановленный аудиосигнал могут отличаться друг от друга.

Временно-частотные преобразователи 190, так же как и частотно-временные преобразователи 220, могут применяться, например, на основе MDCT (модифицированное дискретное косинусное преобразование), MDST (модифицированное дискретное синусное преобразования), FFT-конвертера (быстрое преобразование Фурье), или другого Фурье-конвертера. Квантование и деквантование в рамках кодера/квантизатора 200 и декодера/деквантизатора 210 могут производиться, например, на основе линейного квантования, логарифмического квантования или более сложного алгоритма квантования, учитывающего особенности человеческого восприятия звука. Кодирующая и декодирующая части кодера/квантизатора 200 и декодера/деквантизатора 210 могут, например, использовать схему кодирования/декодирования Хаффмана.

Однако более сложные временно-частотные и частотно-временные преобразователи 190, 220, так же как и более сложные квантизаторы/кодеры и декодеры/деквантизаторы 200, 210, могут применяться в различных вариантах изобретения и системах, будучи частью, например, AAC-ELD кодера, как кодеров 140, 170, и ААС-ELD декодера, как декодеров 120, 180

Очевидно, что рекомендуется применять идентичные или соотносимые кодеры 170, 140 и декодеры 180, 120 в рамках системы конференц-связи 100 и конференц-терминалов 160.

Система конференц-связи 100, как показано на фиг.2, применяющая общую схему кодирования и декодирования аудиосигналов, также выполняет микширование аудиосигналов во временной области. Сумматоры 130 принимают восстановленный аудиосигнал во временную область, выполняют точное позиционирование и передают микшированные во временной области сигналы во временно-частотные преобразователи 190 последующего кодера 140. Так, система конференц-связи снова включает последовательную связь декодеров 120 и кодеров 140. По этой причине система конференц-связи 100, как показано на фиг.1 и 2, обычно определяется как «система тандемного кодирования».

Недостатком системы тандемного кодирования является ее сложность. Сложность микширования зависит от сложности применяемых декодеров и кодеров, она может увеличиться в несколько раз, если в системе задействованы несколько входных и выходных каналов. Принимая во внимание тот факт, что схемы кодирования и декодирования не бывают без потерь, система тандемного кодирования, применяемая в системах конференц-связи 100, показанных на фиг.1 и 2, обычно негативно влияет на качество звука.

Еще одним недостатком является то, что повторяющиеся этапы декодирования и кодирования увеличивают общую задержку между входными каналами 110 и выходными каналами 150 в рамках системы конференц-связи 100, которая определяется как абсолютная задержка. В зависимости от первоначальной задержки используемых декодеров и кодеров сама система конференц-связи 100 может увеличивать время задержки до такого уровня, при котором работа в рамках системы конференц-связи становится непривлекательной и даже невозможной. Обычно задержка в 50 мс считается максимальной задержкой, которая приемлема в диалоге.

Основным источником задержки являются временно-частотные преобразователи 190, а также частотно-временные преобразователи 220, которые отвечают за итоговую задержку в работе системы конференц-связи 100. Дополнительная задержка появляется в связи с работой конференц-терминалов 160. Задержка, связанная с работой остальных элементов системы, а именно квантизаторов/кодеров 200 и декодеров/деквантизаторов 210, менее значима, т.к. эти элементы могут функционировать при более высоких частотах по сравнению с временно-частотными преобразователями и частотно-временными преобразователями 190, 220. Большинство временно-частотных преобразователей и частотно-временных преобразователей 190, 220 функционируют в блоке или фрейме, что означает, что во многих случаях должна приниматься во внимание задержка в виде периода времени, который равен периоду, необходимому для заполнения буфера или памяти, имеющего длину фрейма блока. На этот период времени значительно влияет частота дискретизации, которая обычно составляет от нескольких кГц до нескольких десятков кГц, в то время как быстродействие квантизатора/кодера 200 и декодера/деквантизатора 210 определяются тактовой частотой базовой системы. Обычно она имеет значение частоты выше на 2, 3, 4 порядка или более.

Так, выше было продемонстрировано как функционируют системы конференц-связи на основе общих аудиокодеков, применяющих технологию микширования битового потока. Метод микширования битового потока может, например, быть применен на основе MPEG-4 AAC-ELD кодека, который позволяет избежать некоторых недостатков тандемного кодирования, о котором шла речь выше.

Однако необходимо отметить, что в принципе система конференц-связи 100, как показано на фиг.2, может работать на основе кодека MPEG-4 AAC-ELD с подобным битрейтом и значительно большим частотным диапазоном по сравнению с указанными ранее речевыми кодеками, относящимися к семейству кодеков G.7xx. Это подразумевает, что можно получить значительно лучшее качество для аудиосигналов всех типов при значительном увеличении битрейта. Несмотря на то, что для MPEG-4 AAC-ELD характерна задержка в пределах кодеков семейства G.7xx, что означает потенциальную возможность работы в рамках системы конференц-связи, как позано на фиг.2, на практике это оказывается невозможным. Далее на фиг.3 показана более практичная система на основе ранее представленного микширования битового потока.

Необходимо отметить, что в целях упрощения акцент, в основном, делается на работе кодека MPEG-4 AAC-ELD и его потоках данных и битовых потоках. Однако другие кодеры и декодеры могут применяться в рамках системы конференц-связи 100, как показано на фиг.3.

Фиг.3 показывает блок-схему системы конференц-связи 100, работающую согласно принципу микширования битового потока вместе с конференц-терминалом 160, как он показан на фиг.2. Сама система конференц-связи 100 - это упрощенная версия системы конференц-связи 100, показанной на фиг.2. Если быть более точным, декодеры 120 системы конференц-связи 100 на фиг.2 были заменены декодерами/деквантизаторами 220-1, 220-2, 210-3 на фиг.3. Иначе говоря, системы конференц-связи на фиг.2 и 3 различаются отсутствием частотно-временных преобразователей 120 декодеров 120.

Подобным образом кодеры 140 системы конференц-связи 100 на фиг.2 заменены квантизаторами/кодерами 200-1, 200-2, 200-3. Таким образом, временно-частотные преобразователи 190 кодера 140 отсутствуют, если сравнивать системы конференц-связи 100 на фиг.2 и 3.

В результате сумматоры 130 больше не функционируют во временной области, а из-за отсутствия частотно-временных преобразователей 220 и временно-частотных преобразователей 190 они функционируют в частотной или частотно-зависимой области.

Например, в случае кодеков MPEG-4 AAC-ELD временно-частотный преобразователь 190 и частотно-временной преобразователь 220, которые присутствуют только в конференц-терминале 160, основаны на MDCT-преобразовании. Таким образом, внутри системы конференц-связи 100 блоки микширования 130 производят микширование аудиосигналов в MDCT-частотном представлении.

Поскольку преобразователи 190, 220 являются основным источником задержки в случае системы конференц-связи 100, показанной на фиг.2, их исключение приводит к значительному уменьшению задержки. Кроме того, сложность, связанная с применением этих двух преобразователей 190, 220 внутри системы конференц-связи 100, также значительно снижается. Например, в случае MPEG-2 ААС декодера обратная MDCT-трансформация, реализуемая частотно-временным преобразователем 220, составляет приблизительно 20% общей сложности. Поскольку преобразователь MPEG-4 основан на подобной трансформации, с