2477532 - Устройство и способ кодирования и воспроизведения звука

Устройство и способ кодирования и воспроизведения звука

Иллюстрации

Показать все

Изобретение относится к устройству и способу кодирования и воспроизведения звука, в частности, не ограничиваясь указанным, к устройству для кодированных речевых сигналов и аудио-сигналов. Техническим результатом является облегчение эффективного воспроизведения звуковой стереопанорамы для таких условий эксплуатации, как проведении конференций и использование оборудования мобильным пользователем. Устройство для кодирования аудио-сигнала сконфигурировано для приема аудио-компонентов от микрофона, расположенного у источника звука или направленного в его сторону, и приема аудио-компонентов от дополнительного микрофона. При этом дополнительный микрофон расположен дальше от источника звука, чем основной микрофон, или направлен в сторону от источника звука. Аудио-компоненты, полученные от дополнительного микрофона, включают меньше аудио-компонентов источника звука, чем аудио-компоненты источника звука, полученные от основного микрофона. Устройство также сконфигурировано для формирования первого уровня кодированного с масштабированием сигнала из аудио-компонентов, полученных от основного микрофона, и формирования второго уровня кодированного с масштабированием сигнала из аудио-компонентов, полученных от дополнительного микрофона. 10 н. 14 з.п. ф-лы., 14 ил.

Реферат

Область техники

Настоящее изобретение относится к устройству и способу кодирования и воспроизведения звука, в частности, не ограничиваясь указанным, к устройству для кодированных речевых сигналов и аудио-сигналов.

Уровень техники

Аудио-сигналы, такие как речь и музыка, кодируют, например, чтобы сделать возможным их эффективную передачу или хранение.

Кодеры и декодеры аудио-сигналов используются для преобразования аудио-сигналов, таких как музыка и шумовой фон. Кодеры этого типа обычно не используют модель речи для процесса кодирования, а чаще используют операции обработки для представления всех типов аудио-сигналов, включая речь.

Кодеры и декодеры речи (кодеки) обычно оптимизированы для речевых сигналов и могут работать с постоянной или переменной скоростью передачи битов.

Аудио-кодек также может быть сконфигурирован для работы с переменными скоростями передачи битов. При низких битовых скоростях такой аудио-кодек может работать с речевыми сигналами со скоростью кодирования, равной скорости чисто речевого кодека. При высоких битовых скоростях аудиокодек может кодировать любой сигнал, включая музыку, шумовой фон и речь, с более высокими качеством и рабочими характеристиками.

В некоторых аудио-кодеках входной сигнал разделяется на ограниченное число полос.

Сигналы каждой полосы могут квантоваться. Из теории психоакустики известно, что высшие частоты в спектре при восприятии менее важны, чем низкие частоты. Это отражается в некоторых аудио-кодеках посредством такого распределения битов, при котором для высокочастотных сигналов распределяется меньше битов, чем для низкочастотных сигналов.

Одной из новых тенденций в области кодирования мультимедийной информации являются так называемые многоуровневые кодеки, например, речевой/аудио-кодек со встроенной переменной битовой скоростью (Embedded Variable Bit-Rate, EV-VBR) по стандарту Сектора стандартизации электросвязи Международного союза электросвязи (МСЭ-Т) и масштабируемый видео-кодек Scalable Video Codec, SVC) по стандарту МСЭ-Т. Масштабируемые медиаданные состоят из базового уровня, который необходим всегда для возможности восстановления на приемном конце, и одного или более уровней расширения, которые могут быть использованы для обеспечения дополнительных преимуществ для восстановленной мультимедийной информации (например, улучшенного качества мультимедийной информации или повышенной стойкости к ошибкам передачи).

Масштабируемость этих кодеков может быть использована на уровне передачи, например, для управления пропускной способностью сети или формирования многоадресного мультимедийного потока, чтобы облегчить работу с участниками после линий доступа с различной шириной полосы. На уровне приложений масштабируемость может использоваться для управления такими переменными как вычислительная сложность, задержка на кодирование или желательный уровень качества. Необходимо отметить, что хотя некоторые сценарии масштабируемости могут применяться на передающей конечной точке, имеются также сценарии работы, где более подходящим является выполнение масштабирования промежуточным элементом сети.

Большая часть технологий кодирования речи в реальном масштабе времени относится к монофоническим сигналам, но для некоторых высококачественных систем видео- и аудио-телеконференций используется стереокодирование для более качественного воспроизведения речи для слушателей. Традиционное стереокодирование речи использует кодирование отдельных левого и правого каналов, которые локализуют источник в некотором месте звуковой сцены. Обычно используемое стереокодирование для речи является бинауральным кодированием, при котором источник звука (такой как голос говорящего) воспринимается двумя микрофонами, расположенными на эталонной моделируемой голове на месте левого и правого уха.

Кодирование и передача (или запись) сигналов, генерируемых левым и правым микрофонами, требует большей ширины полосы передачи и больших вычислений, чем обычная монофоническая запись источника звука, так как имеется больше сигналов для кодирования и декодирования. Одним подходом к уменьшению ширины полосы передачи (записи), используемым в способах стереокодирования, является требование, чтобы кодер смешивал левый и правый каналы вместе и затем кодировал синтезированный монофонический сигнал в качестве базового уровня. Информация о разностях левого и правого каналов может затем кодироваться как отдельный битовый поток или уровень расширения. Однако этот вид кодирования создает в декодере монофонический сигнал, качество которого хуже, чем при традиционном кодировании монофонического сигнала от единственного микрофона (расположенного, например, вблизи рта), так как сигналы двух микрофонов, комбинируемые вместе, принимают значительно больше фонового шума или шума окружающей среды, чем один микрофон, расположенный вблизи источника звука (например, вблизи рта). Это делает качество обратно совместимого выходного "монофонического" сигнала, использующего традиционное воспроизводящее оборудование, хуже, чем у оригинального процесса монофонической записи и монофонического воспроизведения.

Кроме того, бинауральное размещение стереофонических микрофонов, при котором микрофоны располагаются в моделируемых местах ушей, могут создавать аудио-сигнал, неприятный для слушателя, особенно если источник звука перемещается быстро или внезапно. Например, если микрофон находится вблизи говорящего, плохие впечатления от качества прослушивания могут создаваться, когда говорящий просто поворачивает свою голову, вызывая резкое и дергающееся переключение в левом и правом выходных сигналах.

Сущность изобретения

Данная заявка предлагает механизм, который облегчает эффективное воспроизведение звуковой стереопанорамы для таких условий эксплуатации, как проведении конференций и использование оборудования мобильным пользователем.

Целью вариантов осуществления данного изобретения является решение или по меньшей мере частичное уменьшение вышеуказанной проблемы.

Согласно первому аспекту изобретения предусматривается устройство для кодирования аудио-сигнала, сконфигурированное для: формирования первого аудио-сигнала, содержащего большую часть аудио-компонентов от источника звука, и формирования второго аудио-сигнала, содержащего меньшую часть аудио-компонентов от источника звука.

Таким образом, в вариантах осуществления изобретения большая часть аудио-компонентов может кодироваться с использованием других способов или с использованием других параметров, чем второй аудио-сигнал, содержащий меньшую часть аудио-компонентов от источника звука, и поэтому большая часть аудио-сигнала кодируется более оптимально.

Устройство может быть дополнительно сконфигурировано для: приема большей части аудио-компонентов от источника звука с помощью по меньшей мере одного микрофона, расположенного у источника звука или направленного в его сторону, и приема меньшей части аудио-компонентов от источника звука, по меньшей мере, с помощью одного дополнительного микрофона, расположенного далеко от источника звука или направленного в сторону от него.

Устройство может быть дополнительно сконфигурировано для: формирования первого уровня кодированного с масштабированием сигнала из первого аудио-сигнала; формирования второго уровня кодированного с масштабированием сигнала из второго аудио-сигнала и комбинирования первого и второго уровней кодированного с масштабированием сигнала для формирования третьего уровня кодированного с масштабированием сигнала.

Таким образом, в вариантах осуществления изобретения возможно кодировать сигнал в устройстве, при этом сигнал записывается по меньшей мере как два аудио-сигнала, и эти сигналы кодируются по отдельности так, что кодирование для каждого по меньшей мере из двух аудио-сигналов может использовать разные способы кодирования или параметры, чтобы более оптимально представлять аудио-сигнал.

Устройство может быть дополнительно сконфигурировано для формирования первого кодированного с масштабированием уровня по меньшей мере посредством одной из следующих технологий: расширенного аудио-кодирования (Advanced Audio Coding, AAC); третьего уровня формата MPEG-1 (MPEG-1 Layer 3 (МР3)), базового кодирования речи по стандарту встроенного кодирования с переменной скоростью передачи (Embedded Variable Bit Rates, EV-VBR) МСЭ-Т; адаптивного широкополосного кодирования с переменной скоростью (Adaptive Multi Rate-Wide Band, AMR-WB); кодирования по стандартам G.729.1 (G.722.1, G.722.1C) МСЭ-Т и адаптивного широкополосного кодирования с переменной скоростью плюс (Adaptive Multi Rate Wide Band Plus, AMR-WB+).

Устройство может быть дополнительно сконфигурировано для формирования второго кодированного с масштабированием уровня посредством по меньшей мере одного из следующего: расширенного аудио-кодирования (AAC); третьего уровня формата MPEG-1 (МР3), базового кодирования речи по стандарту встроенного кодирования с переменной скоростью передачи (EV-VBR) МСЭ-Т; адаптивного широкополосного кодирования с переменной скоростью (AMR-WB); кодирования с генерацией комфортного шума (Comfort Noise Generation, CNG) и адаптивного широкополосного кодирования с переменной скоростью плюс (AMR-WB+).

Согласно второму аспекту изобретения может быть предусмотрено устройство для декодирования кодированного с масштабированием аудиосигнала, сконфигурированное для: разделения кодированного с масштабированием аудио-сигнала по меньшей мере на первый кодированный с масштабированием аудио-сигнал и второй кодированный с масштабированием аудио-сигнал; декодирования первого кодированного с масштабированием аудио-сигнала для формирования первого аудио-сигнала, содержащего большую часть аудио-компонентов от источника звука; и декодирования второго кодированного с масштабированием аудио-сигнала для формирования второго аудио-сигнала, содержащего меньшую часть аудио-компонентов от источника звука.

Устройство может быть дополнительно сконфигурировано для вывода по меньшей мере первого аудио-сигнала в первый динамик.

Устройство может быть дополнительно сконфигурировано для формирования по меньшей мере первой комбинации первого аудио-сигнала и второго аудио-сигнала и вывода первой комбинации в первый динамик.

Устройство может быть дополнительно сконфигурировано для формирования дополнительной комбинации первого аудио-сигнала и второго аудио-сигнала и вывода второй комбинации во второй динамик.

По меньшей мере один из первого кодированного с масштабированием аудио-сигнала и второго кодированного с масштабированием аудио-сигнала может содержать по меньшей мере одно из следующего: расширенное аудио-кодирование (ААС); третий уровень формата MPEG-1 (МР3), базовое кодирование речи по стандарту встроенного кодирования с переменной скоростью передачи (EV-VBR) МСЭ-Т; адаптивное широкополосное кодирование с переменной скоростью (AMR-WB); кодирование по стандартам G.729.1 (G.722.1, G.722.1C) МСЭ-Т; кодирование с генерацией комфортного шума (CNG) и адаптивное широкополосное кодирование с переменной скоростью плюс (AMR-WB+).

Согласно третьему аспекту изобретения предусматривается способ кодирования аудио-сигнала, включающий: формирование первого аудиосигнала, содержащего большую часть аудио-компонентов от источника звука, и формирование второго аудио-сигнала, содержащего меньшую часть аудио-компонентов от источника звука.

Способ может дополнительно включать: прием большей части аудио-компонентов от источника звука по меньшей мере от одного микрофона, расположенного у источника звука или направленного в его сторону, и приема меньшей части аудио-компонентов от источника звука по меньшей мере с помощью одного дополнительного микрофона, расположенного далеко от источника звука или направленного в сторону от него.

Способ может дополнительно включать: формирование первого уровня кодированного с масштабированием сигнала из первого аудио-сигнала; формирования второго уровня кодированного с масштабированием сигнала из второго аудио-сигнала и комбинирование первого и второго уровней кодированного с масштабированием сигнала для формирования третьего уровня кодированного с масштабированием сигнала.

Способ может дополнительно включать формирование первого кодированного с масштабированием уровня посредством одной из следующих технологий: расширенного аудио-кодирования (ААС); третьего уровня формата MPEG-1 (МР3), базового кодирования речи по стандарту встроенного кодирования с переменной скоростью передачи (EV-VBR) МСЭ-Т; адаптивного широкополосного кодирования с переменной скоростью (AMR-WB); кодирования по стандартам G.729.1 (G.722.1, G.722.1C) МСЭ-Т и адаптивного широкополосного кодирования с переменной скоростью плюс (AMR-WB+).

Способ может дополнительно включать формирование второго кодированного с масштабированием уровня посредством одной из следующих технологий: расширенного аудио-кодирования (ААС); третьего уровня формата MPEG-1 (МР3), базового кодирования речи по стандарту встроенного кодирования с переменной скоростью передачи (EV-VBR) МСЭ-Т; адаптивного широкополосного кодирования с переменной скоростью (AMR-WB); кодирования с генерацией комфортного шума (CNG) и адаптивного широкополосного кодирования с переменной скоростью плюс (AMR-WB+).

Согласно четвертому аспекту изобретения предусматривается способ декодирования кодированного с масштабированием аудио-сигнала, включающий: разделение кодированного с масштабированием аудио-сигнала по меньшей мере на первый кодированный с масштабированием аудио-сигнал и второй кодированный с масштабированием аудио-сигнал; декодирование первого кодированного с масштабированием аудио-сигнала для формирования первого аудио-сигнала, содержащего большую часть аудио-компонентов от источника звука; и декодирование второго кодированного с масштабированием аудио-сигнала для формирования второго аудио-сигнала, содержащего меньшую часть аудио-компонентов от источника звука.

Способ может дополнительно включать: вывод по меньшей мере первого аудио-сигнала в первый динамик.

Способ может дополнительно включать формирование по меньшей мере первой комбинации первого аудио-сигнала и второго аудио-сигнала и вывод первой комбинации в первый динамик.

Способ может дополнительно включать формирование дополнительной комбинации первого аудио-сигнала и второго аудио-сигнала и вывод второй комбинации во второй динамик.

Кодер может содержать устройство, как описано выше.

Декодер может содержать устройство, как описано выше.

Электронное устройство может содержать устройство, как описано выше.

Чипсет (набор интегральных схем) может содержать устройство, как описано выше.

Согласно пятому аспекту изобретения предлагается программный продукт для компьютера, сконфигурированный для выполнения способа кодирования аудио-сигнала, включающего: формирование первого аудиосигнала, содержащего большую часть аудио-компонентов от источника звука, и формирование второго аудио-сигнала, содержащего меньшую часть аудио-компонентов от источника звука.

Согласно шестому аспекту изобретения предлагается программный продукт для компьютера, сконфигурированный для выполнения способа декодирования кодированного с масштабированием аудио-сигнала, включающего: разделение кодированного с масштабированием аудио-сигнала по меньшей мере на первый кодированный с масштабированием аудио-сигнал и второй кодированный с масштабированием аудио-сигнал; декодирование первого кодированного с масштабированием аудио-сигнала для формирования первого аудио-сигнала, содержащего большую часть аудио-компонентов от источника звука; и декодирование второго кодированного с масштабированием аудио-сигнала для формирования второго аудио-сигнала, содержащего меньшую часть аудио-компонентов от источника звука.

Согласно седьмому аспекту изобретения предусматривается устройство для кодирования аудио-сигнала, содержащее: средство для формирования первого аудио-сигнала, содержащего большую часть аудио-компонентов от источника звука, и средство для формирования второго аудио-сигнала, содержащего меньшую часть аудио-компонентов от источника звука.

Согласно восьмому аспекту изобретения предусматривается устройство для декодирования кодированного с масштабированием аудио-сигнала, содержащее: средство для разделения кодированного с масштабированием аудио-сигнала по меньшей мере на первый кодированный с масштабированием аудио-сигнал и второй кодированный с масштабированием аудио-сигнал;

средство для декодирования первого кодированного с масштабированием аудио-сигнала для формирования первого аудио-сигнала, содержащего большую часть аудио-компонентов от источника звука; и средство для декодирования второго кодированного с масштабированием аудио-сигнала для формирования второго аудио-сигнала, содержащего меньшую часть аудио-компонентов от источника звука.

Краткое описание чертежей

Для лучшего понимания настоящего изобретения далее более подробно описаны варианты его осуществления со ссылками на приложенные чертежи, на которых:

на фиг.1 схематически показано электронное устройство, использующее варианты осуществления изобретения;

на фиг.2 схематически показана система кодека аудио-сигнала, использующая варианты осуществления изобретения;

на фиг.3 схематически показана часть кодера системы кодека аудиосигнала, показанного на фиг.2;

на фиг.4 схематически показана блок-схема, иллюстрирующая работу варианта осуществления кодера аудио-сигнала, который показан на фиг.3, согласно настоящему изобретению;

на фиг.5 схематически показана часть декодера системы кодека аудиосигнала, показанного на фиг.2;

на фиг.6 показана блок-схема, иллюстрирующая работу варианта осуществления декодера аудио-сигнала, который показан на фиг.5, согласно настоящему изобретению;

На фиг.7а-7h показаны возможные местоположения микрофона/говорящего согласно вариантам осуществления изобретения.

Подробное описание предпочтительных вариантов осуществления изобретения

Ниже более подробно описаны возможные механизмы для обеспечения системы масштабируемого кодирования аудио-сигнала. На фиг.1 показана блок-схема приводимого в качестве примера электронного устройства 10, которое может включать в себя кодек согласно варианту осуществления изобретения.

Электронное устройство 10 может быть, например, мобильным терминалом или пользовательским оборудованием системы беспроводной связи.

Электронное устройство 10 содержит микрофон 11, который подключен через аналого-цифровой преобразователь 14 к процессору 21. Кроме того, процессор 21 подключен через цифро-аналоговый преобразователь 32 к динамикам 33. Далее, процессор 21 подключен к приемопередатчику 13 (TX/RX), к пользовательскому интерфейсу 15 (User Interface, UI) и к запоминающему устройству 22.

Процессор 21 может быть сконфигурирован для выполнения различных программных кодов. Реализуемые коды программы включают код кодирования аудио-сигнала для кодирования комбинированного аудио-сигнала и код для выделения и кодирования дополнительной информации, относящейся к пространственной информации множества каналов. Кроме того, реализуемые программные коды 23 содержат код декодирования аудио-сигнала. Реализуемые программные коды 23 могут сохраняться, например, в запоминающем устройстве 22 для выборки процессором 21 по мере необходимости. Запоминающее устройство 22 может дополнительно предусматривать секцию 24 для хранения данных, например, данных, которые были кодированы в соответствии с изобретением.

Код кодирования и декодирования в вариантах осуществления изобретения может быть реализован в виде аппаратных средств или встроенного программного обеспечения.

Пользовательский интерфейс 15 позволяет пользователю вводить команды в электронное устройство 10, например, посредством клавиатуры, и/или получать информацию от электронного устройства 10, например, посредством дисплея. Приемопередатчик 13 позволяет осуществлять связь с электронными устройствами, например, по сети беспроводной связи.

Ясно, что структура электронного устройства 10 может быть дополнена и изменена многими способами.

Пользователь электронного устройства 10 может использовать микрофоны 11 для ввода речи, которую необходимо передать в некоторое другое электронное устройство или которую необходимо сохранить в секции 24 данных запоминающего устройства 22. Соответствующее приложение должно активироваться с этой целью пользователем посредством пользовательского интерфейса 15. Это приложение, которое может выполняться процессором 21, заставляет процессор 21 выполнять код кодирования, хранящийся в запоминающем устройстве 22.

Аналого-цифровой преобразователь 14 преобразует входной аналоговый аудио-сигнал в цифровой аудио-сигнал и подает цифровой аудиосигнал в процессор 21.

Процессор 21 затем обрабатывает цифровой аудио-сигнал, как описано со ссылками на фиг.3 и 4.

Полученный в результате битовый поток подается в приемопередатчик 13 для передачи в другое электронное устройство. В качестве альтернативы, кодированные данные могут быть записаны в секцию 24 данных запоминающего устройства 22, например, для последующей передачи или для последующего воспроизведения тем же самым электронным устройством 10.

Электронное устройство 10 также может принимать битовый поток с соответственно кодированными данными от другого электронного устройства посредством своего приемопередатчика 13. В этом случае процессор 21 может выполнять программный код декодирования, хранящийся в запоминающем устройстве 22. Процессор 21 декодирует принимаемые данные и подает декодированные данные в цифро-аналоговый преобразователь 32. Цифро-аналоговый преобразователь 32 преобразует декодированные цифровые данные в аналоговые данные аудио-сигнала и выводит их в динамики 33. Выполнение кода программы декодирования может запускаться также приложением, которое вызывается пользователем через пользовательский интерфейс 15.

Принимаемые кодированные данные вместо немедленного воспроизведения посредством динамика(-ов) 33 также могут сохраняться в секции 24 данных запоминающего устройства 22, например, для возможности более позднего воспроизведения или пересылки в другое электронное устройство.

Должно быть понятно, что схематические структуры, показанные на фиг.3 и 5, и шаги способа, показанные на фиг.4 и 6, представляют только часть операций работы полного кодека аудио-сигнала, показанного для примера, реализованным в электронном устройстве, изображенном на фиг.1.

На фиг.7а и 7b показаны примеры расположений микрофонов, пригодных для вариантов осуществления изобретения. На фиг.7а показан пример расположения первого и второго микрофонов 11а и 11b. Первый микрофон 11а расположен вблизи первого источника звука, например, говорящего участника 701а конференции. Аудио-сигнал, принимаемый от первого микрофона 11а может быть назван "ближним" сигналом. Кроме того, показан второй микрофон 11b, расположенный вдали от источника звука 701а. Аудио-сигнал, принимаемый от второго микрофона 11b может быть определен как "дальний" аудио-сигнал.

Специалистам в данной области техники очевидно, что различие между размещением микрофона для формирования "ближнего" и "дальнего" аудиосигналов заключается в относительном смещении от источника звука 701а. Таким образом, для второго источника звука, другого говорящего участника 701b конференции, аудио-сигнал, получаемый от второго микрофона 11b, будет "ближним" звуковым сигналом, в то время как аудио-сигнал, получаемый от первого микрофона 11а, будет рассматриваться как "дальний" аудио-сигнал.

На фиг.7b показан пример размещения микрофонов для формирования "ближнего" и "дальнего" аудио-сигналов для типичного устройства мобильной связи. При таком расположении микрофон 11а, формирующий "ближний" звуковой сигнал помещен вблизи источника звука 703, который может быть, например, в месте, аналогичном положению обычного микрофона устройства мобильной связи, и, следовательно, вблизи рта пользователя 705 устройства мобильной связи, в то время как второй микрофон 11b, который формирует "дальний" аудио-сигнал, помещен на противоположной стороне устройства 707 мобильной связи и сконфигурирован для приема аудио-сигналов от окружающей среды, экранируется от восприятия приходящего по прямому пути аудио-сигнала от источника звука 703 самим устройством 707 мобильной связи.

Хотя на фиг.7 показаны первый микрофон 11а и второй микрофон 11b, специалистам в данной области техники будет понятно, что "ближний" и "дальний" аудио-сигналы могут формироваться от любого числа источников в виде микрофонов.

Например, "ближний" и "дальний" аудио-сигналы могут формироваться с использованием одного микрофона с направленными элементами. В этом варианте осуществления возможно формировать ближний сигнал, используя направленные элементы микрофона, направленные в сторону источника звука, и формировать "дальний" аудио-сигнал от направленных элементов микрофона, направленных в противоположную от источника звука сторону.

Кроме того, в других вариантах осуществления изобретения можно использовать множество микрофонов для формирования "ближнего" и "дальнего" аудио-сигналов. В этих вариантах осуществления может применяться предварительная обработка сигналов от микрофонов для формирования "ближнего" аудио-сигнала смешением аудио-сигналов, принимаемых от микрофона(-ов) вблизи источника звука, и "дальнего" аудиосигнала смешением аудио-сигналов, принимаемых от микрофона(-ов), расположенного далеко от источника звука или направленного в противоположную от него сторону.

Хотя выше и далее обсуждаются "ближний" и "дальний" сигналы, которые формируются микрофонами непосредственно или формируются предварительной обработкой сигналов, генерируемых микрофонами, должно быть понятно, что "ближний" и "дальний" сигналы могут быть сигналами, ранее записанными/сохраненными или принимаемыми иначе, чем непосредственно от микрофона/препроцессора.

Кроме того, хотя выше и далее обсуждаются кодирование и декодирование "ближнего" и "дальнего" аудио-сигналов, должно быть понятно, что в вариантах осуществления изобретения могут кодироваться более, чем два аудио-сигнала. Например, в одном варианте осуществления изобретения может быть множество "ближних" или множество "дальних" аудио-сигналов. В других вариантах осуществления изобретения могут быть основной "ближний" аудио-сигнал и множество вспомогательных "ближних" аудио-сигналов, причем сигнал получается из места между "ближним" и "дальним" аудио-сигналами.

Далее рассматриваются кодирование и декодирование для двух микрофонов / процесс кодирования и декодирования ближнего и дальнего каналов.

На фиг.7с и 7d показаны расположения динамиков, подходящие для вариантов осуществления изобретения. На фиг.7с показано обычное или традиционное расположение монофонического динамика. Пользователь 705 имеет динамик 709, расположенный вблизи одного из своих ушей. При таком расположении, которое показано на фиг.7с, один динамик 709 может подавать "ближний" сигнал на предпочтительное ухо. В некоторых формах осуществления изобретения один динамик 709 может подавать "ближний" сигнал плюс обработанный или отфильтрованный компонент "дальнего" сигнала, чтобы добавлять некоторый "объем" к выходному сигналу.

На фиг.7d, пользователь 705 оснащен головным телефоном 711, содержащим пару динамиков 711а и 711b. При таком расположении первый динамик 711а может выдавать "ближний" сигнал, а второй динамик 711b может выдавать "дальний" сигнал.

В других вариантах осуществления изобретения и первый динамик 711а, и второй динамик 711b снабжаются комбинацией "ближнего" и "дальнего" сигналов.

В некоторых вариантах осуществления изобретения первый динамик 711а снабжается комбинацией "ближнего" и "дальнего" аудио-сигналов так, что первый динамик 711а принимает "ближний" сигнал и α-модифицированный "дальний" аудио-сигнал. Второй динамик 711b принимает "дальний" аудиосигнал и β-модифицированный "ближний" аудио-сигнал. В этом варианте осуществления α и β показывают, что была выполнена фильтрация или обработка аудио-сигнала.

На фиг.7е показан дальнейший пример расположения микрофона и динамика, пригодного для вариантов осуществления изобретения. В таком варианте осуществления пользователь 705 оснащается первым блоком микротелефонной трубки/головным телефоном, содержащим динамик 713а и микрофон 713b, которые расположены непосредственно у предпочтительного уха и у рта, соответственно. Пользователь 705 дополнительно оснащается добавочным отдельным устройством 715 Bluetooth, которое снабжено отдельным динамиком 715а устройства Bluetooth и отдельным микрофоном 715b устройства Bluetooth. Отдельный микрофон 715b устройства 715 Bluetooth конфигурируется так, что он не принимает сигналы прямо от источника звука пользователя 705, иначе говоря, ото рта пользователя 705. Расположение динамика 713а головного телефона и отдельного динамика 715а устройства Bluetooth может рассматриваться аналогичным расположению двух динамиков одного головного телефона 711, как показано на фиг.7а.

На фиг.7f показан еще один пример расположения микрофона и динамика, подходящего для вариантов осуществления изобретения. На фиг.7f показан кабель, который может быть подключен непосредственно или другим способом к электронному устройству. Кабель 717 содержит динамик 729 и множество отдельных микрофонов. Микрофоны располагаются вдоль длины кабеля для формирования массива микрофонов. Таким образом, первый микрофон 727 расположен вблизи динамика 729, второй микрофон 725 расположен дальше по кабелю 717 от первого микрофона 727. Третий микрофон 723 расположен дальше вниз по кабелю 717 от второго микрофона 725. Четвертый микрофон 721 расположен дальше вниз по кабелю 717 от третьего микрофона 723. Пятый микрофон 719 расположен дальше вниз по кабелю 717 от четвертого микрофона 721. Расположение микрофонов может быть в виде линейной или нелинейной конфигурации в зависимости от вариантов осуществления изобретения. При таком расположении "ближний" сигнал может формироваться смешением комбинации аудио-сигналов, принимаемых микрофонами, ближайшими ко рту пользователя 705. "Дальний" аудио-сигнал может формироваться смешением комбинации аудио-сигналов, принимаемых микрофонами, наиболее далекими ото рта пользователя 705. Как описано выше, в некоторых вариантах осуществления изобретения каждый из микрофонов может использоваться для формирования отдельного аудиосигнала, который затем обрабатывается так, как более подробно описывается ниже.

Специалистам в данной области техники понятно, что в этих вариантах осуществления фактическое число микрофонов не является важным. При этом множество микрофонов в любом расположении могут использоваться в вариантах осуществления изобретения для захвата звукового поля, и способы обработки сигналов могут использоваться для восстановления "ближнего" и "дальнего" сигналов.

На фиг.7g показан еще один пример расположения микрофона и динамика, подходящего для вариантов осуществления изобретения. На фиг.7g показано устройство Bluetooth, подсоединенное к предпочтительному уху пользователя 705. Устройство 735 Bluetooth содержит "ближний" микрофон 731, расположенный непосредственно вблизи рта пользователя 705. Кроме того, устройство Bluetooth 735 содержит "дальний" микрофон 733, расположенный на расстоянии относительно места близкого (ближнего) микрофона 731.

На фиг.7h показан пример расположения микрофона и динамика, подходящего для вариантов осуществления изобретения. На фиг.7h у пользователя 705 есть возможность использования головного телефона 751. Головной телефон содержит бинауральный стереофонический головной телефон с первым динамиком 737 и вторым динамиком 739. Кроме того, головной телефон 751 показан с парой микрофонов. Первый микрофон 741, показанный на фиг.7h, расположен в 100 мм от динамика 739, а второй микрофон 743 расположен в 200 мм от динамика 739. При таком расположении первый динамик 737 и второй динамик 739 могут быть размещены согласно конфигурации воспроизведения, описанной со ссылкой на фиг.7d.

Кроме того, расположение первого микрофона 741 и второго микрофона 743 может быть таким, чтобы первый микрофон 741 был сконфигурирован для приема или формирования компонента "ближнего" аудио-сигнала, а второй микрофон 743 был сконфигурирован для формирования "дальнего" аудиосигнала.

Общая работа кодеков аудио-сигналов, которые используются вариантами осуществления изобретения, показана на фиг.2. Общая система аудио-кодирования/декодирования состоит из кодера и декодера, как схематически показано на фиг.2. На фиг.2 показана система 102 с кодером 104, запоминающим устройством или мультимедийным каналом 106 и декодером 108.

Кодер 104 сжимает входной аудио-сигнал 110, создавая битовый поток 112, который записывается или передается через мультимедийный канал 106. Битовый поток 112 может приниматься декодером 108. Декодер 108 восстанавливает сжатый битовый поток 112 и создает выходной аудио-сигнал 114. Скорость передачи битов битового потока 112 и качество выходного аудиосигнала 114 относительно входного сигнала 110 являются основными свойствами, которые определяют рабочие характеристики кодирующей системы 102.

На фиг.3 схематически изображен кодер 104 согласно примеру осуществления изобретения.

Кодер 104 содержит процессор 301 базового кодека, который сконфигурирован для приема "ближнего" аудио-сигнала, например, как показано на фиг.3, аудио-сигнала от микрофона 11а. Кроме того, процессор выполнен с возможностью подключения к мультиплексору 305 и процессору 303 уровня расширения.

Процессор 303 уровня расширения дополнительно сконфигурирован для приема "дальнего" аудио-сигнала, который показан на фиг.3 как аудио-сигнал, принимаемый от микрофона 11b. Процессор уровня расширения дополнительно выполнен с возможностью подключения к мультиплексору 305. Мультиплексор 305 сконфигурирован для подачи на выход битового потока, такого как битовый поток 112, показанный на фиг.2.

Работа этих компонентов описывается более подробно со ссылкой на блок-схему, изображенную на фиг.4, показывающую работу кодера 104.

"Ближний" и "дальний" аудио-сигналы принимаются кодером 104. В первом варианте осуществления изобретения "ближний" и "дальний" аудиосигналы являются дискретизированными цифровыми сигналами. В других вариантах осуществления данного изобретения "ближний" и "дальний" аудиосигналы могут быть принимаемыми от микрофонов 11а и 11b аналоговыми аудио-сигналами, которые преобразуются из аналоговой формы в цифровую (Analogue to Digitally, A/D). В других вариантах осуществления изобретения аудио-сигналы преобразуются из цифрового сигнала импульсно-кодовой модуляции (Pulse Code Modulation, PCM) в цифровой сигнал с амплитудной модуляцией (Amplitude Modulation, AM). Прием аудио-сигналов от микрофонов показан на фиг.4 шагом 401.

Как было сказано выше, в некоторых вариантах осуществления изобретения "ближний" и "дальний" аудио-сигналы могут обрабатываться от массива микрофонов (который может содержать более 2 микрофонов). Аудиосигналы, принимаемые от массива микрофонов, такой как массив, показанный на фиг.7f, могут формировать "ближний" и "дальний" аудио-сигналы с использованием способов обработки сигналов, таких как формирование луча, улучшение речи, слежение за источником и подавление шума. При этом в вариантах осуществления изобретения формируемый "ближний" аудио-сигнал выбирается и определяется так, чтобы он содержал предпочтительно (чистые) речевые сигналы (инач

Устройство и способ кодирования и воспроизведения звука

Патент 2477532