Контроллер выравнивателя громкости и способ управления

Патент 2612728

Авторы

Правообладатели

ДОЛБИ ЛАБОРАТОРИС ЛАЙСЭНЗИН КОРПОРЕЙШН (US)

Классы МПК

H03G3/30 - в усилителях на полупроводниковых приборах

Контроллер выравнивателя громкости и способ управления

Иллюстрации

Показать все

Изобретение относится к электронике, в частности к средствам корректировки громкости звукового сигнала. Устройство содержит классификатор для идентификации типа содержимого звукового сигнала, регулирующий блок для регулировки громкости в непрерывном режиме. Регулирующий блок выполнен с возможностью положительной корреляции коэффициента динамического усиления выравнивателя громкости с типами информативного содержимого звукового сигнала и отрицательной корреляции коэффициента динамического усиления выравнивателя громкости с типами мешающего содержимого звукового сигнала. При этом классификация выполняется посредством вычисления весовых коэффициентов от величин достоверности с учетом важности информации. Устройство также содержит усилитель диалога, виртуализатор окружающего звука, выравниватель громкости, эквалайзер, блоки сглаживания типа и параметра, таймер. Классификатор содержит классификатор звукового содержимого и классификатор контекста. Классификатор содержимого состоит из выделителя кратковременных признаков объектов и кратковременного классификатора. Классификатор контекста включает в себя выделитель статистических данных и долговременный классификатор. Усилитель диалога содержит блок отслеживания минимума сигнала. Технический результат – повышение ясности и разборчивости аудиоконтента. 4 н. и 56 з.п. ф-лы, 41 ил., 2 табл.

Реферат

Перекрестная ссылка на родственные заявки

Данная заявка заявляет приоритет согласно заявке на патент Китая №201310100422.1, поданной 26 марта 2013 года, и предварительной заявке на патент США №61/811072, поданной 11 апреля 2013 года, каждая из которых в полном объеме включена в данную заявку посредством ссылки.

Область техники

Настоящее изобретение в целом относится к обработке звуковых сигналов. В частности, варианты осуществления настоящего изобретения относятся к устройствам и способам классификации и обработки звуковых сигналов, в особенности к управлению усилителем диалога, виртуализатором окружающего звука, выравнивателем громкости и эквалайзером.

Предпосылки создания изобретения

Некоторые устройства улучшения качества звука имеют обыкновение изменять звуковые сигналы либо во временной области, либо в спектральной области с целью улучшения общего качества звука и, соответственно, улучшения восприятия пользователем. Различные устройства улучшения качества звука были разработаны для различных целей. Некоторые типичные примеры устройств улучшения звука включают:

Усилитель диалога: Диалог является наиболее важным компонентом в кинофильме и радио- или телепрограмме для понимания сюжета. Были разработаны способы для усиления диалогов с целью повышения их ясности и разборчивости, в особенности для старых людей со сниженными слуховыми способностями.

Виртуализатор окружающего звука: Виртуализатор окружающего звука позволяет представить сигнал окружающего (многоканального) звука с помощью внутренних громкоговорителей ПК или с помощью наушников. То есть, посредством стерео устройства (например, громкоговорителей и наушников) он создает эффект виртуального окружения и обеспечивает кинематографический опыт для потребителей.

Выравниватель громкости: Выравниватель громкости предназначен для настройки громкости звукового содержимого при воспроизведении и поддержании ее практически постоянной по оси времени в зависимости от целевой величины громкости.

Эквалайзер: Эквалайзер обеспечивает постоянство спектрального баланса, известного как "тон" или "тембр", и позволяет пользователям настраивать общий профиль (кривую или форму) частотной характеристики (усиления) в каждом отдельном диапазоне частот с целью подчеркивания определенных звуков или удаления нежелательных звуков. В традиционном эквалайзере для разных звуков, например, разных музыкальных жанров могут предусматриваться различные предустановки эквалайзера. После того, как предустановка выбрана, или набор параметров, определяющих частотную коррекцию, установлен, к сигналу будут применяться одни и те же коэффициенты усиления частотной коррекции до тех пор, пока параметры, определяющие частотную коррекцию, не изменить вручную. В отличие от этого, динамический эквалайзер обеспечивает постоянство спектральный баланса посредством постоянного контроля спектрального баланса звукового сигнала, сравнивая его с желаемым тоном, и динамической регулировки выравнивающего фильтра для преобразования исходного тона звукового сигнала в желаемый тон.

В целом, устройства улучшения качества звука имеют свой собственный сценарий/контекст применения. То есть, устройства улучшения качества звука могут быть предназначены только для определенного набора содержимого, но не для всех возможных звуковых сигналов, так как различное содержимое может нуждаться в обработке разными способами. Например, способ усиления диалога обычно применяется к содержимому кинофильма. Если он применяется к музыке, в которой нет диалогов, он может ложно повысить некоторые частотные поддиапазоны и ввести сильные изменения тембра и несоответственность восприятия. Точно так же, если способ подавления шума применяется к музыкальным сигналам, будут слышны сильные искажения.

Тем не менее, для системы обработки звукового сигнала, которая содержит серию устройств улучшения звука, ее входным сигналом могут быть неизбежно все возможные типы звуковых сигналов. Например, система обработки звукового сигнала, встроенная в ПК, получит звуковое содержимое из различных источников, включая кино, музыку, VoIP и игру. Таким образом, становится важной идентификация или дифференциация обрабатываемого содержимого для применения более лучших алгоритмов или более лучших параметров каждого алгоритма к соответствующему содержимому.

С целью разграничения звукового содержимого и применения лучших параметров или лучших алгоритмов улучшения качества звука соответственно в традиционных системах обычно предварительно проектируется набор предустановок, а пользователей просят выбрать предустановку воспроизводимого содержимого. Предустановка обычно кодирует набор алгоритмов улучшения качества звука и/или их наилучшие параметры, которые будут применяться, например, предустановка "Кинофильм" и предустановка "Музыка", которые специально предназначены для воспроизведения кинофильмов или музыки.

Тем не менее, ручной выбор неудобен для пользователей. Люди обычно не часто переключают между предварительно определенными перестановками, а продолжают использовать одну предустановку для всего содержимого. Кроме того, даже в некоторых автоматических решениях параметры или алгоритмы настройки в предустановках обычно являются дискретными (например, включение или выключение конкретного алгоритма в отношении конкретного содержимого), она не может регулировать параметры в непрерывном режиме.

Сущность изобретения

Первый аспект настоящего изобретения состоит в том, чтобы автоматически настраивать устройства улучшения качества звука в непрерывном режиме в зависимости от воспроизводимого звукового содержимого. С помощью данного "автоматического" режима пользователи могут просто наслаждаться содержимым, не утруждая себя выбором разных предустановок. С другой стороны, непрерывная настройка является более важной для предотвращения слышимых искажений в точках переключения.

В соответствии с вариантом осуществления первого аспекта устройство обработки звукового сигнала содержит звуковой классификатор сигнала для классификации звукового сигнала по меньшей мере по одному звуковому типу в реальном времени; устройство улучшения качества звука для улучшения восприятия аудиторией; и регулирующий блок для регулировки по меньшей мере одного параметра устройства улучшения качества звука в непрерывном режиме в зависимости от величины достоверности по меньшей мере одного звукового типа.

Устройство улучшения качества звука может быть или усилителем диалога, или виртуализатором окружающего звука, или выравнивателем громкости, или эквалайзером.

Соответственно, способ обработки звукового сигнала включает: классификацию звукового сигнала по меньшей мере по одному звуковому типу сигнала в реальном времени; и регулировку по меньшей мере одного параметра для улучшения качества звука в непрерывном режиме в зависимости от величины достоверности по меньшей мере одного звукового типа.

Согласно другому варианту осуществления первого аспекта контроллер выравнивателя громкости содержит классификатор звукового содержимого для идентификации типа содержимого звукового сигнала в реальном времени; и регулирующий блок для регулировки выравнивателя громкости в непрерывном режиме в зависимости от идентифицированного типа содержимого. Регулирующий блок может выполняться с возможностью положительной корреляции коэффициента динамического усиления выравнивателя громкости с типами информативного содержимого звукового сигнала и отрицательной корреляции коэффициента динамического усиления выравнивателя громкости с типами мешающего содержимого звукового сигнала.

Также описано устройство обработки звукового сигнала, содержащее контроллер выравнивателя громкости, указанный выше.

Соответственно, способ управления выравнивателем громкости включает: идентификацию типа содержимого звукового сигнала в реальном времени; и регулировку выравнивателя громкости в непрерывном режиме в зависимости от идентифицированного типа содержимого посредством положительной корреляции коэффициента динамического усиления выравнивателя громкости с типами информативного содержимого звукового сигнала и отрицательной корреляции коэффициента динамического усиления выравнивателя громкости с типами мешающего содержимого звукового сигнала.

Согласно еще одному варианту осуществления первого аспекта контроллер эквалайзера содержит звуковой классификатор для идентификации звукового типа звукового сигнала в реальном времени; и регулирующий блок для регулировки эквалайзера в непрерывном режиме в зависимости от величины достоверности идентифицированного звукового типа.

Также описано устройство обработки звукового сигнала, содержащее контроллер эквалайзера, указанный выше.

Соответственно, способ управления эквалайзером включает: идентификацию звукового типа звукового сигнала в реальном времени; и регулировку эквалайзера в непрерывном режиме в зависимости от величины достоверности идентифицированного звукового типа.

В настоящем изобретении также описан машиночитаемый носитель, содержащий записанные на нем команды компьютерной программы, которые при выполнении их процессором обеспечивают процессору возможность осуществлять вышеупомянутый способ обработки звукового сигнала, или способ управления выравнивателем громкости, или способ управления эквалайзером.

В соответствии с вариантами осуществления первого аспекта устройство улучшения качества звука, которое может быть или усилителем диалога, или виртуализатором окружающего звука, или выравнивателем громкости, или эквалайзером, может непрерывно регулироваться в зависимости от типа звукового сигнала и/или величины достоверности типа.

Второй аспект настоящего изобретения состоит в том, чтобы разработать компонент идентификации содержимого, чтобы идентифицировать несколько звуковых типов, и выявленные результаты могут применяться для управления/ руководства характеристиками различных устройств улучшения качества звука посредством нахождения в непрерывном режиме лучших параметров.

В соответствии с вариантом осуществления второго аспекта, звуковой классификатор содержит: извлекатель кратковременных признаков объекта для извлечения кратковременных признаков объекта из кратковременных звуковых сегментов, каждый из которых содержит последовательность звуковых кадров; кратковременный классификатор для классификации последовательности кратковременных сегментов в долговременном звуковом сегменте по кратковременным звуковым типам, используя соответствующие кратковременные признаки объекта; извлекатель статистических данных для расчета статистических данных результатов кратковременного классификатора в отношении последовательности кратковременных сегментов в долговременном звуковом сегменте в качестве долговременных признаков объекта; и долговременный классификатор, использующий долговременные признаки объекта, для классификации долговременного звукового сегмента по долговременным звуковым типам.

Также описано устройство обработки звукового сигнала, содержащее звуковой классификатор, указанный выше.

Соответственно, способ звуковой классификации включает: извлечение кратковременных признаков объекта из кратковременных звуковых сегментов, каждый из которых содержит последовательность звуковых кадров; классификацию последовательности кратковременных сегментов в долговременном звуковом сегменте по кратковременным звуковым типам, используя соответствующие кратковременные признаки объекта; расчет статистических данных результатов операции классификации в отношении последовательности кратковременных сегментов в долговременном звуковом сегменте долговременных признаков объекта; и классификацию долговременного звукового сегмента по долговременным звуковым типам с использованием долговременных признаков объекта.

Согласно другому варианту осуществления второго аспекта звуковой классификатор содержит: классификатор звукового содержимого для идентификации типа содержимого кратковременного сегмента звукового сигнала; и классификатор звукового контекста для определения типа контекста кратковременного сегмента в зависимости, по меньшей мере частично, от идентифицированного типа содержимого посредством классификатора звукового содержимого.

Также описано устройство обработки звукового сигнала, содержащее звуковой классификатор, указанный выше.

Соответственно, способ звуковой классификации включает: идентификацию типа содержимого кратковременного сегмента звукового сигнала; и идентификацию типа контекста кратковременного сегмента в зависимости, по меньшей мере частично, от идентифицированного типа содержимого.

Настоящее изобретение также предлагает машиночитаемый носитель, содержащий команды компьютерной программы, записанные на нем, которые при выполнении их процессором позволяют процессору осуществлять вышеупомянутые способы звуковой классификации.

В соответствии с вариантами осуществления второго аспекта звуковой сигнал может классифицироваться по разным долговременным типам или типам контекста, которые отличаются от кратковременных типов или типов содержимого. Типы звукового сигнала и/или величина достоверности типов могут дополнительно использоваться для регулировки устройства улучшения качества звука, такого как усилитель диалога, виртуализатор окружающего звука, выравниватель громкости или эквалайзер.

Краткое описание графического материала

Настоящее изобретение иллюстрируется в качестве примера, а не с целью ограничения, фигурами прилагаемого графического материала, на которых подобные номера позиций относятся к подобным элементам, и на которых:

на фиг. 1 приведена схема, иллюстрирующая устройство обработки звукового сигнала в соответствии с вариантом осуществления изобретения;

на фиг. 2 и 3 приведены схемы, иллюстрирующие разновидности варианта осуществления, показанного на фиг. 1;

на фиг. 4-6 приведены схемы, иллюстрирующие возможную конфигурацию классификаторов для идентификации нескольких звуковых типов и расчета величины достоверности;

на фиг. 7-9 приведены схемы, иллюстрирующие несколько вариантов осуществления устройства обработки звукового сигнала согласно настоящему изобретению;

на фиг. 10 приведена схема, иллюстрирующая задержку переключения между разными звуковыми типами;

на фиг. 11-14 приведены блок-схемы, иллюстрирующие способ обработки звукового сигнала в соответствии с вариантами осуществления настоящего изобретения;

на фиг. 15 приведена схема, иллюстрирующая контроллер усилителя диалога в соответствии с вариантом осуществления настоящего изобретения;

на фиг. 16 и 17 приведены блок-схемы, иллюстрирующие применение способа обработки звукового сигнала в соответствии с настоящим изобретением при управлении усилителем диалога;

на фиг. 18 приведена схема, иллюстрирующая контроллер виртуализатора окружающего звука в соответствии с вариантом осуществления настоящего изобретения;

на фиг. 19 приведена блок-схема, иллюстрирующая применение способа обработки звукового сигнала в соответствии с настоящим изобретением при управлении виртуализатором окружающего звука;

на фиг. 20 приведена схема, иллюстрирующая контроллер выравнивателя громкости в соответствии с вариантом осуществления настоящего изобретения;

на фиг. 21 приведена схема, иллюстрирующая результат применения контроллера выравнивателя громкости в соответствии с настоящим изобретением;

на фиг. 22 приведена схема, иллюстрирующая контроллер эквалайзера в соответствии с вариантом осуществления настоящего изобретения;

на фиг. 23 представлено несколько примеров предустановок желаемых спектральных балансов;

на фиг. 24 приведена схема, иллюстрирующая звуковой классификатор в соответствии с вариантом осуществления настоящего изобретения;

на фиг. 25 и 26 приведены схемы, иллюстрирующие некоторые признаки объекта для использования звуковым классификатором в соответствии с настоящим изобретением;

на фиг. 27-29 приведены схемы, иллюстрирующие дополнительное количество вариантов осуществления звукового классификатора в соответствии с настоящим изобретением;

на фиг. 30-33 приведены блок-схемы, иллюстрирующие способ звуковой классификации в соответствии с вариантами осуществления настоящего изобретения;

на фиг. 34 приведена схема, иллюстрирующая звуковой классификатор в соответствии с другим вариантом осуществления настоящего изобретения;

на фиг. 35 приведена схема, иллюстрирующая звуковой классификатор в соответствии с еще одним вариантом осуществления настоящего изобретения;

на фиг. 36 приведена схема, иллюстрирующая эвристические правила, применяемые в звуковом классификаторе в соответствии с настоящим изобретением;

на фиг. 37 и 38 приведены схемы, иллюстрирующие дополнительное количество вариантов осуществления звукового классификатора в соответствии с настоящим изобретением;

на фиг. 39 и 40 приведены блок-схемы, иллюстрирующие способ звуковой классификации в соответствии с вариантами осуществления настоящего изобретения;

на фиг. 41 приведена структурная схема, иллюстрирующая примерную систему для реализации вариантов осуществления настоящего изобретения.

Подробное описание

Варианты осуществления настоящего изобретения описываются ниже со ссылкой на графический материал. Следует отметить, что для ясности, объяснения и описания, те компоненты и процессы, которые известны специалистам в данной области техники, но не обязательны для понимания настоящего изобретения, опущены в графическом материале и описании.

Как будет понятно специалисту в данной области техники, аспекты настоящего изобретения могут воплощаться в виде системы, устройства (например, сотового телефона, портативного мультимедийного проигрывателя, персонального компьютера, сервера, телевизионной приставки или цифрового видеомагнитофона, или любого другого мультимедийного проигрывателя), метода или компьютерного программного продукта. Соответственно, аспекты настоящего изобретения могут принимать форму аппаратного варианта осуществления, программного варианта осуществления (в том числе аппаратно-программного обеспечения, резидентного программного обеспечения, набора микрокоманд и т.д.) или варианта осуществления, сочетающего как программные, так и аппаратные аспекты, которые все могут, как правило, упоминаться в данной заявке как "схема", "модуль" или "система". Кроме того, аспекты настоящего изобретения могут принимать форму компьютерного программного продукта, воплощенного в одном или нескольких машиночитаемых носителях, содержащих машиночитаемый программный код, воплощенный на них.

Может быть использовано любое сочетание одного или нескольких машиночитаемых носителей. Машиночитаемый носитель может представлять собой машиночитаемый носитель сигнала или машиночитаемый носитель данных. Машиночитаемый носитель данных может представлять собой, например, электронную, магнитную, оптическую, электромагнитную, инфракрасную или полупроводниковую систему, приспособление, или устройство, или любое подходящее сочетание вышеперечисленного, но не ограничивается этим. Более конкретные примеры (не исчерпывающий список) машиночитаемых носителей данных включают следующее: электрическое соединение, содержащее один или несколько проводов, портативный компьютерный гибкий диск, жесткий диск, оперативное запоминающее устройство (RAM), постоянное запоминающее устройство (ROM), стираемое программируемое постоянное запоминающее устройство (EPROM или Flash-память), оптическое волокно, портативный компакт-диск для однократной записи данных (CD-ROM), оптическое устройство хранения данных, магнитное устройство хранения данных или любое подходящее сочетание вышеизложенного. В контексте данного документа машиночитаемый носитель данных может представлять собой любой материальный носитель, который может содержать или хранить программу для использования посредством или в соединении с системой выполнения команд, устройством или приспособлением.

Машиночитаемый носитель сигнала может включать распространяемый сигнал данных с машиночитаемым программным кодом, воплощенным в нем, например, в основной полосе частот, либо как часть несущей волны. Такой распространяемый сигнал может принимать любую из множества форм, в том числе форму электромагнитного или оптического сигнала или любого подходящего сочетания, но не ограничивается этим.

Машиночитаемый носитель сигнала может представлять сбой любой машиночитаемый носитель, который не является машиночитаемым носителем данных, который может обмениваться информацией, распространять или передавать программу для использования посредством или в соединении с системой выполнения команд, устройством или приспособлением.

Программный код, воплощенный на машиночитаемом носителе, может быть передан с использованием любого подходящего носителя, включая беспроводную, проводную линию, оптоволоконный кабель, RF и т.д. или любое подходящее сочетание вышеперечисленного, но не ограничиваясь этим.

Компьютерный программный код для выполнения операции по аспектам настоящего изобретения может быть написан на любом сочетании одного или нескольких языков программирования, в том числе объектно-ориентированном языке программирования, таком как Java, Smalltalk, С++ и т.п., и обычных процедурных языках программирования, таких как язык программирования "С" или подобные языки программирования. Программный код может выполняться полностью на компьютере пользователя в виде отдельного пакета автономного программного обеспечения, или частично на компьютере пользователя и частично на удаленном компьютере, или полностью на удаленном компьютере или сервере. В последнем сценарии удаленный компьютер может быть подключен к компьютеру пользователя посредством сети любого типа, в том числе локальной вычислительной сети (LAN) или глобальной вычислительной сети (WAN), или подключение может быть сделано к внешнему компьютеру (например, через Интернет с использованием поставщика услуг сети Интернет).

Аспекты настоящего изобретения описаны ниже со ссылкой на блок-схемы и/или структурные схемы способов, устройств (систем) и компьютерных программных продуктов в соответствии с вариантами осуществления настоящего изобретения. Следует понимать, что каждый блок изображений блок-схемы и/или структурных схем и сочетание блоков в изображениях блок-схем и/или структурных схем может реализовываться командами компьютерной программы. Эти команды компьютерной программы могут предусматриваться в процессоре компьютера общего назначения, специализированном компьютере или другом программируемом устройстве обработки данных для изготовления машины, так что команды, которые выполняются посредством процессора компьютера или другого программируемого устройства обработки данных, создают средства для реализации функций/действий, указанных в блоке или блоках блок-схемы и/или структурной схемы.

Данные команды компьютерной программы могут также храниться на машиночитаемом носителе, которые могут управлять компьютером, другим программируемым устройством обработки данных или другими устройствами для функционирования определенным образом, чтобы команды, сохраненные на машиночитаемом носителе производили готовое изделие, в том числе команды, реализующие функцию/действие, указанное в блоке или блоках блок-схемы и/или структурной схемы.

Команды компьютерной программы также могут загружаться в компьютер, другое программируемое устройство обработки данных или другие устройства, чтобы вызвать серию рабочих операций, подлежащих выполнению на компьютере, другом программируемом устройстве или других устройствах для выполнения компьютерно-реализуемого процесса таким образом, чтобы команды, которые выполняются на компьютере или другом программируемом устройстве предусматривали процессы для реализации функций/действий, указанных в блоке или блоках блок-схемы и/или структурной схемы.

Ниже подробно будут описаны варианты осуществления настоящего изобретения. Для ясности описание организовано по следующей структуре:

Часть 1: Устройство и способы обработки звукового сигнала

Раздел 1.1 Звуковые типы

Раздел 1.2 Величины достоверности звуковых типов и конфигурация классификаторов

Раздел 1.3 Сглаживание величин достоверности звуковых типов

Раздел 1.4 Регулировка параметров

Раздел 1.5 Сглаживание параметров

Раздел 1.6 Переключение звуковых типов

Раздел 1.7 Сочетание вариантов осуществления и сценариев применения

Раздел 1.8 Способ обработки звукового сигнала

Часть 2: Контроллер усилителя диалога и способ управления

Раздел 2.1 Уровень усиления диалога

Раздел 2.2 Пороговые значения для определения диапазонов частот для усиления

Раздел 2.3 Регулировка уровня фона

Раздел 2.4 Сочетание вариантов осуществления и сценариев применения

Раздел 2.5 Способ управления усилителем диалога

Часть 3: Контроллер виртуализатора окружающего звука и способ управления

Раздел 3.1 Коэффициент повышения окружающего звука

Раздел 3.2 Начальная частота

Раздел 3.3 Сочетание вариантов осуществления и сценариев применения

Раздел 3.4 Способ управления виртуализатором окружающего звука

Часть 4: Контроллер выравнивателя громкости и способ управления

Раздел 4.1 Типы информативного и мешающего содержимого

Раздел 4.2 Типы содержимого в различных контекстах

Раздел 4.3 Типы контекста

Раздел 4.4 Сочетание вариантов осуществления и сценариев применения

Раздел 4.5 Способ управления выравнивателем громкости

Часть 5: Контроллер эквалайзера и способ управления

Раздел 5.1 Управление в зависимости от типа содержимого

Раздел 5.2 Вероятность преобладающих источников в музыке

Раздел 5.3 Предустановки эквалайзера

Раздел 5.4 Управление в зависимости от типа контекста

Раздел 5.5 Сочетание вариантов осуществления и сценариев применения

Раздел 5.6 Способ управления эквалайзером

Часть 6: Звуковой классификатор и способы классификации

Раздел 6.1 Классификатор контекста на основе классификации типа содержимого

Раздел 6.2 Извлечение долговременных признаков объекта

Раздел 6.3 Извлечение кратковременных признаков объекта

Раздел 6.4 Сочетание вариантов осуществления и сценариев применения

Раздел 6.5 Способы звуковой классификации

Часть 7: VoIP классификаторы и способы классификации

Раздел 7.1 Классификация контекста на основе кратковременного сегмента

Раздел 7.2 Классификация с применением VoIP-речи и VoIP-шума

Раздел 7.3 Сглаживание флуктуаций

Раздел 7.4 Сочетание вариантов осуществления и сценариев применения

Раздел 7.5 Способы VoIP классификации

Часть 1: Устройство и способы обработки звукового сигнала

На фиг. 1 показана общая структура адаптивного к содержимому устройства 100 обработки звукового сигнала, которое поддерживает автоматическую настройку по меньшей мере одного устройства 400 улучшения качества звука с улучшенными параметрами в зависимости от звукового содержимого при воспроизведении. Оно включает три основных компонента: звуковой классификатор 200, регулирующий блок 300 и устройство 400 улучшения качества звука.

Звуковой классификатор 200 предназначен для классификации звукового сигнала по меньшей мере по одному звуковому типу в реальном времени. Он автоматически идентифицирует звуковой тип содержимого при воспроизведении. Любые технологии звуковой классификации, такие как обработка транзитных сигналов, машинное обучение и распознавания образов, могут применяться для идентификации звукового содержимого. Величины достоверности, которые представляют вероятности звукового содержимого относительно набора предопределенных целевых звуковых типов, оцениваются в большинстве случаев одновременно.

Устройство 400 улучшения качества звука предназначено для улучшения восприятия аудитории посредством выполнения обработки звукового сигнала и подробно будет рассмотрено ниже.

Регулирующий блок 300 для регулирования по меньшей мере одного параметра устройства улучшения качества звука в непрерывном режиме в зависимости от величины достоверности по меньшей мере одного звукового типа. Он предназначен для управления характеристиками устройства 400 улучшения качества звука. Он оценивает наиболее подходящие параметры соответствующего устройства улучшения качества звука в зависимости от результатов, полученных от звукового классификатора 200.

В данном устройстве могут применяться различные устройства улучшения качества звука. На фиг. 2 показан пример системы, содержащей четыре устройства улучшения качества звука, в том числе усилитель 402 диалога (DE), виртуализатор 404 окружающего звука (SV), выравниватель 406 громкости (VL) и эквалайзер (EQ) 408. Каждое устройство улучшения качества звука может автоматически регулироваться в непрерывном режиме в зависимости от результатов (звуковых типов и/или величин достоверности), полученных в звуковом классификаторе 200.

Конечно, устройство обработки звукового сигнала не обязательно может содержать все виды устройств улучшения качества звука, а может содержать только одно или несколько из них. С другой стороны, устройства улучшения качества звука не ограничены этими устройствами, приведенными в настоящем описании, и могут включать больше видов устройств улучшения качества звука, которые также входят в объем настоящего изобретения. Кроме того, названия этих устройств улучшения качества звука, рассмотренных в настоящем описании, включая усилитель 402 диалога (DE), виртуализатор 404 окружающего звука (SV), выравниватель 406 громкости (VL) и эквалайзер (EQ) 408, не являются ограничением, и каждое из них может быть истолковано как охватывающее все другие устройства, реализующие те же или подобные функции.

1.1 Звуковые типы

Для надлежащего управления различными видами устройства улучшения качества звука, настоящее изобретение также предусматривает новую структуру звуковых типов, хотя звуковые типы предшествующего уровня техники также применимы в данном изобретении.

В частности, звуковые типы из разных семантических уровней моделируются, включая звуковые элементы низкого уровня, представляющие основные компоненты в звуковых сигналах, и звуковые жанры высокого уровня, представляющие наиболее популярное звуковое содержимое в развлекательных приложениях реальной жизни пользователя. Предшествующим также может быть термин указанный как "тип содержимого". Основные типы звукового содержимого могут включать речь, музыку (в том числе песню), фоновые звуки (или звуковые эффекты) и шум.

Понятие речи и музыки не требует разъяснений. Шум в настоящей заявке означает физический шум, а не смысловой шум. Физический шум в настоящей заявке может включать шумы, например, от кондиционеров, и шумы, возникающие по техническим причинам, такие как розовые шумы, обусловленные трактом передачи сигнала. В противоположность этому, "фоновые звуки" в настоящей заявке представляют собой те звуковые эффекты, которые могут быть акустическими событиями, происходящими вокруг основной цели внимания слушателя. Например, в звуковом сигнале в телефонном разговоре, кроме голоса говорящего, могут быть некоторые другие нежелательные звуки, такие как голоса некоторых других лиц, не связанных с телефонным разговором, звуки клавиатуры, звуки шагов и так далее. Эти нежелательные звуки называют "фоновыми звуками", а не шумом. Другими словами, мы можем определить "фоновые звуки", как те звуки, которые не являются целью (или основной целью внимания слушателя), или даже являясь нежелательными, но все еще имеют некоторое смысловое значение; в то время как "шум" может быть определен как нежелательные звуки, кроме целевых звуков и фоновых звуков.

Иногда фоновые звуки в самом деле не являются "нежелательными", а создаются намеренно и несут некоторую полезную информацию, например, фоновые звуки в кинофильмах, телепрограмме или программе радиовещания. Таким образом, иногда они также могут называться "звуковыми эффектами". Далее в настоящем описании для краткости используется только термин "фоновые звуки", и он может в дальнейшем сокращаться как "фон".

Кроме того, музыка может дополнительно классифицироваться как музыка без преобладающих источников и музыка с преобладающими источниками. Если присутствует гораздо более сильный источник (голос или инструмент), чем другие источники в музыкальном произведении, его называют "музыкой с преобладающим источником"; в противном случае она называется "музыкой без преобладающего источника". Например, в полифонической музыке, сопровождаемой певческим голосом и различными инструментами, если она гармонически уравновешена, или энергии нескольких наиболее характерных источников сопоставимы друг с другом, она считается музыкой без преобладающего источника; в противоположность этому, если источник (например, голос) гораздо более сильный в то время, как другие гораздо более тихие, считается, что она содержит преобладающий источник. В качестве другого примера, особые или своеобразные инструментальные тона представляют собой "музыку с преобладающим источником".

Музыка может дополнительно классифицироваться на разные типы в зависимости от разных стандартов. Она может классифицироваться в зависимости от жанров музыки, таких как рок, джаз, рэп и фолк, но не ограничивается ими. Она также может классифицироваться в зависимости от инструментов, например, на вокальную музыку и инструментальную музыку. Инструментальная музыка может включать различную музыку, исполняемую на различных инструментах, такую как фортепианная музыка и гитарная музыка. Другие примерные стандарты включают ритм, темп, тембр музыки и/или любые другие музыкальные атрибуты, таким образом, музыка может группироваться на основе подобия этих атрибутов. Например, в соответствии с тембром, вокальная музыка может классифицироваться как тенор, баритон, бас, сопрано, меццо-сопрано и альт.

Тип содержимого звукового сигнала может классифицироваться в отношении кратковременных звуковых сегментов, которые содержат множество кадров. Обычно звуковой кадр имеет длину несколько миллисекунд, например, 20 мс, а длина кратковременного сегмента звукового сигнала для классификации посредством звукового классификатора может иметь длину от нескольких сотен миллисекунд до нескольких секунд, например, 1 секунду.

Для управления устройством улучшения качества звука способом, адаптивным к содержимому, звуковой сигнал может классифицироваться в реальном времени. Для типа содержимого, указного выше, тип содержимого текущего кратковременного сегмента звукового сигнала представляет собой тип содержимого текущего звукового сигнала. Так как длина кратковременного звукового сегмента не такая большая, звуковой сигнал может делиться на не перекрывающиеся кратковременные звуковые сегменты, следующие один за другим. Тем не менее, кратковременные звуковые сегменты также могут выбираться непрерывно/полунепрерывно вдоль оси времени звукового сигнала. То есть, кратковременные звуковые сегменты могут выбираться с окном предопределенной длины (предполагаемой длины кратковременного звукового сегмента), движущимся вдоль оси времени звукового сигнала с размером шага в один или несколько кадров.

Звуковые жанры высокого уровня также могут указываться как "тип контекста", поскольку он указывает долговременный тип звукового сигнала, и может рассматриваться в качестве среды или контекста мгновенного звукового события, которое может классифицироваться по типам содержимого, как указано выше. В соответствии с настоящей заявкой тип контекста может включать большинство популярных звуковых приложений, таких как программный материал, подобный кинофильму, музыку (включая песню), игру и VoIP (голосовую связь по IP-протоколу).

Понятие музыки, игр и VoIP не тре