Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием

Иллюстрации

Показать все

Изобретение относится к средствам для гибридного усиления речи. Технический результат заключается в повышении слышимости речевого содержимого звукового сигнала относительно неречевого звукового содержимого. Предлагаемый способ гибридного усиления речи использует усиление с параметрическим кодированием при некоторых состояниях сигнала и усиление с кодированием формы сигнала при остальных состояниях сигнала. Другими аспектами являются способы генерирования битового потока, указывающего на звуковую программу, включающую речевое и другое содержимое, так что гибридное усиление речи может быть выполнено в отношении программы, декодер, включающий буфер, который хранит по меньшей мере один сегмент кодированного битового аудиопотока, сгенерированного любым вариантом осуществления способа изобретения, и система или устройство, выполненное с возможностью выполнения любого варианта осуществления способа изобретения. По меньшей мере некоторые из операций усиления речи выполнены принимающим аудиодекодером с использованием метаданных усиления речи средних/побочных каналов, сгенерированных расположенным выше по потоку аудиокодером. 8 н. и 29 з.п. ф-лы, 11 ил.

Реферат

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИ

Данная заявка заявляет приоритет по предварительной заявке на патент США № 61/870933, поданной 28 августа 2013 г., предварительной заявке на патент США № 61/895959, поданной 25 октября 2013 г., и предварительной заявке на патент США № 61/908664, поданной 25 ноября 2013 г., каждая из которых полностью включена в данный документ посредством ссылки.

ОБЛАСТЬ ТЕХНИКИ ИЗОБРЕТЕНИЯ

Изобретение относится к обработке звуковых сигналов и, конкретнее, к усилению речевого содержимого звуковой программы относительно другого содержимого программы, при котором усиление речи является «гибридным» в том смысле, что оно включает усиление с кодированием формы сигнала (или относительно большее усиление с кодированием формы сигнала) при некоторых состояниях сигнала и усиление с параметрическим кодированием (или относительно большее усиление с параметрическим кодированием) при остальных состояниях сигнала. Другими аспектами являются кодирование, декодирование и представление звуковых программ, которые включают данные, подходящие для данного гибридного усиления речи.

ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯ

В кино и на телевидении диалог и повествование зачастую представлены вместе с другим неречевым звуком, таким как музыка, эффекты или атмосфера спортивных мероприятий. Во многих случаях речевые и неречевые звуки захватываются по отдельности и микшируются под управлением звукоинженера. Звукоинженер выбирает уровень речевого звука относительно уровня неречевого звука таким образом, чтобы он являлся подходящим для большинства слушателей. Однако, некоторые слушатели, например, с нарушением слуха, испытывают затруднения при понимании речевого содержимого звуковых программ (имеющих определенные инженером отношения микширования речевого звука к неречевому звуку) и предпочли бы, чтобы речь была микширована при более высоком относительном уровне.

Существует проблема, которая должна быть решена, состоящая в том, что данным слушателям необходимо предоставить возможность увеличения слышимости речевого содержимого звуковой программы относительно неречевого звукового содержимого.

Одним текущим подходом является предоставление слушателям двух высококачественных звуковых потоков. Один поток содержит звук первичного содержимого (главным образом речь), а другой содержит звук вторичного содержимого (остальную звуковую программу, которая исключает речь) и пользователю предоставлено управление над процессом микширования. К сожалению, данная схема является непрактичной, поскольку она не основана на текущей практике передачи полностью микшированной звуковой программы. Кроме того, она требует приблизительно вдвое большей полосы пропускания текущей вещательной практики, поскольку пользователю должны быть поданы два независимых звуковых потока, каждый из которых имеет вещательное качество.

Еще один способ усиления речи (называемый в данном документе усилением «с кодированием формы сигнала») описан в публикации заявки на патент США № 2010/0106507 A1, опубликованной 29 апреля 2010 г., закрепленной за Dolby Laboratories, Inc. и именующей автором изобретения Hannes Muesch. При усилении с кодированием формы сигнала отношение речевого звука к фоновому звуку (неречевому звуку) исходного звукового микширования речевого и неречевого содержимого (иногда называемого главным микшированием) увеличивается посредством добавления к главному микшированию версии сниженного качества (низкокачественной копии) чистого речевого сигнала, который был отправлен на приемник в дополнение к главному микшированию. Для уменьшения перегрузки полосы пропускания, низкокачественная копия, как правило, кодируется с очень низкой битовой скоростью передачи данных. Вследствие кодирования с низкой битовой скоростью передачи данных, артефакты кодирования связаны с низкокачественной копией и артефакты кодирования являются четко слышимыми при отдельных представлении и прослушивании низкокачественной копии. Таким образом, низкокачественная копия имеет неприемлемое качество при отдельном прослушивании. Усиление с кодированием формы сигнала предназначено для скрытия данных артефактов кодирования посредством добавления низкокачественной копии к главному микшированию только в тех случаях, когда уровень неречевых компонентов является высоким, так что артефакты кодирования маскируются неречевыми компонентами. Как будет подробно описано далее, ограничения данного подхода включают следующее: величина усиления речи, как правило, не может быть постоянной с течением времени и звуковые артефакты могут быть услышаны, если фоновые (неречевые) компоненты главного микширования являются слабыми или их амплитудно-частотный спектр существенно отличается от амплитудно-частотного спектра шума кодирования.

В соответствии с усилением с кодированием формы сигнала звуковая программа (для подачи на декодер для декодирования и последующего представления) кодируется в качестве битового потока, который включает низкокачественную копию речи (или ее кодированную версию) в качестве побочного потока главного микширования. Битовый поток может включать метаданные, указывающие на параметр масштабирования, который определяет величину усиления речи с кодированием формы сигнала, которое должно быть выполнено (т.е. параметр масштабирования определяет коэффициент масштабирования, который должен быть применен к низкокачественной копии речи перед масштабированием, при этом низкокачественная копия речи объединяется с главным микшированием, или максимальное значение такого коэффициента масштабирования, который гарантирует маскирование артефактов кодирования). Если текущее значение коэффициента масштабирования равняется нулю, декодер не выполняет усиление речи в отношении соответствующего сегмента главного микширования. Текущее значение параметра масштабирования (или текущее максимальное значение, которого он может достичь), как правило, определяется в кодере (поскольку оно, как правило, генерируется посредством вычислительно-трудоемкой психоакустической модели), но оно может быть сгенерировано в декодере. В последнем случае метаданные, указывающие на параметр масштабирования, не должны быть отправлены с кодера на декодер и вместо этого кодер может определить из главного микширования отношение мощности речевого содержимого микширования к мощности микширования и реализовать модель для определения текущего значения параметра масштабирования в ответ на текущее значение отношения мощностей.

Еще одним способом (называемым в данном документе усилением «с параметрическим кодированием») для усиления разборчивости речи при наличии постороннего звука (фонового звука) является сегментация исходной звуковой программы (как правило, звуковой дорожки) на частотно-временные мозаики и усиление мозаик в соответствии с отношением мощности (или уровня) их речевого и фонового содержимого для достижения усиления речевого компонента относительно фона. Основная идея данного подхода схожа с идеей, которая состоит в управляемом подавлении шума со спектральным вычитанием. В качестве яркого примера данного подхода, в котором полностью подавлены все мозаики с SNR (т.е. отношением мощности или уровня речевого компонента к мощности или уровню постороннего звукового содержимого) ниже предопределенного порогового значения, было показано предоставление надежных усилений разборчивости речи. При применении данного способа к вещанию отношение (SNR) речевого звука к фоновому звуку может быть получено посредством сравнивания исходного звукового микширования (речевого и неречевого содержимого) и речевого компонента микширования. Полученное SNR может быть затем преобразовано в подходящий набор параметров усиления, которые передаются в дополнение к исходному звуковому микшированию. На приемнике данные параметры могут быть (факультативно) применены к исходному звуковому микшированию для получения сигнала, указывающего на усиленную речь. Как будет подробно описано далее, усиление с параметрическим кодированием работает наилучшим образом, если речевой сигнал (речевой компонент микширования) преобладает над фоновым сигналом (неречевым компонентом микширования).

Для усиления с кодированием формы сигнала необходимо, чтобы низкокачественная копия речевого компонента поданной звуковой программы была доступна на приемнике. Для ограничения перегрузки данных, возникающей во время передачи данной копии в дополнение к главному звуковому микшированию, данная копия кодируется с очень низкой битовой скоростью передачи данных и имеет искажения кодирования. Данные искажения кодирования, вероятно, будут замаскированы исходным звуком, если уровень неречевых компонентов является высоким. При маскировании искажений кодирования полученное в результате качество усиленного звука будет очень хорошим.

Усиление с параметрическим кодированием основано на синтаксическом разборе сигнала главного звукового микширования на частотно-временные мозаики и применении подходящих усилений/ослаблений к каждой из данных мозаик. Скорость передачи данных, необходимая для передачи данных усилений на приемник, является низкой по сравнению со скоростью, необходимой в случае усиления с кодированием формы сигнала. Однако, вследствие ограниченной временно-спектральной разрешающей способности параметров, речь при микшировании с неречевым звуком не может быть обработана без параллельного воздействия на неречевой звук. Усиление с параметрическим кодированием речевого содержимого звукового микширования, следовательно, вносит модуляцию в неречевое содержимое микширования и данная модуляция («фоновая модуляция») может стать нежелательной при проигрывании микширования с усиленной речью. Фоновые модуляции, наиболее вероятно, будут нежелательными, если отношение речи к фону является очень низким.

Подходы, описанные в данном разделе, являются подходами, которые могут быть выполнены, но необязательно подходами, которые были ранее предложены или выполнены. Следовательно, если не указано иное, не следует предполагать, что любой из подходов, описанных в данном разделе, расценивается как известный уровень техники, только лишь вследствие их включения в данный раздел. Подобным образом, не следует предполагать, что проблемы, определенные относительно одного или более подходов, были учтены в известном уровне техники на основе данного раздела, если не указано иное.

КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВ

Настоящее изобретение проиллюстрировано для примера, а не для ограничения, на фигурах прилагаемых графических материалов, на которых подобные позиционные обозначения относятся к одинаковым элементам, и на которых:

На фиг. 1 показана блок-диаграмма системы, выполненной с возможностью генерирования параметров предсказания для восстановления речевого содержимого одноканального сигнала микшированного содержимого (имеющего речевое и неречевое содержимое).

На фиг. 2 показана блок-диаграмма системы, выполненной с возможностью генерирования параметров предсказания для восстановления речевого содержимого многоканального сигнала микшированного содержимого (имеющего речевое и неречевое содержимое).

На фиг. 3 показана блок-диаграмма системы, включающей кодер, выполненный с возможностью выполнения варианта осуществления изобретения способа кодирования для генерирования кодированного звукового битового потока, указывающего на звуковую программу, и декодер, выполненный с возможностью декодирования и выполнения усиления речи (в соответствии с вариантом осуществления способа изобретения) в отношении кодированного звукового битового потока.

На фиг. 4 показана блок-диаграмма системы, выполненной с возможностью представления многоканального звукового сигнала микшированного содержимого, в том числе посредством выполнения в его отношении традиционного усиления речи.

На фиг. 5 показана блок-диаграмма системы, выполненной с возможностью представления многоканального звукового сигнала микшированного содержимого, в том числе посредством выполнения в его отношении традиционного усиления речи с параметрическим кодированием.

На фиг. 6 и на фиг. 6A показаны блок-диаграммы систем, выполненных с возможностью представления многоканального звукового сигнала микшированного содержимого, в том числе посредством выполнения в его отношении варианта осуществления способа изобретения усиления речи.

На фиг. 7 показана блок-диаграмма системы для выполнения варианта осуществления способа изобретения кодирования с использованием модели слухового маскирования;

На фиг. 8A и на фиг. 8B проиллюстрированы приведенные в качестве примера потоки процесса; и

На фиг. 9 проиллюстрирована приведенная в качестве примера аппаратная платформа, на которой может быть реализован компьютер или вычислительное устройство, как описано в данном документе.

ОПИСАНИЕ ПРИВЕДЕННЫХ В КАЧЕСТВЕ ПРИМЕРА ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ

В данном документе описаны приведенные в качестве примера варианты осуществления, которые относятся к гибридному усилению речи с кодированием формы сигнала и параметрическим кодированием. В следующем описании в целях пояснения изложены многочисленные специфические подробности для предоставления полного понимания настоящего изобретения. Однако следует понимать, что настоящее изобретение может быть осуществлено без данных специфических подробностей. В других примерах хорошо известные структуры и устройства не описаны в исчерпывающих подробностях, во избежание ненужного перенасыщения, искажения смысла или запутывания содержания настоящего изобретения.

Приведенные в качестве примера варианты осуществления описаны в данном документе в соответствии со следующим планом:

1. ОБЩИЙ ОБЗОР

2. УСЛОВНЫЕ ОБОЗНАЧЕНИЯ И ТЕРМИНОЛОГИЯ

3. ГЕНЕРИРОВАНИЕ ПАРАМЕТРОВ ПРЕДСКАЗАНИЯ

4. ОПЕРАЦИИ УСИЛЕНИЯ РЕЧИ

5. ПРЕДСТАВЛЕНИЕ РЕЧИ

6. СРЕДНЕЕ/ПОБОЧНОЕ ПРЕДСТАВЛЕНИЕ

7. ПРИВЕДЕННЫЕ В КАЧЕСТВЕ ПРИМЕРА ПОТОКИ ПРОЦЕССА

8. МЕХАНИЗМЫ РЕАЛИЗАЦИИ – ОБЗОР АППАРАТНОГО ОБЕСПЕЧЕНИЯ

9. ЭКВИВАЛЕНТЫ, РАСШИРЕНИЯ, АЛЬТЕРНАТИВЫ И ПРОЧЕЕ

1. ОБЩИЙ ОБЗОР

Данный обзор представляет базовое описание некоторых аспектов варианта осуществления настоящего изобретения. Следует отметить, что данный обзор не является расширенным или исчерпывающим изложением аспектов варианта осуществления. Более того, следует отметить, что данный обзор не следует понимать, как определение каких-либо конкретных существенных аспектов или элементов варианта осуществления, а также ограничение какого-либо объема варианта осуществления в частности или изобретения в целом. Данный обзор представляет лишь некоторые идеи, которые относятся к приведенному в качестве примера варианту осуществления, в сокращенной и упрощенной форме, и он должен рассматриваться лишь как вводная часть для более подробного описания приведенных в качестве примера вариантов осуществления, которые следуют далее. Следует отметить, что, несмотря на то что в данном документе обсуждены отдельные варианты осуществления, любое сочетание вариантов осуществления и/или частичных вариантов осуществления, обсужденных в данном документе, может быть объединено для образования дополнительных вариантов осуществления.

Авторы изобретения осознали, что отдельные сильные и слабые стороны усиления с параметрическим кодированием и усиления с кодированием формы сигнала могут компенсировать друг друга, и, что традиционное усиление речи может быть по существу улучшено посредством способа гибридного усиления, который использует усиление с параметрическим кодированием (или смесь усиления с параметрическим кодированием и усиления с кодированием формы сигнала) при некоторых состояниях сигнала и усиление с кодированием формы сигнала (или отличную смесь усиления с параметрическим кодированием и усиления с кодированием формы сигнала) при остальных состояниях сигнала. Типичные варианты осуществления способа изобретения гибридного усиления предоставляют усиление речи с большей устойчивостью и лучшим качеством, чем может быть достигнуто либо посредством одного только усиления с параметрическим кодированием, либо посредством одного только усиления с кодированием формы сигнала.

В одном из классов вариантов осуществления способ изобретения включает следующие этапы: (a) прием битового потока, указывающего на звуковую программу, включающую речь, имеющую неусиленную форму сигнала и другое звуковое содержимое, при этом битовый поток включает: аудиоданные, указывающие на речь и другое звуковое содержимое, данные о форме сигнала, указывающие на версию сниженного качества речи (в случае чего аудиоданные генерируются посредством микширования речевых данных с неречевыми данными, при этом данные о форме сигнала, как правило, содержат меньшее количество битов, чем речевые данные), при этом версия сниженного качества имеет вторую форму сигнала, подобную (например, по меньшей мере по существу подобную) неусиленной форме сигнала, и версия сниженного качества будет иметь неприемлемое качество при отдельном прослушивании, и параметрические данные, при этом параметрические данные вместе с аудиоданными определяют параметрически составленную речь, и параметрически составленная речь является параметрически восстановленной версией речи, которая по меньшей мере по существу соответствует (например, имеет хорошее согласование с) речи; и (b) выполнение усиления речи в отношении битового потока в ответ на указатель смешивания, вследствие чего генерируются данные, указывающие на звуковую программу с усиленной речью, в том числе посредством сочетания аудиоданных с сочетанием низкокачественных речевых данных, определенных из данных о форме сигнала, и восстановленные речевые данные, при этом сочетание определяется указателем смешивания (например, сочетание имеет последовательность состояний, определенных последовательностью текущих значений указателя смешивания), восстановленные речевые данные генерируются в ответ на по меньшей мере некоторые из параметрических данных и по меньшей мере некоторые из аудиоданных, и звуковая программа с усиленной речью имеет менее слышимые артефакты усиления речи (например, артефакты усиления речи, которые замаскированы лучшим образом, и, следовательно, являются менее слышимыми во время представления и прослушивания звуковой программы с усиленной речью), чем звуковая программа с усиленной речью с одним только кодированием формы сигнала, определенная сочетанием лишь низкокачественных речевых данных (которые указывают на версию сниженного качества речи) с аудиоданными, или звуковая программа с усиленной речью с одним только параметрическим кодированием, определенная из параметрических данных и аудиоданных.

В данном документе «артефакт усиления речи» (или «артефакт кодирования усиления речи») обозначает искажение (как правило, измеримое искажение) звукового сигнала (указывающего на речевой сигнал и неречевой звуковой сигнал), вызванное представлением речевого сигнала (например, речевого сигнала с кодированием формы сигнала или параметрических данных вместе с сигналом микшированного содержимого).

В некоторых вариантах осуществления указатель смешивания (который может иметь последовательность значений, например, по одному значению для каждой из последовательностей сегментов битового потока) включен в битовый поток, принятый на этапе (a). Некоторые варианты осуществления включают этап генерирования указателя смешивания (например, в приемнике, который принимает и декодирует битовый поток) в ответ на битовый поток, принятый на этапе (a).

Следует понимать, что выражение «указатель смешивания» не обязательно должно предусматривать, чтобы указатель смешивания являлся одним параметром или значением (или последовательностью из одних параметров или значений) для каждого сегмента битового потока. Наоборот, предполагается, что в некоторых вариантах осуществления указатель смешивания (для сегмента битового потока) может являться набором из двух или более параметров или значений (например, параметром управления усилением с параметрическим кодированием и параметром управления усилением с кодированием формы сигнала для каждого сегмента) или последовательностью наборов из параметров или значений.

В некоторых вариантах осуществления указатель смешивания для каждого сегмента может являться последовательностью значений, указывающих на смешивание на полосу частот сегмента.

Данные о форме сигнала и параметрические данные не должны быть предоставлены для (например, включены в) каждого сегмента битового потока и как данные о форме сигнала, так и параметрические данные не должны быть использованы для выполнения усиления речи в отношении каждого сегмента битового потока. Например, в некоторых случаях по меньшей мере один сегмент может включать только данные о форме сигнала (и сочетание, определенное указателем смешивания для каждого такого сегмента, может состоять только из данных о форме сигнала) и по меньшей мере еще один сегмент может включать только параметрические данные (и сочетание, определенное указателем смешивания для каждого такого сегмента, может состоять только из восстановленных речевых данных).

Как правило, предполагается, что кодер генерирует битовый поток, в том числе посредством кодирования (например, сжатия) аудиоданных, но не посредством применения данного кодирования к данным о форме сигнала или параметрическим данным. Таким образом, при подаче битового потока на приемник, приемник, как правило, осуществляет синтаксический разбор битового потока для извлечения аудиоданных, данных о форме сигнала и параметрических данных (и указатель смешивания, если он подается в битовый поток), но декодирует только аудиоданные. Приемник, как правило, выполняет усиление речи в отношении декодированных аудиоданных (с использованием данных о форме сигнала и/или параметрических данных) без применения к данным о форме сигнала или параметрическим данным данного процесса декодирования, который применяется к аудиоданным.

Как правило, сочетание (указанное указателем смешивания) данных о форме сигнала и восстановленных речевых данных изменяется с течением времени, при этом каждое состояние сочетания относится к речевому и другому звуковому содержимому соответствующего сегмента битового потока. Указатель смешивания генерируется таким образом, что текущее состояние сочетания (данных о форме сигнала и восстановленных речевых данных) по меньшей мере частично определяется свойствами сигнала речевого и другого звукового содержимого (например, отношением мощности речевого содержимого и мощности другого звукового содержимого) в соответствии с сегментом битового потока. В некоторых вариантах осуществления указатель смешивания генерируется таким образом, что текущее состояние сочетания определяется свойствами сигнала речевого и другого звукового содержимого в соответствии с сегментом битового потока. В некоторых вариантах осуществления указатель смешивания генерируется таким образом, что текущее состояние сочетания определяется как свойствами сигнала речевого и другого звукового содержимого в соответствии с сегментом битового потока, так и количеством артефактов кодирования в данных о форме сигнала.

Этап (b) может включать этап выполнения усиления речи с кодированием формы сигнала посредством сочетания (например, микширования или смешивания) по меньшей мере некоторых из низкокачественных речевых данных с аудиоданными по меньшей мере одного сегмента битового потока и выполнения усиления речи с параметрическим кодированием посредством сочетания восстановленных речевых данных с аудиоданными по меньшей мере одного сегмента битового потока. Сочетание усиления речи с кодированием формы сигнала и усиления речи с параметрическим кодированием выполняется в отношении по меньшей мере одного сегмента битового потока посредством смешивания как низкокачественных речевых данных, так и параметрически составленной речи для сегмента с аудиоданными сегмента. При некоторых состояниях сигнала только одно (но не оба) из усиления речи с кодированием формы сигнала и усиления речи с параметрическим кодированием выполняется (в ответ на указатель смешивания) в отношении сегмента (или в отношении каждого из более чем одного сегментов) битового потока.

В данном документе выражение «SNR» (отношение сигнала к шуму) будет использовано для обозначения отношения мощности (или разницы в уровне) речевого содержимого сегмента звуковой программы (или всей программы) к мощности неречевого содержимого сегмента или программы, или отношения мощности речевого содержимого сегмента программы (или всей программы) к мощности всего (речевого и неречевого) содержимого сегмента или программы.

В одном из классов вариантов осуществления способ изобретения реализует временное переключение «вслепую» на основе SNR между усилением с параметрическим кодированием и усилением с кодированием формы сигнала сегментов звуковой программы. В данном контексте «вслепую» обозначает, что переключение не проводится перцепционно посредством сложной модели слухового маскирования (например, типа, описанного в данном документе), но проводится с использованием последовательности значений SNR (указателей смешивания), соответствующих сегментам программы. В одном варианте осуществления в данном классе усиление речи с гибридным кодированием достигается посредством временного переключения между усилением с параметрическим кодированием и усилением с кодированием формы сигнала, так что либо усиление с параметрическим кодированием, либо усиление с кодированием формы сигнала (но не как усиление с параметрическим кодированием, так и усиление с кодированием формы сигнала) выполняется в отношении каждого сегмента звуковой программы, в отношении которой выполняется усиление речи. Понимая, что усиление с кодированием формы сигнала наилучшим образом выполняется при условии низкого SNR (в отношении сегментов, имеющих низкие значения SNR) и усиление с параметрическим кодированием наилучшим образом выполняется при условии подходящего SNR (в отношении сегментов, имеющих высокие значения SNR), решение о переключении, как правило, основывается на отношении речевого звука (диалога) к остальному звуку в исходном звуковом микшировании.

Варианты осуществления, которые реализуют временное переключение «вслепую» на основе SNR, как правило, включают следующие этапы: сегментация неусиленного звукового сигнала (исходного звукового микширования) на последовательные временные промежутки (сегменты) и определение для каждого сегмента SNR между речевым содержимым и другим звуковым содержимым (или между речевым содержимым и всем звуковым содержимым) сегмента; и для каждого сегмента сравнивание SNR с пороговым значением и предоставление параметра управления усилением с параметрическим кодированием для сегмента (т.е. указатель смешивания для сегмента указывает, что должно быть выполнено усиление с параметрическим кодированием), если SNR превышает пороговое значение, или предоставление параметра управления усилением с кодированием формы сигнала для сегмента (т.е. указатель смешивания для сегмента указывает, что должно быть выполнено усиление с кодированием формы сигнала), если SNR не превышает пороговое значение. Как правило, неусиленный звуковой сигнал подается (например, передается) с параметрами управления, включенными в качестве метаданных, на приемник и приемник выполняет (в отношении каждого сегмента) тип усиления речи, указанный параметром управления для сегмента. Таким образом, приемник выполняет усиление с параметрическим кодированием в отношении каждого сегмента, для которого параметр управления является параметром управления усилением с параметрическим кодированием, и усиление с кодированием формы сигнала в отношении каждого сегмента, для которого параметр управления является параметром управления усилением с кодированием формы сигнала.

При готовности принять на себя расходы на передачу (с каждым сегментом исходного звукового микширования) как данных о форме сигнала (для реализации усиления речи с кодированием формы сигнала), так и параметров усиления с параметрическим кодированием с исходным (неусиленным) микшированием, более высокая степень усиления речи может быть достигнута посредством применения как усиления с кодированием формы сигнала, так и усиления с параметрическим кодированием к отдельным сегментам микширования. Таким образом, в одном из классов вариантов осуществления способ изобретения реализует временное смешивание «вслепую» на основе SNR усиления с параметрическим кодированием и усиления с кодированием формы сигнала сегментов звуковой программы. В данном контексте «вслепую» также обозначает, что переключение не проводится перцепционно посредством сложной модели слухового маскирования (например, типа, описанного в данном документе), но проводится с использованием последовательности значений SNR, соответствующих сегментам программы.

Варианты осуществления, которые реализуют временное смешивание «вслепую» на основе SNR, как правило, включают следующие этапы: сегментация неусиленного звукового сигнала (исходного звукового микширования) на последовательные временные промежутки (сегменты) и определение для каждого сегмента SNR между речевым содержимым и другим звуковым содержимым (или между речевым содержимым и всем звуковым содержимым) сегмента; и для каждого сегмента предоставление указателя управления смешиванием, при этом значение указателя управления смешиванием определяется (зависит от) SNR для сегмента.

В некоторых вариантах осуществления способ включает этап определения (например, приема запроса на) общей величины («T») усиления речи и указатель управления смешиванием является параметром α для каждого сегмента, так что T = α Pw + (1-α)Pp, при этом Pw является усилением с кодированием формы сигнала для сегмента, которое произведет предопределенную общую величину усиления T при применении к неусиленному звуковому содержимому сегмента с использованием данных о форме сигнала, предоставленных для сегмента (при этом речевое содержимое сегмента имеет неусиленную форму сигнала, данные о форме сигнала для сегмента указывают на версию сниженного качества речевого содержимого сегмента, версия сниженного качества имеет форму сигнала, подобную (например, по меньшей мере по существу подобную) неусиленной форме сигнала, и версия сниженного качества речевого содержимого имеет неприемлемое качество при отдельных представлении и восприятии), и Pp является усилением с параметрическим кодированием, которое произведет предопределенную общую величину усиления T при применении к неусиленному звуковому содержимому сегмента с использованием параметрических данных, предоставленных для сегмента (при этом параметрические данные для сегмента с неусиленным звуковым содержимым сегмента определяют параметрическую восстановленную версию речевого содержимого сегмента). В некоторых вариантах осуществления указатель управления смешиванием для каждого из сегментов является набором данных параметров, включающим параметр для каждой полосы частот соответствующего сегмента.

При подаче (например, передаче) неусиленного звукового сигнала с параметрами управления в качестве метаданных на приемник, приемник может выполнить (в отношении каждого сегмента) гибридное усиление речи, указанное параметрами управления для сегмента. В качестве альтернативы приемник генерирует параметры управления из неусиленного звукового сигнала.

В некоторых вариантах осуществления приемник выполняет (в отношении каждого сегмента неусиленного звукового сигнала) сочетание усиления с параметрическим кодированием (равного величине, определенной усилением Pp, масштабированным на основе параметра α для сегмента) и усиления с кодированием формы сигнала (равного величине, определенной усилением Pw, масштабированным на основе значения (1 - α) для сегмента), так что сочетание усиления с параметрическим кодированием и усиления с кодированием формы сигнала генерирует предопределенную общую величину усиления:

T = α Pw + (1-α)Pp (1)

В еще одном классе вариантов осуществления сочетание усиления с кодированием формы сигнала и усиления с параметрическим кодированием, которое должно быть выполнено в отношении каждого сегмента звукового сигнала, определяется моделью слухового маскирования. В некоторых вариантах осуществления в данном классе оптимальное отношение смешивания для смеси усиления с кодированием формы сигнала и усиления с параметрическим кодированием, которое должно быть выполнено в отношении сегмента звуковой программы, использует наивысшую величину усиления с кодированием формы сигнала, которая лишь предотвращает слышимость шума кодирования. Следует понимать, что наличие шума кодирования в декодере всегда имеет вид статистической оценки и не может быть точно определено.

В некоторых вариантах осуществления в данном классе указатель смешивания для каждого сегмента аудиоданных указывает на сочетание усиления с кодированием формы сигнала и усиления с параметрическим кодированием, которое должно быть выполнено в отношении сегмента, и сочетание по меньшей мере частично равняется максимизирующему сочетанию с кодированием формы сигнала, определенному для сегмента моделью слухового маскирования, при этом максимизирующее сочетание с кодированием формы сигнала устанавливает наибольшую относительную величину усиления с кодированием формы сигнала, которая гарантирует, что шум кодирования (вследствие усиления с кодированием формы сигнала) в соответствующем сегменте звуковой программы с усиленной речью не будет являться нежелательно слышимым (например, будет являться неслышимым). В вариантах осуществления наибольшая относительная величина усиления с кодированием формы сигнала, которая гарантирует, что шум кодирования в сегменте звуковой программы с усиленной речью не будет являться нежелательно слышимым, является наибольшей относительной величиной, которая гарантирует, что сочетание усиления с кодированием формы сигнала и усиления с параметрическим кодированием, которое должно быть выполнено (в отношении соответствующего сегмента аудиоданных), генерирует предопределенную общую величину усиления речи для сегмента и/или (если артефакты усиления с параметрическим кодированием включены в оценку, выполняемую моделью слухового маскирования) артефакты кодирования (вследствие усиления с кодированием формы сигнала) могут являться слышимыми (если это является благоприятным) по сравнению с артефактами усиления с параметрическим кодированием (например, если слышимые артефакты кодирования (вследствие усиления с кодированием формы сигнала) являются менее слышимыми, чем слышимые артефакты усиления с параметрическим кодированием).

Вклад усиления с кодированием формы сигнала в гибридную схему кодирования изобретения может быть увеличен, при этом гарантируя, что шум кодирования не станет неприемлемо слышимым (например, не станет слышимым), посредством использования модели слухового маскирования для более точного предсказания того, каким образом шум кодирования в копии речи сниженного качества (которая должна быть использована для реализации усиления с кодированием формы сигнала) замаскирован звуковым микшированием главной программы, и для выбора отношения смешивания соответственно.

Данные варианты осуществления, которые используют модель слухового маскирования, включают следующие этапы: сегментация неусиленного звукового сигнала (исходного звукового микширования) на последовательные временные промежутки (сегменты) и предоставление копии сниженного качества речи в каждом сегменте (для использования в усилении с кодированием формы сигнала) и параметров усиления с параметрическим кодированием (для использования в усилении с параметрическим кодированием) для ка