Перцептивная оценка темпа с масштабируемой сложностью

Иллюстрации

Показать все

Использование: изобретение относится к способам и системам для оценки темпа мультимедийного сигнала, воспринимаемого слушателями, а также к способам и системам для оценки темпа с масштабируемой вычислительной сложностью. Сущность: описан способ и система для извлечения информации о темпе звукового сигнала из кодированного битового потока звукового сигнала, включающего данные репликации спектральной полосы. Способ включает этапы определения величины полезной нагрузки, связанной с количеством данных репликации спектральной полосы, заключенных в кодированный битовый поток в некотором временном интервале звукового сигнала; повторение этапа определения для последовательных временных интервалов кодированного битового потока звукового сигнала и, таким образом, определения последовательности величин полезной нагрузки; идентификации периодичности в последовательности величин полезной нагрузки; и извлечения из идентифицированной периодичности информации о темпе звукового сигнала. Технический результат: создание возможности оценки темпа, инвариантной к типу кодека или применимой к музыкальному жанру любого рода. 6 н. и 16 з.п. ф-лы, 4 табл., 13 ил.

Реферат

ОБЛАСТЬ ТЕХНИКИ

Настоящий документ относится к способам и системам для оценки темпа мультимедийного сигнала, такого как звуковой сигнал или комбинированный видео/аудиосигнал. В частности, документ относится к оценке темпа, воспринимаемого слушателями, а также к способам и системам для оценки темпа с масштабируемой вычислительной сложностью.

ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯ

Переносные карманные устройства, например PDA, смартфоны, мобильные телефоны и переносные мультимедийные проигрыватели, которые, как правило, включают возможности для представления звуковых и видеоданных, стали важными развлекательными платформами. Их развитие продвигается вперед путем проникновения беспроводных или проводных возможностей для передачи данных в эти устройства. Благодаря поддержке передачи мультимедийных данных и/или протоколов хранения информации, таких как формат НЕ-ААС, мультимедийное информационное наполнение может постоянно загружаться и храниться на переносном карманном устройстве, и, таким образом, обеспечивается практически неограниченное количество мультимедийного информационного наполнения.

Однако для мобильных/карманных устройств ключевыми являются алгоритмы с низкой сложностью, поскольку критическими ограничениями для таких устройств являются ограниченная вычислительная мощность и энергопотребление. Эти ограничения являются еще более критичными для карманных устройств низкого уровня на развивающихся рынках. В виду большого количества мультимедийных файлов, имеющихся в наличии на типичных переносных электронных устройствах, для кластеризации или классификации мультимедийных файлов желательными инструментальными программными средствами являются приложения MIR (Music Information Retrieval), позволяющие пользователю переносного электронного устройства идентифицировать соответствующий мультимедийный файл, например, звуковой, музыкальный и/или видеофайл. Существует потребность в схемах вычислений с низкой сложностью для указанных приложений MIR, поскольку иначе их применимость для переносных электронных устройств, имеющих ограниченные вычислительные и энергетические ресурсы, может быть скомпрометирована.

Важным характерным признаком музыки для различных приложений MIR, таких как классификация жанра и настроения, реферирование музыки, создание эскизов аудиоданных, автоматическое генерирование списка воспроизведения, системы рекомендации музыки, использующие музыкальное подобие, и т.д., является музыкальный темп. Поэтому процедура определения темпа, имеющая низкую вычислительную сложность, могла бы внести вклад в развитие децентрализованных реализации упомянутых приложений MIR для мобильных устройств.

Кроме того, несмотря на то, что общепринятым является описание музыкального темпа посредством йотированного темпа в нотной записи, или музыкального сопровождения - в ВРМ (число ударов в минуту), эта величина часто не соответствует воспринимаемому темпу. Например, если попросить группу слушателей (включающую опытных музыкантов) прокомментировать темп музыкальных отрывков, они, как правило, дадут разные ответы, т.е. они обычно отбивают темп на разных метрических уровнях. Для некоторых музыкальных отрывков воспринимаемый темп менее неоднозначен, и все слушатели, как правило, отбивают темп на одинаковом метрическом уровне, но для других музыкальных отрывков темп может быть неоднозначен, и разные слушатели идентифицируют различные темпы. Иными словами, перцептивные эксперименты показали, что воспринимаемый темп может отличаться от йотированного темпа. Музыкальный фрагмент может ощущаться более быстрым или более медленным, чем его йотированный темп, в том случае, когда доминантный воспринимаемый ритм может иметь метрический уровень более высокий или более низкий, чем йотированный темп. В виду того, что приложения MIR должны преимущественно учитывать темп, воспринимаемый пользователем с наибольшей вероятностью, автоматическое устройство для извлечения темпа должно предсказывать перцептивно наиболее выраженный темп звукового сигнала.

Известные способы и системы оценки темпа обладают различными недостатками. Во многих случаях они ограничиваются конкретными аудиокодеками, например, МРЗ, и не могут применяться для звуковых дорожек, которые кодируются другими кодеками. Также указанные способы оценки темпа, как правило, функционируют надлежащим образом только при их применении для западной популярной музыки, имеющей простые и четкие ритмические структуры. Кроме того, известные способы оценки темпа не учитывают особенности восприятия, т.е. они не направлены на оценку темпа, который с наибольшей вероятностью воспринимается слушателем. Наконец, известные схемы оценки темпа, как правило, функционируют только в несжатой области РСМ (импульсно-кодовой модуляции), области преобразования или сжатой области.

Желательным является создание способов и систем оценки темпа, которые преодолевали бы вышеупомянутые изъяны известных схем оценки темпа. В частности, желательным является создание оценки темпа, инвариантной к типу кодека и/или применимой к музыкальному жанру любого рода. Кроме того, желательным является создание схемы оценки темпа, которая оценивала бы перцептивно наиболее выраженный темп звукового сигнала. Также желательна схема оценки темпа, которая была бы применима к звуковым сигналам в любой из вышеупомянутых областей, т.е. в несжатой области РСМ, области преобразования и сжатой области. Также желательно создание схем оценки темпа с низкой вычислительной сложностью.

Схемы оценки темпа могут использоваться в различных приложениях. Поскольку темп в музыке представляет фундаментальную семантическую информацию, надежная оценка темпа будет увеличивать эффективность других приложений MIR, таких как автоматическая классификация жанров на основе информационного наполнения, классификация настроений, музыкальное подобие, создание эскизов аудиоданных и реферирование музыки. Кроме того, надежная оценка воспринимаемого темпа представляет полезную статистику для выбора музыки, сопоставления, микширования и создания списков воспроизведения. Воспринимаемый темп, или ощущение, как правило более значим, чем йотированный или физический темп, в особенности, для автоматического генератора списков воспроизведения, музыкальных программ-навигаторов или аппаратуры диск-жокеев. Кроме того, надежная оценка воспринимаемого темпа может оказаться полезной для игровых приложений. Например, темп звуковой дорожки может использоваться для управления соответствующими параметрами игры, такими как скорость игры, и наоборот. Это может использоваться для персонализации информационного наполнения игр с использованием звуковой информации и для обеспечения пользователей расширенным опытом. Другое поле применения может представлять собой синхронизацию звука/видео на основе информационного наполнения, где музыкальный метр, или темп, представляет первичный источник информации, используемый в качестве привязки для отметки времени событий.

Следует отметить, что в настоящем документе термин «темп» понимается как скорость тактовых ударов. Указанный такт также называется скоростью отбивания темпа ногой, т.е. скоростью, с которой слушатели отбивают темп ногой при прослушивании звукового сигнала, например, музыкального сигнала. Этот термин отличается от музыкального размера, определяющего иерархическую структуру музыкального сигнала.

В документе WO 2006/037366 A1 описано устройство и способ генерации кодированного ритмического рисунка отрывка музыкального произведения на основе РСМ представления во временной области. В документе US 7518053 В1 описан способ извлечения ударов из двух аудиопотоков и выравнивания ударов указанных двух аудиопотоков.

КРАТКОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

Согласно одной из особенностей, описан способ извлечения информации темпа звукового сигнала из кодированного битового потока звукового сигнала, где кодированный битовый поток включает данные репликации спектральной полосы. Кодированный битовый поток может представлять собой битовый поток НЕ-ААС или битовый поток mp3PRO. Звуковой сигнал может включать музыкальный сигнал, а извлекаемая информация о темпе может включать оценку темпа музыкального сигнала.

Способ может включать этап определения величины полезной нагрузки, связанной с количеством данных репликации спектральной полосы, заключенных в кодированный битовый поток, для некоторого временного интервала звукового сигнала. В особенности в том случае, когда кодированный битовый поток представляет собой битовый поток НЕ-ААС, последний этап может включать определение количества данных, заключаемых в одном или нескольких полях fill-element кодированного битового потока в указанном временном интервале, и определение величины полезной нагрузки на основе количества данных, заключенных в одном или нескольких полях fill-element кодированного битового потока в указанном временном интервале.

Поскольку данные репликации спектральной полосы могут кодироваться с использованием фиксированного заголовка, может оказаться полезным удаление этого заголовка перед извлечением информации о темпе. В частности, способ может включать этап определения количества данных заголовка репликации спектральной полосы, заключенных в одном или нескольких полях fill-element кодированного битового потока в указанном временном интервале. Кроме того, сумма нетто данных, заключенных в одном или нескольких полях fill-element кодированного битового потока в указанном временном интервале, может определяться путем вычитания количества данных заголовка репликации спектральной полосы, заключенных в одном или нескольких полях fill-element кодированного битового потока в указанном временном интервале. Следовательно, биты заголовка удаляются, и величина полезной нагрузки может определяться на основе суммы нетто количества данных. Следует отметить, что если заголовок репликации спектральной полосы имеет фиксированную длину, способ может включать подсчет количества Х заголовков репликации спектральной полосы во временном интервале и Х-кратное вычитание длины заголовка из количества данных заголовка репликации спектральной полосы, заключенных в одном или нескольких полях fill-element кодированного битового потока в указанном временном интервале.

В одном из вариантов осуществления изобретения величина полезной нагрузки соответствует величине суммы нетто данных репликации спектральной полосы, заключенных в одном или нескольких полях fill-element кодированного битового потока в определенном временном интервале. В альтернативном варианте или в дополнение, для определения текущих данных репликации спектральной полосы дополнительные служебные данные могут удаляться из одного или нескольких полей fill-element.

Кодированный битовый поток может включать ряд кадров, где каждый кадр соответствует некоторому отрывку звукового сигнала с предварительно заданной продолжительностью во времени. Например, кадр может включать отрывок в несколько миллисекунд музыкального сигнала. Временной интервал может соответствовать продолжительности во времени, покрываемой кадром кодированного битового потока. Например, кадр ААС, как правило, включает, 1024 спектральных значений, например коэффициентов MDCT. Спектральные значения являются частотным представлением конкретного момента времени, или временного интервала, звукового сигнала. Взаимосвязь между временем и частотой может быть выражена следующим образом:

fS=2·fMAX, и t = 1 f S ,

где fMAX - охватываемый диапазон частот, fS - частота дискретизации, и t - разрешающая способность по времени, т.е. временной интервал звукового сигнала, охватываемый кадром. Для частоты дискретизации fS=44100 Гц, это соответствует разрешающей способности по времени t = 1 0 2 4 4 4 1 0 0   H z = 2 3 , 2 1 9 мс для кадра ААС. Поскольку в одном из вариантов осуществления НЕ-ААС определяется как «система с удвоенной частотой», где ее базовый кодер (ААС) функционирует на половине частоты дискретизации, можно достичь максимальной разрешающей способности по времени t = 1 0 2 4 2 2 0 5 0   H z = 4 6 , 4 3 9 9 мс.

Способ может включать дополнительный этап повторения определенного выше этапа для последовательных временных интервалов кодированного битового потока звукового сигнала и, таким образом, определения последовательности величин полезной нагрузки. Если кодированный битовый поток включает последовательность кадров, то указанный этап повторения может выполняться для определенного набора кадров кодированного битового потока, т.е. для всех кадров кодированного битового потока.

На следующем этапе способ может идентифицировать периодичность в последовательности величин полезной нагрузки. Этого можно достичь путем идентификации периодичности пиков, или повторяющихся паттернов, в последовательности величин полезной нагрузки. Идентификация периодичностей может осуществляться путем выполнения спектрального анализа на последовательности величин полезной нагрузки, дающего набор значений энергии и соответствующих частот. Периодичность может быть идентифицирована в последовательности величин полезной нагрузки путем определения относительного максимума набора значений энергии и путем выбора периодичности как соответствующей частоты. В одном из вариантов осуществления изобретения определяется абсолютный максимум.

Спектральный анализ, как правило, выполняется для последовательности величин полезной нагрузки вдоль оси времени. Кроме того, спектральный анализ, как правило, выполняется на ряде подпоследовательностей последовательности величин полезной нагрузки, таким образом, давая ряд наборов значений энергии. Например, подпоследовательности могут покрывать определенную продолжительность звукового сигнала, например, 6 секунд. Кроме того, подпоследовательности могут перекрываться друг с другом, например, на 50%. Таким образом, может быть получен ряд наборов значений энергии, где каждый набор значений энергии соответствует определенному отрывку звукового сигнала. Полный набор значений энергии для всего звукового сигнала может быть получен путем усреднения ряда наборов значений энергии. Следует понимать, что термин «усреднение» покрывает различные типы математических операций, таких как вычисление среднего значения или определение срединного значения. Т.е. полный набор значений энергии может быть получен путем вычисления набора средних значений энергии, или набора срединных значений энергии, для ряда наборов значений энергии. В одном из вариантов осуществления изобретения выполнение спектрального анализа включает выполнение частотного преобразования, такого как преобразование Фурье, или FFT.

Наборы значений энергии могут подвергаться дальнейшей обработке. В одном из вариантов осуществления изобретения набор значений энергии умножается на весовые коэффициенты, связанные с предпочтительностью человеческого восприятия соответствующих им частот. Например, указанные перцептивные весовые коэффициенты могут охватывать частоты, которые соответствуют темпам, которые чаще обнаруживаются людьми, в то время как частоты, соответствующие темпам, которые реже обнаруживаются людьми, ослабляются.

Способ может включать дополнительный этап извлечения информации о темпе звукового сигнала из идентифицированной периодичности. Этот этап может включать определение частоты, соответствующей абсолютному максимальному значению из набора значений энергии. Эта частота может быть названа физически выраженным темпом звукового сигнала.

Согласно следующей особенности описан способ оценки перцептивно выраженного темпа звукового сигнала. Перцептивно выраженный темп может представлять собой темп, который чаще всего воспринимается группой пользователей при прослушивании звукового сигнала, например, музыкального сигнала. Как правило, он отличается от физически выраженного темпа звукового сигнала, который может быть определен как физически, или акустически, наиболее выраженный темп звукового сигнала, например, музыкального сигнала.

Способ может включать этап определения спектра модуляции звукового сигнала, где спектр модуляции, как правило, включает ряд частот появления события и соответствующий ряд значений значимости, где значения значимости указывают на относительную значимость соответствующих частот появления события в звуковом сигнале. Иными словами, частоты появления события указывают на определенные периодичности в звуковом сигнале, в то время как соответствующие им значения значимости указывают на значимость указанных периодичностей в звуковом сигнале. Например, периодичность может представлять кратковременный звук в звуковом сигнале, например, звук басового барабана в музыкальном сигнале, который возникает в периодически повторяющиеся моменты времени. Если этот кратковременный звук является характерным, то значение значимости, соответствующее этой периодичности, как правило, будет высоким.

В одном из вариантов осуществления изобретения звуковой сигнал представлен последовательностью дискретных значений РСМ вдоль оси времени. В этих случаях этап определения спектра модуляции может включать этапы выбора ряда последовательных, частично перекрывающихся подпоследовательностей из последовательности дискретных значений РСМ; определение для ряда последовательных подпоследовательностей ряда последовательных энергетических спектров, имеющих некоторое спектральное разрешение; уплотнение спектрального разрешения ряда последовательных энергетических спектров с использованием частотного преобразования Mel или любого другого перцептивно мотивированного нелинейного частотного преобразования; и/или выполнение спектрального анализа вдоль оси времени на ряде последовательных уплотненных энергетических спектров, и, таким образом, получение ряда значений значимости и соответствующих им частот появления события.

В одном из вариантов осуществления изобретения звуковой сигнал представлен последовательностью последовательных блоков коэффициентов поддиапазонов вдоль оси времени. Указанные коэффициенты поддиапазонов могут, например, представлять собой коэффициенты MDCT, как, например, в случае кодеков МР3, ААС, НЕ-ААС, Dolby Digital и Dolby Digital Plus. В этих случаях этап определения спектра модуляции может включать уплотнение количества коэффициентов поддиапазонов в блоке с использованием частотного преобразования Mel; и/или выполнение спектрального анализа вдоль оси времени на последовательности из последовательных блоков уплотненных коэффициентов поддиапазонов, что, таким образом, дает ряд значений значимости и соответствующих им частот появления события.

В одном из вариантов осуществления изобретения звуковой сигнал представлен кодированным битовым потоком, включающим данные репликации спектральной полосы и ряд последовательных кадров вдоль оси времени. Например, кодированный битовый поток может представлять собой битовый поток НЕ-ААС или битовый поток mp3PRO. В этих случаях этап определения спектра модуляции может включать определение последовательности величин полезной нагрузки, связанной с количеством данных репликации спектральной полосы, в последовательности кадров кодированного битового потока; выбор ряда последовательных, частично перекрывающихся подпоследовательностей из последовательности величин полезной нагрузки; и/или выполнение спектрального анализа вдоль оси времени на ряде последовательных подпоследовательностей, что, таким образом, дает ряду значений значимости и соответствующих им частот появления события. Иными словами, спектр модуляции может определяться в соответствии с описанным выше способом.

Кроме того, этап определения спектра модуляции может включать обработку, предназначенную для улучшения спектра модуляции. Эта обработка может включать умножение ряда значений значимости на весовые коэффициенты, связанные с предпочтительностью человеческого восприятия соответствующих им частот появления события.

Способ может включать дополнительный этап определения физически выраженного темпа как частоты появления события, соответствующей максимальному значению ряда значений значимости. Указанное максимальное значение может представлять собой абсолютное максимальное значение ряда значений значимости.

Способ может включать дополнительный этап определения размера такта звукового сигнала из спектра модуляции. В одном из вариантов осуществления изобретения размер такта указывает взаимосвязь между физически выраженным темпом и, по меньшей мере, еще одной частотой появления события, соответствующей относительно высокому значению из ряда значений значимости, например, второму по величине значению из ряда значений значимости. Размер такта может иметь одно из значений ряда: 3, например, в случае размера ¾; или 2, например, в случае размера 4/4. Размер такта может являться фактором, связанным с соотношением между физически выраженным темпом и, по меньшей мере, еще одним выраженным темпом, т.е. с частотой появления события, соответствующей относительно высокому значению из ряда значений значимости звукового сигнала. В общем случае размер такта может представлять взаимосвязь между рядом физически выраженных темпов звукового сигнала, например, между двумя физически наиболее выраженными темпами звукового сигнала.

В одном из вариантов осуществления изобретения определение размера такта включает этапы определения автокорреляции спектра модуляции для ряда ненулевых запаздываний по частоте; и/или определение размера такта на основе соответствующего запаздывания по частоте и физически выраженного темпа. Определение размера такта также может включать этапы определения взаимной корреляции между спектром модуляции и рядом синтезированных функций отбивания темпа, соответствующих ряду размеров такта, соответственно; и/или выбора размера такта, который приводит к максимальной взаимной корреляции.

Способ может включать этап определения индикатора воспринимаемого темпа на основе спектра модуляции. Первый индикатор воспринимаемого темпа может определяться как среднее значение ряда значений значимости, нормированное на максимальное значение ряда значений значимости. Второй индикатор воспринимаемого темпа может определяться как максимальное значение значимости в ряду значений значимости. Третий индикатор воспринимаемого темпа может определяться как центроидная частота появления события в спектре модуляции.

Способ может включать этап определения перцептивно выраженного темпа путем модификации физически выраженного темпа в соответствии с размером такта, где этап модификации учитывает соотношение между индикатором воспринимаемого темпа и физически выраженным темпом. В одном из вариантов осуществления изобретения этап определения перцептивно выраженного темпа включает определение того, превышает ли первый индикатор воспринимаемого темпа первое пороговое значение; и модификацию физически выраженного темпа только в том случае, если первое пороговое значение превышено. В одном из вариантов осуществления изобретения этап определения перцептивно выраженного темпа включает определение того, находится ли второй индикатор воспринимаемого темпа ниже второго порогового значения; и модификацию физически выраженного темпа, если второй индикатор воспринимаемого темпа находится ниже второго порогового значения.

В альтернативном варианте или в дополнение, этап определения перцептивно выраженного темпа может включать определение несоответствия между третьим индикатором воспринимаемого темпа и физически выраженным темпом; и, если несоответствие определено, модификацию физически выраженного темпа. Несоответствие может определяться, например, путем определения того, что третий индикатор воспринимаемого темпа находится ниже третьего порогового значения, а физически выраженный темп находится выше четвертого порогового значения; и/или путем определения того, что третий индикатор воспринимаемого темпа находится выше пятого порогового значения, а физически выраженный темп находится ниже шестого порогового значения. Как правило, по меньшей мере одно из пороговых значений, третьего, четвертого, пятого и шестого, связано с предпочтениями человеческого восприятия темпа. Указанные предпочтения восприятия темпа могут указывать на корреляцию между третьим индикатором воспринимаемого темпа и субъективным восприятием скорости звукового сигнала, воспринимаемого группой пользователей.

Этап модификации физически выраженного темпа в соответствии с дольным размером может включать повышение метрического уровня до следующего по высоте метрического уровня относительно основного такта; и/или понижение метрического уровня до следующего менее высокого метрического уровня относительно основного такта. Например, если основным тактом является такт 4/4, повышение метрического уровня может включать повышение физически выраженного темпа, например, темпа, соответствующего четвертным нотам, в 2 раза, что, таким образом, приводит к следующему по высоте темпу, соответствующему восьмым нотам. Аналогично, понижение метрического уровня может включать деление на 2, например, смещение от темпа на основе 1/8 к темпу на основе ¼.

В одном из вариантов осуществления изобретения повышение, или понижение, метрического уровня может включать умножение, или деление, физически выраженного темпа на 3 в случае такта ¾; и/или умножение, или деление, физически выраженного темпа на 2 - в случае такта 4/4.

Согласно следующей особенности описана программа, реализованная программно, которая адаптирована для исполнения на процессоре и для выполнения этапов способа, описанного в настоящем документе, при осуществлении на вычислительном устройстве.

Согласно следующей особенности, описан носитель данных, который включает программу, реализованную программно, адаптированную для исполнения на процессоре и для выполнения этапов способа, описанного в настоящем документе, при осуществлении на вычислительном устройстве.

Согласно следующей особенности, описан компьютерный программный продукт, который включает исполняемые команды для выполнения способа, описанного в настоящем документе, при исполнении на компьютере.

Согласно следующей особенности, описано переносное электронное устройство. Устройство может включать блок памяти, сконфигурированный для хранения в памяти звукового сигнала; блок воспроизведения звукового сигнала, сконфигурированный для воспроизведения звукового сигнала; пользовательский интерфейс, сконфигурированный для приема запроса от пользователя на информацию о темпе звукового сигнала; и/или процессор, сконфигурированный для определения информации о темпе путем выполнения этапов способа, описанного в настоящем документе, на звуковом сигнале.

Согласно еще одной особенности, описана система, сконфигурированная для извлечения информации о темпе звукового сигнала из кодированного битового потока, включающего данные репликации спектральной полосы звукового сигнала, например, битового потока НЕ-ААС. Система может включать средства для определения величины полезной нагрузки, связанной с количеством данных репликации спектральной полосы, заключенных в кодированный битовый поток в некотором временном интервале звукового сигнала; средства для повторения этапа определения для последовательных временных интервалов кодированного битового потока звукового сигнала и, таким образом, для определения последовательности величин полезной нагрузки; и/или средства для извлечения информации о темпе звукового сигнала из идентифицированной периодичности.

Согласно следующей особенности, описана система, сконфигурированная для оценки перцептивно выраженного темпа звукового сигнала. Система может включать средства для определения спектра модуляции звукового сигнала, где спектр модуляции включает ряд частот появления события и соответствующих значений значимости, где значения значимости указывают относительную значимость соответствующих частот появления события в звуковом сигнале; средства для определения физически выраженного темпа как частоты появления события, соответствующей максимальному значению ряда значений значимости; средства для определения индикатора воспринимаемого темпа из спектра модуляции; и средства для определения перцептивно выраженного темпа путем модификации физически выраженного темпа в соответствии с размером такта, где этап модификации учитывает соотношение между индикатором воспринимаемого темпа и физически выраженным темпом.

Согласно еще одной особенности, описан способ генерирования кодированного битового потока звукового сигнала, включающего метаданные. Способ может включать этап кодирования звукового сигнала в последовательность данных полезной нагрузки, что, таким образом, приводит к кодированному битовому потоку. Например, звуковой сигнал может кодироваться в битовый поток НЕ-ААС, МР3, ААС, Dolby Digital или Dolby Digital Plus. В альтернативном варианте или в дополнение, способ может основываться на уже кодированном битовом потоке, например, способ может включать этап приема кодированного битового потока.

Способ может включать этапы определения метаданных, связанных с темпом звукового сигнала, и вставлять метаданные в кодированный битовый поток. Метаданные могут являться данными, представляющими физически выраженный темп и/или перцептивно выраженный темп звукового сигнала. Также метаданные могут являться данными, представляющими спектр модуляции из звукового сигнала, где спектр модуляции включает ряд частот появления события и соответствующий ряд значений значимости, где значения значимости указывают относительную значимость соответствующих частот появления события в звуковом сигнале. Следует отметить, что метаданные, связанные с темпом звукового сигнала, могут быть определены в соответствии с любым из способов, описанных в настоящем документе. Т.е. темпы и спектры модуляции могут быть определены в соответствии со способами, описанными в данном документе.

Согласно следующей особенности, описан кодированный битовый поток звукового сигнала, включающий метаданные. Кодированный битовый поток может представлять собой битовый поток НЕ-ААС, МР3, AAC, Dolby Digital или Dolby Digital Plus. Метаданные могут включать данные, представляющие, по меньшей мере, физически выраженный темп и/или перцептивно выраженный темп звукового сигнала; или спектр модуляции звукового сигнала, где спектр модуляции звукового сигнала включает ряд значений значимости, где значения значимости указывают относительную значимость соответствующих частот появления события в звуковом сигнале. В частности, метаданные могут включать данные, представляющие данные о темпе и данные спектра модуляции, генерируемые способами, описанными в настоящем документе.

Согласно еще одной особенности, описан аудиодекодер, сконфигурированный для генерирования кодированного битового потока звукового сигнала, включающего метаданные. Кодер может включать средства для кодирования звукового сигнала в последовательность данных полезной нагрузки, что, таким образом, приводит к кодированному битовому потоку; средства для определения метаданных, связанных с темпом звукового сигнала; и средства для вставки метаданных в кодированный битовый поток. Аналогично описанному выше способу, кодер может полагаться на уже существующий кодированный битовый поток, и кодер может включать средства для приема кодированного битового потока.

Следует отметить, что, согласно следующей особенности, описан соответствующий способ декодирования кодированного битового потока звукового сигнала и соответствующий декодер, сконфигурированный для декодирования кодированного битового потока звукового сигнала. Способ и декодер сконфигурированы для извлечения из кодированного битового потока соответствующих метаданных, в особенности, метаданных, связанных информацией о темпе.

Следует отметить, что варианты осуществления и особенности изобретения, описанные в данном документе, могут комбинироваться произвольно. В частности, следует отметить, что особенности и характерные признаки, описанные в контексте системы, также применимы и в контексте соответствующего способа и наоборот. Кроме того, следует отметить, что раскрытие настоящего документа также покрывает и иные сочетания пунктов формулы изобретения, чем те комбинации пунктов формулы изобретения, которые в прямой форме даны обратными отсылками в независимых пунктах формулы изобретения, т.е пункты формулы изобретения и их характерные технические признаки могут комбинироваться в любом порядке и в любой форме.

КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВ

Ниже настоящее изобретение будет описано посредством иллюстративных примеров, не ограничивающих объем или дух изобретения, с отсылкой к сопроводительным графическим материалам, где:

фиг.1 иллюстрирует пример резонансной модели для больших музыкальных коллекций в зависимости от отбиваемых темпов для единичного музыкального отрывка;

фиг.2 показывает пример чередования коэффициентов MDCT для коротких блоков;

фиг.3 показывает пример шкалы Mel и пример блока фильтров в шкале Mel;

фиг.4 иллюстрирует пример компандирующей функции;

фиг.5 иллюстрирует пример весовой функции;

фиг.6 иллюстрирует примеры энергетического спектра и спектра модуляции;

фиг.7 иллюстрирует пример элемента данных SBR;

фиг.8 иллюстрирует пример последовательности величин полезной нагрузки SBR и результирующий спектр модуляции;

фиг.9 иллюстрирует пример общего представления предлагаемых схем оценки темпа;

фиг.10 иллюстрирует пример сравнения предложенных схем оценки темпа;

фиг.11 иллюстрирует пример спектра модуляции для звуковых дорожек, имеющих различные размеры;

фиг.12 иллюстрирует пример экспериментальных результатов классификации воспринимаемых темпов; и

фиг.13 иллюстрирует пример блок-схемы системы оценки темпа.

ПОДРОБНОЕ ОПИСАНИЕ

Описанные ниже варианты осуществления изобретения являются единственно иллюстрациями принципов способов и систем для оценки темпа. Следует понимать, что модификации и изменения устройств и деталей, описанных в настоящем раскрытии, будут очевидны для специалистов в данной области. Поэтому намерение ограничивается только объемом нижеследующей формулы изобретения, но не конкретными деталями, представленными в данном раскрытии с целью описания и разъяснения вариантов осуществления изобретения.

Как указывалось во вводной части, известные схемы оценки темпа ограничены определенными областями представления сигнала, например, областью РСМ, областью преобразования или сжатой областью. В частности, не существует решения для оценки темпа, в котором его характерные признаки вычислялись бы непосредственно из сжатого битового потока НЕ-ААС без выполнения декодирования энтропии. Кроме того, существующие системы ограничены главным образом западной популярной музыкой.

Также существующие схемы не учитывают темп, воспринимаемый слушателями, и в результате возникают ошибки на октаву или неопределенность удваивания/уполовинивания периода. Указанная неопределенность может возникать в результате того, что в музыке различные инструменты играют с ритмами, периодичности которых являются неразрывно связанными кратными друг отн