Способ и электронное устройство для определения характеристики элемента контента
Иллюстрации
Показать всеИзобретение относится к способу и электронному устройству определения характеристики элемента контента. Техническим результатом является повышение точности поиска мультимедийных данных за счет использования при поиске дополнительного параметра. Способ включает выбор из элемента контента данных, представляющих множество звуков; определение характеристики каждого из множества звуков путем анализа указанных данных, каждая характеристика представляет собой временной аспект одного из множества звуков; определение меры ударности элемента контента, основываясь на множестве определенных характеристик, при этом мера ударности элемента основана на параметрическом описании временного аспекта множества звуков в области времени; определение жанра и/или тональности элемента контента, основываясь на мере ударности элемента контента этап, на котором определяют меру ударности элемента контента, содержит этап, на котором определяют первую особенность ударности и вторую особенность ударности элемента контента, и этап, на котором определяют жанр и/или тональность элемента контента, содержит этап, на котором сравнивают первую особенность ударности с характеристикой первого жанра или тональности и сравнивают вторую особенность ударности с характеристикой второго жанра или тональности. 5 н. и 4 з.п. ф-лы, 7 ил.
Реферат
Изобретение имеет отношение к способу определения характеристики элемента контента.
Изобретение дополнительно имеет отношение к способу поиска элемента контента во множестве элементов контента.
Изобретение также имеет отношение к программному обеспечению создания программируемого устройства, работающего для того, чтобы выполнить способ определения характеристики элемента контента и/или способ поиска элемента контента во множестве элементов контента.
Изобретение дополнительно имеет отношение к электронному устройству, содержащему электронную схему, где электронная схема функционирует для того, чтобы определить характеристику элементов контента.
Изобретение также имеет отношение к электронному устройству, содержащему электронную схему, где электронная схема функционирует для того, чтобы искать элемент контента во множестве элементов контента.
Изобретение дополнительно имеет отношение к электронной схеме для использования в электронных устройствах, где электронная схема функционирует для того, чтобы определить характеристику элемента контента или искать элемент контента во множестве элементов контента.
Пример такого способа известен из патента США 5918223. Способ, описанный в этом патенте, измеряет множество акустических особенностей звукового файла, выбранного из группы, состоящей из по меньшей мере одного элемента из громкости, шага, яркости, пропускной способности и коэффициентов MFCC. Измерения, вычисленные, основываясь на этих особенностях, используются для группы звуковых файлов. Это является недостатком этого способа, так как его особенности низкого уровня недостаточны для того, чтобы позволить пользователю искать и находить все песни, соответствующие его персональным настройкам.
Патент США 6476308 B1 раскрывает способ, направленный на классификацию музыкальной части, основанной на определенных характеристиках для каждого из множества нот, содержавшихся в этой части. Примеры показывают тот факт, что в непрерывном музыкальном отрывке начальные и конечные точки нот могут накладываться на предыдущие ноты, следующую ноту или ноты, которые играются параллельно одним или более инструментами. Это усложнено дополнительным фактом, что различные инструменты производят ноты с сильно различными характеристиками. Например, ноты со стадией поддержки, типа созданных трубой или флейтой, обладают высокой энергией в середине стадии поддержки, в то время как ноты без стадии поддержки, типа созданных фортепьяно или гитарой, обладают высокой энергией в стадии атаки, когда нота сначала генерируется.
Первой целью изобретения является обеспечение способа вида, описанного во вводном параграфе, который определяет характеристику, которая может использоваться, чтобы искать и находить больше песен, соответствующих персональным настройкам пользователя.
Второй целью изобретения является обеспечение электронного устройства вида, описанного в вводном параграфе, которое способно к определению характеристики, которая может использоваться для того, чтобы искать и находить больше песен, соответствующих персональным настройкам пользователя.
Первая цель, согласно изобретению, реализуется тем, что способ содержит этапы, на которых выбирают из элемента контента данные, представляющие множество звуков, определяют характеристики каждого из множества звуков, анализируя указанные данные, без определения типа источника звуков, такого как музыкальный инструмент, каждая характеристика представляет временной аспект одного из множества звуков и определяет меру ударности элемента контента, основываясь на множестве определенных характеристик. Способ определяет меру ударности элемента контента, например файла MP3, видеомузыки или звуковой дорожки кино. Изобретатели распознали, что потребители могут не только распознать, является ли инструмент ударным или нет, но что они также в состоянии распознать меру ударности для целого элемента контента. Поскольку мера ударности является особенностью высокого уровня, это хорошо подходит для использования в поиске и нахождении песен, соответствующих персональным настройкам пользователя, вместо или в дополнение к другим особенностям, таким как темп, например. Кроме того, эта мера ударности может использоваться для нахождения подобной музыки, основываясь на начальной песне и/или автоматической установке параметров звуковых алгоритмов манипуляции динамикой, подобных управлению ограничения/компрессии/громкости.
В варианте воплощения способа изобретения этап определения меры ударности элемента контента содержит определение процентного содержания. Для примера, элемент контента может быть на 75% ударным и на 25% неударным, или на 50% ударным и негармоническим, на 30% ударным и гармоническим и на 20% неударным. Когда это процентное содержание используется в запросах поиска, сначала пользователь, возможно, не знает отношения между ударностью и элементами контента, которые имеют эту меру ударности. Однако когда пользователь экспериментирует с этим критерием поиска, он быстро изучит это отношение.
Альтернативно или дополнительно, этап определения меры ударности элемента контента содержит определение доминирующего инструмента. Доминирующий инструмент, выбранный пользователем, может быть переведен в диапазон ударности, который может использоваться для поиска элемента контента во множестве элементов контента. При поиске элементов контента, которые имеют ударность в этом диапазоне, вероятно, не будут найдены все элементы контента с указанным доминирующим инструментом и, вероятно, элементы контента с другим доминирующим инструментом будут также перечислены среди найденных элементов контента, выбор доминирующего инструмента может быть более понятным для пользователей, чем выбор процента.
Способ может также содержать этап определения жанра и/или тональности элемента контента, основываясь на мере ударности элемента контента. Эксперименты показали, что эта мера ударности может использоваться для обнаружения жанра с хорошими результатами, обнаруживая один жанр музыки из других и различия между двумя жанрами музыки. Поскольку способ определения тональности подобен способу определения жанра, эта мера ударности, как также ожидают, приведет к хорошим результатам при использовании для определения тональности. Другие характеристики элемента контента могут дополнительно использоваться для обнаружения жанра и/или тональности, но этого не требуется.
Этап определения характеристики элемента контента может содержать определение первой характеристики и второй характеристики элемента контента, и этап определения жанра и/или тональности элемента контента может содержать сравнение первой характеристики с характеристикой первого жанра или тональности и сравнения второй характеристики с характеристикой второго жанра или тональности. Мера ударности элемента контента может быть основана на одной или более особенностях ударности. Некоторые особенности ударности лучше удовлетворяют обнаружению первого жанра музыки из других или различию между первым жанром музыки и вторым жанром музыки, в то время как другие особенности ударности лучше удовлетворяют обнаружению второго жанра из прочих или различию между вторым жанром музыки и третьим жанром музыки.
Этап определения характеристики каждого из множества звуков может содержать определение характеристики первой фазы каждого из множества звуков и характеристики второй фазы каждого из множества звуков. Эксперименты показали, что сегментируя звук в по меньшей мере фазу атаки и одну или более других фаз, подобных фазам, используемым в технологии синтезатора (Нападение, Распад, Выдержка и Отпуск), и определение особенностей ударности каждой из отдельных фаз приводит к лучшим особенностям ударности.
Вторая цель, согласно изобретению, реализуется в том, что электронное устройство содержит электронную схему, которая функционирует для того, чтобы выбрать из элемента контента данные, представляющие множество звуков, определить характеристику каждого из множества звуков, анализируя указанные данные, без определения типа источника звуков, такого как музыкальный инструмент, каждая характеристика представляет временной аспект одного из множества звуков и определения меры ударности элемента контента, основываясь на множестве определенных характеристик.
Эти и другие аспекты способа и электронного устройства изобретения будут далее объяснены и описаны в отношении чертежей, в которых:
Фиг.1 - блок-схема способа определения характеристики элементов контента;
Фиг.2 - блок-схема воплощения способа по Фиг.1;
Фиг.3 показывает примеры звуков, которые были сегментированы в три фазы;
Фиг.4 показывает пример характеристик, определенных для одного из звуков по Фиг.3;
Фиг.5 показывает уравнения, используемые в варианте воплощения по Фиг.2;
Фиг.6 показывает результаты различий между двумя жанрами; и
Фиг.7 - блок-схема электронного устройства изобретения.
Соответствующие элементы в чертежах идентифицированы одной и той же ссылочной позицией.
Обратимся к Фиг. 1 и 2, где способ изобретения содержит этап 1 выбора данных, представляющих множество звуков, из элемента контента, этап 3 определения характеристики каждого из множества звуков, анализируя указанные данные, где каждая характеристика представляет временной аспект амплитуды одного из множестве звуков, и этап 5 определения характеристики элемента контента, основываясь на множестве определенных характеристик. Способ может дополнительно содержать этап 7 определения жанра и/или тональности элемента контента, основываясь на характеристике элемента контента.
Определенная характеристика элемента контента и/или определенного жанра и/или тональности может быть связана с элементом контента как значение параметра. Это значение параметра может быть сохранено в списке музыкальных произведений, в описании файла или в базе данных системной службы, например. Это значение параметра может использоваться в способе поиска элемента контента во множестве элементов контента, где каждый элемент контента во множестве элементов контента связан со значением признака. Способ находит элементы контента, которые связаны со значением признака, которое является подобным желательному значению признака. Множество элементов контента может быть частью большей коллекции элементов контента, в которых некоторые элементы контента не связаны со значением признака. Способ может быть выполнен, например, системной службой или пользовательским электронным устройством.
Определенная характеристика звука является мерой тембра звука и, в особенности, мерой ударности звука. Определение для тембра дается Американским Национальным Институтом Стандартизации (ANSI):..., что признак слуховой чувствительности, о терминах которой слушатель может судить, что два звука, подобным образом представленные и имеющие одну и ту же громкость и шаг, являются отличными. Обычная интерпретация этого определения звучит так: тембр помогает отличать звуки, исходящие из двух типов инструментов, проигрывая одну и ту же ноту на одном и том же уровне.
И определение, и интерпретация указывают, что довольно трудно описать тембр с одной единственной характеристикой. В тембре есть по меньшей мере два главных действия исследований, которые подтверждают это:
1. Восприятие тембра: используя перцепционные эксперименты, множество исследований идентифицировало те свойства сигнала, которые вносят свой вклад в восприятие тембра. Несколько спектральных характеристик, таких как число и организация спектральных компонентов, но также и временных параметров, таких как время атаки, являются самыми важными.
2. Звуковое моделирование: параметры, определенные в вышеупомянутых исследованиях, извлечены из звуковых сигналов и затем используются для целей моделирования. Эти модели обычно используются или для того, чтобы (заново) синтезировать звуки, или для классификации и идентификации звуков.
Есть несколько исследований, где были сделаны автоматическая классификация и идентификация звуков, основываясь на параметрах тембра. Но большинство публикаций имеет дело с классификацией отдельных гармонических или ударных инструментальных звуков. Кроме того, есть первые попытки, которые пробуют использовать эти подходы для простых многотембровых фраз. Однако автоматическая идентификация музыкального инструмента в полифоническом потоке аудиомузыки является в настоящее время нерешенной. Причина этого состоит в том, что в полифонической музыке каждый сталкивается с накладывающимися инструментами, и в современной музыке также с синтезируемыми или управляемыми звуками, которые изменяют свой тембр в течение игры. Известные особенности тембра типично относятся к единственному монофоническому инструменту и нелегко применить такие звуки. Это означает, что есть потребность в более общих особенностях, которые описывают тембр произвольных звуковых текстур без определения исходного типа (например, музыкального инструмента) непосредственно. Способ изобретения использует ударность звука, чтобы описать тембр звука. Средство ударности необязательно является звуком, исходящим из ударного инструмента. Это скорее термин, используемый для короткого звука, имеющего острую характеристику спада атаки. Значение термина ударность может быть проиллюстрирована со следующими четырьмя примерами:
1. Звук флейты: можно было бы классифицировать это как типичный неударный звук.
2. Барабан: можно было бы классифицировать это как типичный ударный звук.
3. Игра виолончели (струна возбуждается смычком): можно было бы классифицировать это как типичный неударный звук.
4. Та же самая виолончель, но на сей раз пиццикато (струна щиплется пальцами): можно было бы согласиться, что звук теперь более ударный, чем предыдущий. Причина состоит в том, что звук имеет теперь другую временную характеристику, тогда как спектральная структура остается в основном той же самой. Теория сигнала заявляет, что модуляция области времени затрагивает спектр постоянного тона. Поэтому это дает средство, которым оба сигнала (звучащая и щипнутая струна) имеют ту же самую основную организацию (например, регулярность) спектральных компонентов.
Эти примеры показывают, что ударность может быть определена как обобщенное описание для обертки сигнала. Таким образом, это является чистой особенностью области времени. На этом определении ударность относится к обертке звука, и желательные особенности должны поэтому сформировать параметрическое описание этой обертки. В варианте воплощения способа первое четырехфазное приближение обертки сигнала, известного из технологии синтезатора (атака, спад, выдержка и затухание), применено. Но по вычислительным причинам это объединяет части обертки спада и выдержки, приводя к трем фазам атаки (A), спада & выдержки (D&S) и затухания (R). Во-вторых, вычисляются несколько особенностей, которые относятся к продолжительности времени, различиям уровня и формы кривой этих фаз. Фиг.3 показывает схематично этот принцип для обертки двух различных звуков.
Первый этап определения желательного A-D&S-R приближения должен определить начало фаз и точки конца. Эти временные события могут быть обнаружены способом, подобным способу, предложенному Jensen ((Timbre Models of Musical Sounds, PhD. Dissertation, Department of Datalogy, University of Copenhagen, DIKU Report 99/7,1999). Основной идеей является процесс из двух стадий: сначала вычисляют грубое приближение обертки и определяют желательные точки начала и конца; потом корректируют эти точки, шаг за шагом используя все меньше и меньше приближенные версии обертки, пока несглаженный случай не будет достигнут.
Процедура Jensen обнаружения временных случаев плохо сглаженных оберток была разработана для отдельных гармонических компонентов звука. Он вычислил первую производную сглаженной обертки и использовал другие производные пороги для того, чтобы найти хороших кандидатов на желательные точки начала и конца. Jensen показывал, что этот способ производной позволяет лучше обнаружить реальные R-фазы для инструментов спада (как фортепьяно), чем более простой способ, использующий пороги уровня (10% максимума - начало атаки, 90% - конец атаки и так далее). Однако подход Jensen должен быть изменен для того, чтобы работать с широкополосными сигналами: сначала сглаженная обертка должна быть получена, вычисляя абсолютные значения сигнала (и полуволновые, и полноволновые исправления могут использоваться), сопровождаемые низкой фильтрацией прохода с низкой частотой останова. Кроме того, необходимо расширение способа для обнаружения желательных временных событий, потому что оставшиеся замечательные структуры обертки приводят к неправильным обнаружениям. Поэтому комбинации порогов для первой производной и для самой обертки должны использоваться (см. Фиг.4):
1. Поиск событий времени A-фазы:
(a) Поиск 'середина атаки' (moa):
'Середина атаки' - это точка, где обертка env(t) имеет сильное увеличение уровня, означающее, что первая производная d/dt env(t) имеет локальный максимум, и где обертка имеет справедливое значение. Разумное значение обертки определено: последний кандидат перед локальным максимумом обертки лежит выше определенного порога для первого времени: local_max (env(t))≥env critmoa = 0,25·max(env(t)).
(b) начало Поиска атаки (soa):
Начиная с moa, возвращаемся обратно, пока производная и критерий обертки не выполнены. Условие производной: d/dt env(t)≤d_critsoa = 0,1*max(d/dt env(t)). Условие обертки: env(t)≤env_critsoa = 0,25*max(env(t)).
(c) конец Поиска атаки (eoa):
Начиная с moa, двигаемся вперед, пока производная и критерий обертки не выполнены. Условие производной: d/dt env(t)≤d_critsoa = 0,1*max (d/dt env(t)). Условие обертки: env(t)≥env_critsoa = 0,75*max (env(t)).
2. Поиск на временных событиях R-фазы:
(a) Поиск 'на середине затухания' (mor):
'Середина затухания' - это когда точка, где обертка имеет крутое уменьшение уровня, означающее, что первая производная имеет локальный минимум ниже нуля, и где обертка имеет разумное значение. Разумное значение обертки определено как: первый кандидат после локального максимума обертки был выше определенного порога в последний раз: local_max (env(t))≥env_critmor = 0,3*max(env(t)).
(b) Поиск начала затухания (sor):
Начиная с mor, двигаемся назад, пока производная и критерий обертки не выполнены. Условие производной: d/dt env(t)≥d_critsor = 0,2*min (d/dt env(t)). Условие обертки: env(t)≥env_critsor = 0,25*max(env(t)).
(c) Поиск конца затухания (eor):
Начиная с moa, идти вперед, пока производная и критерий обертки не выполняются. Условие производной: d/dt env(t)≥d criteor = 0,1*max (d/dt env(t)). Условие обертки: env(t)≤env_criteor = 0,1*min(env(t)).
3. Определение временных событий D&S-фазы:
20. Начало D&S - конец атаки (eoa), и конец D&S - начало затухания (sor).
Отметим, что значения критериев были найдены, проверяя алгоритм приблизительно с 40 различными инструментальными звуками. Однако, используя дополнительный исследовательский материал, другие значения для критериев могут быть найдены, что может привести к еще лучшему выполнению обнаружения. Во втором шаге для настройки найденных событий времени к несглаженному событию используется итерационная процедура. Итерация за итерацией менее сглаженной версии обертки вычисляется при использовании различных частот останова низкопроходного фильтра при вычислении обертки (чтобы избежать различных запаздываний оберток, введенных другими фильтрами, применена неприведенная фильтрация, что предотвращает задержки, вызванные фильтрами). Тогда события времени (soa, eoa, sor, eor) корректируются, используя критерий времени и уровня: новый кандидат не должен быть слишком далеко от прежнего временного события ( | tnew - toldj\≤1024 образца~23 мс), и его новая обертка оценивается не слишком далеко от прежнего значения обертки (0,9*env old ≤env new<1,5 *env old). Вновь эти критерии были получены, проверяя алгоритм с вышеупомянутыми звучаниями инструментов, и другие значения для критериев могут быть найдены, что может привести к еще лучшему выполнению обнаружения.
Как только вышеупомянутые начальные и конечные точки найдены, трехфазное приближение обертки сигнала может быть применено. Чтобы найти эффективное параметрическое описание обертки, приближение формы кривой, предложенное Jensen, применяется для каждой фазы, которая может быть описана с одним единственным параметром n (см. уравнение 2.1 из Фиг.5).
Граничные условия νO и ν1 являются значениями обертки для начальной и конечной точек фазы. Переменная x - время, нормализованное между нулем и единицей (t = start -> x = 0, t = end -> x = 1). Скалярный параметр n определяет форму кривой: Если n равно 1, тогда форма кривой линейна; если n является меньшим, чем 1, то форма кривой имеет показательную характеристику; и если n больше, чем 1, то форма кривой является логарифмической. Оптимальный параметр формы кривой nopt найден, минимизируя ошибку наименьшего квадрата между получающейся формой кривой и обертки (см. уравнения 2.2 и 2.3 из Фиг.5).
Результатом является трехфазное параметрическое описание с обертки с 11 параметрами:
• временные события: soa, eoa, sor, eor
• значения уровня: env (soa), env (eoa), env (sor), env (eor)
• оптимальные параметры формы кривой для каждой фазы: nA, nD&S, nR
Вышеупомянутое описанное A-D&S-R приближение спроектировано для того, чтобы вычислить параметрическое описание обертки в одной полосе по целому частотному диапазону, но этот способ также может использоваться в многополосном анализе.
В подходе Jensen параметрическое описание обертки было вычислено для отдельных спектральных компонентов сигнала. Этот подход был оптимизирован для его задачи, потому что он сконцентрировался на (квази-) гармонических инструментах, таких как фортепьяно, флейта, скрипка и т.д. Но когда также имеется противостояние с негармоническими или смешанными гармоническими и негармоническими звуками, должен быть применен многополосный анализ, использующий более широкие полосы, когда объединяется все покрытие целого частотного диапазона от 0 до 22050 Гц. С этой целью алгоритм фильтрует сигналы с банком фильтра (линейные фазовые фильтры FIR с ERB-нормой, масштабирующие пропускную способность и приблизительно прямоугольные полосы), и вычисляет параметры A-D&S-R для каждого вывода фильтра отдельно.
Осуществленный алгоритм выделения признаков был проверен с отдельными звуками инструментов в некоторых предварительных экспериментах с хорошими результатами. Чтобы использовать осуществленную особенность алгоритма извлечения с полифонической музыкой, следующие этапы должны быть выполнены:
1. Нарезать непрерывную музыку или звуковой поток на части, начинающиеся при появлении начала и заканчивающиеся в следующих началах.
2. Применить A-D&S-R приближение и вычислить особенности оценки ударности для каждой звуковой части.
Чтобы нарезать непрерывные звуки в полезные части, расширенный алгоритм должен обнаружить начала в звуковом потоке и затем вырезать эти звуки вокруг этих начал таким способом, чтобы приближение могло работать должным образом. Для обнаружения начала используется доступный способ, осуществленный Schrader (Detecting and interpreting musical note onsets in polyphonic music, masters thesis, department of electrical engineering, TU Eindhoven, 2003), который обеспечивает временные события начала. Так как обнаруженные временные события весьма часто указывают больше на середину начала, алгоритм должен вырезать звуковой поток в более ранней адекватной точке. С этой целью вычисляется сглаженная обертка области интереса сигнала и выбирается следующий минимум как желательная точка вырезки.
Помимо осуществления вышеуказанной функции разрезания, должен быть изменен алгоритм приближения, потому что первая версия для отдельных инструментальных звуков имела трудности с извлеченными звуковыми частями. Причина в том, что критерии обертки, используемые для обнаружения soa и eoa, неприменимы для звуковых частей. Положим, что критерии были получены с помощью звукового файла, имеющего структуру 'пауза-звук-пауза'. Впоследствии уровни обертки в soa и точках eor были весьма низки относительно максимального звукового уровня. Но для извлеченных звуковых частей уровни в soa и точках eor намного выше, потому что в полифонической музыке нет почти никаких пауз сигнала между двумя смежными началами, по меньшей мере, если только одна полоса используется для целого частотного диапазона. Поэтому критерии обертки расширены термином исправления, который рассматривает минимальный уровень обертки звуковой части.
Из полученных параметров A-D&S-R был вычислен обширный список особенностей, которые выглядели многообещающими для наших задач классификации:
• Группа 1: особенности низкого уровня в A-D&S-R фазе (вычисление отдельной полосы):
- продолжительность времени фазы ('t')
- различие уровня между точкой начала и конца фазы ('d')
- крутизна фазы ('d/t')
• Группа 2: описание формы кривой в A-D&S-R фазе (вычисление отдельной полосы):
- Параметр формы кривой n фазы
- Дополнительный параметр, который описывает ошибку между кривой приближения и реальными обертками сигнала: Это является параметром, основанным на функции автокорреляции (ACF) функции ошибки в уравнении 2.3 из Фиг.5. Параметр является высотой первого пика около точки нулевой задержки развитой функции связи. Это описывает "силу" периодичности функции ошибки и поэтому называется "регулярностью ошибки".
• Группа 3: особенности, которые описывают асинхронные точки начала и конца фаз в полосе (многополосное вычисление): Асинхронное было определено как отклонение временных событий sао, eoa, sor и eor в одной полосе от их среднего значения по всей полосе (Все фильтры банка фильтров являются линейными фильтрами FIR фазы, имеющие тот же самый порядок, что означает, что они все вызывают ту же самую постоянную задержку. Поэтому асинхронность, измеренная здесь, является фактически асинхронностью компонентов сигнала). По такому вычислению значения асинхронности в полосе вычисляются две скалярные особенности:
Среднее асинхронности по полосам
дисперсия асинхронности по полосам
• Группа 4: средние значения по полосам особенностей группы 1, которые были вычислены в полосе заранее (многополосное вычисление)
• Группа 5: средние значения по полосам особенностей группы 2, которые были вычислены в полосе заранее (многополосное вычисление)
• Группа 6: значения расхождения по полосам особенностей группы 1, которые были вычислены в полосе заранее (многополосное вычисление)
• Группа 7: значения расхождения по полосам особенностей группы 2, которые были вычислены в полосе заранее (многополосное вычисление)
• Группа 8: особенности, которые описывают "форму" значений особенности группы 1 по всем полосам:
Форма означает распределение значений особенности полосы, когда они составляют график как функцию слышимой полосы. Форма описана двумя параметрами, подобными параметру формы кривой и упомянутому выше параметру ошибки регулярности:
- Один параметр, который описывает приближение формы, используя линейные кривые. Параметр - градиент m линейного приближения.
- Один параметр, описывающий регулярность ошибки между формой и линейным приближением. Его вычисление подобно параметру ошибки регулярности; основывается на развитой функции связи между линейным приближением и реальной формой.
• Группа 9: параметры формы для особенностей группы 2.
Вместо предварительно описанного приближения с тремя фазами, которое может хорошо иметь дело со звуками, которые позволяют ясное различие между D&S-фазой и R-фазой (например, звук флейты), также может использоваться двухфазное приближение. Это приближение выгодно для звуков, которые имеют только затухающую обертку, означающую, что D&S-фаза и R-фаза не могут быть соответственно выделены (например, барабанный звук). Поэтому интересно посмотреть, как выделение признаков работало бы, если бы D&S и R-фазы были объединены в одну фазу. Комбинация была бы довольно простой: получающаяся фаза начинается в конце атаки eoa и идет до конца затухания eor. Так как эта фаза описывает остальную часть сигнала после A-фазы, эту фазу называют Остаточной фазой атаки (AR).
Применяя это двухфазное приближение, получены разновидности девяти упомянутых выше групп особенности. Теперь все особенности, относящиеся к D&S и R-фазам, обмениваются с соответствующими особенностями Фазы AR. Чтобы отличать их от оригинального приближения с тремя фазами, эти группы обозначены со звездочкой:
"группа 1 *", "группа 2 *" и т.д. Отметьте, что связанные A-фазой особенности в этих новых группах - те же самые, как и прежде, и поэтому они не должны быть вычислены снова.
Кроме того, все многополосные особенности были вычислены, используя оба способа приближений (группа 3, группы 4-9, группы 4*-9 *) для трех различных номеров полос: 4, 12 и 24. Чтобы указывать, какой номер полосы принадлежит упомянутым группам особенности, каждая группа обозначена следующим образом: "группа X.l" для 4 полос, "группа X.2" для 12 полос и "группы X.3" для 24 полос.
В варианте воплощения способа изобретения двухступенчатый процесс используется для того, чтобы определить жанр и/или тональность элемента контента:
1. Извлечение звуковых событий из звукового потока (шаг 21 из Фиг.2) и оценка их ударности, используя соответственно обучаемый классификатор (шаги 23 и 25 из Фиг.2).
2. Вычисление вторичных особенностей (например, статистически) по этим оценкам ударности данного звукового файла (шаг 27 из Фиг.2), и использование этих вторичных особенностей для конечной классификации звукового файла (шаг 29 из Фиг.2).
Например, если один звуковой поток состоит приблизительно из 80% ударных звуков, другие приблизительно из 30%, то первый мог бы быть, вероятно, латинской музыкой, в то время как вторым могла бы быть классическая музыка.
Отметим, что этот двухступенчатый процесс является фактически своего рода иерархическим алгоритмом классификации, который состоит из двух стадий классификации: предсказание ударности и предсказание звукового класса. Конечно, первый этап мог быть пропущен, и особенности ударности могли использоваться непосредственно, чтобы классифицировать звуковой класс. Но это привело бы к рассеянному представлению ударности извлеченных звуковых событий. Поскольку ударность представляется как материальная особенность звуковой классификации, такой альтернативный подход классификации с одним шагом был опущен.
Следующая таблица перечисляет четырнадцать прогнозов ударности, то есть классификаторов, которые предсказывают ударность отдельных извлеченных звуков:
№ предсказания | Число классов предсказания | Набор особенностей |
1 | 3 | Group 1 |
2 | Group 2 | |
3 | Group 4.3 | |
4 | Group 5.3 | |
5 | Groups 1 & 2 | |
6 | Groups 4.3 & 5.3 | |
7 | Groups 1,2,4.3 & 5.3 | |
8 | 2 | Group 1 |
9 | Group 2 | |
10 | Group 4.3 | |
11 | Group 5.3 | |
12 | Groups 1 & 2 | |
13 | Groups 4.3 & 5.3 | |
14 | Groups 1,2,4.3 & 5.3 |
Эти четырнадцать прогнозов используют различные комбинации предварительно отобранных наборов признаков и двух различных путей маркирующего класса. Основанные на предсказаниях ударности для звуковых файлов, вторичные особенности должны быть вычислены для того, чтобы определить конечную классификацию звука. Двухступенчатый процесс Фиг.2 может быть осуществлен следующими этапами:
1. События звука извлекают из приблизительно 6-тисекундных частей звукового файла.
2. Предсказывают ударность каждого извлеченного звука, используя вышеупомянутые прогнозы.
3. Вычисляют проценты в звуковом файле, как часто звуки назначаются к другим классам ударности, например 50% ударных и негармонических, 30% ударных и гармонических, 20% неударных.
4. Использовать два из трех процентов как вторичные особенности, так как третье следует из линейной комбинации отобранных двух (особенность 1 + особенность 2 + особенность 3 = 1 выдерживается всегда).
Эксперименты показали: эти вторичные особенности могут использоваться, чтобы определить жанр элемента контента с хорошими результатами, если используется один из следующих подходов:
1. Обнаружить один жанр музыки из другого.
Это означает, что звуковой файл одного жанра музыки назначен классу 1, в то время как звуковой файл оставшихся 13 жанров назначен классу 2. Это может быть повторено для всех 14 жанров, которые рассматривают в этих экспериментах.
2. Различить между двумя жанрами музыки.
Это означает, что два жанра музыки классифицированы, в то время как другой звуковой файл исключен. Это может быть повторено для всех комбинаций жанра музыки.
Следующая таблица показывает точности обнаружения одного жанра музыки из других:
Жанр музыки | Лучшее предсказание | Средняя производительность |
Classical | 11 | 86,00±6,17% |
Jazz | 11 | 68,86±8,28% |
Pop | 8 | 65,23±6,87% |
Country | 3 | 63,24±13,83% |
Folk | 13 | 65,75±10,32% |
New age | 6 | 77,29±12,07% |
Electronica | 13 | 70,73±8,69% |
Latin | 12 | 71,86±10,95% |
R&B | 6 | 74,44±7,94% |
Rock | 3 | 64,72±9,97% |
Rap | 7 | 77,76±8,85% |
Reggae | 3 | 79,81±9,78% |
Vocal | 8 | 84,29±8,34% |
Easy Listening | 8 | 74,18±13,48% |
Эта таблица указывает, что Классическая (classic) и Вокальная (vocal) музыка могут быть обнаружены приблизительно с 85%-ной точностью, сопровождаемые музыкой Reggae почти с 80%. По контрасту - Pop, Country, Folk и Rock-музыка не могут быть разумно обнаружены с описанным алгоритмом ударности, потому что их точность с 60-65% - немного выше шанса.
Фиг.6 показывает матрицу с дискриминационным выполнением. Номера, изображенные в областях ниже главной диагонали - средняя точность дискриминации каждой пары класса, в то время как номера выше главной диагонали обозначают лучший прогноз для каждой пары класса. Достигнутая дискриминационная точность отличается довольно сильно. Для некоторых жанров музыки комбинаций почти отсутствие дискриминации является возможным (60%). Например, Classical против New Age или Vocal, Rap против Electronica, Latin или R&B. Но для других пар классов достигнуты очень хорошие результаты (90-99%), например, Classical или New Age против Rap, Reggey или Electronica.
Так как жанры музыки, как classical или vocal, обычно состоят только из нескольких ударных звуков, в то время как жанры, такие как Rap или Electronica, очень ритмично ориентированы (множество ударных инструментов), обнаружение и результаты дискриминации разумны. Впоследствии описанный алгоритм ударности способен к обнаружению и дифференциации, по меньшей мере, между некоторыми жанрами музыки. Чтобы сохранять четкость и видимость, перечислены/показаны только результаты лучшего прогноза выполнения в каждом случае.
Обратимся к Фиг.7, где электронное устройство 51 изобретения содержит электронную схему 53. Электронная схема 53 может функционировать для того, чтобы выбрать представление данных множества звуков из элемента контента, определить характеристику каждого из множества звуков, анализируя указанные данные, где каждая характеристика представляет собой временной аспект амплитуды одного из множества звуков, и определить характеристику элемента контента, основываясь на множестве определенных характеристик.
Дополнительно или альтернативно, электронная схема 53 может функционировать для поиска элемента контента во множестве элементов контента, где каждый элемент контента во множестве элементов контента связан с признаком оценки, и найденный элемент контента связан со значением признака, которое является подобным желательному значению признака. Значение параметра указанного элемента контента является характеристикой указанных элементов контента или основано на характеристике указанного элемента контента. Указанная характеристика сказанного элемента контента была определена предс