Способ локализации источника звука и гуманоидный робот, использующий такой способ
Иллюстрации
Показать всеИзобретение относится к акустике, в частности к способу пеленга направления на источник звука. Способ локализации предполагает прием звуковых сигналов от источника с помощью набора из трех микрофонов, выбор трех пар микрофонов и для каждой из пар расчет обобщенной взаимной корреляции звуковых сигналов. Расчет осуществляют для множества значений межслуховых разниц во времени, на основании обобщенных взаимных корреляций рассчитывают направленную мощность отклика, определяют вектор межслуховых разниц во времени, который соответствует максимуму направленной мощности отклика, оценивают направление локализации источника звука в зависимости от вектора межслуховых разниц во времени. При расчетах используется множество векторов задержек, формирующих два набора векторов. Первый набор для сигналов, принимаемых от единственного источника звука, на бесконечном удалении от микрофонов и второй набор для векторов, не совместимых со звуковыми сигналами, происходящими от единственного источника. Каждый вектор первого поднабора связан с направлением локализации единственного источника звука, и каждый вектор второго поднабора связан с направлением локализации, связанным с вектором указанного первого поднабора, который к нему наиболее близок согласно евклидовой метрике. Технический результат – повышение точности локализации, упрощение вычислений 2 н. и 8 з.п. ф-лы, 12 ил., 1 табл.
Реферат
Изобретение относится к способу для пространственной локализации источника звука, а также к гуманоидному роботу, который может осуществить и использовать такой способ.
Пространственная локализация источника звука необходима во многих областях, в частности, но не только, в гуманоидной робототехнике.
Робот может быть назван гуманоидным при условии, что он обладает некоторыми атрибутами внешнего вида и функциям человека: голова, туловище, две руки, возможно две ноги, и т.д. Как правило, от гуманоидного робота требуется способность взаимодействовать с людьми настолько "естественно", насколько это возможно, замечать присутствие человека, понимать его язык, участвовать в разговоре с ним и т.д. Способность локализовать источники звука очень полезна, даже необходима, для достижения этой цели. Действительно, такая возможность может позволить гуманоидному роботу определить направление, откуда распространяется звук, и повернуть свою голову в этом направлении; если звук был произведен человеком, робот может затем активировать программное обеспечение для распознавания лиц, настроить оптимальным образом систему распознавания голоса, следовать “взглядом” за перемещениями человека, и т.д.
Из предшествующего уровня техники известны несколько способов и систем определения пространственного расположения одного или нескольких звуковых источников. Эти способы и системы, как правило, основываются на множестве мало или ненаправленных микрофонов и цифровой обработке сигналов, уловленных указанными микрофонами.
Статья J. DiBiase и др «Robust localization in reverberant rooms» («Надежная локализация в реверберационных камерах») в работе «Microphone arrays: Signal Processing Techniques and Applications» («Микрофонные решетки: Методы обработки сигналов и их применение»), опубликованной под редакцией M.S.Brandstein и D.B. Ward par Springer-Verlag, 2001, Берлин, Германия, описывает три основных подхода к локализации источника звука.
Первый подход использует методы спектрального оценивания, основанные на матрице корреляции сигналов, уловленных микрофонами. Методы, основанные на этом подходе, как правило, чувствительны к ошибкам моделей и очень требовательны к вычислительной мощности. Они подходят, в основном, для узкополосных сигналов.
Второй подход основывается на оценке временных сдвигов между звуковыми сигналами, полученными парами микрофонов (TDOA, от «Time Difference Of Arrival», другими словами, «разность во времени приема сигнала»). Эти оценки используются совместно со знанием положений микрофонов для расчета гиперболических кривых, пересечение которых дает положение источника. Временные сдвиги могут быть оценены с помощью способа, называемого PHAT-GCC (от «PHAse Transform - Generalized Cross-Correlation», или «фазовое преобразование - обобщенная взаимная корреляция»), который использует расчет взаимной корреляции - или кросс-корреляции - между сигналами, предварительно «отбеленными» фильтрацией. Способ PHAT-GCC описан более подробно в статье Ch. H. Knapp и G. C. Carter «The Generalized Correlation Method for Estimation of Time Delay» («Обобщенный способ корреляции для оценки временной задержки»), IEEE Transaction on Acoustics, Speech and Signal Processing, Vol. ASSP-24, No. 4, август 1976 pp. 320-327. Эти методы вычислительно легки, но не устойчивы к коррелированному шуму из нескольких источников и подвержены «ложным срабатываниям». Кроме того, они малоустойчивы к реверберации, за исключением способа PHAT-GCC.
Третий подход заключается в синтезе направленного акустического луча, путем сложения сигналов, уловленных различными микрофонами, к которым применен переменный временной сдвиг, и определении ориентации луча, что максимизирует мощность составного сигнала, полученного таким образом. Методы, основанные на этом подходе, как правило, слабо устойчивы к реверберациям и шуму, за исключением некоторых вариантов, которые тем не менее очень требовательны к вычислительной мощности.
В статье описывается, в частности, способ, сочетающий синтез направленного акустического луча и обобщенной взаимной корреляции с преобразованием фазы. Этот метод назван SRP-PHAT (от «Steered Response Power - PHAse Transform» или «направленная мощность ответного сигнала - преобразование фазы»). Относительно метода PHAT-GCC он более устойчив к шуму, но более чувствителен к реверберации.
Целью настоящего изобретения является обеспечение способа локализации источника звука, имеющего лучшие свойства устойчивости одновременно к шуму и реверберации, по сравнению с известными способами предыдущего уровня техники, в то же время достаточно легкого с вычислительной точки зрения для осуществления во встраиваемой системе, такой как гуманоидный робот, в режиме реального времени и параллельно с другими задачами.
В соответствии с изобретением эта задача решается с помощью способа, производного от указанного выше метода SRP-PHAT и гуманоидного робота, включающего в себя средства для осуществления этого способа.
Таким образом, объектом настоящего изобретения является способ локализации источника звука, включающий этапы, на которых:
a) улавливают звуковые сигналы от источника звука, подлежащего локализации, с помощью набора из по меньшей мере трех микрофонов;
b) выбирают по меньшей мере три пары микрофонов из указанного набора микрофонов и, для каждой указанной пары, рассчитывают обобщенную взаимную корреляцию уловленных звуковых сигналов, указанный расчет осуществляют для множества значений задержки, - называемой межслуховой разницей во времени, - между указанными звуковыми сигналами;
c) на основании указанных обобщенных взаимных корреляций рассчитывают направленную мощность отклика, выраженную в зависимости от вектора межслуховых разниц во времени для каждой указанной пары микрофонов;
d) определяют вектор межслуховых разниц во времени, который максимизирует указанную направленную мощность отклика; и
e) оценивают направление локализации указанного источника звука в зависимости от вектора межслуховых разниц во времени, определенного во время указанного этапа d),
отличающийся тем что:
- указанные этапы c) и d) осуществляют, рассматривая множество векторов межслуховых разниц во времени, формирующих набор, который включает в себя: первый поднабор векторов, совместимых с звуковыми сигналами, происходящими от единственного источника звука, на бесконечном удалении от указанных микрофонов; и второй поднабор векторов, не совместимых со звуковыми сигналами, происходящими от единственного источника, на бесконечном удалении от указанных микрофонов; и тем, что:
- каждый вектор указанного первого поднабора связан с направлением локализации соответствующего единственного источника звука, и каждый вектор указанного второго поднабора связан с направлением локализации, связанным с вектором указанного первого поднабора, который к нему наиболее близок согласно предопределенной метрике; и тем, что:
- направление, оцененное на указанном этапе e), представляет собой направление, связанное с вектором межслуховых разниц во времени, определенным на указанном этапе d).
Согласно преимущественным характеристикам такого способа:
- обобщенные взаимные корреляции, рассчитываемые на указанном этапе b), могут быть типа GCC-PHAT, соответствующего взаимной корреляции предварительно отбеленных сигналов.
- на указанном этапе b) можно выбрать все пары микрофонов указанного набора.
Указанная направленная мощность отклика может быть задана суммой или пропорциональна сумме обобщенных взаимных корреляций для указанных пар микрофонов.
- указанный первый поднабор может состоять из векторов указанного набора, компоненты которого удовлетворяют условию, называемому условием Шаля:
τij+τjk=τik,
где индексы i≠j≠k представляют различные микрофоны указанного набора, а τij, τjk и τik представляют межслуховые разницы во времени, соответственно, для пар (i,j), (j,k) и (i,k)
- указанный второй поднабор может состоять из векторов указанного набора, не принадлежащих вектору первого поднабора и расстояние которого до вектора указанного первого поднабора, определенного согласно указанной предопределенной метрики и после нормализации, является меньше, чем предопределенный порог.
- указанная предопределенная метрика может быть евклидовой метрикой.
- указанный этап e) может быть осуществлен с помощью таблицы соответствия, связывающей направление локализации с каждым значением указанного набора.
Другим объектом изобретения является гуманоидный робот, включающий в себя:
- набор из по меньшей мере трех микрофонов; и
- процессор, соединенный с указанными микрофонами для получения на вход звуковых сигналов, улавливаемых микрофонами, и запрограммированный или сконфигурированный для осуществления способа согласно любому из предшествующих пунктов.
Преимущественно, указанные микрофоны могут быть установлены на верхней поверхности головы указанного робота.
Другие отличительные черты, детали и преимущества изобретения станут очевидными при прочтении нижеследующего описания со ссылкой на прикрепленные чертежи, данные в виде примера, и которые представляют соответственно:
- фиг.1 - функциональная диаграмма, иллюстрирующая осуществление способа согласно варианту реализации изобретения;
- фиг.2 - расположение микрофонов на голове гуманоидного робота согласно варианту осуществления изобретения; и
- фиг.3A, 4A, 5A, 6A и 7A - графики, иллюстрирующие эффективность способа согласно варианту осуществления изобретения; и
- фиг.3B, 4B, 5B, 6B и 7B - приведенные для сравнения графики, иллюстрирующие эффективность способов согласно предшествующему уровню техники.
Фиг.1 схематически иллюстрирует осуществление способа согласно варианту осуществления изобретения с помощью системы, содержащей решетку микрофонов M1-M4 и процессор PR.
В случае чертежа сеть включает в себя четыре микрофона, но их число может быть меньше (по меньшей мере три) или больше; кроме того, несмотря на то, что микрофоны показаны выровненными, их пространственное расположение может быть произвольным. Предпочтительно, выбирают расположение, минимизирующее случаи маскировки, то есть случай, при котором препятствие располагается между микрофонами и областями пространства, где может находиться источник звука для локализации.
Реальная система должна также содержать цепи обработки сигналов, полученных микрофонами, обеспечивающие их усиление, фильтрацию, дискретизацию и аналогово/цифровое преобразование. Эти цепи опущены ради упрощения и удобочитаемости чертежи. В дальнейшем считается, что микрофоны M1-M4 предоставляют сигналы в цифровом формате.
Процессор PR запрограммирован или сконфигурирован для осуществления следующих операций:
1. Расчет обобщенной взаимной корреляции сигналов от различных микрофонов, и в частности обобщенной взаимной корреляции типа GCC-PHAT.
Пусть si(t) и sj(t) сигналы от микрофонов Mi и Mj (i,j=1-4; i≠j). Обобщенная взаимная корреляция Rsi,sj этих сигналов определяется как взаимная корреляция между этими сигналами после предварительной фильтрации; речь идет о функции переменной τ, однородной во времени и представляющей временной сдвиг между сигналами, полученными от двух микрофонов (межслуховая разница во времени). Преимущественно, обобщенная взаимная корреляция рассчитывается в области частот:
(1)
где Si,j(ω) является результатом преобразования Фурье сигнала si,j(t), «*» является оператором комплексного сопряжения, а Φ(ω) является передаточной функцией фильтра. В случае обобщенной взаимной корреляции GCC-PHAT выбирают фильтр, «отбеливающий» сигналы, другими словами, выравнивающий интенсивность всех их спектральных компонент для сохранения только информации о фазе:
.(2)
Конечно, в практической реализации способа, результаты преобразования Фурье будут дискретными результатами преобразования Фурье, рассчитанными в частности по алгоритму быстрого преобразования Фурье (БПФ), и интегралы будут заменены суммами конечного числа членов.
Таким образом, как проиллюстрировано на фиг.1, сигналы от микрофонов M1-M4 преобразуются в частотную область (блоки FT, реализующие дискретный результат преобразования Фурье, в частности используя алгоритм быстрого преобразования Фурье или «БПФ»), подвергаются определению порога для удаления спектральных составляющих, интенсивность которых меньше, чем предварительно определенное значение, чтобы избежать усиления спектральных составляющих, содержащих исключительно или в основном шум, отбеливающим фильтром (блок определения спектрального порога SCS), а затем фильтруются указанным отбеливающим фильтром PHAT, - но и другие типы фильтрации могут быть использованы, см. вышеупомянутую статью Ch. H. Knapp и G. C. Carter. Затем, фильтрованные сигналы умножаются два на два, и их произведение преобразуется обратно во временную область (блоки FT-1, реализующие обратное дискретное преобразование Фурье, в частности, с помощью алгоритма быстрого преобразования Фурье или «БПФ»). Таким образом, получаем обобщенную взаимную корреляцию звуковых сигналов, уловленных различными микрофонами, рассмотренных два на два. Было решено взять все пары микрофонов - количеством N(N-1)/2, где N - это количество микрофонов, - но можно было бы ограничиться рассмотрением трех пар, выбранных среди них, или любым значением между 3 и N(N-1)/2.
Переход в частотную область не является необходимым для расчета взаимных корреляций, но, тем не менее, очень выгоден.
Расчеты осуществляются дискретно, каждая обобщенная взаимная корреляция рассчитывается только для дискретного набора значений межслуховой разницы во времени.
2. Расчет направленной мощности отклика SRP (от английского «Steered Response Power»). Этот расчет осуществляется простым суммированием различных обобщенных взаимных корреляций:
, (3)
где сумма получается от M пар сигналов si,sj, связанных с соответствующими парами микрофонов (3≤M≤N(N-1)/2). Векторная переменная τ имеет M компонент, каждая из которых соответствует межслуховой разнице во времени для указанной пары. В общем случае, можно определить SRP как линейную комбинацию обобщенных взаимных корреляций.
Следует отметить, что все значения τ - и, таким образом, все комбинации значений , не являются «физически возможными». Действительно, если рассматривать случай единственного источника звука, достаточно удаленного от решетки микрофонов, чтобы акустические волны, поступающие к этим микрофонам, могли бы считаться плоскими, направление локализации указанного источника полностью идентифицировано двумя межслуховыми разницами во времени. Другими словами, компоненты вектора τ определяют однозначно (по меньшей мере, в теории) значения других компонентов.
3. Максимизация направленной мощности отклика.
Идентификация направления локализации источника звука выполняется максимизацией функции относительно векторной переменной τ. Многие числовые способы могут быть использованы для решения этой проблемы оптимизации; можно привести в виде неограничивающего примера алгоритмы градиента и способы «грубой силы».
Эта максимизация могла бы выполняться с ограничением, с учетом лишь значений τ, которые «физически возможны» в смысле, изложенном выше, другими словами, совместимы со звуковыми сигналами, полученными от единственного источника на «бесконечном» расстоянии. Это известный подход, в частности, из вышеуказанной статьи J. H. DiBiase и д.р. Тем не менее, на практике, он оказывается малоустойчивым. Действительно, из-за шума, эффектов маскировки (препятствий, расположенных между источником и одним или несколькими микрофонами) и, особенно, эффектов реверберации часто абсолютный максимум соответствует «невозможному» значению τ.
Согласно изобретению, с целью повышения устойчивости алгоритма пространственной локализации источника поиск максимума выполняется не только по «возможным» значениям τ, но также и по теоретически недопустимым значениям, другими словами, не совместимым со звуковыми сигналами от единственного источника на «бесконечном» расстоянии. В частности, как показано на фиг.1, максимизация (функциональный блок «MAX») функции выполняется с учетом значений вектора τ, которые образуют набор E, состоящий из двух поднаборов:
- первого поднабора E1 векторов τ, совместимых со звуковыми сигналами от единственного звукового источника на бесконечно удаленном расстоянии от решетки микрофонов. С математической точки зрения, эти векторы имеют компоненты, которые удовлетворяют условиям, называемым условиями Шаля
τij+τjk=τik, (4)
где индексы i≠j≠k представляют различные микрофоны указанного набора, а τij, τjk и τik представляют межслуховые разницы во времени, соответственно, для пар (i,j), (j,k) и (i,k). Эти условия являются необходимыми, но не достаточными, для того чтобы вектор τ был совместим с звуковыми сигналами, происходящими от единственного источника звука на бесконечном расстоянии.
- второго поднабора E2 векторов τ, которые не совместимы с звуковыми сигналами от единственного звукового источника на бесконечно удаленном расстоянии от решетки микрофонов. В частности, этот второй поднабор состоит из векторов указанного набора, не принадлежащих указанному первому поднабору и расстояние которого до вектора указанного первого поднабора, определяемого согласно предопределенной метрике (в частности евклидовой) и после нормализации (каждый вектор делится на свою норму), меньше предопределенного порога. Определение этого порога представляет собой настройку способа, что может быть осуществлено экспериментально.
Для выбора векторов τ, принадлежащих набору E, и присвоения E поднаборам E1 и E2 действуют следующим образом.
Во первых, следует написать, в матричном виде, систему уравнений, которая связывает единичный вектор, направленный в направлении источника, обозначенного x, с вектором межслуховой разницы во времени τ:
τ=Ax, (5)
где A является матрицей Mx3 (напомним, что М является числом компонент вектора τ). Матрица А не квадратная, она не может быть инвертирована напрямую. Если микрофоны не компланарны, матрица A имеет ранг 3. Тогда можно выбрать три линейно независимых линии для построения обратимой квадратной матрицы ; обозначим 3-мерный вектор, получаемый путем принятия трех компонентов τ, соответствующих указанным независимым компонентам матрицы А. Тогда имеем:
(6)
и таким образом
(7)
Далее, рассмотрим начальный набор E’ векторов τ, который соответствует сфере или кубу в (потому что накладываем максимально допустимое значение на модуль τ или каждого из его компонент) дискретный (поскольку рассматриваем дискретные значения этих компонентов).
Для каждого вектора τ из E’ рассчитывается его проекция в подпространстве векторов, что подтверждает отношения Шаля размерности 3. Если разность d1=|τ-| превышает предопределенный порог ε, вектор не учитывается. В противном случае, вычитается вектор из (то есть вектор его трех линейно независимых компонент) и рассчитывается расстояние d2:
. (8)
Уравнение (8) показывает, что уменьшая вектор значения d2 без изменения его направления последний становится единичной нормой.
Если меньше порога ε, вектор τ является частью набора E (поднабора E1, если d=0, поднабора E2 в противном случае; тем не менее следует отметить, что это разделение не является оперативным, все вектора набора E обрабатываются одним и тем же образом).
Уравнение 7 позволяет связать с каждым указанным вектором направление локализации источника.
Эти расчеты являются очень сложными, выгоднее сделать их один раз и сохранить результаты в таблице соответствия (см. ниже).
4. Идентификация направления локализации источника звука.
После идентификации вектора τ∈E, который максимизирует , обозначенный как τmax, нужно связать его с направлением локализации звукового источника. Если τmax∈E1, это не представляет проблемы, поскольку вектор межслуховых разниц во времени таким образом совместим с одним и только одним направлением локализации. Если τmaxE2, выбирают направление локализации, совместимое с вектором, принадлежащим E1, который наиболее близок к τmax согласно указанной предопределенной метрике.
Преимущественно, каждый вектор набора E связывается один раз и навсегда с направлением локализации. Каждый вектор набора и направление локализации, с которым он связан, хранятся в файле, загружаемом в память процессора для формирования таблицы соответствия (обозначенной LUT, от английского «Look-Up Table»(«Справочная таблица»)), построенной так, как описано выше. Таким образом, определение направления локализации источника на основании значения τmax осуществляется простым чтением таблицы.
Преимущественно, файл, содержащий таблицу соответствия, организован следующим образом (предполагая, что вектора τ с шестью компонентами):
Таблица 1 | |||
Индекс | Вектор τ | (азимут, возвышение) | {соседи} |
0 | (0,6,6,6,6,0) | (0°,30°) | {2,3} |
1 | (0,0,0,0,0,0) | (0°,90°) | {} |
2 | (1,6,6,6,6,0) | (3°,28°) | {0,3} |
3 | (1,7,6,6,6,0) | (5°,27°) | {0,2} |
Индекс явно не записывается в файл, он вытекает из порядка. Поле "соседи" содержит индексы векторов, которые имеют отклонение меньше или равное 1 (или другому предварительно заданному значению) по каждой компоненте. Это поле служит для облегчения реализации алгоритма градиента для максимизации SRP.
Когда запускается процессор, он загружает в память содержимое файла, содержащего таблицу соответствия. Всякий раз, когда обнаружен звук, он вычисляет значения SRP(τ) для всех векторов τ, хранящихся в таблице соответствия, а затем ищет максимум этих значений, определяет соответствующий вектор τ и считывает в таблице соответствий значения азимута и возвышения, связанные с ним. В качестве альтернативы, процессор может искать N>1 наибольших локальных максимумов SRP (τ) для выполнения мультилокализации (одновременная локализация нескольких источников); но такой подход не очень надежен.
Процессор PR, работа которого была проиллюстрирована на фиг.1, может включать в себя микропроцессор, запрограммированный заранее, соединенный с одним или более запоминающими устройствами для хранения набора E и таблицы LUT соответствия. Этот микропроцессор может быть предназначен для локализации источников звука или также выполнять другие задачи; в крайнем случае, это может быть единственный процессор переносного персонального компьютера или настольного компьютера, или простого робота. Аналогичным образом, набор Е и таблица LUT соответствия могут храниться в отдельном блоке памяти или в центральной памяти. Процессор может также включать в себя специальные логические схемы, программируемые или нет.
На фиг.2 изображена голова TRH гуманоидного робота, адаптированная для осуществления изобретения, включающая в себя решетку из четырех микрофонов М1-М4, расположенных на верхней поверхности упомянутой головы. Такое расположение позволяет избежать эффекта маскировки, когда источник звука находится на высоте, большей, чем у головы робота. Это особенно хорошо подходит для обнаружения и локализации собеседника-человека со стороны гуманоидного робота, имеющего размер меньше, чем у большинства человеческих существ, например между 50 и 150 см. Расстояние между двумя соседними микрофонами может быть в диапазоне, примерно, между 3 и 30 см.
Способ изобретения был испытан оборудованием микрофонами, в соответствии с фиг.2, робота «Нао» производства компании заявителя. Робот и источник звука были размещены в обычном помещении, имеющем «нормальную» реверберацию, с источником, расположенным перед роботом, справа от него, слева от него, спереди и справа (под углом -45° относительно оси задняя часть-передняя часть) и спереди слева (под углом +45° по отношению к оси задняя часть-передняя часть). Источник звука - оборудование для воспроизведения звука, воспроизводящее речевые сигналы. Локализация была выполнена с учетом окон расчета в 1024 сэмплов в каждом. Было повторено множество попыток, и направления локализации, определенные роботом (выявленные азимут и угол возвышения), были сгруппированы, чтобы сформировать гистограммы.
Фигуры 3A/3B соответствуют источнику, локализованному перед роботом (теоретический азимут: 0°).
Фигуры 4A/4B соответствуют источнику, локализованному слева от робота (номинальный азимут: 90°).
Фигуры 5A/5B соответствуют источнику, локализованному спереди-слева от робота (номинальный азимут: 45°).
Фигуры 6A/6B соответствуют источнику, локализованному слева от робота (номинальный азимут: -90°).
Фигуры 7A/7B соответствуют источнику, локализованному спереди-слева от робота (номинальный азимут: -45°).
Номинальное возвышение не было измерено. Действительно, в робототехническом приложении, указанном в виде основного, возвышение является менее важным, чем азимут.
Фигуры «A» относятся к способу изобретения, такому как описано выше. Фигуры «B» даны с целью сравнения и были получены с помощью классического способа TDOA. В обозначенном способе локализация считается неудачной, когда максимальное значение SPR, нормализованное, меньше предопределенного порога. Главным образом, даже в способе согласно изобретению, это максимальное нормализованное значение может считаться индикатором достоверности локализации. Нормализация делается согласно:
,
где W(si) и W(sj) являются энергиями отбеленных сигналов, полученных от микрофонов i и j.
Можно отметить, что в случае изобретения (фиг.«A») подавляющее количество испытаний приводит к удовлетворяющей оценке, в пределах нескольких градусов, азимута источника, тогда как обозначенный способ (фиг.«B») демонстрирует довольно высокий уровень ошибок. Следует подчеркнуть, что в робототехническом применении, указанном в виде основного, требуется не большая точность (ошибка локализации в несколько градусов некритична), но большая устойчивость в сочетании с относительной простотой вычислений.
1. Способ локализации источника звука, включающий этапы, на которых:
a) улавливают звуковые сигналы от источника звука, подлежащего локализации, с помощью набора из по меньшей мере трех микрофонов (M1, M2, M3, M4);
b) выбирают по меньшей мере три пары микрофонов из указанного набора микрофонов и для каждой указанной пары рассчитывают обобщенную взаимную корреляцию уловленных звуковых сигналов, указанный расчет осуществляют для множества значений задержки, - называемой межслуховой разницей во времени, - между указанными звуковыми сигналами;
c) на основании указанных обобщенных взаимных корреляций рассчитывают направленную мощность отклика, выраженную в зависимости от вектора межслуховых разниц во времени для каждой указанной пары микрофонов;
d) определяют вектор межслуховых разниц во времени, который максимизирует указанную направленную мощность отклика; и
e) оценивают направление локализации указанного источника звука в зависимости от вектора межслуховых разниц во времени, определенного во время указанного этапа d),
отличающийся тем, что:
- указанные этапы c) и d) осуществляют, рассматривая множество векторов межслуховых разниц во времени, формирующих набор (E), который включает в себя: первый поднабор (E1) векторов, совместимых со звуковыми сигналами, происходящими от единственного источника звука, на бесконечном удалении от указанных микрофонов; и второй поднабор (E2) векторов, не совместимых со звуковыми сигналами, происходящими от единственного источника, на бесконечном удалении от указанных микрофонов; и тем, что:
- каждый вектор указанного первого поднабора связан с направлением локализации соответствующего единственного источника звука, и каждый вектор указанного второго поднабора связан с направлением локализации, связанным с вектором указанного первого поднабора, который к нему наиболее близок согласно предопределенной метрике; и тем, что:
- направление, оцененное на указанном этапе e), представляет собой направление, связанное с вектором межслуховых разниц во времени, определенным на указанном этапе d).
2. Способ по п. 1, в котором обобщенные взаимные корреляции, рассчитываемые во время этапа b), являются типа GCC-PHAT, соответствующего взаимной корреляции предварительно отбеленных сигналов.
3. Способ по п. 1, в котором во время указанного этапа b) выбирают все пары микрофонов указанного множества.
4. Способ по п. 1, в котором указанная направленная мощность отклика задана суммой или пропорциональна сумме обобщенных взаимных корреляций для указанных пар микрофонов.
5. Способ по п. 1, в котором указанный первый поднабор состоит из векторов указанного набора, компоненты которого удовлетворяют условию, называемому условием Шаля:
,
где индексы ijk представляют различные микрофоны указанного набора, а , и представляют межслуховые разницы во времени, соответственно, для пар (i,j), (j,k) и (i,k)
6. Способ по п. 1, в котором указанный второй поднабор состоит из векторов указанного набора, не принадлежащих указанному первому поднабору и расстояние которых до вектора указанного первого поднабора, определенного согласно указанной предопределенной метрики и после нормализации, является меньше, чем предопределенный порог.
7. Способ по п. 1, в котором указанная предопределенная метрика является евклидовой метрикой.
8. Способ по любому из предшествующих пунктов, в котором указанный этап e) осуществляют с помощью таблицы (LUT) соответствия, связывающей направление локализации с каждым значением указанного набора.
9. Гуманоидный робот, включающий в себя:
- набор из по меньшей мере трех микрофонов (M1, M2, M3, M4); и
- процессор (PR), соединенный с указанными микрофонами для получения на вход звуковых сигналов, улавливаемых микрофонами, и запрограммированный или сконфигурированный для осуществления способа по любому из пп. 1-8.
10. Гуманоидный робот по п. 9, в котором указанные микрофоны установлены на верхней поверхности головы (THR) указанного робота.