Способ кодирования стимулирующего сигнала в кохлеарном импланте
Иллюстрации
Показать всеИзобретение относится к области медицинской техники, в частности к способу кодировки сигналов в имплантируемых устройствах, обеспечивающих электростимуляцию нервных окончаний, для передачи информации. Оно направлено на улучшение разрешения по частоте при одновременном сохранении временного и амплитудного разрешения, уменьшение количества приборных артефактов, повышение разборчивости восприятия, улучшение выделения информационной составляющей на уровне шума. Способ кодирования включает прием входного акустического сигнала и выделение его динамического диапазона; разбиение сигнала на кадры, имеющие одинаковую длительность; вычисление частот тональных составляющих входного сигнала посредством совместной обработки по крайней мере трех Фурье образов сигнала, полученных с использованием трех функций окна, каждая из которых включает различное число кадров; вычисление амплитуды тональных составляющих входного сигнала путем разложения методом наименьших квадратов по базису частот, обнаруженных на предыдущем этапе; возбуждение по крайней мере одного электрода, соответствующего вычисленной частоте тональной составляющей, электрическим импульсом, величина которого пропорциональна вычисленной амплитуде тональной составляющей сигнала. 6 з.п. ф-лы, 6 ил.
Реферат
Изобретение относится к области медицинской техники, в частности к способам кодировки сигналов в имплантируемых устройствах, обеспечивающих электрическую стимуляцию нервных окончаний, для передачи информации.
Кохлеарные и стволомозговые импланты позволяют вернуть слух пациентам, страдающим серьезным снижением или полной потерей слуха. В отличие от обычных слуховых аппаратов, в которых используется лишь усиленный и преобразованный звуковой сигнал, кохлеарный имплант осуществляет непосредственную электрическую стимуляцию слухового (преддверно-улиткового) нерва. Обычно, кохлеарный имплант электрически стимулирует невральные структуры внутреннего уха таким образом, что восприятие сигнала примерно соответствует восприятию звука при нормальном слухе. Тем не менее, из-за особенностей передачи тока от электродов к волокнам слухового нерва невозможно реализовать большое количество (практически больше 24) независимо работающих каналов стимуляции, что не позволяет передавать такой же объем информации, какой получает человек с нормальным слухом. Именно этим определяется задача преимущественного кодирования наиболее существенной для пациента части звуковой информации. Тем не менее, с использованием метода виртуальных каналов при передаче тона в отсутствии существенного шума может быть получено значительно более высокое разрешение по частоте, чем то, которое определяется числом каналов.
Типичный кохлеарный имплант включает две части - наружную часть, представленную речевым процессором, и наружную часть - имплантированные приемник-стимулятор и многоканальная электродная решетка. Речевой процессор обычно включает несколько микрофонов, блок питания для всей системы и процессор, который служит для обработки акустических сигналов и получения сигналов стимуляции. Обычно речевой процессор помещается за ухом (заушный слуховой аппарат). Имплантированный приемник-стимулятор генерирует соответствующую последовательность электрических импульсов, задаваемых командами, полученными от процессора, и передает их на нервные волокна через матрицу электродов, которая обычно устанавливается в барабанной лестнице улитки внутреннего уха. Связь между речевым процессором и стимулятором обычно осуществляется в радиочастотном (РЧ) диапазоне, в котором передается как информация, так и энергия для стимуляции. Обычно используются протоколы передачи цифровых данных со скоростями передачи информации (в битах), составляющими несколько сотен кбит/с (RU 2491762).
Принцип аналоговой стратегии кодирования речевой информации заключается в передаче акустической информации без селективной фильтрации входного сигнала. Основным критерием является способность системы имплантации активировать несколько электродов одновременно. Набор полосовых фильтров перекрывает весь спектр речи. Сегмент речи проходит через каждую полосу, связанную с определенным электродом. В зависимости от частот, присутствующих в сегменте речи, соответствующие электроды будут активироваться при определенной амплитуде сигнала.
Основные различия между современными стратегиями кодирования речи могут быть представлены количеством возможных точек стимуляции в карте процессора, максимальным количеством используемых каналов и скоростью стимуляции, подведенной к выбранным каналам.
При использовании стратегии кодирования SPEAK (стратегии выделения спектральных пиков) электроды активируются в зависимости от того, какие фильтры получают информацию, имеющую амплитуду большую, чем пороговая амплитуда (может стимулироваться любой из 22 электродов). Это означает, что сигнал в пределах определенной частотной полосы должен иметь интенсивность, достаточную для того, чтобы быть распознанным. Как правило, выбираются от 3 до 10 амплитудных значений с определением соответствующих электродов, которые должны стимулироваться. Данный принцип определяется как принцип выделения максимального спектрального пика. Он также зависит от порогов и уровней комфорта у конкретного больного, что обусловлено тем, что при увеличении стимула увеличивается и ширина импульса (его длительность). Иными словами, при использовании системы Nucleus количество каналов, которое будет выделено, будет зависеть от интенсивности входного сигнала и заданного выхода на электродах. Если входной сигнал имеет небольшую амплитуду, меньше частот будет определено в системе фильтрации (меньшее количество пиков, достигающих максимального уровня), а следовательно, меньшее количество каналов (электродов) будет выбрано для стимуляции. Другим фактором, оказывающим влияние, является интенсивность. Чем громче должен быть сигнал для восприятия имплантированным больным тихих звуков и восприятия на комфортном уровне (программируемое значение), тем меньшее количество каналов будет стимулироваться. Прежде всего, это имеет место при высоких уровнях стимуляции, так как при этом необходимо использование широких импульсов (цикл стимуляции определяется временем). При расширении импульсов меньшее количество каналов будет стимулироваться. Дополнительной характеристикой стратегии SPEAK является то, что обычно активируются несколько электродов, расположенных друг за другом. Это происходит потому, что максимальная энергия обеспечивается в области близрасположенных частот. Количество каналов стимуляции при данной стратегии варьирует от 3 до 10 (в среднем 6), а электроды стимулируются неодновременно со средней скоростью 250 Гц.
Еще один из способов генерации стимулирующих сигналов для кохлеарных имплантов называют стратегией высокочастотной непрерывной выборки, далее CIS (Wilson B.S., Finley С.С., Lawson D.T., Wolford R.D., Eddington D.K., Rabinowitz W.M., «Better speech recognition with сосhlеаr», Nature, vol. 352, 236-238, July 1991). Обработка сигналов при стратегии CIS в речевом процессоре обычно предусматривает следующие операции: разделение диапазона звуковых частот на спектральные полосы с помощью группы фильтров; детектирование огибающей, или прямое детектирование выходных сигналов каждого фильтра; нелинейное сжатие сигнала огибающей, происходящее в реальном времени; адаптацию к порогу чувствительности и наиболее комфортным уровням громкости.
В соответствии с пространственной организацией улитки, обеспечивающей максимальную реакцию каждого участка на тоны определенных частот (тонотопической организацией улитки), каждый электрод стимуляции в барабанной лестнице связан с полосовым фильтром внешней группы фильтров. Для стимуляции применяются симметрические двухфазные импульсы тока. Амплитуды импульсов стимуляции получаются непосредственно по сжатому сигналу огибающей. Выборка этих сигналов осуществляется последовательно и импульсы стимуляции подаются в виде строго неперекрывающихся последовательностей. Таким образом, характерной особенностью CIS является то, что в каждый момент времени активен только один канал стимуляции. Суммарная частота возбуждающих сигналов обычно равна 18 тысячам импульсов в секунду, и в системе применяется 12-канальная группа фильтров, при которой на один канал приходится 1,5 тысячи возбуждающих импульсов в секунду. Такая частота возбуждающих сигналов в канале обычно достаточна для адекватного отслеживания во времени (временного представления) сигнала огибающей.
Максимальная суммарная частота возбуждающих сигналов ограничена минимальной длительностью фазы на один импульс. Длительность фазы не может быть выбрана сколь угодно малой, так как чем короче импульс, тем выше должна быть амплитуда тока, чтобы активные потенциалы оказали действие на нейроны. Но амплитуда тока ограничена в силу физиологических условий. Для 12-канальной системы с суммарной частотой возбуждающих импульсов, равной 18 тысяч импульсов в секунду, длительность фазы равна 27 мкс, что близко к нижнему физическому пределу.
Для увеличения количества информации, передаваемой в единицу времени, может быть использован метод индивидуальной низкочастотной выборки для каждого канала последовательностей, далее CSSS (US 6594525). В этом случае временные вариации выходных сигналов в полосе пропускания (иногда называемые временной информацией тонкой структуры) представлены в более низком диапазоне частот, обычно в диапазоне примерно до 1 кГц. Обычно устройство стимуляции представляет собой сочетание низкочастотных CSSS-каналов и высокочастотных CIS-каналов. Для каждого CSSS-канала определяется конкретная нормализованная последовательность сверхвысокочастотных импульсов стимуляции. При стимуляции детектируется прохождение через нуль выходного сигнала от соответствующего полосового фильтра для некоторой полосы пропускания, и каждое прохождение через нуль активирует такую заранее определенную последовательность, причем последовательность взвешивается коэффициентом, зависящим от мгновенного значения огибающей выходного сигнала для данной полосы пропускания. Таким образом, в CSSS-последовательности импульсов стимуляции представлены как огибающая, так и временная информация тонкой структуры.
Для достижения более высокой временной разрешающей способности, дополнительно могут использоваться вспомогательные методы, например, такой как метод внутриканального глубокого погружения, далее - CIC, применяемый при одновременной стимуляции несколькими электродами (US 6594525, US 20050203589). Однако пространственное взаимовлияние каналов может вызывать случайные артефакты восприятия звука. Количественная мера взаимных помех зависит от точного соотношения между фазами обеих последовательностей и от взаимовлияния каналов.
Известен способ генерации подаваемых стимулирующих сигналов для имплантированной многоканальной матрицы электродов кохлеарного импланта (RU 2491762), который предусматривает обработку акустического сигнала слуховой частоты группой фильтров, каждый из которых связан по крайней мере с одним каналом, имеющим электрод. Один широкополосный фильтр охватывает весь звуковой диапазон, другие перекрывают более высокочастотные диапазоны, соответствующие формантам гласных звуков. При этом в одном из вариантов изобретения расстояние между первым широкополосным каналом и смежными высокочастотными каналами поддерживается таким, чтобы существенно уменьшить эффекты взаимного влияния между ними. Например, один или более электродов могут быть переключены в неактивное состояние.
В соответствии с еще одним вариантом осуществления изобретения широкополосная последовательность может подаваться на группу апикальных низкочастотных каналов и связанные с ними электроды одновременно таким образом, что вся апикальная область улитки будет стимулироваться только одной последовательностью.
Стратегия АСЕ объединяет стратегии SPEAK и CIS, что значительно расширяет возможности. Данная стратегия кодирования обеспечивает максимально индивидуальный выбор параметров. При этом может стимулироваться любая из 22 точек при выборе от 2 до 20 каналов стимуляции при скорости от 250 до 2400 имп./с на канал. Данная стратегия обеспечивает возможность оптимизировать объем спектральной информации путем кодирования "по месту", а объем временной информации - путем кодирования скорости. Данный подход обеспечивает передачу информации с минимальными затратами энергии. Максимальная скорость стимуляции на каждом электроде, установленная программой, равна 2400 имп./с. Общая же максимальная скорость соответствует 14400 имп./с.
АСЕ сочетает в себе возможности SPEAK в плане спектрального представительства и возможности CIS в плане высокочастотной временной составляющей. Так же, как и стратегия SPEAK, АСЕ использует цифровую обработку звукового сигнала, которая производит спектральный анализ на основе алгоритма быстрого преобразования Фурье. Стимулируются электроды, которые соответствуют частотным полосам с наибольшей спектральной энергией (спектральная максима). Количество электродов, стимулируемых в каждом конкретном цикле, больше, чем при стратегии SPEAK, что обусловлено более высокой частотой стимуляции, и, может варьировать от 2 до 20. Каждый цикл повторяется с фиксированной частотой, меняющейся от 250 до 2400 Гц.
Стратегия МР3000 - одна из последних стратегий кодирования, разработанная компанией «Сосhlеаr». Другим названием ее является стратегия РАСЕ (psychoacoustic АСЕ) - психоакустическая АСЕ. Эта стратегия использует в своей методологии модель слуховой маскировки и является первой стратегий в этом ряду. Стратегия выбирает точки стимуляции в импланте, которые могут соответствовать наиболее выдающимся перцептивным компонентам входного акустического сигнала нормально слышащего индивидуума. В этом выборе компоненты, которые должны были бы быть замаскированными для конкретного слушателя (и, соответственно, не выдающиеся перцептивно), будут исключены из предъявляемого материала. Подобная методология используется в mp3-технологии, когда из входящей акустической информации исключаются те частотные компоненты, которые будут неслышимы для нормально слышащего слушателя в результате маскировки слабых компонентов более сильными. Это вариация стратегии «n-of-m», в которой используется нелинейная модель слуховой маскировки для выбора «n» каналов и соответствующих электродов для каждого цикла стимуляции. В стратегии МР3000 применяется подобная схема выбора канала, и, конечно же, в этом случае речь не идет о линейной фильтрации. Использование в данной стратегии кодирования модели слуховой маскировки в рамках стратегии n-of-m, позволяет уменьшить количество так называемых «кластеров» (соседние каналы), которые были бы выбраны в стандартной стратегии n-of-m. Подобная «декластеризация» создает возможность для отображения дополнительных пиков в кратковременном спектре речевых звуков, а также помогает ослабить взаимодействие между «n»-выбранными каналами и соответствующими электродами. Как уже было отмечено, первоначально стратегия была названа РАСЕ, однако в дальнейшем была переименована в МР3000. Таким образом, реализация стратегии «n-of-m» в сочетании РАСЕ/МР3000, осуществляет стратегию АСЕ. В заключение необходимо отметить, что стратегия МР3000, по сравнению со стандартной АСЕ, является намного более энергосберегающей.
В стратегии кодирования N-of-M, анализируются в общей сложности «m» частотных полос и только «n» электродов, которые соответствуют «n» частотным полосам с наибольшей энергией, стимулируются в данном технологическом цикле. Стратегия N-of-M использует более широкие частотные полосы и меньшее количество точек стимуляции, по сравнению со стратегией SPEAK. К тому же, количество «n» электродов, которые соответствуют «n» частотным полосам с наибольшей энергией, стимулируемых в данном цикле, постоянно, тогда как в случае стратегии кодирования SPEAK, это количество варьирует от цикла к циклу. Фиксированное количество частотных полос «n» может быть изменено, однако чаще оно зависит от количества электродов, доступных для стимуляции. Это частично синхронная (одновременная) стратегия, которая использует импульсную стимуляцию как минимум двух каналов одновременно. Она отличается от стратегии SAS тем, что является импульсной, а стратегия SAS - аналоговой, и стимулирует только не соседние электроды.
Стратегия HiRes используется только в имплантах, производимых компанией Advanced Bionics. В отличие от стратегий, основанных на определении «огибающей» или выделении спектральных пиков, эта стратегия использует динамическую схему усреднения для каждого из каналов. К тому же, используется более узкая ширина импульса, что позволяет передавать информацию с высокой скоростью ко всем 16 из доступных каналов в течение каждого цикла стимуляции. Эта стратегия может быть запрограммирована для передачи информации при использовании либо парной одновременной стимуляции (HiRes-P), либо при использовании последовательной стимуляции (HiRes-S). В HiRes-P два электрода стимулируются одновременно, тогда как в HiRes-S все доступные электроды стимулируются последовательно.
Стратегия HiRes 120 - это первая коммерчески доступная стратегия кодирования, основанная на феномене «управления током» («current steering»). Эта стратегия предполагает, что изменение пропорции и амплитуды электрического стимула, доставляемого соседним парам одновременно стимулируемых электродов, приводит к различному, по сравнению со всеми другими стратегиями, восприятию звуков. Манипуляции с одновременной стимуляцией двух соседних электродных пар приводят, в среднем, к появлению 7 новых ощущений восприятия (так называемые «виртуальные каналы») для каждой электродной пары. В зависимости от спектра входного сигнала, при использовании стратегии HiRes 120 процессор «направляет» электрический ток к одной из 15 электродных пар или же к одной из семи локализаций «виртуальных каналов». Это сопровождается возможностью возникновения 120 различных ощущений восприятия (120 «виртуальных канала»). Кроме перечисленного выше, данная стратегия позволяет передать информацию о высокочастотной внутренней составляющей акустического сигнала - временная информация - частота заполнения (так называемая, «тонкая структура»).
Стратегия FSP так же, как и стратегия HiRes 120, создана с целью передачи информации о «тонкой временной структуре» акустического сигнала. Эта стратегия является вариацией стратегии CIS. Она разработана для предоставления информации о тонких частотных вариациях в каналах частотных полос. Это происходит благодаря стимуляции короткой серией импульсов, пересекающихся при значении положительного нуля на выходе(ах) полосового фильтра для первых трех апикальных каналов. В дополнение, общий частотный диапазон расширяется за счет установки нижней границы полосы пропускания частот на уровне 70 Гц, вместо 250, для включения вариаций F0 в выходной уровень полосового фильтра с самой низкой центральной частотой. Для всех остальных каналов, кроме первых трех апикальных, используются стандартные стимулы CIS.
Существуют и другие способы генерации стимулирующих импульсов, как правило включающие сочетание описанных выше алгоритмов и их дальнейшее развитие (Hochmair I, Nopp Р, Jolly С, Schmidt М, Sch5Ber Н, Garnham С, Anderson I, MED-EL Cochlear Implants: State of the Art and a Glimpse into the Future, Trends in Amplification, vol. 10, 201 -219, 2006). Однако задачи скоростной обработки информации (полноценного восприятия речи) и выделения полезного сигнала на уровне шума (разборчивость восприятия в свободном звуковом поле) так и не решены окончательно и не позволяют достичь для кохлеарных имплантов уровня нормального слуха. Кроме того, существующие методы не обеспечивают желаемого разрешения одновременно по частоте и по времени.
Наиболее близким аналогом к предложенному изобретению является метод, описанный в патенте US 8260430 «STIMULATION CHANNEL SELECTION FOR A STIMULATING MEDICAL DEVICE». Этот способ формирования стимулирующих сигналов для медицинского устройства, имеющего множество электродов, включает прием и обработку внешнего сигнала, разбиение его на набор нескольких полосовых сигналов (кадров), их преобразование. Для получения одновременно высокого разрешения и по времени, и по частоте, используется два преобразования Фурье с различной длиной окна. Кроме того, применяется «наведение» (steering) высоты тона, заключающееся в подавлении сигнала в каналах, соседних с доминирующим каналом.
К недостаткам описанного метода можно отнести некорректное обнаружение начала и конца тона при наличии второго тона, попадающего в тот же канал преобразования Фурье, работающего с меньшей длиной окна; недостаточно точное определения частоты тона; скачкообразное изменение оценки частоты при ее плавном изменении; трудности в выделении согласных звуков (особенно шипящих); недостаточное количество информации для выделения речевого сигнала в шуме.
Настоящее изобретение направлено на улучшение разрешения по частоте, при одновременном сохранении временного и амплитудного разрешения, уменьшение количества приборных артефактов, повышение разборчивости восприятия, улучшение выделения информационной составляющей на уровне шума.
Заявленный технический результат достигается тем, что способ кодирования стимулирующего сигнала в кохлеарном импланте, который содержит многоканальную матрицу электродов, установленную с возможностью стимуляции нервных волокон посредством электрических импульсов, включает следующие шаги:
- прием входного акустического сигнала и выделение его динамического диапазона;
- разбиение сигнала на кадры, имеющие одинаковую длительность;
- вычисление частот тональных составляющих входного сигнала посредством совместной обработки по крайней мере трех Фурье образов сигнала, полученных с использованием трех функций окна, каждая из которых включает различное число кадров;
- вычисление амплитуды тональных составляющих входного сигнала путем разложения методом наименьших квадратов по базису, составленному из частот, обнаруженных на предыдущем этапе;
- возбуждение по крайней мере одного электрода, соответствующего вычисленной частоте тональной составляющей, электрическим импульсом, величина которого пропорциональна вычисленной амплитуде тональной составляющей сигнала.
Дополнительно способ может включать этап определения разности между спектром входного сигнала и спектром вычисленных тональных составляющих сигнала и возбуждение случайных электродов, которые не используются при возбуждении электродов, соответствующих вычисленным частотам тональных составляющих сигнала, импульсами пропорциональными этой разности.
Сущность изобретения поясняется блок-схемой операций заявляемого способа, изображенной на фиг. 1.
В основе заявляемого способа лежит алгоритм, предназначенный для проведения спектрального анализа сигнала в тех случаях, когда сигнал состоит из небольшого количества тональных посылок, причем частоты этих посылок заранее неизвестны; амплитуда сигнала меняется достаточно быстро и по заранее неизвестному закону, и требуется выделить компоненты сигнала и определить форму их огибающих. Предпочтительно для эффективности использования алгоритма, чтобы существенные для анализа сигнала изменения частоты внутри посылки происходили за большее характерное время, чем изменения амплитуды. Этот алгоритм может найти свое применение при анализе речи и звуков и быть использованным не только в кохлеарных имплантах, но и в цифровых слуховых аппаратах, системах распознавания речи и вокодерах.
Кохлеарный имплант, в котором осуществляется заявляемый способ, обычно содержит: приемный блок (микрофон) с блоком предварительной обработки сигнала, блок кодирования, блок передачи, источник питания и имплант, включающий многоканальную матрицу электродов, установленную с возможностью стимуляции нервных волокон посредством электрических сигналов. Причем каждый электрод установлен в соответствии с тонотопической организацией улитки и возбуждает участок, соответствующий определенному диапазону звуковых частот.
Входной акустический сигнал с микрофона или иного внешнего источника после выделения динамического диапазона и кондиционирования, типичного для слуховых аппаратов, преобразуется в цифровой код и в виде равномерного по времени потока отсчетов, который поступает в блок кодирования. Весь поток разбивается на кадры одинаковой длины, содержащие несколько последовательных отсчетов входного сигнала. Длина кадра будет определять временное разрешение способа. При этом максимальное количество обнаруживаемых частотных компонентов будет меньше половины количества отсчетов в кадре. В целом длина кадра может быть оптимизирована под свойства конкретного сигнала. Как показали предварительные эксперименты, для речи хорошо подходит значение кадра длиной в 1 мс.
Цикл вычислений (такт) производится для сигнала (или фрагмента сигнала), включающего несколько кадров. В результате выполнения цикла блок кодирования вычисляет частоты, амплитуды и фазы нескольких тональных компонентов сигнала, и формирует соответствующие сигналы для блока передачи.
На первом этапе вычислений по данным потока отсчетов вычисляются три преобразования Фурье одинаковой длины, но с разными окнами. Функция окно для каждого преобразования состоит из нулевого участка, начального участка, единичного участка, конечного участка и еще одного нулевого участка. Начальный и конечный участок обычно имеют длительность в один кадр, а длина остальных участков кратна длине кадра. Функция окна на начальном и конечном участке может описываться зависимостью 0,5 (1 - cos (t)) или иметь другую форму в соответствии со свойствами входного сигнала.
На втором этапе вычислений результаты преобразований Фурье обрабатываются совместно методами нечеткой логики. Простейший вариант обработки может заключаться в поэлементном перемножении абсолютных величин результатов преобразований. В более сложных случаях можно задавать наличие у сигнала определенных гармоник либо фазовых соотношений, и, таким образом, обеспечить выделение, в первую очередь, интересующих компонентов, например речи на фоне шума.
В дальнейших вычислениях производится выделение максимумов полученного спектра. Предпочтительно для каждого спектрального пика проводить уточнение частоты. Для этого по примыкающему к позиции пика фрагменту Фурье-образа, посчитанному с максимальным временным разрешением, восстанавливается временное представление в виде аналитического дополнения к сигналу, а затем вычисляет среднюю скорость изменения фазы и производят по ней новую оценку частоты. При этом усреднение скорости изменения фазы для начала и конца участка может быть выполнено с разным весом, зависящим от стабильности отсчетов и мгновенной амплитуды, что позволяет улучшить разрешение на краях тоновой посылки. Количество таких итераций определяется оптимумом между требуемой точностью вычисления частоты и существенным объемом вычислительных затрат на такую процедуру.
Для вычисленных максимумов строится (либо берется в готовом виде) набор базисных векторов. Как правило, длина каждого базисного вектора составляет от 2 до 4 кадров. Число базисных векторов равно удвоенному числу позиций пиков плюс один базисный вектор для постоянной составляющей. Каждая пара базисных векторов состоит из синусоидального и косинусоидального сигналов с частотой данного максимума, ограниченных окном.
Далее осуществляется разложение сигнала (или фрагмента сигнала) по полученному базису по методу наименьших квадратов. Производится оценка амплитуд и фаз компонентов, соответствующих ранее найденными частотам.
В некоторых случаях при анализе фрагмента сигнала с быстро меняющейся амплитудой могут возникать артефакты, приводящие в конечном итоге к затруднению восприятию передаваемой информации. Например, изменение амплитуды в пределах окна определяется как биение между двумя тонами существенно большей амплитуды. Такое кодирование, хотя и описывает форму сигнала достаточно точно, может приводить к завышению амплитуды стимуляции. Для устранения этого эффекта способ дополнительно может включать операцию последовательного исключения из базиса компонент, начиная с самых недостоверных. Изменение мощности остаточного сигнала сравнивается с мощностью отброшенной компоненты. Если это изменение мало, то компонента отсеивается, в противном случае, она возвращается в набор базисных векторов.
При дальнейшем осуществлении заявляемого способа предпочтительно переупорядочивать компоненты таким образом, чтобы на последующих циклах результаты вычислений, соответствующие каждой тональной компоненте сигнала, по мере возможности, оставались в одном канале. Это позволит в дальнейшем отслеживать изменение амплитуды компоненты и учитывать ее при кодировании. Так, длительное присутствие компоненты сигнала может являться помехой, а не элементом речи, и интенсивность ее стимуляции может быть соответственно уменьшена.
В дальнейшем блок передачи отправляет на имплант команды, соответствующие вычисленным параметрам тональных компонент акустического сигнала. На каждом такте в соответствии с вычисленной частотой выбирается предпочтительно пара электродов, максимально приближенных к этой частоте. Электроды стимулируются в определенной пропорции с амплитудой, соответствующей уровню восприятия и дискомфорта. Оптимальный момент стимуляции определяют в соответствии с фазой компоненты и моментом предыдущей стимуляции данной группы электродов, и добавляют команду стимуляции в последовательность команд. По мере возможности, момент стимуляции выбирается таким образом, чтобы период между стимулами, кодирующий данную компоненту, не превышал рефрактерный период волокон слухового нерва и был кратен периоду данного тона.
Также для передачи некоторых звуков, в частности шипящих, для которых тональное представление не позволяет получить хорошую разборчивость, при осуществлении заявляемого способа предпочтительно осуществлять дополнительный этап в каждом такте. Такие звуки могут быть выявлены по резкому изменению спектральной плотности остатка от разложения входного сигнала.
Для этого дополнительно определяют разность между спектром входного сигнала и спектром вычисленных тональных составляющих сигнала и возбуждают случайные электроды, не использованные при возбуждении электродов, соответствующих вычисленным частотам тональных составляющих сигнала, импульсами пропорциональными разности.
По сути дела, в свободные места последовательности стимулов добавляют случайные стимулы, распределенные в соответствии с мгновенным спектром, и имеющие интенсивность, рассчитанную по мгновенной мощности шума с учетом уровней восприятия и дискомфорта.
ПРИМЕР РЕАЛИЗАЦИИ
На фиг. 1 представлена блок-схема устройства, реализующего заявляемый способ. Блоки устройства кодирования могут быть выполнены как на отдельных группах логических элементов в составе интегральной микросхемы (что может существенно уменьшить энергопотребление), так и программным путем на одном или нескольких вычислительных ядрах.
Обычно устройство содержит следующие конструктивные элементы и операционные блоки (фиг. 1): один или несколько микрофонов - 1; аналого-цифровые преобразователи - 2; блок 3 предварительной обработки сигнала; сдвиговый регистр 4; блоки 5(a), 5(б), 5(в) умножения на функцию окна; блоки 6 быстрого преобразования Фурье; блок 7 нечеткой логики; блок 8 уточнения частоты; при необходимости могут использоваться добавочные блоки 9 уточнения частоты; блок 10 построения базиса; блок 11 разложения по базису; блок 12 сокращения набора компонент; блок 13 переупорядочивания; блок 14 вычисления остатка; блок 15 кодирования тона; блок 16 кодирования шума; имплант с матрицей электродов - 17.
Работа устройства осуществляется следующим образом.
Микрофоны (1) преобразуют акустический сигнал в электрический, далее аналого-цифровые преобразователи (2) преобразуют электрический сигнал в последовательность отсчетов. Частота дискретизации может быть выбрана при реализации в диапазоне 22-45 кГц, рекомендуемая разрядность АЦП составляет 18-24 двоичных разряда. Возможна реализация с MEMS микрофонами, передающими оцифрованный сигнал.
Блок 3 предварительной обработки осуществляет типичные для входных цепей слуховых аппаратов функции - формирование диаграммы направленности, коррекцию АЧХ системы микрофонов, адаптивную оптимизацию динамического диапазона по данным, получаемым от блока кодирования.
Данные с выхода блока 3 после предварительной обработки поступают на сдвиговый регистр 4, сохраняющий данные на время, требующееся для проведения анализа.
Анализ данных производится по кадрам, содержащим несколько (обычно 20-50) отсчетов. Для речи, как показали предварительные эксперименты, хорошим значением является кадр длиной в 1 мс. При больших значениях появляются отчетливые артефакты на шипящих, которые, однако, могут быть уменьшены предварительной обработкой. Период времени, соответствующий обработке одного кадра, называют тактом обработки сигнала. На каждом такте обработки сигнала сдвиговый регистр 4 сдвигает данные на величину одного кадра. Временное разрешение алгоритма приблизительно равно длительности такта. Длина кадра равна частоте дискретизации, деленной на длительность такта. На каждом такте производятся следующие операции:
Блоки 5(a), 5(б), 5(в) умножения на функцию окна умножают содержимое сдвигового регистра 4 поэлементно на три функции окна с разной шириной ненулевого участка. Функция окна 5(a) обеспечивает наивысшее временное разрешение, а функция 5(в) - частотное.
Для каждого произведения входного сигнала на функцию окна блоки 6 быстрого преобразования Фурье вычисляют Фурье-образ, представляющий собой оценку спектра сигнала, причем три полученные оценки отличаются временным и частотным разрешением.
Одна из возможных реализаций способа допускает иной порядок осуществления этой операции:
- предварительное вычисление Фурье-образы для отрезка данных длиной в один кадр,
- умножение его на край функции окна;
- сдвигание свободного и умноженного образов во вспомогательном сдвиговом регистре;
- собирание из них трех требуемых образов, используя соответствующие множители поворота.
Такой подход позволяет уменьшить объем вычислений примерно в два раза.
Блок 7 нечеткой логики использует абсолютные значения элементов Фурье-образов, получаемые из блоков 6, для вычисления предполагаемого положения спектральных пиков. В простейшем случае абсолютные значения элементов просто перемножаются, что соответствует нечеткой логической операции "AND". Подобная обработка реализована в прототипе, но только для двух спектров. Использование спектра с промежуточным разрешением позволяет уменьшить число ложных пиков, однако, как показало численное моделирование на реальном сигнале, использование большего числа спектров заметного выигрыша не дает. При необходимости, возможно применение более специфичных правил нечеткой логики. Например, если процессор имплантируемого устройства адаптивно либо по команде пользователя оптимизирует обработку с целью наилучшей передачи речи на фоне шума, в правила могут быть добавлены взаимосвязи между гармониками речевого сигнала, что даст преимущества этому сигналу по отношению к фоновому шуму.
Результатом работы блока 7 является определение положения спектральных пиков, выраженное в виде номеров элементов Фурье-образа и, предположительно, соответствующее тональным компонентам исследуемого сигнала. Блок 7 всегда возвращает фиксированное число этих пиков. Как правило, его имеет смысл делать близким к одной трети от числа отсчетов в кадре. Если в сигнале присутствует меньшее количество тональных компонент, то часть положений в наборе определяются аддитивным шумом и достаточно случайно.
Для каждого положения спектрального пика блоки 8 производят первую итерации уточнения частоты. Для этого по примыкающему к позиции пика фрагменту Фурье-образа, посчитанному с максимальным временным разрешением, блок восстанавливает временное представление в виде аналитического дополнения к сигналу, а затем вычисляет среднюю скорость вычисления фазы. При этом усреднение скорости изменения фазы для начала и конца участка может быть выполнено с разным весом, зависящим от стабильности отсчетов и мгновенной амплитуды, что позволяет улучшить разрешение на краях тоновой посылки.
При необходимости, полученные значения частоты могут быть уточнены блоками 9. Это уточнение производится итерационно и для сигнала, свободного от шумов, теоретически позволяет достичь любой точности. Тем не менее, эта процедура требует существенных вычислительных затрат и должна использоваться только при необходимости. На каждом цикле итераций блок восстанавливает временное представление тона по имеющейся оценке частоты и амплитуды; вычисляет его Фурье-образ; заменяет часть Фурье-образа, непосредственно примыкающую к оценке частоты, частью Фурье-образа исходного сигнала; выполнением обратного преобразования Фурье получает аналитическое дополнение к сигналу и вычисляет новую оценку частоты по скорости изменения фазы.
Блок 10 по полученным значениям частоты строит набор базисных векторов. Как правило, длина каждого базисного вектора сос