Способы и системы идентификации паттернов днк при помощи спектрального анализа
Иллюстрации
Показать всеИзобретение относится к средствам проведения спектрального анализа ДНК. Технический результат заключается в ускорении проведения анализа спектральных изображений. Предоставляют последовательность ДНК. Создают множество спектрограмм, основанных на последовательности ДНК. Выполняют по меньшей мере одну из следующих функций в отношении множества спектрограмм: неконтролируемая классификация и обнаружение структурно новых элементов ДНК. Выполняют неконтролируемое исследование последовательности ДНК, в котором контролируемые и/или неконтролируемые классификации выполняют без отражения результатов преобразования Фурье в цветовое пространство и в котором один или несколько признаков извлекают непосредственно из бинарных индикаторных последовательностей, подвергнутых преобразованию Фурье. 2 н. и 17 з.п. ф-лы, 1 табл., 20 ил.
Реферат
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Настоящее изобретение относится к системам и способам, облегчающим проведение спектрального анализа ДНК и, более конкретно, к системам и способам, использующим технологию обработки изображений и/или технологию обработки сигналов, чтобы полностью или частично автоматизировать и/или ускорить обработку данных, относящихся к последовательностям ДНК. Согласно иллюстративным вариантам осуществления настоящего изобретения предоставлены системы и способы, поддерживающие одну или несколько из следующих технологий проведения спектрального анализа ДНК: (i) способ сравнительного анализа гистограмм; (ii) выбор/классификация с использованием метода опорных векторов и генетических алгоритмов; и (iii) способы создания видео из спектрограмм (спектрограммного видео), основанные на извлечении спектрограмм из данных, относящихся к последовательностям ДНК.
УРОВЕНЬ ТЕХНИКИ
В биоинформатике осуществляется поиск возможности организации огромных объемов биологических данных в легко воспринимаемую информацию, которая может быть использована для получения полезного знания. В области биоинформатики были разработаны способы спектрального анализа последовательностей ДНК. Как правило, способы спектрального анализа более совершенны по сравнению с ручными способами анализа образцов ДНК, целью которых является идентификация образцов ДНК, служащих биологическими маркерами, связанными с важными жизненными процессами. Обычно автоматический анализ выполняют, используя непосредственно цепочки последовательностей ДНК, состоящие из четырех символов A, T, C и G, которые представляют четыре нуклеотидных основания. Однако из-за огромной длины последовательностей ДНК (например, длина самой короткой человеческой хромосомы составляет 46,9 Мб), широкого спектра паттернов, связанных с ограниченным набором символов, и статистической природы проблемы, такой интуитивный/ручной подход является неэффективным, если вообще возможным, для достижения требуемой цели.
Спектральный анализ ДНК предлагает подход методичного решения проблемы получения полезной информации из данных, относящихся к последовательностям ДНК. Как правило, спектральный анализ ДНК включает идентификацию вхождения каждого из нуклеотидных оснований в последовательности ДНК в виде отдельного цифрового сигнала и преобразование каждого из четырех нуклеотидных сигналов в частотный домен. Затем величина частотного компонента может использоваться для выявления, насколько часто повторяется паттерн нуклеотидного основания с такой частотой. Большая величина/значение обычно указывает на более частое повторение. Чтобы улучшить читаемость результатов, в предшествующем уровне техники описаны системы, в которых каждое из нуклеотидных оснований представлено цветом, и частотные спектры четырех оснований объединены и представлены в виде цветовой спектрограммы. Эти способы описаны в следующих документах:
D. Anastassiou, "Frequency-Domain Analysis of Biomolecular Sequences," Bioinformatics, Vol. 16, No. 12, December 2000, pp. 1073-1081; and
D. Sussillo, A. Kundaje and D. Anastassiou, "Spectrogram Analysis of Genomes," EURASIP Journal on Applied Signal Processing, Special Issue on Genomic Signal Processing, Vol. 2004, No. 1, January 2004, pp. 29-42.
Перевод величин/значений для нуклеотидных оснований в визуальное изображение, т.е. спектрограмму, представляет собой мощный инструмент визуализации анализа ДНК. Полученный цвет в пикселях указывает на относительную интенсивность четырех оснований с конкретной частотой, а представление последовательностей ДНК в виде цветных изображений предоставляет возможность для более легкой идентификации паттернов путем визуального осмотра. Обычно цветовой тон в каком-либо районе спектрограммы отражает ее общий нуклеотидный состав, а четкие линии и пятна в спектрограмме указывают на наличие особых повторяющихся паттернов.
Алгоритм или способ генерации спектрограмм ДНК может быть кратко представлен в виде следующих пяти этапов:
(i) Формирование бинарных индикаторных последовательностей (BIS) u A [n], u T [n], u C [n] u G [n] для четырех нуклеотидных оснований. BIS для конкретного основания принимает значение "1" в позициях, в которых основание присутствует, и "0" в иных случаях. Таким образом, иллюстративную последовательность ДНК, имеющую нуклеотидную последовательность: "AACTGGCATCCGGGAATAAGGTCT", BIS преобразует следующим образом:
AACTGGCATCCGGGAATAAGGTCT …
u A [n] | 110000010000001101100000 … |
u T [n] | 000100001000000010000101 … |
u C [n] | 001000100110000000000010 … |
u G [n] | 000011000001110000011000 … |
Вышеприведенный иллюстративный BIS паттерн приведен на Фиг.1. Основанные на вышеприведенной последовательности ДНК, BIS значения могут быть представлены графически следующим образом (показано на Фиг.2):
(ii) Дискретное Преобразование Фурье (DFT), выполняемое над BIS. Затем получают частотный спектр каждого основания, вычисляя DFT из соответствующего ему BIS, используя уравнение (1):
k=0, 1,..., X=А, T, C или G (1)
Последовательность U[k] обеспечивает меру частотного контента на частоте k, которая эквивалентна основному периоду N/k образцов (показано на Фиг.3).
(iii) Отображение значений DFT на цвета RGB. Четыре последовательности DFT уменьшают до трех последовательностей в пространстве RGB, используя следующий набор линейных уравнений, которые все вместе определены как Уравнение (2):
где (a r , a g , a b ), (t r , t g , t b ), (c r , c g , c b ) и (g r , g g , g b ) представляют собой цветовые векторы отображения для нуклеотидных оснований A, T, C и G, соответственно. Полученный цвет пикселя (Xr[k], X g [k], X b [k]) представляет собой, таким образом, суперпозицию цветовых векторов отображения, взвешенных по величине частотной компоненты соответствующего ей основания в виде приведенного ниже набора и показанных на Фиг.4.
На Фиг. 5 и 6 дополнительно показано отображение значений DFT на цвета согласно иллюстративным вариантам осуществления настоящего изобретения. Таким образом, обращаясь к Фиг.5, для соответствующих нуклеотидных оснований A, T, C и G, соответственно, выбраны цветовые вектора. При выборе цветовых векторов обычно является желательным улучшить и/или увеличить цветовой контраст признаков, присущих ДНК. Основанные на иллюстративных цветовых векторах, значения DFT объединяют в цветовом пространстве, как показано на Фиг.6. Можно использовать альтернативные способы и/или протоколы отображения, например, значения DFT могут быть отображены на значения Тон-Насыщенность-Яркость (пространство HSV), пространство YCrCb и т.д.
(iv) Нормализация значений пикселей. Перед рендерингом цветовых спектрограмм значения RGB каждого пикселя обычно нормализуют таким образом, чтобы они попадали в интервал от 0 до 1. Существует множество способов выполнения функции нормализации. В самом простом способе все значения делят на глобальный максимум. Однако такой одноэтапный подход может ухудшить общий цветовой контраст изображения. Более подходящим способом является выполнение нормализации на двух уровнях: на первом уровне все значения пикселей делят на статистический максимум, например, равный общему значению плюс одно стандартное отклонение так, что после исходной операции, у большинства пикселей значения RGB будут находиться в интервале от 0 до 1; затем, на втором уровне, для оставшихся пикселей с любым значением RGB, превышающим единицу, отдельно выполняют второй уровень нормализации путем деления каждого из таких значений в пикселях на их локальный максимум max(xr, xg, xt). Этот двухуровневый подход препятствует слишком сильному уменьшению общей интенсивности изображения в связи с наличием пикселей, имеющих предельные значения, и в результате цветовой контраст изображения спектрограммы может быть лучше сохранен. На фиг.7 представлены иллюстративные нормализованные графики объединенных значений DFT по Фиг.6.
(v) Краткосрочное преобразование Фурье (STFT). До настоящего времени рассматривалось только одно окно дискретного преобразования Фурье (DFT). Однако для длинных последовательностей ДНК может возникнуть необходимость в повторении этапов (i)-(iv) для окон DFT, которые перемещаются вдоль последовательности. В результате это дает последовательные полосы цветных пикселей, при этом каждая из полос изображает частотный спектр локального сегмента ДНК. Затем путем последовательного соединения этих полос формируют спектрограмму ДНК. Приведенные ниже изображения представлены на Фиг. 8 и 9.
Следует отметить, что набор уравнений, определенный как уравнения (8) в публикации D. Anastassiou ("Frequency-Domain Analysis of Biomolecular Sequences," Bioinformatics, Vol. 16, No. 12, December 2000, pp. 1073-1081) предполагает, что порядок этапов (ii) и (iii) является обратимым, т.е. можно сначала уменьшить четыре бинарные индикаторные последовательности до трех числовых последовательностей (xr, xg, xt), а затем выполнить дискретное преобразование Фурье (DFT). Однако это нуждается в дополнительном доказательстве, потому что бинарные индикаторные последовательности не являются независимыми функциями.
Внешний вид спектрограммы очень сильно зависит от выбора размера окна краткосрочного преобразования Фурье (STFT), длины перекрывающейся последовательности между смежными окнами и цветовых векторов отображения. Как правило, размер окна определяет эффективный диапазон значения пикселей в спектрограмме. Большее окно дает в результате спектрограмму, которая выявляет статистические данные, собранные от более длинных локальных сегментов ДНК, и может быть полезным при идентификации паттернов более широкого круга. Вообще, размер окна должен в несколько раз превышать длину представляющего интерес повторяющегося паттерна и должен быть в несколько раз меньше размера области, содержащей этот паттерн. Перекрытие окон определяет длину сегмента ДНК, общего для двух смежных STFT окон. Следовательно, чем больше перекрытие, тем более плавно происходит переход частотного спектра от одного STFT окна к следующему. Более короткие интервалы между окнами дают более высокое разрешение изображения, тем самым облегчая обнаружение признаков путем обработки изображения или визуального осмотра. Однако для более коротких интервалов обычно также требуется большее количество вычислительных ресурсов.
В патенте США №6 6,287,773, Newell, раскрыт способ детектирования известных блоков функционально выровненной последовательности белка в тестируемой последовательности нуклеиновой кислоты, например, в неохарактеризованной EST. Способ Newell'773 включает этапы, на которых: (a) выполняют обратную трансляцию набора белковых последовательностей в набор функционально выровненных последовательностей нуклеиновых кислот, используя кодон-содержащие таблицы, и создают профиль из набора функционально выровненных последовательностей нуклеиновых кислот; (b) конструируют первую индикаторную функцию (аденин) для профиля; (c) конструируют вторую индикаторную функцию (аденин) для тестируемой последовательности нуклеиновой кислоты; (d) вычисляют преобразование Фурье для каждой из индикаторной функций; (e) выполняют комплексное сопряжение преобразования Фурье второй индикаторной функции; (f) умножают преобразование Фурье первой индикаторной функции на комплексно сопряженное преобразование Фурье второй индикаторной функции для получения преобразования Фурье для количества совпадений адениновых оснований; (g) повторяют этапы (b)-(f) для гуанина, тимина, и цитозина; (h) суммируют результаты преобразования Фурье для количества совпадений для каждого основания, соответственно, для получения полного преобразования Фурье; (i) вычисляют обратное преобразование Фурье для полного преобразования Фурье с целью получения комплексного ряда; и (j) берут реальную часть ряда для определения общего количества совпадений оснований для множества возможных лагов профиля относительно тестируемой последовательности. Первая индикаторная функция позволяет получать непрерывное значение в области от 0 до 1 в виде функции процентного присутствия аденина в конкретной позиции. Далее, способ может детектировать присутствие известных блоков функционально выровненных белковых последовательностей в тестируемой последовательности нуклеиновой кислоты, исходя из общего количества совпадений для множества возможных лагов, т.е. облегчить процесс сопоставления последовательностей.
Несмотря на прилагаемые в настоящее время усилия, остается потребность в системах и способах, облегчающих быструю визуализацию геномной информации. Кроме того, остается потребность в системах и способах, облегчающих идентификацию повторяющихся паттернов ДНК, например, CpG-островков, Alu-повторов, некодирующих РНК, тандемных повторов и различного типа сателлитных повторов. Остается потребность в инструментах, которые могут идентифицировать структурно или композиционно аналогичные образцы, демонстрирующие аналогичные спектральные свойства. Такие инструменты отличаются от инструментов выравнивания последовательностей, которые предназначены для линейного выравнивания последовательности или представления в виде нуклеотидов. Все еще остается потребность в системах и способах, облегчающих быстрый, полномасштабный анализ спектральных изображений, использующих способы контролируемого и/или неконтролируемого обучения. Кроме того, остается потребность в системах и способах увеличения разрешения спектральных изображений последовательностей, например, для предоставления возможности быстрой визуализации всего генома с требуемым разрешением. Эти и другие потребности удовлетворяют раскрытые в данном описании системы и способы.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Настоящее изобретение предоставляет имеющие преимущества системы и способы, облегчающие спектральный анализ ДНК и, более конкретно, системы и способы, использующие технологии обработки изображений и/или технологии обработки сигналов, чтобы полностью или частично автоматизировать и/или ускорить обработку данных, относящихся к последовательностям ДНК. Как более подробно раскрыто ниже в настоящем описании, иллюстративные системы и способы по настоящему изобретению поддерживают один или несколько из следующих способов спектрального анализа ДНК: (i) способ сравнительного анализа гистограмм; (ii) выбор/классификацию с использованием метода опорных векторов и генетических алгоритмов; и (iii) неконтролируемую классификацию и обнаружение структурно новых сегментов ДНК; и (iv) способы создания спектрограммного видео, основанные на извлечении спектрограмм из данных, относящихся к последовательностям ДНК. Раскрытые системы и способы предоставляют многочисленные преимущества, включая (i) облегчение визуализации геномной информации, (ii) идентификацию повторяющихся паттернов ДНК, например, CpG-островков, Alu-повторов, тандемных повторов, сателлитных повторов и т.д., (iii) быстрый, полномасштабный анализ спектральных изображений, используя способы контролируемого и/или неконтролируемого обучения, и (iv) увеличение разрешения спектральных изображений последовательностей, например, для предоставления возможности быстрой визуализации всего генома при изменяющемся и требуемом разрешении.
Согласно первому аспекту настоящего изобретения генерируют спектрограмму ДНК, применяя преобразование Фурье, чтобы преобразовать выраженную в символах последовательность ДНК, состоящую из букв A, T, C, G, в визуальное представление, которое выделяет периодичность совместной встречаемости паттернов ДНК. Раскрытые системы и способы облегчают идентификацию и/или определение положения повторяющихся паттернов ДНК путем применения операторов обработки изображения для нахождения заметных признаков в вертикальном и горизонтальном направлении спектрограммы ДНК. Быстрый, полномасштабный анализ полученных спектральных изображений выполняется путем использования способов контролируемого и неконтролируемого обучения. В контролируемом режиме два иллюстративных способа детектирования и классификации повторяющихся паттернов ДНК по настоящему изобретению включают (a) способ сравнительного анализа гистограмм; и (b) технологию, которая включает выбор и классификацию признаков путем использования алгоритмов опорных векторов и генетических алгоритмов.
Раскрытые операторы обработки изображения являются эффективными для идентификации и/или определения положения паттернов ДНК, таких как CpG-островки, Alu-повторы, некодирующие РНК (например, микро-РНК и небольшие ядерные РНК), тандемные повторы, различного типа сателлитные повторы и т.п. Операторы обработки изображения могут быть использованы для идентификации и/или определения положения повторяющихся элементов во множестве биологических систем, например, в пределах хромосомы, в пределах генома, или в геномах различных видов. Раскрытые система и способ преодолевают ограничения существующих технологий, в которых последовательность ДНК или геном обрабатывают с целью генерации огромного количества изображений спектрограмм, но используя такие изображения нельзя эффективно и надежно определить или объяснить положение повторяющихся паттернов и/или определить связь между биологическим или клиническим значением и такими повторяющимися паттернами.
Согласно второму аспекту настоящего изобретения генерируют спектрограмму ДНК путем преобразования последовательности ДНК в бинарную индикаторную последовательность, и затем путем применения краткосрочного преобразования Фурье и отображения выходных данных на цветовое пространство для визуализации. Спектрограмму ДНК продвигают вдоль последовательностей ДНК для получения видеоизображения. Видеоизображение, называемое "спектрограммное видео", может быть сгенерировано из очень длинных последовательностей ДНК для облегчения их визуализации, например, длинных последовательностей ДНК, таких как хромосомы или полные геномы. В отличие от обычной спектрограммы ДНК той же самой последовательности, раскрытое спектрограммное видео обеспечивает улучшенное разрешение. Кроме того, раскрытое спектрограммное видео облегчает визуализацию генома за короткий промежуток времени и с требуемым разрешением. Анализ спектрограммного видео можно использовать для обеспечения или облегчения полного анализа генома и/или детектирования изменений в образцах ДНК полной длины (или требуемых ее частях).
Способы детектирования изменений сцены могут использоваться относительно спектрограммного видео для обнаружения прерываний в линейных визуальных признаков. Кроме того, для каждой сцены в спектрограммном видео из спектрального домена могут быть извлечены статистические признаки. Более того, отдельные сцены из полного (или по существу полного) спектрограммного видео могут быть кластеризованы при помощи способов неконтролируемой кластеризации. Действительно, способы неконтролируемого детектирования видеопризнаки по настоящему изобретению можно использовать для идентификации и/или выявления различного рода геномного сходства на уровне спектральной ДНК. Таким образом, такие аналитические способы можно использовать для автоматического анализа ДНК, например, нахождения генных сетей, важных мотивов, повторяющихся элементов ДНК и других заметных паттернов ДНК.
Дополнительные обеспечивающие преимущества особенности и функции раскрытых систем и способов будут очевидны из подробного нижеприведенного описания совместно с прилагаемыми чертежами.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
С целью облегчить специалисту в данной области техники изготовление и применение раскрытых систем и способов приводятся ссылки на прилагаемые чертежи, на которых:
На Фиг.1 приведены иллюстративные бинарные индикаторные последовательности (BIS) для последовательности ДНК согласно способам спектральных отображений, используемым по настоящему изобретению;
На Фиг.2 приведены графики иллюстративных BIS, показанных на Фиг.1;
На Фиг.3 приведены дискретные преобразования Фурье (DFT) для иллюстративных BIS по Фиг. 1 и 2;
На Фиг.4 показано отображение значений иллюстративных DFT по Фиг.3 на цветовое пространство;
На Фиг.5 показано отображение значений иллюстративных DFT по Фиг.3 на цветовое пространство, основанное на иллюстративных цветовых векторах;
На Фиг.6 приведено суммирование значений DFT в цветовом пространстве по настоящему изобретению;
На Фиг.7 приведены нормализованные графики суммирования значений DFT в цветовом пространстве;
Фиг.8 представляет собой иллюстративный цветовой спектр для последовательности ДНК (воспроизведенная в серых тонах);
Фиг.9 представляет собой иллюстративное последовательное соединение множества полос цветовых спектров для иллюстративных сегментов ДНК по настоящему изобретению;
Фиг.10 представляет собой изображения спектрограмм иллюстративных CpG-островков;
Фиг.11 представляет собой изображение спектрограммы CpG-островков по Фиг.10, ограниченное красными и зелеными цветами;
На Фиг.12 приведен ряд спектрограмм с удаленным шумом по настоящему изобретению;
Фиг.13 представляет собой спектральные изображения и краевые измерения для спектрограмм, основанных на зеленом и красном цветах, по настоящему изобретению;
На Фиг.14 приведены края, извлеченные из иллюстративной спектрограммы RGB, и родственная классификация CpG-островков, связанная с ними;
На Фиг.15 приведена блок-схема для иллюстративного способа/технологии сравнительного анализа гистограмм по настоящему изобретению;
Фиг.16 и 17 представляют собой иллюстративные графики, показывающие обнаружение CpG-островков при помощи краевых гистограмм на спектрограммах, полученных путем цветового отображения;
На Фиг.18 приведена блок-схема для иллюстративного метода/технологии генетический алгоритм-опорные вектора, (GA-SVM) по настоящему изобретению;
На Фиг.19 приведена блок-схема для иллюстративного способа/технологии для генерации спектрограммного видео по настоящему изобретению; и
Фиг.20 представляет собой изображение из иллюстративного спектрограммного видео по настоящему изобретению.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
Системы и способы по настоящему изобретению облегчают спектральный анализ ДНК. Как раскрыто в настоящем описании, иллюстративные системы и способы поддерживают и/или используют один или несколько из следующих способов спектрального анализа ДНК: (i) способ сравнительного анализа гистограмм; (ii) выбор/классификацию с использованием метода опорных векторов и генетических алгоритмов; и (iii) способы создания спектрограммного видео, основанные на извлечении спектрограмм из данных, относящихся к последовательностям ДНК. Настоящее изобретение может обеспечить множество преимуществ, например, (i) улучшенную визуализацию геномной информации, (ii) идентификацию повторяющихся паттернов ДНК, например, CpG-островков, Alu-повторов, некодирующих РНК, тандемных повторов, сателлитных повторов и т.д., (iii) неконтролируемую классификацию и обнаружение структурно новых сегментов ДНК; (iv) быстрый, полномасштабный анализ спектральных изображений при помощи способов контролируемого и/или неконтролируемого обучения и (v) увеличенное разрешение спектральных изображений последовательностей, например, для получения возможности быстрой визуализации всего генома при требуемом разрешении.
Согласно раскрытым системам и способам, спектрограммы ДНК генерируют обычным способом, как более подробно раскрыто в настоящем описании выше со ссылкой на Фиг. 1-9. Например, можно использовать обычный алгоритм или способ генерации спектрограмм ДНК, который содержит следующие пять этапов:
(i) Формирование бинарных индикаторных последовательностей (BIS) u A [n], u T [n], u C [n] u G [n] для четырех нуклеотидных оснований. Как указано выше, BIS паттерн показан на Фиг.1, а график значений BIS представлен на Фиг.2.
(ii) Дискретное Преобразование Фурье (DFT), выполняемое над BIS. Получают частотный спектр для каждого основания, вычисляя DFT из соответствующего ему BIS, используя уравнение (1):
k=0, 1, …, X=А, T, C или G (1)
Как показано на Фиг.3, последовательность U[k] обеспечивает меру частотного контента на частоте k, которая эквивалентна основному периоду N/k образцов.
(iii) Отображение значений DFT на цвета RGB. Четыре последовательности DFT уменьшают до трех последовательностей в пространстве RGB, используя набор линейных уравнений, которые приведены ниже:
где (a r , a g , a b ), (t r , t g , t b ), (c r , c g , c b ) и (g r , g g , g b ) представляют собой цветовые векторы отображения для нуклеотидных оснований A, T, C и G, соответственно. Полученный цвет пикселя (Xr[k], X g [k], X b [k]) представляет собой, таким образом, суперпозицию цветовых векторов отображения, взвешенных по величине частотной компоненты соответствующего ей основания (см. Фиг.4). Отображение значений DFT на цвета показано на Фиг.5 и 6.
(iv) Нормализация значений пикселей. Перед рендерингом изображений цветовых спектрограмм, значения RGB каждого пикселя обычно нормализуют таким образом, чтобы они попадали в интервал от 0 до 1. На фиг.7 представлены иллюстративные нормализованные графики объединенных значений DFT по Фиг.6.
(v) Краткосрочное преобразование Фурье (STFT). Спектрограммы ДНК, сформированные путем последовательного соединения отдельных полос последовательности ДНК, где каждая полоса обычно изображает спектральную частоту локального сегмента ДНК (см. Фиг.8 и 9).
Согласно настоящему изобретению, CpG-островки могут быть преимущественно выделены из сгенерированных таким образом спектральных изображений ДНК. CpG-островки представляют собой важные биологические маркеры для промоторных участков генов в организмах, содержащих в своих геномах 5-метилцитозин, и CpG-островки играют важную роль в дифференцировке клеток и в регуляции генной экспрессии у позвоночных животных. CpG-островки были определены Гардинер-Гарденом и Фроммером (Gardiner-Garden и Frommer) как участки с по меньшей мере 200 парами оснований (п.о.) с C+G содержанием, превышающим 50%, и наблюдаемым/ожидаемым CpG соотношением, превышающим 0,6. CpG-островки были также определены Такай и Джонсом (Takai и Jones) как участки, содержащие более 500 п.о., с содержанием C+G нуклеотидов, равным по меньшей мере 55%, и наблюдаемым/ожидаемым CpG соотношением, равным 0,65. Следует отметить, что определение Такай и Джонса направлено на возврат идеи о том, что, по всей вероятности, CpG-островки имеют связь с 5'-участками генов, и исключение большинства элементов с Alu-повторами. В обоих определениях наблюдаемое/ожидаемое CpG соотношение получают из уравнения: (количество C x количество G/длина сегмента).
На Фиг.10 представлены две иллюстративные спектрограммы, показывающие CpG-островок в центре. Размер окна STFT выбран таким образом, чтобы он включал 120 пар оснований (п.о.), с перекрытием 119 п.о. между смежными окнами. Следует отметить, что при выделении CpG из спектрального изображения обычно отсутствует необходимость различения А от T и C от G. Следовательно, вместо использования четырех цветовых векторов соответственно для четырех нуклеотидных оснований, можно использовать два цветовых вектора, например, красный (1, 0, 0) для A и T и зеленый (0, 1, 0) для C и G. Соответствующие спектрограммы показаны на Фиг.11, и в обоих изображениях CpG-островки лучше контрастируют с фоном. Этот выбор цветовых векторов также позволяет рассматривать только красные и зеленые цветовые компоненты, в то время как синий компонент может быть игнорирован. Таким образом, раскрытая технология выбора цвета позволяет и/или облегчает генерацию изображений, в которых признаки лучше различимы, т.е. улучшенное выполнение извлечения достигается путем выбора оптимальной цветовой схемы(схем).
Вообще, способы детектирования признаков изображения могут включать три этапа, на которых: (i) удаляют шумы из изображения, (ii) выделяют классификационные признаки, и (iii) принимают решение путем оценки классификационных признаков. С точки зрения раскрытых систем и способов, не требуется удаление шумов в спектральных изображениях, хотя путем включения соответствующего этапа удаления шума, как правило, можно достичь лучших результатов.
УДАЛЕНИЕ ШУМОВ ИЗ ИЗОБРАЖЕНИЙ
Необработанное изображение спектрограммы содержит шумы, удаление которых может улучшить или увеличить надежность детектирования, эффективность и/или производительность. Удаление шумов из изображения спектрограммы может быть достигнуто при помощи одной или нескольких морфологических операций. Например, путем выполнения морфологического открытия с последующим морфологическим закрытием, могут быть удалены небольшие участки “слабых” пикселей. После этого участки, содержащие “сильные” пиксели, которые расположены в непосредственной близости друг от друга, могут быть слиты. Удаление шума обычно выполняют отдельно в зеленом и красном цветовых пространствах. Форму и размер структурных элементов для морфологических операций тщательно выбирают таким образом, чтобы отфильтровать шум, в то же время сохранить полезные детали в спектрограмме. Было установлено, что прямоугольные структурирующие элементы с высотой один и длиной пятьдесят пикселей обеспечивают эффективные параметры для операций по удалению шума совместно с детектированием CpG-островков. Иллюстративные спектрограммы с удаленным шумом показаны на Фиг.12, на котором изображения, представленные слева, включают только изображения с зеленым и красным каналами, а соответствующие изображения, представленные справа, включают изображения после использования фильтра морфологического "закрытия" с последующим морфологическим "раскрытием".
ВЫДЕЛЕНИЕ КЛАССИФИКАЦИОННЫХ ПРИЗНАКОВ
Путем визуального осмотра было отмечено, что в CpG островках интенсивность зеленого цвета обычно более сильна (наличие C и G), чем красного цвета (наличие A и T). Кроме того, интенсивность красного цвета обычно равномерно низка, т.е. по существу однородна, на участке, тогда как в интенсивности зеленого пространства имеется большее колебание, которое является очевидным вследствие наличия одного или нескольких кластеров ярких пятен. Для решения указанных ранее проблем однородности/неоднородности, системы и способы по настоящему изобретению преимущественно облегчат улучшенное выделение классификационных признаков. Таким образом, согласно иллюстративным вариантам осуществления по настоящему изобретению, на спектрограмме с удаленным шумом в зеленом и красном пространствах соответственно выполняют детектирование края 'Sobel'. Как известно в данной области техники, оператор Sobel представляет собой дискретный дифференциальный оператор, который вычисляет аппроксимацию градиента функции интенсивности изображения. В каждой точке изображения результат оператора Sobel представляет собой либо соответствующий вектор градиента, либо норму этого вектора. Можно использовать альтернативные способы детектирования края, например, детектор края Canny, без отступления от сути и объема настоящего изобретения.
Применение детектирования края при помощи Sobel к спектрограмме с удаленным шумом дает бинарные изображения краев, которые соответствуют пикселям, которые сильнее отличаются от своих соседей по интенсивности. Было обнаружено, что в зеленом пространстве имеется большее количество краевых пикселей для CpG-островков, чем в красном пространстве. Бинарные изображения, генерируемые путем детектирования края, затем обрабатывают, вычисляя количество краевых пикселей по оси X (позиция окна STFT) и оси Y (спектральная частота), соответственно. В результате получают четыре гистограммы: x- и y-гистограммы для зеленого и красного пространств. Наконец, вышеуказанные гистограммы сглаживают, вычисляя значение скользящего среднего для каждой из них.
Иллюстративные спектральные изображения, отражающие результаты считывания краев для зеленого и красного пространств, приведены на Фиг.13. В левой колонке на Фиг.13 показано исходное изображение, тогда как в правой колонке показано соответствующее изображение после применения детектирования края при помощи Sobel с использованием квадратной маски 2x2. На изображениях справа показаны горизонтальные и вертикальные краевые гистограммы.
Таким образом, на выделение классификационных признаков влияет ряд параметров, что может быть учтено согласно системам и способам по настоящему изобретению. Среди параметров, которые влияют на выделение классификационных признаков и которые являются контролируемыми согласно настоящему изобретению, присутствуют следующие: (i) способ детектирования края, (ii) пороговое значение для детектирования края, и (iii) размер окна для определения скользящего среднего.
ПРИНЯТИЕ РЕШЕНИЯ ПУТЕМ ОЦЕНКИ КЛАССИФИКАЦИОННЫХ ПРИЗНАКОВ
После идентификации классификационных признаков спектрального изображения, согласно раскрытым системам/способам предполагается, что может быть предоставлен классификатор для CpG-островков. Имеются два иллюстративных подхода для создания классификатора: (i) подход фиксированного порогового значения, и (ii) подход с использованием метода опорных векторов/генетического алгоритма (GA-SVM).
В раскрытом подходе фиксированного порогового значения CpG-островки преимущественно выделяют следующим образом:
(i) (x_гистограмма_зеленый-x_гистограмма_красный) > пороговое значение (в этом примере, равное 2),
(ii) участки, удовлетворяющие (1) и имеющие длину < 200 п.о., отклоняются,
(iii) участки, удовлетворяющие как (1), так и (2) и разделенные менее чем 100 п.о., сливаются.
Как показано на Фиг.14, края выделяют из цветовой спектрограммы, которая отображает основания 'A', 'T' на красный цвет, и 'C', 'G' на зеленый цвет. Краевые пиксели, которые могут быть отображены на красный и зеленый цвета, выделяют из соответствующих цветовых пространств независимо. Дополнительный цвет, например желтый цвет, может использоваться для отображения результатов, связанных с совместным существованием как красных, так и зеленых краев. Как это очевидно из проиллюстрированного на Фиг.13, сумма зеленых пикселей в гистограммах по оси X явно превышает сумму красных пикселей для CpG-островка. Основываясь на вышеприведенных критериях идентификации CpG-островков, CpG-островок идентифицирован как расположенный с 1102 до 1322 нуклеотид сегмента ДНК. Для сравнения, CpG-островки, на основании определения CpG по Гардинеру и Такаю, также показаны на Фиг.14, т.е. по Гардинеру (855, 1524) и Такаю (744, 1243). Следует отметить, что приведенные в настоящем описании критерии идентификации CpG-островков являются более строгими по сравнению с определениями/критериями по Гардинеру и Такаю, по меньшей мере, для иллюстративной спектрограммы, представленной на Фиг.14. Как очевидно специалистам в данной области техники, существует возможность подгонки критериев идентификации CpG-островков путем изменения значений применяемых параметров.
Таким образом, в более широком смысле, иллюстративные система и способ сравнительного анализа гистограмм по настоящему раскрытию включают в себя следующие этапы, последовательность операций которых представлена на Фиг.15. Хотя порядок, в котором этапы приведены в настоящем описании, представлен для раскрытой системы/способа, необходимо иметь в виду, что раскрытая система и способ не ограничены приведенным в настоящем описании порядком. Кроме того, раскрытые с