Способ и система выявления вариации числа копий в геноме

Иллюстрации

Показать все

Группа изобретений относится к области геномики. Предложены способ выявления вариации числа копий в образце генома и система, используемая для осуществления способа. Способ выявления вариации числа копий в образце генома, включает этапы: секвенирования образца генома, для получения результата секвенирования в виде множества прочтений; картирования результата секвенирования к эталонной геномной последовательности для установления распределения прочтений в эталонной геномной последовательности; определения множества точек разрыва в эталонной геномной последовательности, основанное на распределении прочтений в эталонной геномной последовательности, где число прочтений значимо в обеих сторонах от точек разрыва; определения окна детекции в эталонной геномной последовательности на основе множества точек разрыва; определения пробного параметра на основе прочтений, попадающих в окно детекции; и определения вариации числа копий в окне детекции образца генома на основе различия между пробным параметром и заданным пороговым значением. Система содержит секвенатор, анализатор, блок картирования, блок определения точек разрыва, блок определения окна детекции, блок определения параметров, блок обнаружения. Использование данных изобретений позволяет эффективно определить присутствие разнообразных вариаций числа копий в образце генома. 2 н. и 17 з.п. ф-лы, 5 ил., 3 табл., 2 пр.

Реферат

Область техники

Варианты предлагаемого изобретения в целом относятся к способу и системе выявления вариации числа копий в образце генома, и к использованию с этой целью машиночитаемого носителя.

Предшествующий уровень

В научно-исследовательской и прикладной областях, обычно возникают проблемы анализа одной клетки, группы клеток, или следов нуклеиновой кислоты. Например, преимплантационная генетическая диагностика (ПГД) и преимплантационный генетический скрининг (ПГС) в области вспомогательной репродуктивной технологии включает анализ одиночных половых клеток, отдельных клеток бластомера или эмбриональных клеток; область технологии неинвазивного пренатального анализа включает проблему определения следов фетальных клеток в материнской периферической крови. Метагеномика включает анализ одиночных клеток или следов биологических клеток в окружающей среде. Медицинские или физические исследования включают анализ одной клетки в ткани или жидкости тела.

Однако, в настоящее время способ определения вариации числа копий все еще требует совершенствования.

Краткое описание изобретения

Предлагаемое изобретение направлено на решение, по крайней мере, частичное, одной из существующих проблем.

Первым объектом предлагаемого изобретения в широком смысле является способ выявления вариации числа копий в образце генома. Согласно вариантам предлагаемого изобретения, способ может включать следующие этапы: секвенирование образца генома для получения в результате множества прочтений; картирование результата секвенирования к последовательности референсного генома (эталонной геномной последовательности) для определения распределения прочтений в последовательности референсного генома; определение множества точек разрыва в последовательности референсного генома на основании распределения прочтений в последовательности референсного генома, в котором число прочтений является значимым по обе стороны от точек разрыва; определение окна детекции в референсном геноме на основании множества точек разрыва; определение пробного параметра на основании прочтений, попадающих в окно детекции; и определение вариации числа копий в окне детекции образца генома на основе различия между пробным параметром и заданным пороговым значением. Используя способ выявления вариации числа копий в образце генома согласно вариантам предлагаемого изобретения, можно эффективно выявлять разные вариации числа копий в образце генома, в частности, анеуплоидию хромосомы, делецию хромосомы и также вставку, микроделецию и микродупликацию участков хромосомы.

Вторым объектом предлагаемого изобретения в широком смысле является система выявления вариации числа копий в образце генома. Согласно вариантам предлагаемого изобретения система может содержать:

секвенатор, выполняющий секвенирование образца генома для получения в результате множества прочтений; анализатор, соединенный с секвенатором и определяющий вариации числа копий в образце генома на основе результатов секвенирования; при этом анализатор содержит: блок картирования для сравнения результата секвенирования с последовательностью референсного генома (эталонной геномной последовательностью) для определения распределения прочтений в последовательности референсного генома; блок определения точек разрыва, соединенный с блоком картирования для определения множества точек разрыва в последовательности референсного генома на основании распределения прочтений в последовательности референсного генома, при том, что число прочтений является значимым с обеих сторон от точек разрыва; блок определения окна детекции, соединенный с блоком определения точек разрыва, способный определять окно детекции в референсном геноме на основании множества точек разрыва; блок определения параметров, соединенный с блоком определения окна детекции и предназначенный для определения пробного параметра на основании прочтений, попадающих в окно детекции; и блок обнаружения, соединенный с блоком определения параметров, предназначенный для выявления вариации числа копий в образце генома в окне детекции, на основании различия между пробным параметром и заданным пороговым значением. Используя систему выявления вариации числа копий в образце генома, согласно вариантам предлагаемого изобретения, можно эффективно осуществить способ выявления вариации числа копий в образце генома, в частности, анеуплоидии хромосомы, делеции хромосомы, а также вставку, микроделецию и микродупликацию участков хромосомы.

Третьим объектом предлагаемого изобретения в широком смысле является машиночитаемый носитель. Согласно вариантам предлагаемого изобретения, выявление вариации числа копий в образце генома осуществляется машиночитаемым носителем с помощью процессора и включает следующие этапы: картирование результата секвенирования к последовательности референсного генома для определения распределения прочтений в последовательности референсного генома; определение множества точек разрыва в последовательности референсного генома на основании распределения прочтений в последовательности референсного генома, в котором число прочтений является значимым по обе стороны от точек разрыва; определение окна детекции в референсном геноме на основании множества точек разрыва; определение пробного параметра на основании прочтений, попадающих в окно детекции; и выявление вариации числа копий в образце генома в окне детекции на основе различия между пробным параметром и заданным пороговым значением. Используя машиночитаемый носитель, можно эффективно осуществлять способ выявления вариации числа копий в образце генома согласно вариантам предлагаемого изобретения, для того чтобы эффективно выявлять разные вариации числа копий в образце генома, в частности, анеуплоидию хромосомы, делецию хромосомы, а также вставку, микроделецию и микродупликацию участков хромосомы.

Другие особенности и преимущества вариантов предлагаемого изобретения частично будут даны в дальнейшем описании, или будут видны из описания, или могут быть установлены при осуществлении предлагаемого изобретения.

Краткое описание чертежей

Эти и другие особенности и преимущества предлагаемого изобретения будут более понятны и наглядны из последующего описания с отсылками к прилагаемым чертежам, на которых:

Фиг. 1 - блок-схема, показывающая способ выявления вариации числа копий в образце генома; согласно варианту предлагаемого изобретения;

Фиг. 2 - схема, показывающая систему для выявления вариации числа копий в образце генома; согласно варианту предлагаемого изобретения;

Фиг. 3 - блок-схема, показывающая способ выявления вариации числа копий в образце генома; согласно другому варианту предлагаемого изобретения;

Фиг. 4 - изображение анализа кариотипа хромосомы из образца S1 согласно вариантам предлагаемого изобретения, на которой на левой панели показан результат, полученный способом выявления вариации числа копий согласно варианту предлагаемого изобретения, для одиночной эмбриональной клетки, подвергнутой полногеномной амплификации; на правой панели показан результат, который был получен при прямом секвенировании (без предварительной полногеномной амплификации) ДНК, выделенной из той же одиночной эмбриональной клетки; и

Фиг. 5 - изображение анализа кариотипа хромосомы из образца S2 согласно вариантам предлагаемого изобретения, на которой на левой панели показан результат, полученный способом выявления вариации числа копий согласно варианту предлагаемого изобретения с одиночной эмбриональной клеткой, подвергнутой полногеномной амплификации; на правой панели показан результат, который был получен при прямом секвенировании (без предварительной полногеномной амплификации) ДНК, выделенной из той же одиночной эмбриональной клетки.

Подробное описание

Детали изобретения будут раскрыты при описании отдельных вариантов. Одни и те же или аналогичные элементы и элементы, имеющие те же или такие же функции, обозначены одинаковыми числовыми позициями по всему описанию. Описываемые варианты со ссылками на чертежи являются иллюстративными, пояснительными и используются для общего понимания предлагаемого изобретения. Они не должны рассматриваться как ограничивающие данное изобретение.

Термины «первый» и «второй» используются в настоящем документе с описательной целью и не указывают и не подразумевают относительную важность или значение признаков. Таким образом, признаки, определенные как «первый» или «второй» могут явно или неявно включать один или несколько упомянутых признаков. Кроме того, в описании предлагаемого изобретения термин «множество» означает «два или более», если не указано иное. Если не указанное иное, в используемых в данном документе формулах или знаках одинаковые символы имеют одинаковое значение.

I. Способ выявления вариации числа копий в образце генома

Первым объектом предлагаемого изобретения является способ выявления вариации числа копий в образце генома. Используемый в документе термин «вариация числа копий» - ВЧК (CNV) относится к аномальному числу хромосом или участков хромосом, в частности, к анеуплоидии хромосомы, делеции участка хромосомы, вставке, микроделеции и микродупликации участка хромосомы.

На Фиг. 1 показан способ выявления вариации числа копий в образце генома согласно вариантам предлагаемого изобретения, включающий:

S100: секвенирование образца генома для получения в результате множества прочтений.

Согласно вариантам предлагаемого изобретения, типы образцов генома, в отношении которых отсутствуют специальные ограничения, могут представлять собой полный геном или часть генома, например, хромосому или участок хромосомы. Кроме того, согласно вариантам предлагаемого изобретения, способ выявления вариации числа копий в образце генома может предварительно включать этап выделения образца генома из биологического образца. Соответственно, биологический образец может быть непосредственно использован в качестве исходного материала для получения информации о возможной вариации числа копий в биологическом образце, отражающей состояние здоровья организмов. Согласно вариантам предлагаемого изобретения, в отношении используемого биологического образца отсутствуют специальные ограничения. В некоторых конкретных примерах предлагаемого изобретения, биологический образец выбирают из группы, включающей кровь, мочу, слюну, ткань, половые клетки, оосперму, бластомер или эмбрион. Специалисты высоко оценят возможность использования разных биологических образцов для анализа различных заболеваний. Соответственно, эти образцы легко получить из организмов. При конкретных заболеваниях могут быть направленно использованы разные образцы, для целенаправленного выбора конкретных средств для анализа определенных заболеваний. Например, у пациента с предполагаемым определенном типом рака может быть получен образец раковой ткани или предположительно раковой ткани с последующим выделением из образца клеток для анализа, чтобы точно определить, является ли данная ткань раковой, на как можно более ранней стадии. Согласно одному из примеров предлагаемого изобретения, в качестве биологического образца может быть использована одиночная клетка. В предлагаемом изобретении в отношении способов и устройств для выделения одиночной клетки из биологического образца специальные ограничения отсутствуют. Согласно некоторым конкретным примерам предлагаемого изобретения, для выделения одиночной клетки можно использовать, по крайней мере, один из следующих приемов и средств: разбавление, обычная пипетка, микроманипуляции (предпочтительно, микродиссекция), выделение методом проточной цитометрии, микроструйные методы. Эти подходы позволяют эффективно и легко получать одиночные клетки из биологического образца для использования их на следующих этапах. Далее эффективность выявления вариации числа копий в образце генома может быть еще усовершенствована.

Кроме того, согласно вариантам предлагаемого изобретения, в отношении способов секвенирования образца генома специальные ограничения отсутствуют. Согласно одному из вариантов предлагаемого изобретения, этап секвенирования образца генома дополнительно включает следующие подэтапы: 1) амплификацию образца генома для получения образца с амплифицированным геномом; 2) создание библиотеки фрагментов ДНК с секвенированнным образцом амплифицированного генома; и 3) секвенирование созданной библиотеки фрагментов ДНК с получением результата секвенирования, включающего множество прочтений. Соответственно, секвенирование образца генома позволяет успешно получать информацию о полном геноме, и образец, представляющий собой геном единичной клетки или следы нуклеиновой кислоты, может быть эффективно секвенирован для более надежного выявления вариации числа копий в образце генома. Специалисты могут выбирать разные способы конструирования библиотеки фрагментов ДНК в зависимости от конкретных решений, используемых в методике секвенирования генома. С процессом конструирования библиотеки фрагментов ДНК можно подробно ознакомиться в спецификации производителя секвенатора, например, Illumina Company - «Руководство по мультиплексированной подготовке образца» (Часть №1005063; февраль 2010 г.), включенной в настоящий документ посредством ссылки.

Факультативно, на этапе выделения образца генома из биологического образца, являющегося одиночной клеткой, согласно вариантам предлагаемого изобретения, способ может дополнительно включать этап лизиса одиночной клетки, приводящий к высвобождению полного генома одиночной клетки. Согласно некоторым примерам предлагаемого изобретения, в отношении способов лизиса одиночной клетки с высвобождением полного генома специальные ограничении отсутствуют, поскольку при лизисе одиночной клетки преимущественно происходит полный лизис. В конкретных примерах предлагаемого изобретения, для высвобождения полного генома одиночной клетки для лизиса одиночной клетки используют щелочной лизат. Авторы предлагаемого изобретения обнаружили, что этап лизирования одиночной клетки может эффективно обеспечивать лизис одиночной клетки с выделением полного генома, и при секвенировании высвободившегося полного генома может достигаться более высокая точность, что дополнительно повышает эффективность выявления вариаций числа копий в образце генома. Согласно вариантам предлагаемого изобретения, в отношении способов амплификации полного генома одиночной клетки отсутствуют какие-либо особые ограничения и могут быть использованы разновидности ПЦР, например, PEP-PCR (полимеразная цепная реакция с удлинением продукта предыдущего цикла амплификации, DOP-PCR (полимеразная цепная реакция с использованием частично вырожденных праймеров) и полногеномный анализ (WGA) с использованием наборов OmniPlex. Также могут быть использованы методы, не связанные с ПЦР, например, амплификация с множественным замещением цепи (MDA). Согласно конкретным примерам предлагаемого изобретения, предпочтительным являются разновидности ПЦР, например OmniPlex WGA. Могут быть использованы коммерческие наборы, в частности GenomePlex компании Sigma Aldrich, PicoPlex компании Rubicon Genomics, REPLI-g компании Qiagen, illustra GenomiPhi компании GE Healthcare и т.д. Согласно конкретным примерам предлагаемого изобретения, перед подэтапом конструирования библиотеки фрагментов ДНК для секвенирования, может быть выполнена полногеномная амплификация одиночной клетки с использованием набора OmniPlex WGA. Соответственно, эффективная полногеномная амплификация может дополнительно повысить эффективность выявления вариации числа копий в образце генома. Согласно вариантам предлагаемого изобретения, на подэтапе секвенирования полного генома для конструирования библиотеки фрагментов ДНК используется, по крайней мере, одна технология, выбранная из технологий секвенирования следующего поколения, включающих систему Hiseq (Illumina Company), систему Miseq (Illumina Company), систему Genome Analyzer (GA) (Illumina Company), 454 FLX (Roche Company), систему SOLiD (Applied Biosystems Company), систему Ion Torrent (Life Technologie Company). Соответственно, могут быть использованы характеристики высокоскоростного и глубокого секвенирования, обеспечиваемого этими аппаратами, что дополнительно повышает эффективность выявления вариации числа копий в образце генома. Несомненно, специалисты поймут, что для секвенирования полного генома могут применяться также и другие методы секвенирования и оборудование для секвенирования, например, технология секвенирования третьего поколения (т.е., технология секвенирования на одномолекулярном уровне), например, любая система HeliScope (Helicos BioSciences Company), система RS (PacBio Company) и т..д. и также более передовые технологии секвенирования, которые могут быть разработаны в будущем. Согласно вариантам предлагаемого изобретения, в отношении длины секвенированных последовательностей полного генома специальные ограничения отсутствуют. В конкретных примерах предлагаемого изобретения, средняя длина множества полученных при секвенировании данных составляет приблизительно 50 п.н. Авторы предлагаемого изобретения неожиданно обнаружили, что определенные последовательности длиной приблизительно 50 п.н. могут значительно облегчить анализ результатов секвенирования, повышая эффективность анализа и существенно снижая стоимость анализа и, тем самым, дополнительно повышая эффективность выявления анеуплоидности хромосом одиночной клетки и снижая стоимость выявления анеуплоидности хромосом в одиночной клетке. Термин «средняя длина» в данном описании относится к среднему значению длины каждой определенной последовательности.

S200: картирование результата секвенирования к последовательности референсного генома для определения распределения прочтений в последовательности референсного генома

После завершения этапа секвенирования образца генома полученная в результате последовательность включает множество данных секвенирования. Полученный результат секвенирования картируют к последовательности референсного генома, чтобы определить расположение полученного при секвенировании результата в последовательности референсного генома. Согласно вариантам предлагаемого изобретения, для того чтобы рассчитать общее число этих определенных последовательностей, могут быть использованы любые известные методы. Например, для анализа можно использовать программное обеспечение производителя секвенатора. Предпочтительно применяются Пакет программ для анализа коротких олигонуклеотидов (SOAP) и Burrows-Wheeler Aligner (BWA), позволяющие картировать прочтения к последовательности референсного генома и определить расположение этих прочтений в последовательности референсного генома. При совмещении последовательностей может быть использован параметр, предоставляемый программным обеспечением по умолчанию, либо соответствующий параметр может быть выбран специалистом. В варианте предлагаемого изобретения в качестве программного обеспечения картирования используют SOAPaligner/soap2.

В вариантах предлагаемого изобретения, последовательность референсного генома может представлять собой эталонную последовательность генома человека из базы данных Национального центра биотехнологической информации (NCBI) (например, hg18, NCBI Build 36); или часть последовательности известного генома, например, по крайней мере, одну последовательность, выбранную из группы, включающей 21-ю хромосому, 18-ю хромосому, 13-ю хромосому, Х-хромосому и Y-хромосому человека.

Согласно вариантам предлагаемого изобретения, на этапе картирования результата секвенирования к последовательности референсного генома для последующего анализа могут быть выбраны последовательности, имеющие однозначное соответствие последовательности референсного генома. Соответственно, можно избежать вызванного повторами искажения результатов анализа вариации числа копий и, тем самым, дополнительно повысить эффективность выявления вариации числа копий в образце генома.

S300: определение множества точек разрыва в последовательности референсного генома на основании распределения прочтений в последовательности референсного генома

В данном описании термин «точки разрыва» относится к таким участкам генома, в которых число прочтений с каждой стороны этого участка в этих двух областях значимо различается. Поскольку прочтения получены из образца генома, в том случае, когда определенная область содержит вариацию числа копий в образце генома, число соответствующих прочтений в области также значимо изменяется. Соответственно, после определения множества точек разрывов можно предварительно установить вероятное присутствие вариации числа копий в области между двумя последовательными точками разрыва;

Согласно вариантам предлагаемого изобретения, этап определения множества точек разрыва в последовательности референсного генома дополнительно включает следующие подэтапы:

На первом подэтапе последовательность референсного генома делят на множество первичных окон заданной длины и определяют прочтения, попадающие в каждое из множества первичных окон. Согласно конкретным примерам предлагаемого изобретения, типовые программы картирования позволяют соотнести прочтения, содержащиеся в полученном результате секвенирования, с последовательностью референсного генома, что позволяет определить прочтения в каждом из множества первичных окон; например, это может быть выполнено на описанном выше этапе S200. В конкретных примерах предлагаемого изобретения, прочтения, попадающие в каждое из множества первичных окон, являются однозначно картированными прочтениями. Соответственно, можно избежать вызванного повторами искажения результатов анализа вариации числа копий и, тем самым, дополнительно повысить эффективность выявления вариации числа копий в образце генома.

На втором подэтапе, по крайней мере, для одного участка в последовательности референсного генома определяют число прочтений, попадающих в одинаковое число первичных окон по обе стороны участка. Согласно вариантам предлагаемого изобретения, может быть проведен корреляционный анализ всех участков последовательности референсного генома или интересующей хромосомы; например, проводится такой корреляционный анализ всех участков, по крайней мере, на одной из следующих хромосом человека: 21-й хромосомы, 18-й хромосомы, 13-й хромосомы, Х-хромосомы и Y-хромосомы. В вариантах предлагаемого изобретения, первичные области могут быть одинаковыми или разными по длине, возможно частичное перекрытие первичных окон при условии, что известна информация о каждой первичной области. Предпочтительна одинаковая длина всех первичных окон. В вариантах предлагаемого изобретения, длина каждой из множества первичных областей может составлять от 100 до 200 тысяч п.н., предпочтительно 150 тысяч п.н. Согласно вариантам предлагаемого изобретения, в отношении количества первичных окон, расположенных по обе стороны участка, какие-либо ограничения отсутствуют. В конкретных примерах предлагаемого изобретения, может быть выбрано 100 первичных окон на каждой стороне участка соответственно.

На третьем подэтапе посредством статистического анализа может быть определена величина p участка, при этом величина p означает, что число прочтений по обе стороны участка является значимым. Если величина p участка меньше конечной величины p, это означает, что участок является точкой разрыва. В вариантах предлагаемого изобретения, диапазон конечной величины p может быть определен посредством параллельного анализа образца с известной последовательностью. Согласно конкретным примерам предлагаемого изобретения, конечная величина p составляет 1.1X10-50.

Согласно вариантам предлагаемого изобретения, подэтап определения величины p дополнительно включает:

Для выбранного участка выбирают первичные окна с одинаковыми порядковыми номерами с обеих сторон участка, подсчитывают относительное число прочтений, попадающих в каждое первичное окно Ri, где i - порядковый номер первичного окна,

для того, чтобы определить величину p участка, к числу прочтений, попадающих в каждое первичное окно Ri, применяют критерий серий, при этом

относительное число прочтений определяется следующей формулой:

где ri - число прочтений, попадающих в i-тое первичное окно,

,

n - общее число первичных окон.

Более подробно тестирование - применение критерия серий ко всему относительному числу прочтений, расположенных в каждом из множества первичных окон, дополнительно включает: коррекцию относительного числа прочтений, попадающих в каждое из множества первичных окон Ri, на содержание ГЦ-пар, чтобы получить уточненное относительное число прочтений R ˜ i ; определяющее среднеарифметическое число прочтений, расположенных в каждом из множества первичных окон Zi, на основании уточненного относительного числа прочтений; и применяют статистический критерий серий всем среднеарифметическим числам прочтений, попадающих в каждое из первичных окон Zi.

Более конкретно, уточненное относительное число прочтений R ˜ i получают, выполняя следующие шаги:

На первом этапе подсчитывают содержание ГЦ-пар в каждом первичном окне;

На втором этапе содержание ГЦ-пар делят на множество областей в соответствии с заданной величиной, и подсчитывают среднюю величину Ms относительного числа прочтений в каждой из множества областей, при этом s - номер области во множестве областей. Согласно вариантам предлагаемого изобретения, заданная величина может быть любым числом от 0.0005 до 0.01 при длине соответствующей области от 50 тысяч п.н. до 300 тысяч п.н., предпочтительно 0.001, при которой возможна корреляция с оптимальной возможностью.

На третьем этапе определяют уточненное относительное число прочтений R ˜ i по формуле: R ˜ i = R i − M s .

Наконец, среднеарифметическое число прочтений Zi определяют по формуле

, в которой

mean

.

(mean=среднее значение; SD=СКО=среднеквадратичное отклонение)

Соответственно, может быть выполнена корреляция между числом прочтений и содержанием ГЦ-пар. Таким образом, можно устранить влияние системной ошибки, связанной с амплификацией генома, и, тем самым, дополнительно повысить эффективность выявления вариации числа копий в образце генома.

После определения множества точек разрыва можно предварительно определить возможность вариации числа копий в области между двумя последовательными точками разрыва. Соответственно, при дальнейшем выявлении вариации числа копий такие области могут рассматриваться в качестве окон детекции. Если при предварительном определении было получено относительно больше точек разрыва, далее может быть проведен скрининг полученных точек разрыва. Соответственно, согласно вариантам предлагаемого изобретения, этап определения окна детекции в референсном геноме на основании множества точек разрыва включает:

1) определение множества предполагаемых точек разрыва, когда существуют другие точки разрыва до и после предполагаемых точек разрыва;

2) определение величины p каждой предполагамой точки разрыва и исключение предполагаемой точки разрыва, имеющей максимальную величину p;

3) выполнение этапа 2) с остальными предполагаемыми точками разрыва до тех пор, пока все величины p остальных предполагаемых точек разрыва не окажутся меньше конечной величины p, при этом остальные предполагаемые точки разрыва рассматриваются как «прошедшие скрининг» предполагаемые точки разрыва; и

4) определение области между двумя прошедшими скрининг последовательными предполагаемыми точками разрыва в качестве окна детекции.

Согласно вариантам предлагаемого изобретения, получение величины p предполагаемой точки разрыва включает следующие этапы:

выбор области между предполагаемой точкой разрыва и предыдущей предполагаемой точкой разрыва в качестве первой предполагаемой области, и выбор области между предполагаемой точкой разрыва и следующей предполагаемой точкой разрыва в качестве второй предполагаемой области;

применение критерия серий к среднеарифметическому числу прочтений Zi, попадающих в первичные окна, которые включены и в первую предполагаемую область, и во вторую предполагаемую область, для определения величины p предполагаемых точек разрыва (критерий серий - непараметрический критерий для оценки статистически значимого различия между популяциями при использовании равномерно распределенного в двух популяциях статуса смешанных элементов. Этот критерий подробно описан в публикации Wald A. WJ. «Критерий для оценки принадлежности двух выборок к одной и той же популяции». The Annals of Mathematical Statistics 1940; 11:147-162, включенной в данный документ посредством ссылки).

Согласно вариантам предлагаемого изобретения, получение конечной величины p предполагаемой точки разрыва включает следующие этапы:

на основании результата секвенирования контрольного образца, повторение этапа определения окна детекции в референсном геноме и регистрация величин p точек разрыва, удаляемых каждый раз до тех пор, пока число точек разрыва не станет равным нулю, Использованный термин «контрольный образец» означает образец, у которого в известной нуклеотидной последовательности отсутствует вариация числа копий; и

на основании распределения величины p удаленных точек разрыва определяют конечную величину p, например, посредством построения диаграммы распределения величины p удаленных точек разрыва, и в качестве конечной величины p (pfinal) рассматривают величину p с максимальным трендом к изменению.

Согласно конкретным примерам предлагаемого изобретения, конечная величина p составляет 1,1×10-50.

S400: определение пробного параметра на основании прочтений, попадающих в окно детекции

После определения окон детекции, прочтения, содержащиеся в окнах детекции могут быть подвергнуты статистическому анализу, чтобы выявить возможные вариации числа копий в окнах детекции. Согласно вариантам предлагаемого изобретения, этап определения пробного параметра на основании прочтений, попадающих в окна детекции, включает: определение среднего величины среди всех среднеарифметических чисел прочтений, попадающих в каждое из множества первичных окон Z ¯ , включенных в окна детекции. Средняя величина среднеарифметического числа прочтений Z ¯ принимается в качестве пробного параметра. Среднеарифметическое число прочтений было описано выше и здесь пропущено для краткости изложения.

S500: выявление вариации числа копий в образце генома, в окне детекции, на основании различия между пробным параметром и заданным пороговым значением

Согласно вариантам предлагаемого изобретения, может быть выполнено сравнение определенного пробного параметра с заданным пороговым значением. Затем по разнице между пробным параметром и заданным пороговым значением выявляется возможное присутствие вариации числа копий в образце генома применительно к конкретному окну детекции. Исходя из результата секвенирования образца генома число прочтений, попадающих в определенное окно, прямо пропорционально емкости определенного окна в хромосоме или геноме. Соответственно, проводя статистический анализ прочтений из определенного окна результата секвенирования, можно эффективно выявить вариацию числа копий в образце генома, применительно к определенному окну. В настоящем документе термин «заданное пороговое значение» относится к относительному параметру в определенном окнеи, полученному при повторении операций и анализе в перечисленных выше вариантах изобретения и при использовании эталонного образца генома с известной последовательностью. Следует понимать, что относительный параметр в определенном окне и относительный параметр нормальных клеток могут быть получены в таких же условиях секвенирования и теми же математическими методами. В настоящем описании в качестве заданного порогового значения может быть использован относительный параметр нормальных клеток. Кроме того, использованный в настоящем документе термин «заданный» рассматривается в широком смысле, и может быть определен экспериментально или получен в параллельных экспериментах при анализе биологического образца. Термин «параллельный эксперимент» рассматривается в широком смысле и может относиться к секвенированию и анализу одновременно известных и неизвестных образцов либо может относиться к проведению этапов секвенирования и анализа последовательно и в одинаковых условиях. Согласно вариантам предлагаемого изобретения, заданное пороговое значение включает первое пороговое значение и второе пороговое значение; при сравнении первого параметра Z ¯ с первым пороговым значением и вторым пороговым значением; в том случае, когда первый параметр Z ¯ меньше первого порогового значения, устанавливают уменьшение числа копий (т.е. делецию). В случае, когда первый параметр Z ¯ больше второго порогового значения, устанавливают увеличение числа копий (т.е. добавление), соответственно, можно определить тип вариации числа копий. Согласно конкретным примерам предлагаемого изобретения, установлена граница значимости α=0,05 для дальнейшего определения типа вариации числа копий.

Способ выявления вариации числа копий в образце генома, согласно вариантам предлагаемого изобретения? позволяет эффективно определить присутствие вариации числа копий в образце генома и приемлем для разнообразных вариаций, в частности, анеуплодности хромосомы, делеции фрагмента хромосомы, добавления фрагмента хромосомы, добавления, микроделеции и микродупликации фрагмента хромосомы. Вариация числа копий - важный фактор, вызывающий пороки развития, и также очень часто встречается в in vitro культуре эмбрионов, являясь важнейшей причиной, приводящей к неудачам при использовании экстракорпоральных методов репродукции. Вариация числа копий также является патогенным фактором многих заболеваний, включая онкологические. Метод полногеномной амплификации заключается в амплификации целого генома в одиночной клетке, множестве клеток или следов нуклеиновой кислоты и позволяет увеличить количества образца, исходя из сохранения репрезентативности целого генома, для достижения требуемого количества образца. Однако для метода полногеномной амплификации, в целом, характерна проблема систематической ошибки, связанной с амплификацией, которая становится источником отклонения при последующем анализе. В соответствии со способом выявления вариации числа копий в образце генома, согласно вариантам предлагаемого изобретения5 после полног