Способ неинвазивной пренатальной диагностики анеуплоидий плода
Иллюстрации
Показать всеПредложенная группа изобретений относится к области медицины. Предложен способ неинвазивной пренатальной диагностики анеуплоидий плода, включающий выделение внеклеточной ДНК (вкДНК) из образца крови, полученной у беременной женщины, выбор регионов генома для проведения амплификации, приготовление геномных библиотек, картирование полученных последовательностей на референсный геном или части генома человека с определением их координат, определение значения покрытия для каждого региона генома, характеризующегося открытостью хроматина между плацентой и клетками крови матери, отличающейся не менее чем на 20%, и получение регионов генома с указанной открытостью хроматина, после чего делается вывод о наличии анеуплоидий плода. Предложен способ получения регионов генома для осуществления вышеуказанной неинвазивной пренатальной диагностики анеуплоидий плода. Предложенная группа изобретений обеспечивает простой и экономичный способ пренатальной диагностики анеуплоидий плода на ранних этапах беременности. 2 н. и 5 з.п. ф-лы, 3 ил., 3 табл., 5 пр.
Реферат
Область техники, к которой относится изобретение
Изобретение относится к области медицины, а именно неинвазивной пренатальной диагностике анеуплоидий плода по внеклеточной ДНК крови матери, и может быть использовано для определения генетических аномалий плода (анеуплоидий, в т.ч. моносомий и трисомий) на первом триместре беременности безопасными как для ребенка, так и для матери неинвазивными методами.
Анеуплоидия является следствием изменений кариотипа, при котором число хромосом в клетках плода не кратно гаплоидному набору (в отличие от нормального состояния кариотипа, эуплоидии, при котором число хромосом равно двум гаплоидным наборам). Примерами анеуплоидии, которая может быть выявлена с использованием заявленного способа, являются моносомия и трисомия, а также частичная трисомия или частичная моносомия (соответственно, приобретение дополнительных копий или делеция крупных участков хромосом, как правило, одного из хромосомных плеч). Частными примерами являются трисомия по 21-й хромосоме (синдром Дауна), трисомия по 13-й хромосоме (синдром Патау), трисомия по 18-й хромосоме (синдром Эдвардса), моносомия по Х-хромосоме (синдром Шерешевского-Тернера) или наличие более чем двух половых хромосом, например, синдром Клайнфельтера (XXY), и т.д. Перечень связанных с анеуплоидиями заболеваний, которые могут быть диагностированы заявленным способом, не ограничен каким-либо специальным образом.
Уровень техники
Из уровня техники известен способ диагностики геномных аномалий плода, в частности способ диагностики наиболее распространенных анеуплоидий с помощью стандартных инвазивных (например, кариотипирования хорионной жидкости или образца плаценты) и неинвазивных методов (биохимия крови, УЗИ).
Однако стандартные неинвазивные технологии обладают недостаточной точностью и позволяют только сформировать группу риска беременных женщин, а инвазивные методы в небольшом проценте случаев (по разным источникам от 0,5 до 2% в зависимости от опыта врачей) могут привести к выкидышу или инфицированию плода.
Из уровня техники известен также способ неинвазивной пренатальной диагностики анеуплоидий плода по внеклеточной ДНК плода в крови матери методом полногеномного секвенирования всех последовательностей вкДНК крови матери (DanS, WangW, RenJ, Clinical application of massively parallel sequencing-based prenatal noninvasive fetal trisomy test for trisomies 21 and 18 in 11 105 pregnancies with mixed risk factors // Prenat Diagn, 2012; Yuan Yuan, Fuman Jiang, Sang Hua, Feasibility Study of Semiconductor Sequencing for Noninvasive Prenatal Feasibility Study of Semiconductor Sequencing for Noninvasive Prenatal Detection of Fetal Aneuploidy // Clinical Chemistry 59: 5, 2013). Этот подход основан на секвенировании всей фракции вкДНК плазмы крови матери и подсчете количества чтений, картируемых на геном. Используя массовое параллельное секвенирование коротких чтений, можно получать за один запуск прибора миллионы чтений вкДНК плазмы крови матери, которая состоит из вкДНК матери в сумме с вкДНК плода. Так как полная последовательность генома известна, каждый прочитанный фрагмент можно картировать на референсный геном и выяснить, какой хромосоме он принадлежит. При наличии анеуплоидий той или иной хромосомы при подсчете количества чтений, принадлежащих этой хромосоме, будет статистически достоверно увеличено. Увеличение количества чтений при таком подходе будет невелико. Например, при условии наличия трисомии по 21 хромосоме и процентном содержании фракции фетальной ДНК 20%, сравнительное увеличение количества чтений 21 хромосомы будет (0.8×2)+(0.2×3)=2.2 в сравнении с количеством чтений в норме (0.8×2)+(0-2×2)=2, то есть сравнительное увеличение количества чтений составит 10%.
Именно из-за необходимости детектировать очень небольшое увеличение чтений для достоверного определения трисомии необходимо секвенировать большое количество последовательностей вкДНК (10-12 млн. последовательностей). Получение такого большого количества данных требует дорогостоящего параллельного геномного секвенирования с использованием секвенаторов следующего поколения, что не позволяет внедрить данную технологию в повседневную практику. Поэтому разработка новых подходов, позволяющих снизить стоимость проведения тестирования при сохранении достоверности получаемого результата, критически необходима.
Из уровня техники известен способ диагностики анеуплоидий плода методом полногеномного секвенирования (Патент US 8318430). Данный способ предполагает определение трисомии в результате секвенирования предопределенных последовательностей всего генома. Этот метод учитывает неравномерность секвенирования, связанную с GC-составом читаемой ДНК; таковая зависимость обычно является нелинейной и варьируется не только между разными технологиями секвенирования, но также между разными приборами одной серии и версиями используемых реактивов. А также, вместо единой кумулятивной метрики по целой хромосоме используется разбиение генома на множество коротких участков (окон), и подсчета количества чтений, приходящихся на каждое такое окно, в результате чего определение анеуплоидий производится посредством сравнения двух выборок: окон с исследуемой хромосомы и окон со всех остальных хромосом.
Однако данный способ также основан на необходимости получения большого количества чтений, что увеличивает время проведения теста.
Наиболее близким к заявляемому является способ диагностики анеуплоидий плода по вкДНК плода в крови матери с использованием дифференциального метилирования ДНК матери и плода (Заявка на изобретение RU 2012119187). Данная технология позволяет сократить время проведения анализа за счет выборочного секвенирования только тех фрагментов генома, которые дифференциально метилированы у плода и у матери. Для этого проводят амплификацию специально отобранных дифференциально метилированных регионов (ДМР), после чего проводят бисульфитную конвертацию полученных фрагментов ДНК и определяют последовательность конвертированных фрагментов. Благодаря бисульфитной конвертации возможно точно отделить чтения плода от чтений матери и достоверно определить наличие трисомии с гораздо меньшим, по сравнению с полногеномным методом, набором данных.
Однако профиль метилирования обладает индивидуальными особенностями у каждого человека, что может приводить к снижению точности тестирования и увеличивать минимальное необходимое количество данных, а значит, и стоимость теста. Поэтому важной задачей является поиск нового селективного подхода, основанного на отличиях последовательности ДНК матери и плода.
В настоящем изобретении предлагается новый подход к определению анеуплоидий плода с помощью секвенирования целевых участков генома (как и в последнем упомянутом подходе), однако основанный на отличии открытости хроматина между клетками крови матери и плаценты плода, при этом дополнительно используется новый этап, связанный с добавлением вырожденных меток до этапа приготовления геномных библиотек, на основании которых в дальнейшем будет производиться удаление ПЦР-дупликатов, которые вносят сдвиг в распределение покрытий регионов.
Раскрытие изобретения
Задачей изобретения является создание нового способа пренатальной диагностики анеуплоидий по вкДНК плода в крови матери.
Ввиду тяжести заболеваний, связанных с анеуплоидией, постановка соответствующего диагноза может являться основанием для проведения аборта, в связи с чем, имеет большое значение скорость проведения такой диагностики, точность постановки результата и возможность проведения исследований в более ранние сроки беременности неинвазивными методами, безопасными как для ребенка, так и для матери.
Техническим результатом является получение более простого и экономичного способа пренатальной диагностики анеуплоидий плода с получением надежного результата при сохранении высокой, сопоставимой с описанными выше подходами, точности определения анеуплоидий на ранних этапах беременности.
Поставленная задача решается тем, что способ неинвазивной пренатальной диагностики анеуплоидий плода включает следующие этапы:
a. выделение внеклеточной ДНК (вкДНК) из образца крови, полученной у беременной женщины;
b. внесение к фрагментам вкДНК молекулярных меток, содержащих вырожденную последовательность нуклеотидов, универсальную последовательность и последовательность, комплементарную регионам генома вкДНК, характеризующимся открытостью хроматина между плацентой и клетками крови матери, отличающейся не менее чем на 20%,
c. полученные на этапе b) фрагменты вкДНК с внесенной молекулярной меткой амплифицируют с использованием праймеров, отжигающихся на универсальную последовательность молекулярных меток с одной стороны, и специфических праймеров, отжигающихся на регионы генома вкДНК, характеризующихся открытостью хроматина между плацентой и клетками крови матери, отличающейся не менее чем на 20%,
d. приготовление геномных библиотек из полученных на этапе с) ампликонов;
e. определение последовательности нуклеотидов (секвенирование) полученных геномных библиотек;
f. картирование полученных последовательностей (чтений или ридов) на референсный геном или части генома человека с определением их координат;
g. удаление ПЦР дупликатов из картированных последовательностей (чтений);
h. определение значения покрытия для каждого региона генома, характеризующегося открытостью хроматина между плацентой и клетками крови матери, отличающейся не менее чем на 20%;
i. корректировка полученного значения покрытия для каждого региона генома, полученного на этапе h, на общее покрытие генома, с последующим сравнением скорректированного значения покрытия со значениями покрытий или их распределений, полученных для обучающей выборки образцов крови беременных женщин при эуплоидии и анеуплоидии плода и определение принадлежности исследуемого образца к одной из данных групп, по которому делают вывод о наличии анеуплоидий плода.
Определение последовательности, комплементарной регионам генома вкДНК, характеризующимся открытостью хроматина между плацентой и клетками крови матери, отличающейся не менее чем на 20% (или выбор регионов генома для проведения целевой амплификации), осуществляют из базы данных покрытий кандидатных регионов генома для образцов крови беременных женщин с эуплоидией и анеуплоидией, при этом вычисляют значимость отличия покрытия между образцами с эу- и анеуплоидией для каждого кандидатного региона, характеризующуюся значением p-value с учетом корректировки на общее покрытие образца, и выбирают из кандидатных регионов генома те регионы, которые характеризуются значением p-value не более 0,1.
При этом определение принадлежности образца к группе с эуплоидией или анеуплоидией плода осуществляют следующим образом:
a. для каждого региона, характеризующегося открытостью хроматина между плацентой и клетками крови матери, отличающейся не менее чем на 20%, вычисляют р-value, которое определяет вероятность наблюдать полученное значение покрытия или более экстремальное значение при условии, что данное значение соответствует распределению покрытий для беременности без анеуплоидий, и p-value того, что его покрытие получено из распределения покрытий для беременности с анеуплоидией по данной хромосоме по БД покрытий кандидатных регионов генома для образцов крови беременных женщин с эуплоидией и анеуплоидией;
b. вычисляют произведение по всем регионам полученных значений p-value для вычисления p-value того, что значения покрытия регионов, характеризующихся открытостью хроматина между плацентой и клетками крови матери, отличающейся не менее чем на 20%, получены из распределения покрытий для беременности без анеуплоидий, и p-value того, что значения покрытия набора регионов получены из распределения покрытий для беременности с анеуплоидией по данной хромосоме.
c. по полученным произведениям p-value и априорным вероятностям наличия анеуплоидий у плода (риск по популяции) вычисляют по теореме Байеса вероятности наличия анеуплоидий или эуплоидии в исследуемом образце.
Вывод о наличии или отсутствии анеуплоидий плода делают, если вероятность для одного из вариантов диагноза не превышает порог значимости из интервала 0.01-0.1, а вероятность для другого варианта превышает порог значимости, при этом диагноз ставится по наибольшему значению вероятности, и в случае, если оба p-value выше или оба ниже порога значимости, диагноз не ставится.
Так как в основе системы расчета наличия анеуплоидий или эуплоидии лежит определение покрытия выбранных регионов генома, важно максимально исключить все возможные сдвиги, вносимые в представленность фрагментов вкДНК в процессе пробоподготовки образцов перед секвенированием. Основным этапом, на котором вносится сдвиг в первоначальное распределение фрагментов вкДНК, является амплификация фрагментов вкДНК. Неравномерная амплификация различных последовательностей может приводить к перепредставленности одних и потере других отдельных индивидуальных фрагментов. Эта проблема решается внесением во вкДНК вырожденной молекулярной метки.
Поставленная задача решается также тем, что найденные регионы генома для определения анеуплоидий плода методом секвенирования, характеризующиеся открытостью хроматина между плацентой и клетками крови матери, отличающейся не менее чем на 20%, могут быть представлены на машиночитаемом носителе информации. При этом количество найденных упомянутых регионов генов составляет не менее 10 с указанием геномных координат каждого региона, для которых открытость хроматина между плацентой и клетками крови матери отличается не менее чем на 20%. Для входящих в набор регионов генома значимо (p-value<0.1) отличается покрытие между образцами с плодом без анеуплоидий и образцами с анеуплоидией плода по конкретной хромосоме, с учетом корректировки на общее покрытие образца.
Поставленная задача решается также тем, что способ получения регионов генома, характеризующихся открытостью хроматина между плацентой и клетками крови матери, отличающейся не менее чем на 20%, для неинвазивной пренатальной диагностики анеуплоидий плода по вкДНК крови матери методом секвенирования включает следующие этапы:
a. получение данных секвенирования (полногеномного или таргетного) вкДНК крови матери такого, чтобы все кандидатные регионы генома, характеризующиеся открытостью хроматина между плацентой и клетками крови матери и отличающиеся не менее чем на 20%, были прочитаны для образцов крови нескольких беременных женщин без анеуплоидий плода (не менее 5 образцов) и нескольких беременных женщин с анеуплоидией плода по конкретной хромосоме (не менее 5 образцов на каждую анеуплоидию);
b. картирование полученных чтений на референсный геном человека для определения их координат (номера хромосомы и позиции на ней);
c. определение покрытия каждого кандидатного региона каждого полученного образца;
d. вычисление для каждого региона значимости отличия (характеризующейся значением p-value) покрытия между образцами с плодом без анеуплоидий и образцами с анеуплоидией плода по конкретной хромосоме, с учетом корректировки на общее покрытие образца.
e. выбор из кандидатных регионов генома регионов, характеризующихся значением p-value не более 0,1, из которых составляют набор регионов генома для определения анеуплоидий плода.
Этап d осуществляют в предположении отрицательного биномиального распределения покрытия региона в образце, например, с использованием программного обеспечения для определения дифференциальной экспрессии РНК DESeq.
Для регионов, найденных в пункте d, аналогично пунктам b-е может быть вычислено покрытие прочтениями в образцах крови не менее 5 мужчин и для каждого региона определяют значимость, выражающуюся в виде p-value отличий между покрытием ДНК в образцах мужчин и беременных женщин с плодом без анеуплоидий, отбирают участки с p-value не более 0.1.
Упрощение заявляемого способа по сравнению со способом, представленным в материалах заявки на изобретение RU 2012119187, достигается за счет исключения из процесса пробоподготовки стадии бисульфитной конвертации библиотек. Стадия бисульфитной конвертации геномных библиотек необходима для определения статуса метилирования выбранных для анализа регионов геномной ДНК. На основании отличия статуса метилирования последовательностей материнской вкДНК и вкДНК плода происходит разделение чтений матери и ребенка. Возможность разделить чтения матери и ребенка позволяет получить достоверный результат, секвенируя только небольшую часть генома, однако проведение дополнительных манипуляций с исходным материалом вкДНК может вносить погрешность в систему определения анеуплоидий с использованием отличия статуса метилирования, а так же требует дополнительных затрат времени и реактивов, что требует поиска возможности разделять чтения матери и ребенка без проведения дополнительных манипуляций с исходным материалом.
Предлагаемый способ позволяет делать заключение о наличии трисомии, основываясь на дифференциальной доступности хроматина, а не на статусе метилирования отдельных регионов генома. Доступность хроматина влияет на эффективность работы ДНКаз - ферментов, приводящих к расщеплению последовательности ДНК. Степень доступности хроматина зависит от многих факторов, в том числе доступность хроматина выше для регионов генома, в которых находятся активные промотеры работающих генов, а также для регионов генома, свободных от нуклеосом. Для клеток крови матери и плода, координаты регионов, характеризующиеся повышенной доступностью хроматина, будут отличаться за счет, например, того, что в клетках крови взрослого человека и клетках плаценты (как было показано ранее, именно плацента является основным источником вкДНК плода в крове матери) активно экспрессируется разный набор генов. При определении нуклеотидной последовательности регионов генома, которые характеризуются высокой степенью доступности хроматина (высокая степень доступности хроматина предполагает, что покрытие данного региона генома не менее чем на 20% выше среднего) для матери и низкой для плода (низкая степень доступности хроматина предполагает, что покрытие данного региона генома не менее чем на 20% ниже среднего) и подсчете количества чтений, относящихся к этим регионам, можно ожидать, что все чтения будут относиться именно к вкДНК плода. Соответственно при наличии анеуплоидий будет наблюдаться изменение представленности чтений в этом регионе. Так как эти чтения относятся строго к вкДНК плода, процент изменения количества чтений будет выше, чем процент увеличения общего количества чтений (матери и плода) при определении трисомии полногеномным методом.
Таким образом, заявляемый способ дает возможность разделять чтения матери и ребенка без проведения дополнительных манипуляций с исходным материалом вкДНК, что повышает степень надежности получаемых данных.
Краткое описание чертежей
Изобретение поясняется чертежами.
На фиг. 1 представлена краткая схема проведения теста на определение трисомии, основанного на дифференциальной доступности хроматина.
На фиг. 2 представлен график, изображающий усредненное покрытие генома в окрестностях сайтов гиперчувствительности к ДНКазе чтениями, полученными при секвенировании образца свободно циркулирующей в крови ДНК. Заметно снижение покрытия в окрестностях сайтов гиперчувствительности к ДНКазе. По оси х отложены позиции в геноме относительно сайта гиперчувствительности. Средняя часть графика - непосредственно сайт, левая и правая - его окрестности, где каждая точка соответствует отрезку длиной в 10 нуклеотидов. По оси у обозначено суммарное покрытие участка по всем анализируемым образцам, усредненное по всем участкам гиперчувствительности к ДНКазе.
На фиг. 3 представлен пример методики внесения вырожденной метки и проведения целевой амплификации регионов генома.
Осуществление изобретения
Способ пренатальной диагностики анеуплоидий по вкДНК плода в крови матери включает исследование сыворотки крови матери. Для исследования кровь забирают в вакуумную пробирку, центрифугируют для отделения плазмы от клеточной массы. Из плазмы крови выделяют вкДНК на колонках, после чего к фрагментам вкДНК вносят вырожденные молекулярные метки и делают геномные библиотеки, Далее определяют нуклеотидную последовательность фрагментов геномной библиотеки, которая заключается в цифровом анализе внеклеточной ДНК посредством секвенирования. В основу способа легла методика массового параллельного полногеномного секвенирования, которая позволяет получать до миллиарда коротких чтений за счет случайной фрагментации и последующей амплификации геномной ДНК. Полученные короткие чтения последовательностей ДНК подвергаются статистическому анализу (который может быть реализован программным путем), который включает этап удаления ПЦР дупликатов.
Ниже каждый этап заявляемого способа представлен более детально.
Забор крови
Материалом для исследований служит венозная кровь беременной женщины, что позволяет исключить риск инфекции плода или выкидыша, который присутствует при проведении теста стандартными инвазивными методиками, такими как биопсия хориона или амниоцентез. Периферическую кровь матери собирают, например, в две 9 мл пробирки, содержащие ЭДТА для предотвращения коагуляции. После забора крови содержимое пробирок перемешивают (переворачиванием пробирки вверх - вниз 10 раз). Далее пробирки незамедлительно перевозят в лабораторию для заготовки плазмы. Перевозка пробирок должна проходить при +4C° для предотвращения разрушения клеток крови матери и увеличения фракции геномной ДНК матери, содержащейся во вкДНК плазмы крови. Заготовка плазмы должна проводиться не позже чем через 4 часа после забора крови (это необходимо для предотвращения обогащения фракции вкДНК геномной ДНК матери из разрушающихся клеток крови матери).
Заготовка плазмы
Заготовка плазмы может быть реализована известным способом. В частности, для заготовки плазмы необходимо провести первое центрифугирование 9 мл пробирок 1.600g, 10 минут, при +4°C для отделения фракции плазмы, богатой клетками. После проведения центрифугирования верхнюю фазу (верхнюю часть) переносят в несколько охлажденных во льду пробирок на 2 мл, не затрагивая интерфазу, в ней могут находиться клетки крови матери. Пробирки подписывают в соответствии с маркировкой первоначального образца. Далее проводят второе центрифугирование 2 мл пробирок при 16.000g, 10 минут, при +4°C для отделения оставшихся в плазме фрагментов клеток. Супернатант переносят в охлажденные 2 мл LoBind пробирки (DNA LoBind Tube 2,0 ml (Eppendorf AG, Cat. no.: 022431048)). Супернатант необходимо отбирать аккуратно, не задевая небольшой осадок клеток. Пробирки подписывают в соответствии с маркировкой первоначального образца.
Выделение свободно циркулирующей ДНК из крови.
Выделение вкДНК из плазмы проводят согласно стандартному протоколу QIAamp Circulating Nucleic Acid Kit (Catalog no. 55114).
Добавление вырожденной молекулярной метки.
Методика включает 2 этапа. На первом этапе к фрагментам вкДНК, выделенным из плазмы крови беременных женщин, производят отжиг праймеров группы «Univ-N-spec». Праймеры из группы «Univ-N-spec» структурно состоят из 3-х частей - «Univ», «N» и «spec» (от 3' к 5' концу). Часть «Univ» представляет собой универсальную нуклеотидную последовательность, одинаковую для всей группы праймеров «Univ-N-spec», на следующем этапе праймеры группы «S» будут отжигаться на именно на его последовательность. Часть «N» включает несколько случайно выбранных нуклеотидов, для каждого праймера из набора эта последовательность разная, в дальнейшем, после проведения ПЦР ампликоны, у которых последовательность «N» будет одинаковая, будут считаться ПЦР-дупликатами, набор ПЦР-дупликатов будут учитываться, как 1 чтение при подсчете покрытия регионов. Часть «spec» представляет собой специфическую последовательность, комплементарную месту посадки форвард праймера в регионах генома, характеризующихся открытостью хроматина между плацентой и клетками крови матери, отличающейся не менее чем на 20%. На втором этапе проводят целевую амплификацию регионов генома, характеризующихся открытостью хроматина между плацентой и клетками крови матери, отличающейся не менее чем на 20%. В реакции используют праймеры групп «S» и «R». Праймеры группы «S» комплементарны универсальной нуклеотидной последовательности «Univ», внесенной в фрагменты вкДНК на первом этапе. Праймеры группы «R» представляют собой специфическую последовательность, комплементарную месту посадки реверс праймера в выбранных регионах генома.
Благодаря наличию в «Univ-N-spec» праймере последовательности, комплементарной регионам генома вкДНК, характеризующимся открытостью хроматина между плацентой и клетками крови матери, отличающейся не менее чем на 20%, происходит отбор нужных регионов генома, из которых будут приготовлены геномные библиотеки. Это позволяет проводить секвенирование небольшого участка генома - выбранных заранее регионов генома, что существенно сокращает время, необходимое для проведения теста (с 1-2 недель до 3 дней).
Дополнительный этап внесения вырожденной метки позволяет пришить каждой уникальной молекуле вкДНК, содержащейся в образце до приготовления геномных библиотек, собственную вырожденную метку, которая позволит после проведения секвенирования удалить ПЦР-дупликаты и рассчитать истинное покрытие каждого региона. Проведение специфической ПЦР амплификации выбранных регионов генома позволяет получить набор ампликонов - молекул ДНК из целевых регионов генома. На следующем этапе геномные библиотеки готовят из полученных ампликонов, а не из тотальной вкДНК. При стандартной методике приготовления геномных библиотек все регионы генома равно представлены в геномной библиотеке. После проведения этапа специфической ПЦР амплификации выбранных регионов генома, более 95% фрагментов ДНК, входящих в геномную библиотеку, относятся к небольшому количеству регионов генома, занимающих, например, около 1,5-2% генома. То есть при условии предварительной амплификации целевых регионов генома представленность интересующих нас регионов среди всех фрагментов ДНК в библиотеки возрастает в среднем в 50-60 раз.
Приготовление геномной библиотеки
Регион генома - часть последовательности ДНК или фрагмент молекулы ДНК, принадлежащей конкретному месту в геноме (место задается геномными координатами, например, обозначение chr21 32925263 32925495 обозначает, что часть молекулы ДНК расположена в геноме на 21 хромосоме, начинается с 32925263 нуклеотида и заканчивается на 32925495 нуклеотиде).
Геномная библиотека - приготовленный особым образом образец ДНК, доступный для чтения на секвенаторе. Стандартная процедура приготовления геномных библиотек включает в себя следующие операции с молекулами ДНК: фрагментацию, достройку концов, лигирование адаптеров, отбор по длине и ПЦР-амплификацию.
Согласно настоящему изобретению, в данную процедуру внесены изменения - исключен этап фрагментирования (так как внеклеточная ДНК представлена короткими молекулами ДНК и не требует дополнительного фрагментирования).
Секвенирование
Далее полученные геномные библиотеки подвергают секвенированию. Секвенирование проводят на секвенаторах нового поколения, которые дают возможность определять нуклеотидную последовательность большого количества (от сотен до сотен миллионов) чтений за 1 запуск прибора, согласно стандартному протоколу. Частными примерами технологий (приборов), которые могут быть использованы, являются: секвенирование синтезом на молекулярных колониях (Genome Analyzer, HiSeq, MiSeq (Illumina)), лигазное секвенирование с использованием эмульсионного ПЦР (SOLiD4, 5500-series (Life Technologies)), полупроводниковое секвенирование (Ion Torrent, Ion Proton (Life Technologies)), пиросеквенирование (454 (Roche)) и т.д. Заявляемый способ не ограничивается перечисленными технологиями (приборами) секвенирования. Результатом секвенирования геномных библиотек является получение нуклеотидной последовательности всех фрагментов, составляющих секвенируемую геномную библиотеку.
Нуклеотидная последовательность каждого фрагмента геномной библиотеки, определенная с помощью секвенирования, называется чтением или ридом.
Для всех полученных чтений определяются их координаты в геноме. Этот процесс называется картированием и выполняется с использованием стандартного программного обеспечения (например, можно использовать программу BWA, Bowtie). Чтение с определенными геномными координатами называется картированным чтением.
Удаление ПЦР-дупликатов
После определения координат каждого чтения все полученные данные проходят фильтрацию по принципу, если чтения имеют:
а) одинаковые координаты начала чтений и конца чтений и
б) одинаковую вырожденную метку -
из данных удаляются все копии, кроме одной, таких чтений.
Эта операция может быть проведена с использование стандартного программного продукта NuDup (Nugen).
Определение покрытия регионов генома
Среди картированных чтений выбираются те, которые пересекаются с исследуемыми регионами генома, то есть имеющие такие координаты по референсному геному, которые перекрываются с координатами исследуемых регионов. Для каждой позиции внутри региона (каждая позиция чтения - каждый следующий нуклеотид чтения) вычисляется ее покрытие - количество прочтений, приходящихся на данную позицию. Затем по всем позициям каждого региона вычисляется среднее значение покрытия.
Среднее покрытие нормируется на суммарное количество картированных чтений в образце.
Выбор регионов генома
Предварительно, до этапа обогащения геномных библиотек необходимо провести выбор регионов генома, которые будут использованы для определения анеуплоидий с помощью описываемого метода. Сначала выбирают регионы генома, соответствующие описанным ниже критериям, после чего не менее 10 регионов генома, выбранных случайно из полученного списка регионов генома, формируют набор регионов генома, использующийся для последующего анализа.
При выборе регионов генома, вычисляют распределения значений их покрытия в образцах с нормальной беременностью и с анеуплоидией плода из обучающей выборки. Полученные значения покрытия регионов генома в образцах с нормальной беременностью и с анеуплоидией плода формируют базу данных покрытий кандидатных регионов генома для образцов крови беременных женщин с эуплоидией и анеуплоидией.
После формирования базы данных покрытий кандидатных регионов генома для образцов крови беременных женщин с эуплоидией и анеуплоидией, выбирают регионы генома, которые имеют значимо разную открытость хроматина между плацентой и другими тканями. В качестве меры открытости хроматина рассматривают данные о покрытии регионов генома прочтениями после обработки ДНКазой (фермент, который разрезает преимущественно открытую ДНК, не связанную с нуклеосомами), опубликованные в проекте ENCODE (https://genome.ucsc.edu/ENCODE/downloads.html). В проекте ENCODE также опубликованы пики, которые детектируются как пики в покрытии ридами после обработки ДНКазами в образцах плаценты и не детектируются в образцах клеток крови.
После нахождения регионов генома на хромосоме 21, являющихся участками гиперчувствительности в крови, но не являющихся участками гиперчувствительности в плаценте, формируют набор регионов генома, в который может входить разное подмножество регионов генома (не менее 10 регионов генома). Для поиска наилучшего подмножества участков используют полногеномный сиквенс свободно циркулирующей ДНК для образцов трисомии плода по хромосоме 21 и с нормальной беременностью. Для каждого кандидатного региона вычисляют его покрытие прочтениями в каждом образце. При помощи пакета DESeq, обычно используемого для анализа дифференциальной экспрессии генов, для каждого кандидатного региона определяют p-value того, что существует значимое отличие в покрытии отрезка между образцами с трисомией плода и эуплоидией плода. Выбирают участки с наибольшим отличием между образцами с трисомией плода и с нормальной беременностью, такие, что покрытие при трисомии превышает покрытие при нормальной беременности.
Для каждого из участков в каждом образце сохраняют значения его покрытия прочтениями, нормированные на покрытие всего образца в образцах с нормальной беременностью и трисомией плода. Такие участки генома затем используют для построения пренатального теста, при этом сохраненные значения покрытия используют для статистического анализа. Выбирались регионы генома, которые имеют значимо разную открытость хроматина между плацентой и другими тканями. Рассматривались полногеномные данные ENCODE о гиперчувствительности локусов ДНК к ферменту ДНКазе, которая разрезает преимущественно открытую ДНК, не связанную с нуклеосомами. В качестве меры открытости хроматина рассматривалось покрытие участка генома прочтениями после обработки ДНКазой, опубликованные в проекте ENCODE (https://genome.ucsc.edu/ENCODE/downloads.html).
При анализе геномных последовательностей (чтений) образца крови беременной женщины построенные предварительно распределения используют для определения того, насколько вероятно в образце наличие анэуплоидии или эуплоидии. Для каждого региона генома используют собственные распределения покрытия в обучающей выборке, по которым вычисляют p-value двух нулевых гипотез: «покрытие в данном участке соответствует анэуплоидии» и «покрытие в данном участке соответствует эуплоидии». Р-value вычисляют стандартным образом как вероятность наблюдать более экстремальное (сильнее смещенное от среднего значения) значение относительного покрытия в соответствии с используемым распределением. Полученные P-value для каждого участка хромосомы, тестируемой на анеуплоидию, перемножают отдельно для одной и другой нулевой гипотезы. Таким образом, вычисляют условные вероятности наблюдать полученные значения покрытия при анеуплоидии плода по данной хромосоме и при эуплоидии: P(X|aneuploidy), Р(Х|euploidy), где X обозначает наблюдаемые в данном образце значения покрытия.
Вероятности наличия анеуплоидий и эуплоидии при условии полученных наблюдений могут быть вычислены по теореме Байеса следующим образом:
Р(аneuрlоidy) - априорная вероятность наличия трисомии у плода оценивается как вероятность трисомии по исследуемой хромосоме в популяции с учетом возраста матери (например, 2*10-3). Используется несколько завышенное значение вероятности анеуплоидий для минимизации риска постановки ложноотрицательного (false negative - то есть не определение трисомии в случае беременности с трисомией) диагноза.
Полученные вероятности P(aneuploidy|X) и P(euploidy|X), в отличие от статистических метрик, используемых в других методиках определения трисомии, позволяют производить постановку диагноза без предварительного поиска оптимальных порогов на значение какой-либо метрики. Для постановки одного из диагнозов достаточно, чтобы одна из вероятностей была бы меньше порога значимости (например, 0.05), а другая - больше, тогда отвергается альтернатива с низкой вероятностью и принимается - с высокой. В случае, если ни одна из альтернатив не отвергается и обе вероятности выше порога, метод определяет невозможность постановки диагноза (no call).
Такая особенность также является преимуществом метода по сравнению с аналогами, так как позволяет отказаться от постановки диагноза в случае невозможности сделать это надежно вместо постановки малодостоверного диагноза.
Примеры осуществление изобретения
Пример №1. Сбор материала
У женщины, проходящей пренатальную генетическую диагностику на 11-й неделе беременности, была собрана кровь в пробирки с ЭДТА, объемом 9 мл. Кровь хранили не более трех часов при +4°C. Не позднее, чем через три часа после флеботомии, пробирки с кровью центрифугировали в течение 10 мин при 2000g при +4°C для получения плазмы, богатой тромбоцитами. Далее плазму повторно центрифугировали в течение 15 мин при 16000g при +4°C для получения плазмы, свободной от целых клеток крови. Внеклеточную ДНК получали из очищенной плазмы крови с помощью набора реактивов QIAamp Circulating Nucleic Acid Kit (