Способ повышения точности определения последовательности аминокислотных остатков биополимера на основе данных масс-спектрометрического анализа, вычислительная система
Изобретение относится к биоинформационным методам идентификации белков и пептидов по геномным базам данных. Способ заключается в том, что алгоритмы сопоставления масс-спектров с геномной базой данных применяются повторно после дополнения базы данных новыми записями, либо после удаления из базы данных записей, либо после замены базы данных базой данных, составленной из новых записей. Дополнительные записи генерируются путем внесения в последовательности идентифицированных биополимеров изменений, соответствующих заменам, делециям, вставкам и модификациям одного или нескольких аминокислотных остатков. Настоящее изобретение также относится к вычислительной системе, функционирование которой основано на раскрытом выше способе. Использование изобретения позволяет повысить точность идентификации последовательности аминокислотных остатков биополимера. 2 н. и 3 з.п. ф-лы, 1 ил.
Реферат
Область техники, к которой относится изобретение
Настоящее изобретение относится к способам информационно-вычислительной обработки масс-спектрометрических данных, направленным на идентификацию первичной структуры биополимеров, в том числе белков и пептидов.
Предшествующий уровень техники изобретения
Компьютерные методы обработки масс-спектрометрических данных, направленные на идентификацию первичной структуры биополимеров, в настоящее время являются основным способом проведения исследований в области протеомики.
В контексте данного изобретения биополимер рассматривается как закодированная в геноме последовательность аминокислотных остатков, содержащая, по меньшей мере, одну пептидную связь, и могущая содержать химические модификации остатков, в том числе, компонентами небелковой природы, такими как липиды, углеводороды, другие органические и неорганические элементы, например металлы. Последовательность аминокислотных остатков характеризуется вариабельностью, обусловленной следующими молекулярно-биологическими процессами: альтернативный сплайсинг, инсерции, делеции и замены единичных аминокислотных остатков. Последние три категории микровариабельности структуры белковых биополимеров обозначаются аббревиатурой SAP (Single Aminoacid Polymorphism). Совокупность индивидуальных особенностей белков организма образует его протеотип. Для определения протеотипа (протеотипирования) необходим способ идентификации микрогетерогенных различий в первичных структурах белков.
Идентификация первичной структуры биополимеров производится на основе масс-спектрометрических данных. Термин «масс-спектрометрические данные» обозначает информацию о массе или масс-зарядных характеристиках полных белков, пептидных фрагментов их гидролиза или фрагментов индуцированного распада ионов биополимеров. В ходе подготовки биополимеров к масс-спектрометрической идентификации их первичная структура может подвергаться специфичным для определенных аминокислотных остатков или неспецифичным модификациям, то есть модификациям, не зависящим от типа остатка в первичной структуре биополимера.
Обработка масс-спектрометрических данных производится с использованием биоинформационных алгоритмов. Большинство из них, например алгоритм Mowse [1], основываются на сравнении экспериментально полученных масс-спектрометрических данных с расчетными оценками, проведенными на основе геномных баз данных (ГБД). «Геномные базы данных» представляют собой совокупность информационных ресурсов, содержащих информационные записи о последовательностях аминокислотных остатков в белках, полученных на основании расшифровки геномной информации и (или) расшифровки экспрессируемых участков генома. Запись в ГБД включает в себя уникальный идентификатор белка и соответствующую этому белку последовательность аминокислотных остатков в буквенной кодировке. При сопоставлении масс-спектрометрических данных с геномной базой данных алгоритмом идентификации рассчитывается оценка статистической достоверности, позволяющая судить о вероятности правильной идентификации белка с учетом заданных масс-спектрометрических данных и определенной геномной базы данных. Белок считается идентифицированным, если оценка статистической достоверности превышает произвольно установленное пороговое значение.
При масс-спектрометрической идентификации биополимера возникают ситуации, когда часть масс-спектрометрических данных не совпадает с ГБД, поскольку в последних отсутствует информация об альтернативном сплайсинге (АС) и SAP. В то же время, внесение в ГБД дополнительной информации о всех возможных вариантах АС и SAP приводит к существенному снижению уровня статистической достоверности идентификации по причине экспоненциального увеличения комбинаторного пространства совпадающих с полученными масс-спектрометрическими данными вариантов первичных структур биополимеров [2].
В публикации [3] описан способ повышения точности определения аминокислотной последовательности пептидов - продуктов протеолиза белков - по данным масс-спектрометрического анализа, основанный на использовании расширенной ГБД. На предварительном этапе ГБД расширяют за счет включения в нее аминокислотных последовательностей белков, содержащих аннотированные в различных источниках SAP и пост-трансляционные модификации (ПТМ). При этом поиск информации о SAP и ПТМ осуществляется для всех белков, содержащихся в исходной базе данных.
Раскрытие настоящего изобретения
Предлагаемое в соответствии с настоящим изобретением решение указанной проблемы заключается в повторном применении алгоритмов масс-спектрометрической идентификации после внесения в ГБД новых записей, либо создание ГБД из новых записей, отражающих информацию об АС и SAP с учетом результатов идентификации белков по масс-спектрометрическим данным. Таким образом, настоящее изобретение относится к способу повышения точности определения последовательности аминокислотных остатков по данным масс-спектрометрического анализа, предусматривающему использование, по меньшей мере, одного алгоритма идентификации биополимеров, основанного на сопоставлении масс-спектрометрических данных с геномной базой данных, причем указанный алгоритм последовательно применяется, по меньшей мере, дважды.
В соответствии с одним из вариантов выполнения настоящее изобретение предусматривает проведение первичной идентификации белков алгоритмом «АИ», добавление в ГБД вариантов первичной структуры, содержащих продукты АС и SAP только для идентифицированных белков, а затем повторное проведение идентификации на обогащенной базе данных либо тем же самым алгоритмом «АИ», либо другим алгоритмом «АИ′».
В соответствии с другим вариантом выполнения настоящее изобретение предусматривает проведение первичной идентификации белков алгоритмом «АИ», создание ГБД, содержащую первичные структуры продуктов АС и SAP только идентифицированных ранее белков, а затем повторное проведение идентификации на обогащенной базе данных либо тем же самым алгоритмом «АИ», либо другим алгоритмом «АИ′».
Отличительным преимуществом настоящего изобретения от аналогичных способов, предусматривающих использование комбинации биоинформационных алгоритмов для повышения уровня статистической достоверности идентификации, является то, что алгоритмы идентификации применяются последовательно, при этом сопряжение предыдущего алгоритма (АИ) с последующим (АИ′) осуществляется путем внесения изменений в ГБД. Для реализации предлагаемого способа достаточно использовать только один алгоритм масс-спектрометрической идентификации, а не по меньшей мере два, как, например, заявлено в патентной публикации [4].
Также отличительным преимуществом настоящего изобретения от публикации [3] является то, что перед каждым повторным применением алгоритма в ГБД вносятся изменения, учитывающие результаты предыдущего(их) применения(ий) алгоритма (АИ). Это позволяет существенно увеличить эффективность поиска (за счет того, что каждая последующая идентификация является уточняющей по отношению к предыдущей(им)) и его достоверность (за счет резкого снижения вероятности получения ложноположительных результатов).
Настоящее изобретение также относится к вычислительной системе, функционирование которой основано на раскрытом выше способе. На вход системы поступают масс-спектрометрические данные МСД. Эти данные используются для идентификации биополимеров по геномной базе данных ГБД алгоритмом АИ. Результаты идентификации (РИ) представляют собой перечень идентификаторов белков, для которых оценка достоверности идентификации превышает установленное пользователем пороговое значение. Для белков в составе РИ на основании содержащихся во внешних источниках информации ВИИ сведений об известных или предполагаемых продуктах АС и вариантах SAP генерируются варианты первичной структуры. В качестве ВИИ могут быть использованы специализированные базы данных генетического полиморфизма (например, НарМар), базы данных, содержащие сведения об известных модификация белковой структуры (например, UniProt), и также персональные данные о результатах генотипирования (например, 23andme.com). После этого алгоритм идентификации АИ′ применяется для проведения идентификации белков по базе данных ГБД′ на основе исходных масс-спектрометрических данных МСД. Результаты работы алгоритма АИ′, обозначенные как РИ′, сравниваются с предыдущими РИ, и устанавливается какие варианты изменений в первичной структуре белков были идентифицированы.
Краткое описание чертежа
На чертеже приведена схема вычислительной системы согласно настоящему изобретению. В настоящей схеме использованы следующие обозначения:
МСД - исходные масс-спектрометрические данные, поступающие на вход системы;
ГБД - исходная геномная база данных;
АИ и АИ′ - алгоритмы масс-спектрометрической идентификации, причем допускается, что АИ тождественен АИ';
РИ - результаты первичной идентификации, представляющие собой перечень идентификаторов белков;
РИ′ - результаты повторной идентификации, содержащие дополнительные варианты белков;
МГБД - модификация геномной базы данных;
ГБД′ - модифицированная геномная база данных, в которую включены варианты белков, содержащихся во внешних источниках информации (ВИИ).
Пример 1. Идентификация полиморфного варианта белка Trypsin-1 [Precursor] (Uniprot P07477) способом согласно настоящему изобретению
Масс-спектрометрические данные исследования образца стволовых клеток человека были загружены из системы Pride (http://www.ebi.ac.uk/pride/). Была произведена первичная масс-спектрометрическая идентификация белков загруженных масс-спектров программой Mascot с использованием базы данных NCBI-nr. Для одного из идентифицированных белков из базы данных Uniprot было получено 13 полиморфных вариантов. Новая база данных была сформирована путем добавления в базу данных NCBI-nr списка полиморфных вариантов белка Trypsin-1. Была произведена повторная масс-спектрометрическая идентификация белков программой Mascot с использованием новой базы данных. В результате вторичной идентификации был идентифицирован полиморфный вариант белка Trypsin-1 [Precursor], отличающийся от дикого типа заменой цистеина в позиции 139 на фенилаланин. В спектре ионной фрагментации был идентифицирован пептид
K.(139)FLISGWGNTASSGADYPDELQCLDAPVLSQAK(170).C, содержащий указанную единичную аминокислотную замену.
Источники информации
[1]. Pappin D.J., Hojrup P., Bleasby A.J., Rapid identification of proteins by peptide-mass fingerprinting, Curr Biol 1993, 3(6), 327-332.
[2]. Kim S., Gupta N., Pevzner P.A., Spectral probabilities and generating functions of tandem mass spectra: a strike against decoy databases. J Proteome Res 2008, 7, 3354-3363.
[3]. Alves G., Ogurtsov A., Yu Y., RAId_DbS: mass-spectrometry based peptide identification web server with knowledge integration. BMC Genomics 2008, 9, 505.
[4]. Method and system for elucidating the primary structure of biopolymers; Bluggel M., Chamrad D., PROTAGEN AG, Dortmund (DE); United States Patent Application Publication US 2006/0188887 Al, Pub. Date: 24.08.2006.
1. Способ повышения точности определения последовательности аминокислотных остатков по данным масс-спектрометрического анализа, предусматривающий использование, по меньшей мере, одного алгоритма идентификации биополимеров, основанного на сопоставлении масс-спектрометрических данных с геномной базой данных, причем указанный алгоритм последовательно применяют, по меньшей мере, дважды, отличающийся тем, что перед каждым повторным применением алгоритма в геномную базу данных вносят изменения, учитывающие результаты предыдущего(их) применения(ий).
2. Способ по п.1, в котором перед повторным применением алгоритма в геномную базу данных вносят дополнительные записи.
3. Способ по п.2, в котором дополнительные записи генерируют путем внесения в последовательности идентифицированных биополимеров изменений, соответствующих заменам, делециям, вставкам и модификациям одного или нескольких аминокислотных остатков.
4. Способ по п.1, в котором перед повторным применением алгоритма геномную базу данных заменяют базой данных, состоящей из записей, соответствующих ранее идентифицированным биополимерам, а также записей, созданных путем внесения в последовательности идентифицированных биополимеров изменений, соответствующих заменам, делециям, вставкам и модификациям одного или нескольких аминокислотных остатков.
5. Вычислительная система, функционирование которой основано на способе по любому из пп.1-4.