Способ проектирования первичной структуры белка с заданной вторичной структурой
Иллюстрации
Показать всеИзобретение относится к компьютерному способу, использующему биохимические базы данных при разработке новых белковых соединений. Проектирование осуществляется оператором с помощью специально написанной программы PROTCOM на основе использования базы данных пентафрагментов белков. Процесс проектирования состоит в задании и введении в программу PROTCOM начальной последовательности из пяти аминокислот (заданного начального пентафрагмента) и десятизначного числа, записанного в двоичной системе, являющегося описанием вторичной структуры заданного начального пентафрагмента. Проводится поиск этой последовательности в папке базы данных, с номером, соответствующим заданному десятизначному числу. Поиск производят до тех пор, пока заданный начальный пентафрагмент не будет найден в базе данных. После его нахождения считают этот пентафрагмент первым из возможного числа N пентафрагментов проектируемой первичной структуры белка и производят его запись вместе с десятизначным номером папки, описывающим его вторичную структуру, в рабочий файл программы. Далее задают вторичные структуры каждого последующего из (N-1) пентафрагментов путем введения того же или измененного десятизначного числа, описывающего вторичную структуру предыдущего пентафрагмента в программу и проводят поиск в базе данных пентафрагментов, содержащих четыре аминокислоты каждого из (N-1) пентафрагментов, записанных в рабочем файле и одну новую. При нахождении таких пентафрагментов производят выбор одной из новых аминокислот и присоединение ее к четырем последним аминокислотам предыдущего пентафрагмента, запись новой аминокислоты и десятичного номера папки, описывающего вторичную структуру каждого найденного пентафрагмента в рабочий файл. Спроектированной первичной структурой белка считают полученную в рабочем файле последовательность аминокислот, с соответствующим описанием ее вторичной структуры. Предложенный способ проектирования первичной структуры белка существенно упрощает и ускоряет задачу проектирования белков с заданной вторичной структурой. 5 ил., 21 табл., 2 пр.
Реферат
Изобретение относится к компьютерному способу, использующему биохимические базы данных при разработке новых белковых соединений для фармацевтики, биотехнологии и других областей промышленности, а также для научных исследований в медицине, биохимии, молекулярной биологии и генетике, для которых существенно использование новых белковых соединений на основе аминокислот.
Данное изобретение относится к области белковой инженерии - направлению молекулярной биологии, в задачи которой входит создание знаний и методов, позволяющих получать белки с заранее заданной структурой и функцией. Одним из аспектов этого направления является проектирование (дизайн) белковых молекул. Задача проектирования является обратной по отношению к задаче прогнозирования белковой структуры. Если в процессе прогнозирования белковой структуры мы по известной нам последовательности аминокислот должны на первом этапе найти его вторичную структуру, т.е. положение α-спиральных, β-структурных участков и изгибов, то при проектировании мы должны задать такую ранее неизвестную последовательность аминокислот в первичной структуре, спроектированный нами для создания желаемой пространственной структуры, которая в подходящих условия, после ее синтеза примет порядок расположения и размер α-спиральных, β-структурных участков и изгибов.
Проектирование новых белков, как правило, осуществляется на основе разработанной методологии прогнозирования белковых структур и от успешности этой методологии зависит степень удачи при проектировании новых белков с заранее прогнозируемой структурой. В большинстве случаев полученные результаты - это лишь немногочисленные удачные примеры среди большого числа не упоминаемых авторами неудачных вариантов.
Известны попытки проектирования белковых структур, основанные на общих закономерностях их формирования. Одной из первых явилась работа группы Де Градо (D.Eisenberg, W.Wilcox, S.M.Eshita, P.M.Pryciak, S.P.Ho, W.F.Degrado. 1986. The design, synthesis, and crystallization of an alpha-helical peptide. Proteins: Structure, Function, and Bioinformatics. V.1, Issue 1, pp.16-22). Авторы исходили из простой идеи: гидрофобные взаимодействия белковых структур должны быть минимизированы и упрятаны в гидрофобное ядро, а гидрофильные - обеспечивать контакт с растворителем. Исходя из этих соображений авторы спроектировали и синтезировали искусственный белок, содержащий лишь несколько аминокислот (Leu, Glu, Lys) и состоящий из четырех α-спиралей (W.F.DeGrado, L.Regan, S.P.Но. The Design of a Four-helix Bundle Protein. Cold Spring Harb Symp Quant Biol 1987. 52: 521-526).
Однако такой упрощенный подход не позволяет проектировать близкие к реальным сложные белки, состоящие из 20 различных типов аминокислот и обладающие заданными как структурными, так и функциональными свойствами.
В основу искусственного белка альбебетина была положена не существующая в природе структура, которая состояла из двух повторов типа α-β-β (V.V.Chemeris, D.A.Dolgikh, A.N.Fedorov, A.V.Finkelstein, M.P.Kirpichnikov, V.N.Uversky, O.B.Ptitsyn. A new approach to artificial and modified proteins: theory-based design, synthesis in a cell-free system and fast testing of structural properties by radiolabels. Protein Eng. (1994) 7 (8): 1041-1052). Его структура была разработана на основе физической теории формирования вторичной структуры белков, развиваемой авторами (Ptitsyn O.B., Finkelstein A.V. Theory of protein secondary structure and algorithm of its prediction. Biopolymers. 1983. V.22. P.15-25). Структурное исследование альбебетина показало, что он обладает заданной авторами вторичной структурой и находится в состоянии расплавленной глобулы. Следует отметить, что точность подхода, используемого авторами, не превышает 80%, что не позволяет с полной уверенностью проектировать белки с заданной структурой. Авторы практически спроектировали лишь один белок, и далее исследования были прекращены.
С целью улучшения предсказательных свойств известного метода, использующего физические потенциалы, было предложено ввести ряд параметров, учитывающих свойства последовательностей аминокислот (A.M.Poole и R.Ranganathan. Knowledge-based potentials in protein design. Current Opinion in Structural Biology 2006, 16, 508-513). На основе этого метода, с учетом введенных параметров, авторы спроектировали de novo ряд белков (WO 2007030594, «Methods of using and analyzing biological sequence data», МПК G06F 19/22; G06F 19/18, опубл. 15.03.2007). Однако такой подход носить компилятивный характер и обеспечивает лишь некоторое улучшение взятых за основу методов, не меняя вероятностный характер исходного физического метода.
Известно изобретение, имеющее отношение к аппаратам и методам для количественного проектирования и оптимизации структуры белка (US 2002106694 «Apparatus and method for automated protein design», МПК С07К 1/00; C07K 14/00; C12N 15/10; G06F 17/50; G06F 19/00, опубл. 08.08.2002). Разработанный автоматический метод проектирования, количественно учитывающий взаимодействия поверхностных остатков боковых цепей на основе вычисления трех типов потенциалов и учета стереохимических ограничений, позволяет выбрать из большого числа вариантов белок FSD-1 с мотивом ββα, основанным на структуре домена цинк-фингер-белка. Последовательность аминокислот этого белка имеет очень малое сходство с этим доменом. Несмотря на это, исследование этого белка в растворе методом спектроскопии ядерного магнитного резонанса показали, что он образует структуру, полностью идентичную предложенному для нее дизайну (B.I.Dahiyat and S.L.Mayo. De Novo Protein Design: Fully Automated Sequence Selection. Science, (1997) 278, 82-87).
Недостатком этого метода является необходимость наличия образцового белка, на основе которого осуществляется выбор новой структуры из большого числа вариантов.
С помощью методологии Розетта (Rosetta), представленной в работе (Kuhlman В, Dantas G, Ireton GC, Varani G, Stoddard BL, Baker D. Design of a novel globular protein fold with atomic-level accuracy. Science, 2003, 302(5649), 1364-8), основанной на оптимизации выбранных структур, был спроектирован и синтезирован неизвестный в природе искусственный белок Тор 7, структура которого была подтверждена экспериментально. Ядро Rosetta - физическая модель макромолекулярных взаимодействий и алгоритмов поиска аминокислотной последовательности с наименьшей энергией для заданной белковой структуры. Авторы применили свой метод (US 7574306 «Method and system for optimization of polymer sequences with stable, 3-dimensional conformations», МПК G06F 19/00, опубл. 11.08.2009) к разработке конструкций ряда других белков. Однако этот метод требует довольно сложных расчетов и не всегда приводит к успешным результатам. Для его использования также необходимо наличие образцов.
Такие способы не решают проблемы создания простого способа проектирования новых белков, обладающих любой заданной структурой и функциональными свойствами, а необходимость использования в качестве образцов конкретных белковых структур ограничивает диапазон проектируемых структур.
Решение этой проблемы особенно важно в технологии изготовления фармацевтических и иммунологических препаратов белкового происхождения.
Задачей, на решение которой направлено заявляемое изобретение, является разработка способа проектирования первичной структуры белка, благодаря которому достигается технический результат, заключающийся в упрощении способа с расширением диапазона проектируемых структур.
Предлагаемый способ проектирования первичной структуры белка на основе получения характеризующей ее последовательности аминокислот и описания вторичной структуры, заключается в следующем:
A) создают базу данных аминокислотных пентафрагментов белков, содержащую папки с пентафрагментами, причем исходный список папок составлен по их названиям, сформированным на основании закодированного в двоичной системе описания водородных связей пептидных групп пентафрагментов во вторичной структуре белков, и записывают ее на информационный носитель;
Б) вводят в память компьютера записанную на информационный носитель базу данных аминокислотных пентафрагментов белков;
B) задают и вводят в память компьютера начальную последовательность из пяти аминокислот, принадлежащих к группе из двадцати канонических аминокислот белков, являющуюся заданным начальным пентафрагментом;
Г) задают и вводят в память компьютера описание вторичной структуры заданного начального пентафрагмента в виде десятизначного числа в двоичной системе;
Д) вводят в память компьютера программу PROTCOM для выделения и поиска пентафрагментов проектируемого белка в базе данных и записи названий аминокислот найденных пентафрагментов и номеров папок базы данных, описывающих вторичную структуру, в которых обнаружены искомые пентафрагменты;
Е) вводят и запоминают заданный начальный пентафрагмент проектируемого белка в виде последовательности из пяти аминокислот в программу PROTCOM;
Ж) вводят и запоминают заданную вторичную структуру заданного начального пентафрагмента в виде десятизначного числа в двоичной системе в программу PROTCOM;
З) проводят поиск заданного начального пентафрагмента проектируемого белка в базе данных с помощью ранее записанной в память компьютера программы PROTCOM, при этом алгоритм поиска включает в себя:
- кодирование заданного начального пентафрагмента для целей поиска в базе данных;
- проведение поиска заданного начального пентафрагмента в базе данных в папке с заданной вторичной структурой пентафрагмента;
- при нахождении в папке заданного начального пентафрагмента считают этот пентафрагмент первым из возможного числа N пентафрагментов проектируемой первичной структуры белка и производят:
- фиксирование номера папки базы данных, содержащей первый пентафрагмент;
- запись последовательности аминокислот первого пентафрагмента в рабочий файл программы;
- запись десятизначного номера папки, описывающего вторичную структуру найденного первого пентафрагмента в рабочий файл;
- при не нахождении в папке заданного начального пентафрагмента:
- задают и вводят в память компьютера новую начальную последовательность из пяти аминокислот, принадлежащих к группе из двадцати канонических аминокислот белков, являющуюся новым заданным начальным пентафрагментом;
- вводят и запоминают новый заданный начальный пентафрагмент проектируемого белка в виде последовательности из пяти аминокислот в программу PROTCOM;
- проводят поиск нового заданного начального пентафрагмента проектируемого белка в базе данных с помощью ранее записанной в память компьютера программы PROTCOM, при этом алгоритм поиска включает в себя:
- кодирование нового заданного начального пентафрагмента для целей поиска в базе данных;
- проведение поиска нового заданного начального пентафрагмента в базе данных в папке с заданной вторичной структурой пентафрагмента;
- повторение задания новых начальных пентафрагментов и поиска новых заданных исходных пентафрагментов осуществляют до тех пор, пока не будет найден пентафрагмент с такой последовательностью аминокислот, которая находится в папке базы данных, описывающей заданную вторичную структуру пентафрагмента;
И) задают вторичные структуры каждого последующего из (N-1) пентафрагментов путем введения того же или измененного десятизначного числа, описывающего вторичную структуру предыдущего пентафрагмента в программу PROTCOM;
К) проводят поиск в базе данных пентафрагментов, содержащих четыре аминокислоты каждого из (N-1) пентафрагментов, записанных в рабочем файле и одну новую, при этом алгоритм поиска включает в себя:
- выделение и запоминание четырех последних аминокислот в каждом из (N-1) пентафрагментов, записанных в рабочем файле;
- поиск пентафрагментов, содержащих четыре последние аминокислоты каждого из (N-1) пентафрагментов, записанных в рабочем файле, и одну новую аминокислоту в базе данных в папке с заданной вторичной структурой;
- при нахождении таких пентафрагментов производят:
- выбор одной из новых аминокислот и присоединение ее к четырем последним аминокислотам предыдущего пентафрагмента;
- запись новой аминокислоты в рабочий файл, отражающий проектируемую первичную структуру белка;
- запись десятичного номера папки, описывающего вторичную структуру каждого найденного пентафрагмента;
- при не нахождении таких пентафрагментов производят:
- задание измененной вторичной структуры;
- выделение четырех последних аминокислот в последующем пентафрагменте;
- поиск пентафрагментов, содержащих четыре последних аминокислоты предыдущего пентафрагмента и одну новую аминокислоту в базе данных в папке с измененной вторичной структурой;
- повторение изменения вторичной структуры и поиск в базе данных осуществляют до тех пор, пока не будет найден хотя бы один пентафрагмент, содержащий четыре аминокислоты предыдущего пентафрагмента;
Л) спроектированной первичной структурой белка считают полученную в рабочем файле последовательность аминокислот, с соответствующим описанием ее вторичной структуры.
Способ осуществляют следующим образом:
А) создают базу данных аминокислотных пентафрагментов белков, содержащую папки с пентафрагментами, причем исходный список папок составлен по их названиям, сформированным на основании закодированного в двоичной системе описания водородных связей (Н-связей) пептидных групп пентафрагментов во вторичной структуре белков, и записывают ее на информационный носитель;
а) из Protein Data Bank производят скачивание находящихся в открытом доступе файлов с координатами атомов кристаллов белков, исследованных методом рентгеноструктурного анализа (РСА). Для создания начальной базы было произведено скачивание 2500 файлов белков.
б) с помощью компьютерной программы Protein 3D (Компьютерная программа «Protein 3D», зарегистрировано в Рос. АПО, №980143 от 03.05.98, авторы: Карасев В.А., Демченко Е.Л.) на основе полученных из Protein Data Bank файлов создают текстовые файлы, содержащие первичные структуры белков с описанием Н-связей, образуемых пептидными группами основных цепей белков во вторичной структуре;
в) с помощью комплекса программ для создания базы проводят следующие действия:
- осуществляют нарезку полученных первичных структур белков на фрагменты из пяти аминокислот (пентафрагменты) таким образом, чтобы каждый последующий фрагмент в процессе движения снизу вверх выделялся со сдвигом на одну аминокислоту по отношению к предыдущему фрагменту, а информация об Н-связях каждого выделяемого фрагмента во вторичной структуре белка полностью сохранялась. В таблице 1 для примера показана процедура нарезки фрагмента текстового файла белка 1SCN (субтилизина Карлсберга). Из таблицы видно, что Н-связи в пентафрагментах остаются неизменными.
- пентафрагменты, гомологичные по структуре Н-связей пептидных групп во вторичной структуре белка, сортируют по папкам, присваивая названиям папок закодированное в двоичной системе описание Н-связей пептидных групп. Наличие Н-связи обозначают цифрой «1», отсутствие водородной связи - цифрой «0».
В каждом пентафрагменте имеется 5 пар пептидных групп, Н-связи связи которых описываются четырьмя видами пар переменных: нет Н-связей - 00, Н-связь O…HN - 01, Н-связь NH…О - 10 и две Н-связи: О…HN и NH…O - 11. Таким образом название папки, содержащей гомологичные по структуре пентафрагменты, состоит из 10 символов 0 и 1, прочитываемых сверху вниз и записываемых в строку слева направо.
Примеры вариантов выделяемых пентафрагментов и описывающих их десятизначных чисел в двоичной системе приведены в таблице 2. Так, пентафрагмент, полученный из участка β-структуры (первая строка, пример слева), не содержит Н-связей ближнего порядка и описывается числом 0000000000. Участок с пентафрагментом, который находится в переходной области β-структура - α-спираль (первая строка, пример справа) содержит одно звено со связями O…HN и NH…O - пара переменных 11 и четыре звена со связями O…HN - 01 и характеризуется числом 1101010101. Центральная область α-спирали, как показано в таблице 2, содержит пять звеньев со связями O…HN и NH…O - 11 и описывается числом 1111111111. Переходная область α-спираль - β-структура содержит четыре звена со связями NH…O - 10 и одно - со связями O…HN и NH…O - пара переменных 11, что дает десятизначное число 1010101011. Наконец, участок изгиба β-структуры с одной Н-связью, как следует из таблицы 2, содержит одно звено со связью NH…O - 10, три звена - без Н-связей - 00 и одно звено со связью O…HN - 01, что описывается числом 1000000001.
При создании базы данных в процессе обработки текстовых файлов производилось движение по цепи белка снизу вверх со сдвигом на одну аминокислоту на каждом этапе и при этом каждый выделяемый пентафрагмент получал соответствующее десятизначное описание. В таблице 1 эти значения приведены во втором справа столбце. В результате в этом столбце мы имеем серии перекрывающихся на 4/5 десятизначных описаний структуры участка белка 1CSN, каждое из которых получает в базе данных папку с аналогичным номером. Жирным шрифтом выделены 10-значные номера, для пентафрагментов, аналогичных приведенным в таблице 2.
Таблица 1 | ||||||
Пример процедуры нарезки на пентафрагменты α-спирального фрагмента белка 1SCN | ||||||
10-значное описание | ||||||
Текстовый файл | Этапы выделения пентафрагментов | |||||
1CSN | 0000000000 | 69 | ||||
69 PRO | 0000000000 | 68 | ||||
68 ILE | 0000000010 | 67 | ||||
67 GLY | 0000001010 | 66 | ||||
66 THR | 0000101010 | 65 | ||||
65 CYS | 0010101010 | 64 | ||||
64 GLY | → | → | 1010101011 | 63 | ||
63 ALA N - 59 TYR O | ||||||
63 ALA | ||||||
62 LEU N - 58 THR O | 1010101111 | 62 | ||||
62 LEU | ||||||
61 LEU N - 57 ARG O | 1010111111 | 61 | ||||
61 LEU | ||||||
60 LYS N - 56 TYR O | 1011111111 | 60 | ||||
60 LYS | ||||||
59 TYR O - 63 ALA N | → | → | 1111111111 | 59 | ||
59 TYR N - 55 GLU O | ||||||
59 TYR | ||||||
58 THR O - 62 LEU N | 1111111101 | 58 | ||||
58 THR N - 54 ASP O | ||||||
58 THR | ||||||
57 ARG O - 61 LEU N | 1111110101 | 57 | ||||
57 ARG N - 53 ARG O | ||||||
57 ARG | ||||||
56 TYR O - 60 LYS N | 1111010101 | 56 | ||||
56 TYR N - 52 LEU O | ||||||
56 TYR | ||||||
55 GLU O - 59 TYR N | → | → | 1101010101 | 55 | ||
55 GLU N - 51 GLN O | ||||||
55 GLU | ||||||
54 ASP O - 58 THR N | 0101010100 | 54 | ||||
54 ASP | ||||||
53 ARG O - 57 ARG N | → | 53 ARG O - 57 ARG N | 0101010000 | 53 | ||
53 ARG | 53 ARG | |||||
52 LEU O - 56 TYR N | → | 52 LEU O - 56 TYR N | 52 LEU O - 56 TYR N | 0101000000 | 52 | |
52 LEU | 52 LEU | 52 LEU | ||||
51 GLN O - 55 GLU N | → | 51 GLN O - 55 GLU N | 51 GLN O - 55 GLU N | 51 GLN O - 55 GLU N | 0100000000 | 51 |
51 GLN | 51 GLN | 51 GLN | 51 GLN | |||
50 PRO | 50 PRO | 50 PRO | 50 PRO | 50 PRO | 0000000000 | 50 |
49 ALA | 49 ALA | 49 ALA | 49 ALA | 49 ALA | ||
48 ASP | 48 ASP | 48 ASP | 48 ASP | |||
47 SER | 47 SER | 47 SER | ||||
46 ARG | 46 ARG |
Центральные участки α-спиралей и β-структур белков описывают, соответственно, ряды повторяющихся 10-значных номеров 1111111111 и 0000000000. В то же время переходные участки от β-структуры к α-спирали и от α-спирали к β-структуре описываются блоками 10-значных номеров с постепенно изменяющимся составом пар переменных. Примеры таких блоков приведены в таблице 3. Жирным шрифтом выделены начальные и конечные участки переходов и их 10-значные описания.
Таблица 3 | |||
Примеры переходных участков и их описаний с помощью 10-значных чисел | |||
Переходные участки от β-структуры к α-спирали | 10-значное описание | Переходные участки от α-спирали к β-структуре | 10-значное описание |
1SCN | 1SCN | ||
59 TYR O - 63 ALA N | 68 ILE | ||
59 TYR N - 55 GLU O | 67 GLY | ||
59 TYR 58 THR O - 62 LEU N | 1111111111 | 66 THR | 0000000000 |
65 CYS | |||
58 THR N - 54 ASP O | 64 GLY | ||
58 THR | 1111111101 | 63 ALA N - 59 TYR O | 0000000010 |
57 ARG O - 61 LEU N | 1111110101 | 63 ALA | 0000001010 |
57 ARG N - 53 ARG O | 1111010101 | 62 LEU N - 58 THR O | 0000101010 |
57 ARG | 1101010101 | 62 LEU | |
56 TYR O - 60 LYS N | 0101010100 | 61 LEU N - 57 ARG O | 0010101010 |
56 TYR N - 52 LEU O | 0101010000 | 61 LEU | |
56 TYR | 0101000000 | 60 LYS N - 56 TYR O | 1010101011 |
55 GLU O - 59 TYR N | 0100000000 | 60 LYS | 1010101111 |
55 GLU N - 51 GLN O | 0000000000 | 59 TYR O - 63 ALA N | |
55 GLU | 59TYRN - 55 GLU O | 1010111111 | |
54 ASP O - 58 THR N | 59 TYR | ||
54 ASP | 58 THR O - 62 LEU N | 1011111111 | |
53 ARG O - 57 ARG N | 58 THR N - 54 ASP O | ||
53 ARG | 58 THR | 1111111111 | |
52 LEU O - 56 TYR N | 57 ARG O - 61 LEU N | ||
52 LEU | 57 ARG N - 53 ARG O | ||
51 GLN O - 55 GLU N | 57 ARG | ||
51 GLN | 56 TYR O- 60 LYS N | ||
50 PRO | 56 TYR N - 52 LEU O | ||
49 ALA | 56 TYR | ||
48 ASP | 55 GLU O- 59 TYR N | ||
47 SER | 55 GLU N - 51 GLN O | ||
46 ARG | 55 GLU | ||
1AMF | 3BBY | ||
131 GLU O-135 LYS N | 93 PRO | ||
131 GLU N - 127 ILE O | 92 TYR | ||
131 GLU | 91 ILE | ||
130 LYS O - 134 GLN N | 90 ARG | ||
130 LYS N - 126 GLY O | 1111111111 | 89 GLU | 0000000000 |
130 LYS | 1111111101 | 88 TRP N - 84 ALA O | 0000000010 |
129 ALA O -133 LEU N | 1111110101 | 88 TRP | 0000001000 |
129 ALA N - 125 ALA O | 1111010101 | 87 THR | 0000100000 |
129 ALA | 1101010111 | 86 PRO | 0010000000 |
128 TYRO - 132 ALA N | 0101011100 | 85 PRO | 1000000011 |
128 TYR N - 124 PRO O | 84 ALA O - 88 TRP N | ||
128 TYR | 0101110000 | 84 ALA N - 80 GLU O | 0000001110 |
127 ILE O - 131 GLU N | 84 ALA | ||
127 ILE N - 123 VAL O | 0111000000 | 83 PHE N - 79 LEU O | 0000111010 |
127 ILE | 1100000001 | 83 PHE | 0011101010 |
126 GLY O - 130 LYS N | 0000000100 | 82 ARG N - 78 TYR O | 1110101011 |
126 GLY | 0000010000 | 82 ARG | 1010101111 |
125 ALA O - 129 ALA N | 81 ASPN - 77 GLU O | ||
125 ALA | 0001000000 | 81 ASP | 1010111111 |
124 PRO O - 128 TYR N | 80 GLU O - 84 ALA N | ||
124 PRO | 0100000000 | 80 GLU N - 76 ALA O | 1011111111 |
123 VAL O - 127 ILE N | 0000000000 | 80 GLU | 1111111111 |
123 VAL N - 119 ASP O | 79 LEU O - 83 PHE N | ||
123 VAL | 79 LEU N - 75 ILE O | ||
122 HIS | 79 LEU | ||
121 GLU | 78 TYR O - 82 ARG N | ||
120 PRO | 78 TYR N - 74 ALA O | ||
119 ASP O - 123 VAL N | 78 TYR | ||
119 ASP | 77 GLU O - 81 ASP N | ||
118 GLY | 77 GLU N - 73 SER O | ||
117 VAL | 77 GLU | ||
116 ALA | 76 ALA O - 80 GLU N | ||
115 LEU | 76 ALA N - 72 SER O | ||
114 ARG | 76 ALA |
Нами было установлено, что количество таких блоков ограничено и между переходами от β-структуры к α-спирали и от α-спирали к β-структуре имеется антисимметрия (0←→1). Для этих переходов составлен каталог. Аналогичные антисимметрии (0←→1) наблюдаются также для изгибов α-спиралей и β-структур, примеры которых представлены в таблице 4. Для этих блоков также составлен каталог. Жирным шрифтом выделены начало и конец изгибов и пары переменных, обозначающие водородные связи в изгибах.
Таблица 4 | |||
Сопоставление изгиба α-спирали с разрывом одной Н-связи с изгибом β-структуры с одной Н-связью | |||
Изгиб α-спирали с разрывом одной Н-связи | 10-значное описание | Изгиб β-структуры с одной Н-связью | 10-значное описание |
1DOG | |||
334 GLN | |||
333 TYR O - 337 LYS N | |||
333 TYR N - 329 TYR O | |||
333 TYR | |||
332 LEU O - 336 ASP N | |||
332 LEU N - 328 LEU O | |||
332 LEU | |||
331 ALA O - 335 TRP N | |||
331 ALA N - 327 GLN O | |||
331 ALA | |||
330 ASP O - 334 GLN N | |||
330 ASP N - 326 GLU O | |||
330 ASP | 1GZM | ||
329 TYR O - 333 TYR N | 1111111111 | 31 LEU | 0000000000 |
329 TYR N - 325 ALA O | 30 TYR | 0000000010 | |
329 TYR | 29 TYR | ||
328 LEU O - 332 LEU N | 1111111101 | 28 GLN | 0000001000 |
328 LEU | 1111110111 | 27 PRO | 0000100000 |
327 GLN O - 331 ALA N | 1111011111 | 26 ALA N - 22 SER O | 0010000000 |
327 GLN N - 323 ALA O | 1101111111 | 26 ALA | 1000000001 |
327 GLN | 0111111110 | 25 GLU | 0000000100 |
326 GLU O - 330 ASP N | 1111111011 | 24PHE | 0000010000 |
326 GLU N - 322 LEU O | 23 PRO | ||
326 GLU | 1111101111 | 22 SER O - 26 ALA N | 0001000000 |
325 ALA O - 329 TYR N | 1110111111 | 22 SER | 0100000000 |
325 ALA N - 321 THR O | 1011111101 | 21 ARG | |
325 ALA | 1111110101 | 20 VAL | 0000000000 |
324 ALA N - 320 CYS O | 19 VAL | ||
324 ALA | 18 GLY | ||
323 ALA O - 327 GLN N | 17 THR | ||
323 ALA N - 319 LEU O | |||
323 ALA | |||
322 LEU O - 326 GLU N | |||
322 LEU N - 318 PHE O | |||
322 LEU | |||
321 THR O - 325 ALA N | |||
321 THR N - 317 TRP O | |||
321 THR | |||
320 CYS O - 324 ALA N | |||
320 CYS | |||
319 LEU O - 323 ALA N | |||
319 LEU |
Путем комбинации эти блоки могут быть использованы для проектирования любых типов вторичных структур белков.
г) производят упрощение выделенных пентафрагментов путем удаления из них информации о структуре Н-связей и оставления только последовательности из пяти аминокислот;
д) с целью облегчения дальнейшей процедуры поиска пентафрагментов в базе данных производят их сортировку на файлы, содержащие фрагменты с одинаковым пятизначным числовым индексом, который им присваивают путем отнесения каждой из аминокислот пентафрагмента к одной из четырех групп преобразований антисимметрии (Карасев В.А., Лучинин В.В. Введение в конструирование бионических наносистем. - М.: Физматлит, 2009, 464 с., глава 8). Эти группы приведены в таблице 5.
Таблица 5 | |
Распределение аминокислот в соответствии с группами антисиммет | |
Группа антисимметрии | |
Аминокислоты | |
Группа 1 | Gly, Pro |
Группа 2 | Ala, Leu |
Группа 3 | Ser, Thr, Cys, Met, His, Trp, Phe, Tyr |
Группа 4 | Asp, Glu, Asn, Gln, Arg, Lys, Val, Ile |
При этом в имени файла записывают пятизначный индекс и название папки, в которой этот файл расположен. Если пентафрагмент
Efg | |
Def | |
Cde | |
Bcd | |
Abc |
описывается 10-значным числом 0000000000, его индекс формируют сверху вниз и записывают слева направо: например, если аминокислота Efg относится к группе 1, Def -к группе 2, Cde - к группе 3, Bcd - к группе 4 и Abc - к группе 1, то его 5-значный индекс будет 12341, а имя файла - 12341_0000000000.
Созданная база данных содержит более 500 тысяч пентафрагментов, сортированных на более чем 500 папок. База данных организована в систему, состоящую из 16 гиперкубов, изоморфных булевым гиперкубам В6 (База данных пентафрагментов белков. Авторы: В.А.Карасев, А.И.Беляев, В.В.Лучинин. Зарегистрирована 7 июля 2010 года в Федеральном агентстве РОСПАТЕНТ №2010620364).
База данных может постоянно пополняться путем обработки новых файлов из Protein Data Bank. Также может быть создана теоретическая база данных.
Б) вводят в память компьютера записанную на информационный носитель базу данных аминокислотных пентафрагментов белков;
В) задают и вводят в память компьютера начальную последовательность из пяти аминокислот, принадлежащих к группе из двадцати канонических аминокислот белков, являющуюся заданным начальным пентафрагментом;
Задуманная начальная последовательность из пяти аминокислот представлена в виде столбца из трехбуквенных сокращенных названий аминокислот с обозначениями слева их номеров, записанная снизу вверх:
5 | Efg |
4 | Def |
3 | Cde |
2 | Bcd |
1 | Abc |
Г) задают и вводят в память компьютера описание вторичной структуры заданного начального пентафрагмента в виде десятизначного числа в двоичной системе;
Д) вводят в память компьютера программу PROTCOM для выделения и поиска пентафрагментов проектируемого белка в базе данных и записи названий аминокислот найденных пентафрагментов и номеров папок базы данных, описывающих вторичную структуру, в которых обнаружены искомые пентафрагменты;
Е) вводят и запоминают заданный начальный пентафрагмент проектируемого белка в виде последовательности из пяти аминокислот в программу PROTCOM;
Оператор вводит в программу задуманную последовательность из пяти аминокислот (заданный начальный пентафрагмент).
Ввод этих аминокислот в программу осуществляется сверху вниз, начиная с пятой аминокислоты, и заканчивается первой аминокислотой: Efg, Def, Cde, Bcd, Abc.
Ж) вводят и запоминают заданную вторичную структуру заданного начального пентафрагмента в виде десятизначного числа в двоичной системе в программу PROTCOM;
Пример вводимого десятизначного числа: 0000000000
З) проводят поиск заданного начального пентафрагмента проектируемого белка в базе данных с помощью ранее записанной в память компьютера программы PROTCOM, при этом алгоритм поиска включает в себя:
- кодирование заданного начального пентафрагмента для целей поиска в базе данных;
Программа считывает аминокислоты пентафрагмента сверху вниз, кодирует их в соответствии с принадлежностью к той или иной группе антисимметрии и записывает кодовый номер слева направо, аналогично сформированным индексам файлов, например: Efg - 1, Def - 2, Cde - 3, Bсd - 4, Abс - 4, кодовый номер - 12344.
- проведение поиска заданного начального пентафрагмента в базе данных в папке с заданной вторичной структурой пентафрагмента;
Для введенного десятизначного числа 0000000000 заданный начальный пентафрагмент ищут в папке базы данных с номером 0000000000, в файле с кодовым номером 12344, т.е. 12344_0000000000.
- при нахождении в папке заданного начального пентафрагмента считают этот пентафрагмент первым из возможного числа N пентафрагментов проектируемой первичной структуры белка и производят:
- фиксирование номера папки базы данных, содержащей первый пентафрагмент;
- запись последовательности аминокислот первого пентафрагмента в рабочий файл программы;
- запись десятизначного номера папки, описывающего вторичную структуру найденного первого пентафрагмента в рабочий файл;
Формат рабочего файла, создаваемого программой PROTCOM, показан в таблице 6.
Таблица 6 | ||
Формат рабочего файла, созданного программой PROTCOM | ||
1 | 2 | 3 |
N | STP | bbbbbbbbbb |
. | … | ……… |
5 | Efg | bbbbbbbbbb |
4 | Def | |
3 | Cde | |
2 | Bcd | |
1 | Abc |
Запись последовательности аминокислот исследуемого белка в рабочем файле производится снизу вверх, что отражает порядок синтеза белка на рибосоме (удлинение белка происходит путем добавления аминокислот к верхней аминокислоте). Столбцы файла имеют следующее назначение:
1 - номера аминокислот в проектируемом белке, записанные снизу вверх;
2 - последовательность аминокислот в проектируемом белке, записанная снизу вверх с помощью трехбуквенных обозначений;
3 - десятизначные номера папок (bbbbbbbbbb) базы данных, описывающих вторичную структуру проектируемых пентафрагментов, записанные снизу вверх.
в строке N - сигнальное значение конца белковой последовательности (STP).
Жирным шрифтом выделен первый пентафрагмент и десятизначный номер папки, в которой найден данных пентафрагмент.
- при не нахождении в папке заданного начального пентафрагмента:
- задают и вводят в память компьютера новую начальную последовательность из пяти аминокислот, принадлежащих к группе из двадцати канонических аминокислот белков, являющуюся новым заданным начальным пентафрагментом;
- вводят и запоминают новый заданный начальный пентафрагмент проектируемого белка в виде последовательности из пяти аминокислот в программу PROTCOM;
- проводят поиск нового заданного начального пентафрагмента проектируемого белка в базе данных с помощью ранее записанной в память компьютера программы PROTCOM, при этом алгоритм поиска включает в себя:
- осуществляют кодирование нового заданного начального пентафрагмента для целей поиска в базе данных;
- проводят поиск нового заданного начального пентафрагмента в базе данных в папке с заданной вторичной структурой пентафрагмента;
- повторение задания новых начальных пентафрагментов и поиска новых заданных начальных пентафрагментов осуществляют до тех пор, пока не будет найден пентафрагмент с такой последовательностью аминокислот, которая находится в папке базы данных, описывающей заданную вторичную структуру пентафрагмента.
И) задают вторичные структуры каждого последующего из (N-1) пентафрагментов, записанных в рабочем файле путем введения того же или измененного десятизначного числа, описывающего вторичную структуру предыдущего пентафрагмента, в программу PROTCOM;
К) проводят поиск в базе данных пентафрагментов, содержащих четыре аминокислоты каждого из (N-1), записанных в рабочем файле пентафрагментов, и одну новую, при этом алгоритм поиска включает в себя:
- выделение и запоминание четырех последних аминокислот в каждом из (N-1) пентафрагментов, записанных в рабочем файле;
- поиск пентафрагментов, содержащих четыре последние аминокислоты каждого из (N-1) пентафрагментов, записанных в рабочем файле, и одну новую аминокислоту в базе данных в папке с заданной вторичной структурой;
Например, в таблице 7 жирным шрифтом выделены четыре последние аминокислоты предыдущего пентафрагмента и введенное описание вторичной структуры для поиска нового пентафрагмента.
- при нахождении таких пентафрагментов производят:
- выбор одной из новых аминокислот и присоединение ее к четырем последним аминокислотам предыдущего пентафрагмента;
Таблица 7 | ||
Выделение аминокислот и описание их вторичной структуры для поиска пентафрагментов в базе данных | ||
1 | 2 | 3 |
. | … | …… |
6 | 0000000000 | |
5 | Efg | 0000000000 |
4 | Def | |
3 | Cde | |
2 | Bcd | |
1 | Abc |
- производят запись новой аминокислоты в рабочий файл, отражающий проектируемую первичную структуру белка;
- производят запись десятичного номера папки, описывающего вторичную структуру каждого найденного пентафрагмента;
- при не нахождении таких пентафрагментов производят:
- задание измененной вторичной структуры;
- выделение четырех последних аминокислот в последующем пентафрагменте;
- поиск пентафрагментов, содержащих четыре последних аминокислоты предыдущего пентафрагмента и одну новую аминокислоту в базе данных в папке с измененной вторичной структурой;
- повторение изменения вторичной структуры и поиск в базе данных осуществляют до тех пор, пока не будет найден хотя бы один пентафрагмент, содержащий четыре аминокислоты предыдущего пентафрагмента;
Л) считают полученную в рабочем файле последовательность аминокислот с соответствующим описанием ее вторичной структуры спроектированной первичной структурой белка.
В результате действий программы PROMCOM и работы оператора, проектирующего белок, в рабочем файле оказывается полностью заполненным второй столбец, содержащий первичную структуру белка и третий столбец, на основе которого судят о вторичной структуре этого белка. Наличие в 3-м столбце идущих подряд папок 0000000000 характеризует фрагмент как β-структурный. Несколько идущих подряд папок с нумерацией 1111111111 позволяет отнести фрагмент к α-спиральному (см. таблицу 2). Переходные участки между α-спиральной и β-структурной конформации, а также изгибы β-структуры (таблицы 2-4) проектируются и описываются соответствующими папками.
Описание заявки иллюстрируют следующие