Новые гены растений и их применение

Реферат

 

Изобретение относится к биотехнологии, в частности биотехнологии сельскохозяйственных растений. Конструируют ПЦР-праймеры. Выделяют молекулу нуклеиновой кислоты, кодирующую гомолог NIM1, участвующего в каскаде трансдукции сигнала, который приводит к развитию системной приобретенной устойчивости растений к болезням, путем полимеразной цепной реакции с использованием ПЦР-праймеров. Конструируют рекомбинантный вектор, содержащий выделенную нуклеиновую кислоту, которым трансформируют растительные клетки. Изобретение позволяет повысить устойчивость растений к болезням и тем самым повысить сбор сельскохозяйственной продукции. 5 н. и 3 з.п. ф-лы, 4 табл.

Настоящее изобретение относится к развитию у растений устойчивости к широкому спектру болезней, включая явление системной приобретенной устойчивости (SAR). Более конкретно настоящее изобретение относится к идентификации, выделению и изучению гомологов гена NIM1 Arabidopsis, который участвует в каскаде трансдукции сигнала, обусловливающего системную приобретенную устойчивость растений.

Растения постоянно подвергаются воздействию широкого спектра патогенных организмов, включающих вирусы, бактерии, грибы и нематоды. Культурные растения являются особенно уязвимыми, поскольку их обычно выращивают в виде генетически однородных монокультур; потери при поражении болезнью могут быть серьезными. Однако большинство растений имеют собственные врожденные механизмы защиты от патогенных организмов. Естественная изменчивость по признаку устойчивости к фитопатогенам выявлена селекционерами растений и фитопатологами и использована при селекции многих культурных растениях. Эти естественные гены устойчивости к болезням часто обусловливают высокие уровни устойчивости или иммунитета по отношению к патогенам.

Системная приобретенная устойчивость (SAR) представляет собой один из компонентов комплексной системы растений, применяемой ими для защиты от патогенов (Hunt и Ryals, 1996; Ryals и др. 1996) (см. также патент US 5614395). SAR является особенно важным компонентом взаимосвязи растение-патоген, поскольку представляет собой индуцируемую патогеном системную устойчивость к широкому спектру вызывающих инфекции агентов, включая вирусы, бактерии и грибы. Когда путь трансдукции сигнала SAR блокируется, растения становятся более чувствительными к болезнетворным патогенам, они также становятся чувствительными к некоторым инфекционным агентам, которые в норме не являются болезнетворными (Gaffney и др., 1993; Delaney и др., 1994; Delaney и др., 1995; Delaney, 1997; Mauch-Mani и Slusarenko, 1996). Эти данные свидетельствуют о том, что путь трансдукции сигнала SAR имеет решающее значение для сохранения растений в здоровом состоянии.

В принципе, реакция растения, обусловливающая SAR, может быть разделена на две фазы. В начальной фазе распознается заражение патогеном и запускается сигнал, проходящий через флоэму к удаленным тканям. Этот системный сигнал воспринимается клетками-мишенями, реакция которых заключается в экспрессии как генов SAR, так и генов устойчивости к болезням. Фаза поддерживания SAR сохраняется в течение периода времени, составляющего от нескольких недель до всей жизни растения, в течение этого периода времени состояние растения сохраняется практически постоянным и у него поддерживается устойчивость к болезням (Ryals и др., 1996).

Для трансдукции сигнала SAR, вероятно, необходимо накопление салициловой кислоты (СК). В растениях, которые не могут накапливать СК в результате обработки специфическими ингибиторами, эпигенетической репрессии фенилаланинаммиаклиазы или трансгенной экспрессии салицилатгидроксилазы, которая специфично расщепляет СК, также не может индуцироваться ни экспрессия гена SAR, ни устойчивость к болезням (Gaffney и др., 1993; Delaney и др., 1994; Mauch-Mani и Slusarenko, 1996; Maher и др., 1994; Pallas и др., 1996). Хотя было высказано предположение, что СК может служить системным сигналом, однако известны и противоположные мнения, и к настоящему времени точно установлено только то, что, если не может происходить накопление СК, то трансдукция сигнала SAR блокируется (Pallas и др., 1996; Shulaev и др., 1995; Vernooij и др., 1994).

В настоящее время в качестве модельной системы для изучения SAR используются растения Arabidopsis (Uknes и др., 1992; Uknes, 1998; Cameron и др., 1994; Mauch-Mani и Slusarenko, 1994; Dempsey и Klessig, 1995). Было установлено, что SAR может активироваться у Arabidopsis как патогенами, так и химическими соединениями, такими как СК, 2,6-дихлоризоникотиновая кислота (ИНК) и S-метиловый эфир бензо[1,2,3]тиадиазол-7-карботионовой кислоты (ВТН) (Uknes и др., 1992; Vernooij и др., 1995; Lawton и др., 1996). Обработка либо ИНК или ВТН, либо заражение патогеном приводит к согласованной индукции по меньшей мере трех генов связанного с патогенезом протеина (PR), а именно PR-1, PR-2 и PR-5, сопутствующих развитию устойчивости (Uknes и др., 1992, 1993). У табака, наиболее хорошо изученного вида, обработка патогеном или иммунизирующим соединением индуцирует экспрессию по меньшей мере 9 наборов генов (Ward и др., 1991). Трансгенные устойчивые к болезням растения были созданы трансформацией растений различными SAR-генами (патент US 5614395).

Был выделен целый ряд мутантов Arabidopsis, которые имели модифицированную трансдукцию сигнала SAR (Delaney, 1997). Первые из этих мутантов представляют собой так называемые lsd-мутанты (lesions simulating disease) [повреждения, напоминающие болезнь] и acd2-мутанты (accelerated cell death) [ускоренная гибель клеток] (Dietrich и др., 1994; Greenberg и др., 1994). Для всех этих мутантов характерно спонтанное образование на листьях некоторого количества некротических повреждений, увеличение уровней СК, накопление мРНК SAR-генов и выраженное увеличение устойчивости к болезням. Было выделено и охарактеризовано по меньшей мере 7 различных lsd-мутантов (Dietrich и др., 1994; Weymann и др., 1992). Другой интересный класс мутантов представлен cim-мутантами (constitutive immunity) [конститутивный иммунитет] (Lawton и др., 1993; см. также патент US 5792904 и международную заявку на патент РСТ WO 94/16077). Подобно Isd- и acd2-мутантам, cim-мутанты обладают повышенными содержанием СК, экспрессией гена SAR и устойчивостью, но в отличие от Isd- и асd2-мутантов для них не характерно образование заметных повреждений на листьях. cpr1 (constitutive expresser of PR genes) [конститутивный экспрессор PR-генов] может представлять собой тип cim-мутанта; однако поскольку для cpr1-мутанта не исключено присутствие на листьях микроскопических повреждений, то cpr1 может быть отнесен к типу lsd-мутанта (Bowling и др., 1994).

Также были выделены мутанты, у которых блокированы связанные с SAR сигналы. ndr1-мутант (non-race-specific disease resistance) [расонеспецифичная устойчивость к болезням] представляет собой мутант, на котором могут развиваться как штаммы Pseudomonas syringae, имеющие различные авирулентные гены, так и нормальные авирулентные изоляты Peronospora parasitica (Century и др., 1995). Вероятно, у этого мутанта блокированы начальные сигналы SAR. npr1-мутант (nonexpresser of PR genes) [неэкспрессирующий PR-гены] представляет собой мутант, который не может индуцировать экспрессию пути сигнала SAR после обработки ИНК (Сао и др., 1994). eds-мутанты (enhanced disease susceptibility) [повышенная чувствительность к болезням] были выделены на основе их способности поддерживать бактериальную инфекцию после инокуляции невысокой концентрацией бактерий (Glazebrook и др., 1996; Parker и др., 1996). Некоторые eds-мутанты фенотипически очень близки к npr1-мутантам и в настоящее время установлено, что eds5 и eds53 аллеломорфны npr1 (Glazebrook и др., 1996). nim1-мутант (noninducible immunity) [неиндуцибельный иммунитет] представляет собой мутант, который поддерживает рост Р. parasitica (т.е. возбудителя ложной мучнистой росы) после обработки ИНК (Delaney и др., 1995; патент US 5792904). Хотя nim1-мутанты могут накапливать СК после заражения патогеном, у них не может происходить индукция экспрессии гена SAR или развитие устойчивости к болезням, позволяющее предположить, что эта мутация блокирует путь метаболизма по ходу транскрипции СК. У nim1-мутантов также снижена способность реагировать на ИНК или ВТН, что позволяет предположить наличие места блокады по ходу транскрипции от места действия этих химических соединений (Delaney и др., 1995; Lawton и др., 1996).

Недавно было выделено и изучено два аллельных гена Arabidopsis, мутанты которых ответственны для фенотипы nim1 и npr1 соответственно (Ryals и др., 1997; Сао и др., 1997). Продукт гена NIM1 дикого типа участвует в каскаде трансдукции сигнала, приводящем к появлению у Arabidopsis как SAR, так и гена, ответственного за генетическую устойчивость (Ryals и др., 1997). Ryals с соавторами, 1997 также выделили пять дополнительных аллелей nim1, которые определяют широкий диапазон фенотипов от слабого уменьшения индуцированной химическим путем экспрессии гена PR-1 и устойчивости к фунгицидам до очень сильного ее ингибирования. Трансформация геном NIM1 дикого типа npr1-мутантов не только дополняет мутации, восстанавливая реакцию, приводящую к индукции SAR в отношении экспрессии PR-гена и устойчивости к болезням, но также придает трансгенным растениям большую устойчивость к заражению Р. syringae в отсутствии индукции SAR (Сао и др., 1997). В WO 98/06748 описано выделение NPR1 из Arabidopsis и его гомолога из Nicotiana glutinosa (см. также WO 97/49822, WO 98/26082 и WO 98/29537).

Несмотря на многочисленные исследования и применение сложных и обширных мероприятий, направленных на защиту урожая, включая генетическую трансформацию растений, потери от болезней ежегодно продолжают составлять миллиарды долларов. Следовательно, сохраняется потребность в разработке новых средств защиты сельскохозяйственных растений, базирующихся на более глубоком понимании генетической основы устойчивости растений к болезням. В частности, существует необходимость в идентификации, выделении и изучению гомологов гена NIM1 Arabidopsis из других видов растений.

В приведенном ниже описании изобретения могут применяться следующие понятия, значение которых определено ниже.

"Соединенный с/функционально связанный с": относится к двум последовательностям ДНК, которые связаны физически или функционально. Например, считается, что промоторная или регуляторная последовательность ДНК "связана с" последовательностью ДНК, кодирующей РНК или протеин, если две последовательности являются функционально связанными или расположены так, что регуляторная последовательность ДНК оказывает воздействие на уровень экспрессии кодирующей или структурной последовательности ДНК.

"Химерный ген": обозначает рекомбинантную последовательность ДНК, в которой промоторная или регуляторная последовательность ДНК функционально связана или соединена с последовательностью ДНК, которая кодирует мРНК или которая экспрессируется в виде протеина, так что регуляторная последовательность ДНК способна регулировать транскрипцию или экспрессию связанной с ней последовательности ДНК. Регуляторная последовательность ДНК химерного гена в норме не является функционально связанной с соединенной с ней последовательностью ДНК, как это происходит в естественных условиях.

"Кодирующая последовательность": обозначает нуклеотидную последовательность, которая транскрибируется с образованием РНК, такой как, например, мРНК, рРНК, тРНК, snPHK (М.я.РНК), смысловая РНК или антисмысловая РНК. Предпочтительно затем РНК транслируется в организме с образованием протеина.

"Комплементарный": относится к двум нуклеотидным последовательностям, которые включают антипараллельные нуклеотидные последовательности, обладающие способностью спариваться друг с другом с образованием водородных связей между комплементарными остатками оснований в антипараллельных нуклеотидных последовательностях.

"Экспрессия": относится к транскрипции и/или трансляции эндогенного гена или трансгена в растениях. В случае антисмысловых конструкций понятие "экспрессия" может относиться к транскрипции только антисмысловой ДНК.

"Кассета экспрессии": обозначает нуклеотидную последовательность, способную обеспечивать экспрессию конкретной нуклеотидной последовательности в соответствующей клетке-хозяине, которая включает промотор, функционально связанный с представляющей интерес нуклеотидной последовательностью, которая функционально связана с сигналами терминации. Она в норме также включает последовательности, необходимые для правильной трансляции нуклеотидной последовательности. Кассета экспрессии, включающая представляющую интерес нуклеотидную последовательность, может быть химерной, это означает, что по крайней мере один ее компонент является гетерологичным по отношению по крайней мере к одному из остальных компонентов. Кассета экспрессии также может представлять собой кассету, которая встречается в естественных условиях, но которая была получена в рекомбинантной форме, пригодной для гетерологичной экспрессии. Однако, как правило, кассета экспрессии является гетерологичной относительно хозяина, т.е. определенная последовательность ДНК кассеты экспрессии не встречается в естественных условиях в клетке-хозяине и должна быть интродуцирована в клетку-хозяина или в предка клетки-хозяина путем трансформации. Экспрессия нуклеотидной последовательности в кассете экспрессии может находиться под контролем конститутивного промотора или индуцибельного промотора, который инициирует транскрипцию только тогда, когда клетку-хозяина обрабатывают определенным внешним стимулом. В случае многоклеточного организма, такого как растение, промотор также может быть специфичным по отношению к определенной ткани или органу или стадии развития.

"Ген": обозначает определенную область внутри генома, которая помимо указанной выше кодирующей нуклеотидной последовательности содержит другие, прежде всего регуляторные нуклеотидные последовательности, ответственные за контроль экспрессии, т.е. за транскрипцию и трансляцию кодирующей области. Ген также может включать другие 5’-и 3’-нетранслируемые последовательности и терминирующие последовательности. Другими элементами, которые также могут присутствовать в гене, являются, например, интроны.

"Гетерологичная последовательность ДНК": понятия "гетерологичная последовательность ДНК", "экзогенный сегмент ДНК" или "гетерологичная нуклеиновая кислота" в контексте настоящего описания каждое из этих понятий относится к последовательности, полученной из источника, чужеродного по отношению к конкретной клетке-хозяину, или полученной из этого же источника, который модифицирован по сравнению с его исходной формой. Таким образом, гетерологичный ген в клетке-хозяине включает ген, являющийся эндогенным относительно конкретной клетки-хозяина, но который модифицирован, например, в результате применения перестановки ДНК. Понятие также включает не встречающиеся в естественных условиях множественные копии встречающейся в естественных условиях последовательности ДНК. Так, понятие относится к сегменту ДНК, который является чужеродным или гетерологичным относительно клетки или гомологичным клетке, но который находится в нуклеиновой кислоте клетки-хозяина в положении, в котором этот элемент в норме не присутствует. Экзогенные сегменты ДНК экспрессируются с образованием экзогенных полипептидов.

"Гомологичная последовательность ДНК": обозначает последовательность ДНК, которая в естественных условиях связана с клеткой-хозяином, в которую ее интродуцируют.

"Изокодонная": нуклеотидная последовательность является изокодонной относительно нуклеотидной последовательности, с которой проводится сравнение, когда нуклеотидная последовательность кодирует полипептид, имеющий такую же аминокислотную последовательность, что и полипептид, кодируемый нуклеотидной последовательностью, с которой проводится сравнение.

"Выделенная": в контексте настоящего описания выделенная молекула нуклеиновой кислоты или выделенный фермент обозначают молекулу нуклеиновой кислоты или фермент, которые благодаря человеку существуют вне их естественного окружения и, следовательно, не являются природными продуктами. Выделенная молекула нуклеиновой кислоты или фермент могут существовать в очищенной форме или могут существовать в неестественном окружении, таком как, например, рекомбинантная клетка-хозяин.

"Минимальный промотор": обозначает элементы промотора, в частности ТАТА-элемент (ТАТА-бокс), которые являются неактивными или которые в значительной степени снижают промоторную активность в отсутствии активации против хода транскрипции. В присутствии пригодного фактора транскрипции минимальный промотор функционирует, обеспечивая транскрипцию.

"Нативный": обозначает ген, присутствующий в геноме нетрансформированной клетки.

"Встречающийся в естественных условиях": понятие встречающийся в естественных условиях применяется для описания объекта, который может быть обнаружен в природе, в отличие от объекта, искусственно созданного человеком. Например, протеин или нуклеотидная последовательность, присутствующие в организме (включая вирус), которые могут быть выделены из природного источника и которые не были специально модифицированы человеком в лабораторных условиях, называются встречающимися в естественных условиях.

NIM1: обозначает ген, описанный Ryals и др., 1997, который участвует в каскаде трансдукции сигнала, обусловливающего SAR.

NIM1: обозначает протеин, кодируемый геном NIM1.

"Нуклеиновая кислота": понятие "нуклеиновая кислота" относится к дезоксирибонуклеотидам или рибонуклеотидам и их полимерам, имеющим либо одно-, либо двухцепочечную форму. Если не указано иное, то понятие включает нуклеотидные кислоты, включающие известные аналогии встречающихся в естественных условиях нуклеотидов, которые обладают сходными характеристиками связывания с нуклеиновой кислотой, с которой проводится сравнение, и которые метаболизируются аналогично тому, как этот происходит с встречающимися в естественных условиях нуклеотидами. Если не указано иное, то подразумевается, что конкретная нуклеотидная последовательность также включает ее консервативно модифицированные варианты (например, замены вырожденных кодонов) и комплементарные последовательности, а также специально указанную последовательность. В частности, замены вырожденных кодонов могут быть получены в результате создания последовательностей, в которых в третьем положении в одном или в нескольких выбранных (или во всех кодонах) произведена замена смешанным основанием и/или остатками дезоксиинозина (Batzer и др., Nucleic Acid Res. 19: 5081 (1991); Ohtsuka и др., J. Biol. Chem. 260: 2605-2608 (1985); Rossolini и др., Mol. Cell. Probes 8: 91-98 (1994)). Понятия "нуклеиновая кислота" или "нуклеотидная последовательность" также могут использоваться взаимозаменяемо с понятиями ген, кДНК и мРНК, кодируемая геном. В контексте настоящего описания молекула нуклеиновой кислоты предпочтительно представляет собой сегмент ДНК. Нуклеотиды обозначены с помощью их оснований с использованием следующих стандартных сокращений: аденин (А), цитозин (Ц), тимин (Т) и гуанин (Г).

"ОРС": обозначает открытую рамку считывания.

"Растение": обозначает любое целое растение.

"Растительная клетка": относится к структурной и физиологической единице растения, включающей протопласт и клеточную оболочку. Растительная клетка может находиться в форме выделенной отдельной клетки или культивируемой клетки или представлять собой часть высокоорганизованной единицы, такой как, например, ткань растения, орган растения или все растение.

"Культура растительных клеток": обозначает культуры единиц растения, таких как, например, протопласты, клетки в культуре клеток, клетки в тканях растения, пыльца, пыльцевые трубки, семяпочки, зародышевые мешки, зиготы и зародыши на различных стадиях развития.

"Растительный материал": относится к листьям, стеблям, корням, цветкам или частям цветков, плодам, пыльце, яйцеклеткам, зиготам, семенам, отводкам, культурам клеток или тканей или любой другой части или продукту растения.

"Орган растения": обозначает отдельную и четко структурно оформленную дифференцированную часть растения, такую как корень, стебель, лист, листовая почка или зародыш.

"Ткань растения": обозначает группу растительных клеток, организованных в структурную или функциональную единицу. Подразумевается любая ткань растения in planta или в культуре. Это понятие включает (но не ограничиваясь ими) целые растения, органы растений, семена растений, культуру ткани и любые группы растительных клеток, организованные в структурные и/или функциональные единицы. Применение этого понятия в сочетании с конкретным типом растительной ткани, как она определена выше, или по каким-то другим признакам подпадает под это определение, или вне зависимости от типа ткани, не подразумевает, что при этом исключается любой другой тип растительной ткани.

"Промотор": обозначает нетранслируемую последовательность ДНК, расположенную против хода транскрипции кодирующей области, которая содержит сайт связывания РНК-полимеразы II и инициирует транскрипцию ДНК. Промоторная область также может включать другие элементы, которые действуют в качестве регуляторов экспрессии гена.

"Протопласт": обозначает выделенную растительную клетку без клеточной оболочки или только с частью клеточной оболочки.

"Очищенный": понятие "очищенный" применительно к нуклеиновой кислоте или протеину обозначает, что нуклеиновая кислота или протеин практически лишены других клеточных компонентов, с которым они связаны в естественном состоянии. Предпочтительно они находятся в гомогенном состоянии, хотя также могут находиться либо в сухом виде, либо в виде водного раствора. Чистота и гомогенность, как правило, определяют с помощью методов аналитической химии, таких как электрофорез в полиакриламидном геле или жидкостная хроматография высокого разрешения. Главным образом, протеин, который присутствует в препарате, является практически очищенным. Понятие "очищенный" обозначает, что нуклеиновая кислота или протеин практически дают одну полосу в электрофоретическом геле. В частности, оно обозначает, что чистота нуклеиновой кислоты или протеина составляет по меньшей мере примерно 50%, более предпочтительно по меньшей мере примерно 85% и наиболее предпочтительно по меньшей мере примерно 99%.

"Рекомбинантная молекула ДНК": обозначает комбинацию молекул ДНК, которые объединены друг с другом с помощью метода рекомбинантной ДНК.

"Регуляторные элементы": обозначают последовательности, принимающие участие в обеспечении экспрессии нуклеотидной последовательности. Регуляторные элементы включают промотор, функционально связанный с представляющей интерес нуклеотидной последовательностью, и сигналы терминации. Они также, как правило, включают последовательности, необходимые для правильной трансляции нуклеотидной последовательности.

"Селектируемый маркерный ген": обозначает ген, экспрессия которого в клетке растения придает клетке избирательное преимущество. Избирательное преимущество, которое имеют клетки, трансформированные селектируемым маркерным геном, может заключаться в их способности расти в присутствии отрицательного агента селекции, такого как антибиотик или гербицид, по сравнению с нетрансформированными клетками. Избирательное преимущество, которое имеют трансформированные клетки по сравнению с нетрансформированными клетками, может заключаться в их усиленной или вновь приобретенной способности использовать добавленное соединение в качестве питательного вещества, фактора роста или энергетического источника. Понятие "селектируемый маркерный ген" также относится к гену или к комбинации генов, экспрессия которых в растительной клетке придает клетке отрицательное или положительное избирательное преимущество.

"Существенное повышение": повышение ферментативной активности, превышающее допустимые пределы погрешности метода измерения, предпочтительно повышение активности примерно в 2 раза или более по сравнению с активностью фермента дикого типа в присутствии ингибитора, более предпочтительно превышение примерно в 5 или более раз и наиболее предпочтительно превышение примерно в 10 или более раз.

Понятия "идентичный" или процент "идентичности" в отношении двух или большего количества нуклеотидных или аминокислотных последовательностей обозначает, что две или большее количество последовательностей или подпоследовательностей являются одинаковыми или имеют определенный процент одинаковых аминокислотных остатков или нуклеотидов при сопоставлении и сравнительном анализе максимального соответствия, что оценивают с помощью одного из приведенных ниже алгоритмов сравнения последовательностей или путем визуальной оценки.

"Практически идентичная": фраза "практически идентичная" в отношении двух или большего количества нуклеотидных или аминокислотных последовательностей обозначает, что две или большее количество последовательностей или подпоследовательностей имеют по меньшей мере 60%, предпочтительно 80%, более предпочтительно 90-95% и наиболее предпочтительно по меньшей мере 99% идентичных аминокислотных остатков или нуклеотидов при сопоставлении и сравнительном анализе максимального соответствия, что оценивают с помощью одного из приведенных ниже алгоритмов сравнения последовательностей или путем визуальной оценки. Предпочтительно практическая идентичность характерна для части последовательностей, включающей по меньшей мере 50 остатков, предпочтительно включающей по меньшей мере 100 остатков и наиболее предпочтительно для последовательностей, в которых практически идентичны по меньшей мере примерно 150 остатков. Согласно наиболее предпочтительному варианту осуществления последовательности практически идентичны на всем протяжении кодирующих областей. Кроме того, практически идентичные нуклеотидные или аминокислотные последовательности имеют практически одинаковую функцию.

При сравнении последовательностей, как правило, одна из последовательностей является последовательностью, с которой проводится сравнение тестируемых последовательностей. При использовании алгоритма сравнения последовательностей в компьютер вводят тестируемую последовательность и последовательность, с которой производится сравнение, при необходимости указываются координаты подпоследовательности и задаются параметры программы, реализующей алгоритм сравнения последовательностей. Затем с помощью алгоритма сравнения последовательностей на основе заданных параметров вычисляется процент идентичности последовательностей для тестируемой(ых) последовательности(ей) по отношению к последовательности, с которой производится сравнение.

Оптимальный сравнительный анализ последовательностей может быть проведен, например, с помощью алгоритма локальной гомологии, описанного у Smith и Waterman, Adv. Appl. Math.2: 482 (1981), с помощью алгоритма сравнительного анализа гомологии, описанного у Needleman и Wunsch. J. Mol. Biol 48: 443 (1970), методом поиска сходства, описанного у Pearson и Lipman, Proc. Nat’l. Acad. Sci. USA 85: 2444 (1988), с помощью компьютеризованных версий этих алгоритмов (GAP, BESTFIT, FASTA и TFASTA, входящих в пакет программ Wisconsin Genetics Software Package, Genetics Computer Group, 575 Science Dr., Мэдисон, штат Висконсин), или путем визуальной оценки (см. общий метод у Ausubel и др., ниже).

Одним из примеров алгоритма, пригодного для определения процента идентичности последовательностей и сходства последовательностей, является алгоритм BLAST, описанный у Altschul и др., J. Mol. Biol. 215: 403-410 (1990). Программное обеспечение для осуществления анализа с использованием алгоритма BLAST может быть предоставлено Национальным центром биотехнологической информации (National Center for Biotechnology Information) (http://www.ncbi.nlm.nih.gov/). В этом алгоритме сначала производится идентификация пар последовательности с высокими баллами (HSP) путем идентификации коротких "слов" длины W в рассматриваемой последовательности, которые или совпадают или удовлетворяют определенной положительной пороговой оценке (баллу) Т при сравнении со "словом" такой же длины в последовательности из базы данных. Т называется пороговой оценкой (баллом) близкого "слова" (Altschul и др., 1990). Эти исходные выборки близкого "слова" используются в качестве затравки для инициации поиска, предназначенного для нахождения включающих их более длинных HSP. Затем выборки "слова" удлиняются в обоих направлениях вдоль каждой последовательности до тех пор, пока происходит увеличение кумулятивного (накопительного) балла при сравнительном анализе. Кумулятивные баллы для нуклеотидных последовательностей вычисляют с использованием параметров М (призовой балл за пару совпадающих остатков; всегда >0) и N (штрафной балл за несовпадающие остатки; всегда <0). Для аминокислотных последовательностей для вычисления кумулятивного балла используют матрицу баллов. Удлинение выборки "слова" в каждом направлении прекращается в том случае, если кумулятивный балл при сравнительном анализе снижается на величину Х от своего максимального достигнутого значения, если кумулятивный балл снижается до нуля или ниже из-за накопления одного или нескольких отрицательных баллов при сравнительном анализе остатков или если достигается конец какой-либо последовательности. Параметры алгоритма BLAST W, Т и Х определяют чувствительность и скорость сравнительного анализа. В программе BLASTN (для нуклеотидных последовательностей) в качестве задаваемых по умолчанию параметров используются длина "слова" (W), равная 11, ожидание (Е), равное 10, предельное значение 100, М=5, N=-4, при этом производится сравнение обеих цепочек. Для аминокислотных последовательностей в программе BLASTP используются в качестве задаваемых по умолчанию параметров длина "слова" (W), равная 3, ожидание (Е), равное 10, и матрица баллов BLOSUM62 (см. Henikoff и Henikoff, Proc. Natl. Acad. Sci. USA 89: 10915 (1989)).

Помимо вычисления процента идентичности последовательностей алгоритм BLAST также производит статистический анализ сходства двух последовательностей (см., например, Karlin и Altschul, Proc. Nat’1. Acad. Sci. USA 90: 5873-5787 (1993)). Одним из критериев степени сходства, который позволяет получить алгоритм BLAST, является наименьшая суммарная вероятность (P(N)), которая дает оценку вероятности, с которой может произойти случайным образом совпадение между двумя нуклеотидными или аминокислотными последовательностями. Например, считается, что тестируемая нуклеотидная последовательность является сходной с последовательностью, с которой производится сравнение, если наименьшая суммарная вероятность при сравнении тестируемой нуклеотидной последовательности с нуклеотидной последовательностью, с которой производится сравнение, меньше приблизительно 0,1, более предпочтительно меньше приблизительно 0,01 и наиболее предпочтительно меньше приблизительно 0,001.

Другим доказательством того, что две нуклеотидные последовательности практически идентичны, является то, что две молекулы гибридизуются друг с другом в строгих условиях. Фраза "специфично гибридизуется с" относится к связыванию, образованию дуплекса или гибридизации молекулы только с определенной нуклеотидной последовательностью в строгих условиях, когда последовательность присутствует в комплексной смеси (например, общей клеточной) ДНК или РНК. "Практически связан(ы)" относится к комплементарной гибридизации между нуклеиновой кислотой-зондом и нуклеиновой кислотой-мишенью и подразумевает наличие небольшого количества ошибочных спариваний, которые могут найти соответствующее применение путем снижения строгости среды для гибридизации для достижения требуемого обнаружения последовательности нуклеиновой кислоты-мишени.

"Строгие условия гибридизации" и "условия отмывки при строгой гибридизации" в контексте экспериментов по гибридизации нуклеиновых кислот, таких как Саузерн- и Нозерн-гибридизации, зависят от последовательности и являются разными при применении различных параметров окружающей среды. Для специфичной гибридизации более длинных последовательностей используются более высокие температуры. Подробным руководством по гибридизации нуклеиновых кислот является работа Tijssen (1993) "Laboratory Techniques in Biochemistry and Molecular Biology-Hybridization with Nucleic Acid Probes", часть I, глава 2: "Overview of principles of hybridization and the strategy of nucleic acid probe assays" Elsevier, New York. Как правило, выбирают очень строгие условия гибридизации и отмывки, при которых температура примерно на 5°С ниже, чем конечная температура плавления (Тm) для конкретной последовательности при определенной ионной силе и значении рН. Как правило, при "строгих условиях" зонд должен гибридизоваться с подпоследовательностью-мишенью, но не гибридизоваться с другими последовательностями.

Тm обозначает температуру (при определенной ионной силе и значении рН), при которой 50% последовательностей-мишеней гибридизуется с точно подобранным зондом. При выборе очень строгих условий гибридизации температура равна Т конкретного зонда. Примером строгих условий гибридизации на фильтре методом Саузерн- или Нозерн-блоттинга для гибридизации комплементарных нуклеиновых кислот, которые имеют более 100 комплементарных остатков, является применение 50%-ного формамида с 1 мг гепарина при 42°С, при осуществлении гибридизации в течение ночи. Примером очень строгих условий отмывки является применение 0,15М NaCl при 72°С в течение примерно 15 мин. Примером строгих условий отмывки является отмывка 0,2xSSC (0,2-кратного SSC) при 65°С в течение 15 мин (описание SSC-буфера см. у Sambrook, ниже). Часто отмывке в очень строгих условиях предшествует отмывка в расслабленных условиях для удаления фонового сигнала зонда. Примером отмывки в условиях средней жесткости для дуплексов, состоящих, например, более чем из 100 нуклеотидов, является применение 1×SSC при 45°С в течение 15 мин. Примером расслабленных условий отмывки для дуплексов, состоящих, например, более чем из 100 нуклеотидов, является применение 4-6×SSC при 40°С в течение 15 мин. Для более коротких зондов (например, состоящих примерно из 10-50 нуклеотидов), строгие условия, как правило, включают концентрации солей, соответствующие менее чем 1,0М концентрации ионов Na, как правило, примерно от 0,01 до 1,0М концентрации ионов Na (или других солей) при рН от 7,0 до 8,3, при этом температура, как правило, составляет по меньшей мере примерно 30°С.

Строгие условия также могут быть получены при добавлении дестабилизирующих агентов, таких как формамид. Как правило, величина отношения сигнала к шуму, равная 2 (или выше) по сравнению с обнаруженной при применении неродственного зонда в конкретном опыте по гибридизации, свидетельствует о наличии специфической гибридизации. Нуклеиновые кислоты, которые не гибридизуются друг с другом в строгих условиях, еще являются практически идентичными, если протеины, которые они кодируют, являются практически идентичными. Это имеет место, например, в случае, когда копию нуклеиновой кислоты создают с использованием максимальной вырожденности кодонов, допускаемой генетическим кодом.

Ниже приведены примеры наборов условий гибридизации/отмывки, которые могут применяться для клона гомологичных нуклеотидных последовательностей, которые практически идентичны нуклеотидным последовательностям по настоящему изобретению, с которыми производится сравнение: нуклеотидная последовательность, с которой производится сравнение, предпочтительно гибридизуется с нуклеотидной последовательностью, с которой проводится сравнение, в 7%-ном додецилсульфате натрия (ДСН), 0,5М NaPO 4, 1 мМ ЭДТК при 50°С с отмывкой 2×SSC, 0,1%-ным ДСН при 50°С, предпочтительно в 7%-ном додецилсульфате натрия (ДСН), 0,5М NaPO4, 1 мМ ЭДТК при 50°С с отмывкой 1×SSC, 0,1%-ным ДСН при 50°С, более предпочтительно в 7%-ном додецилсульфате натрия (ДСН), 0,5М NaPО4, 1 мМ ЭДТК при 50°С с отмывкой 0,5×SSC, 0,1%-ным ДСН при 50°С, еще более предпочтительно в 7%-ном додецилсульфате натрия (ДСН), 0,5М NaPO4, 1мМ ЭДТК при 50°С с отмывкой 0,1×SSC, 0,1%-ным ДСН при 50°С, и еще более предпочтительно в 7%-ном додецилсульфате натрия (ДСН), 0,5М NaPO4, 1 мМ ЭДТК при 50°С с отмывкой 0,1×SSC, 0,1%-ным ДСН при 65°С.

Еще одним доказательством того, что две нуклеотидные последовательности или протеины являются практически идентичными, является то, что протеин, кодируемый первой нуклеиновой кислотой, является иммунологически перекрестно реактивным с протеином, кодиру