Применение способов машинного обучения для извлечения правил ассоциации в наборах данных растений и животных, содержащих в себе молекулярные генетические маркеры, сопровождаемое классификацией или прогнозированием с использованием признаков, созданных по этим правилам ассоциации
Иллюстрации
Показать всеИзобретение относится к способу прогнозирования наличия по меньшей мере одного целевого признака в растении. Технический результат заключается в увеличении точности прогнозирования целевых признаков растений. Определяют посредством прямого секвенирования ДНК генотип растения для по меньшей мере одного молекулярного генетического маркера. Предоставляют набор данных, содержащий набор переменных, при этом по меньшей мере одна из переменных в наборе данных содержит значение, представляющее генотип растения для молекулярного(ых) генетического(их) маркера(ов). Определяют по меньшей мере одно правило ассоциации из набора данных, используя один или более алгоритмов извлечения правил ассоциации, причем правило ассоциации представляет собой правило, определяющее элементы, которые часто появляются вместе в пределах набора данных. Используют правило(а) ассоциации для создания одной или более новых переменных для набора данных. Добавляют новую(ые) переменную(ые) к набору данных и используют их для прогнозирования наличия целевых признаков в растении. 3 н. и 38 з.п. ф-лы, 4 табл., 1 ил.
Реферат
Эта заявка испрашивает приоритет на основании предварительной заявки 61/221804, которая была подана в Патентное ведомство США 30 июня 2009 года, полное раскрытие которой настоящим включено в состав посредством ссылки.
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Раскрытие относится к использованию одного или более алгоритмов извлечения правил ассоциации для извлечения наборов данных, содержащих признаки, созданные из, по меньшей мере, одного основанного на растениях или животных молекулярного генетического маркера, нахождения правил ассоциации и использования признаков, созданных по этим правилам ассоциации, для классификации или прогнозирования.
ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ РАЗВИТИЯ ТЕХНИКИ
Одна из основных целей улучшения растений и животных состоит в том, чтобы получать новые культурные сорта, которые превосходны в показателях желательных целевых признаков, таких как урожайность, содержание масла в зерне, устойчивость к болезням и устойчивость к абиотическим нагрузкам.
Традиционный подход к улучшению растений и животных состоит в том, чтобы отбирать отдельные растения или животные на основе их фенотипов или фенотипов их потомков. Отобранные особи могут затем, например, подвергаться дополнительному испытанию или становиться родителями будущих поколений. Полезно, чтобы некоторые программы разведения имели прогнозирования продуктивности до того, как формируются фенотипы для определенной особи, или когда только несколько записей фенотипа было получено для такой особи.
Некоторыми ключевыми ограничениями для улучшения растений и животных, которые основываются только на фенотипическом отборе, являются себестоимость и скорость формирования таких данных, и что есть сильное влияние окружающей среды (например, температуры, организации работ, грунтовые условия, дневной свет, ирригационные условия) на выражение целевых признаков.
В последнее время, развитие молекулярных генетических маркеров открыло возможность использования основанных на ДНК признаков растений или животных в дополнение к их фенотипам, информации об окружающей среде и другим типам признаков, для выполнения многих задач, в том числе, задач, описанных выше.
Некоторыми важными соображениями касательно способа анализа данных для этого типа наборов данных, являются способность извлекать исторические данные, быть стойким к мультиколлинеарности и учитывать взаимодействия между признаками, включенными в эти наборы данных (например, эпистатические эффекты и генотип от взаимодействий с окружающей средой). Способность извлекать исторические данные избегает потребности в хорошо структурированных данных для анализа данных. Способы, которые требуют хорошо структурированных данных, из планируемых экспериментов, обычно являются ресурсоемкими в показателях человеческих ресурсов, денег и времени. Сильное воздействие окружающей среды на выражение многих из наиболее важных особенностей в экономически важных растениях и животных, требует, чтобы такие эксперименты были большими, тщательно разработанными и тщательно контролируемыми. Ограничение мультиколлинеарности указывает на ситуацию, в которой два или более признака (или поднабора признаков) линейно коррелированы в отношении друг друга. Мультиколлинеарность может приводить к менее точной оценке влияния признака (или поднабора признаков) на целевой признак и, следовательно, на смещенные прогнозы.
Основные принципы, основанные на извлечении правил ассоциации и использовании признаков, созданных по этим правилам, для улучшения прогнозирования или классификации, пригодны для принятия мер в ответ на три соображения, упомянутые выше. Предпочтительные способы для классификации или прогнозирования являются способами машинного обучения. Правила ассоциации, поэтому, могут использоваться для классификации или прогнозирования касательно одного или более целевых признаков.
Подход, описанный в настоящем раскрытии, основывается на реализации одного или более основанных на машинном обучении алгоритмов извлечения правил ассоциации для извлечения наборов данных, содержащих в себе, по меньшей мере, один растительный или животный молекулярный генетический маркер, создает признаки на основании найденных правил ассоциации и использует эти признаки для классификации и прогнозирования целевых признаков.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
В варианте осуществления раскрыты способы для извлечения наборов данных, содержащих в себе признаки, созданные из, по меньшей мере, одного основанного на растениях молекулярного генетического маркера для нахождения, по меньшей мере, одного правила ассоциации, а затем, для использования признаков, созданных по этим правилам ассоциации для классификации или прогнозирования. Некоторые из этих способов пригодны для классификации или прогнозирования по наборам данных, содержащим в себе признаки растений и животных.
В варианте осуществления этапы для извлечения набора данных с, по меньшей мере, одним признаком, созданным из, по меньшей мере, одного основанного на растениях молекулярного генетического маркера, для нахождения, по меньшей мере, одного правила ассоциации, и использования признаков, созданных по этим правилам ассоциации для классификации или прогнозирования касательно одного или более целевых признаков, включают в себя:
(a) выявление правил ассоциации;
(b) создание новых признаков на основании выводов этапа (a), и добавление этих признаков в набор данных;
(c) разработку модели для прогнозирования или классификации касательно одного или более целевых признаков с, по меньшей мере, одним признаком, созданным с использованием признаков, созданных на этапе (b);
(d) отбора поднабора признаков из признаков в наборе данных; и
(e) выявление правил ассоциации из пространственных и временных ассоциаций с использованием самоорганизующихся карт (смотрите Teuvo Kohonen (2000), Self-Organizing Map, Springer, 3rd edition (Теуво Кохонен (2000), Самоорганизующаяся карта, Спрингер, 3-е издание)).
В варианте осуществления раскрыт способ извлечения набора данных с одним или более признаков, при этом, способ включает в себя использование, по меньшей мере, одного основанного на растениях молекулярного маркера для нахождения, по меньшей мере, одного правила ассоциации и использование признаков, созданных по этим правилам ассоциации, для классификации или прогнозирования, причем способ содержит этапы: (a) выявления правил ассоциации; (b) создания новых признаков на основании выводов этапа (a), и добавления этих признаков в набор данных; (c) отбора поднабора признаков из признаков в наборе данных.
В варианте осуществления, алгоритмы извлечения правил ассоциации используются для классификации или прогнозирования одним или более алгоритмами машинного обучения, выбранными из: алгоритмов оценки признаков, алгоритмов отбора поднабора признаков, байесовых сетей (смотрите Cheng and Greiner (1999), Comparing Bayesian network classifiers. Proceedings UAI, pp. 101-107 (Ченг и Грейнер (1999), Сравнение классификаторов байесовских сетей. Труды UAI, стр. 101-107)), алгоритмов, основанных на примерах, машин опорных векторов (например, смотрите Shevade et al., (1999), Improvements to SMO Algorithm for SVM Regression. Technical Report CD-99-16, Control Division Dept of Mechanical and Production Engineering, National University of Singapore (Шивади и другие, (1999), Усовершенствования в алгоритм SMO для регрессии SVM. Технический отчет CD-99-16, Департамент отдела управления механической и технологической подготовки производства, Государственный университет Сингапура); Smola et al., (1998). A Tutorial on Support Vector Regression. NeuroCOLT2 Technical Report Series - NC2-TR-1998-030 (Смола и другие, (1998). Пособие по регрессии опорных векторов. Серия технических отчетов NeuroCOLT2 - NC2-TR-1998-030); Scholkopf, (1998). SVMs - a practical consequence of learning theory. IEEE Intelligent Systems. IEEE Intelligent Systems 13.4: 18-21 (Шолкоф, (1998). SVM - практические следствия теории обучения. Интеллектуальные системы IEEE. Интеллектуальные системы 13.4 IEEE: 18-21); Boser et al., (1992), A Training Algorithm for Optimal Margin Classifiers V 144-52 (Бозер и другие, (1992), Алгоритм обучения для классификаторов с оптимальным допуском, V 144-52); и Burges (1998), A tutorial on support vector machines for pattern recognition. Data Mining and Knowledge Discovery 2 (1998): 121-67 (Бурже (1998), Пособие по машинам опорных векторов для распознавания шаблона. Извлечение данных и обнаружение знаний, 2 (1998): 121-67)), алгоритма голосований, чувствительного к стоимости классификатора, алгоритма укладки, правил классификации и алгоритмов дерева решений (смотрите Witten and Frank (2005), Data Mining: Practical machine learning Tools and Techniques. Morgan Kaufmann, San Francisco, Second Edition. (Виттен и Франк (2005), Извлечение данных: практические инструменты и технологии машинного обучения. Морган Кауфман, Сан-Франциско, второе издание).
Подходящие алгоритмы извлечения правил ассоциации включают в себя, но не в качестве ограничения, априорный алгоритм (смотрите Witten and Frank (2005), Data Mining: Practical machine learning Tools and Techniques. Morgan Kaufmann, San Francisco, Second Edition (Виттен и Франк (2005), Извлечение данных: Практические инструменты и техники машинного обучения. Морган Кауфман, Сан-Франциско, Второе издание), алгоритм FP-growth, алгоритмы извлечения правил ассоциации, которые могут обрабатывать большое количество признаков, алгоритмы извлечения огромных шаблонов, алгоритм извлечения прямых различительных шаблонов, деревья решений, неточные множества (смотрите Zdzislaw Pawlak (1992), Rough Sets: Theoretical Aspects of Reasoning About Data. Kluwer Academic Print on Demand (Ждзислав Павак (1992), Неточные множества: теоретические аспекты осмысления данных. Академическая печать Клювера по требованию)) и алгоритм самоорганизующихся карт (SOM).
В варианте осуществления, пригодный алгоритм извлечения правил ассоциации для обработки больших количеств признаков включает в себя, но не в качестве ограничения, CLOSET+ (see Wang et. al (2003), CLOSET+: Searching for best strategies for mining frequent closed itemsets, ACM SIGKDD 2003, pp. 236-245 (смотрите Ванг и другие (2003), CLOSET+: Поиск наилучших стратегий для извлечения часто встречающихся близких наборов элементов, ACM SIGKDD 2003, стр. 236-245), CHARM (смотрите Zaki et. al (2002), CHARM: An efficient algorithm for closed itemset mining, SIAM 2002, pp. 457-473 (Заки и другие (2002), CHARM: Эффективный алгоритм для извлечения близких наборов элементов)), CARPENTER (see Pan et. al (2003), CARPENTER: Finding Closed Patterns in Long Biological Datasets, ACM SIGKDD 2003, pp. 637-642 (Пан и другие, (2003), CARPENTER: Обнаружение близких шаблонов в длинных биологических наборах данных, ACM SIGKDD 2003, стр. 637-642 )), и COBBLER (смотрите Pan et al (2004), COBBLER: Combining Column and Row Enumeration for Closed Pattern Discovery, SSDBM 2004, pp. 21 (Пан и другие (2004) COBBLER: Объединение нумерации столбцов и строк для обнаружения близких шаблонов, SSDBM 2004, стр. 21)).
В варианте осуществления, подходящий алгоритм для обнаружения прямых различительных шаблонов включает в себя, но не в качестве ограничения, DDPM (смотрите Cheng et. al (2008), Direct Discriminative Pattern Mining for Effective Classification, ICDE 2008, pp. 169- 178 (Ченг и другие (2008), Извлечение прямых различительных шаблонов для эффективной классификации, ICDE 2008, стр. 169-178)), HARMONY (смотрите Jiyong et. al (2005), HARMONY: Efficiently Mining the Best Rules for Classification, SIAM 2005, pp. 205-216 (Джиенг и другие (2005) HARMONY: Эффективное извлечение наилучших правил для классификации, SIAM 2005, стр. 205-216)), RCBT (смотрите Cong et. al (2005), Mining top-K covering rule groups for gene expression data, ACM SIGMOD 2005, pp. 670-681 (Конг и другие (2005), Извлечение верхних K покрывающих групп правил для данных экспрессии генов, ACM SIGMOD 2005, стр. 670-681 )), CAR (смотрите Kianmehr et al (2008), CARSVM: A class association rule-based classification framework and its application in gene expression data, Artificial Intelligence in Medicine 2008, pp. 7-25 (Кианмер и другие (2008), CARSVM: Основанная на правилах ассоциации классов инфраструктура классификации и ее применение в данных экспрессии генов, Искусственный интеллект в медицине, 2008, стр. 7-25)), и PATCLASS (смотрите Cheng et. al (2007), Discriminative Frequent Pattern Analysis for Effective Classification, ICDE 2007, pp. 716-725 (Ченг и другие (2007), Анализ часто встречающихся различительных шаблонов для эффективной классификации, ICDE 2007, стр. 716-725)).
В варианте осуществления, пригодный алгоритм для нахождения огромных шаблонов включает в себя, но не в качестве ограничения, алгоритм слияния шаблонов (смотрите Zhu et. al (2007), Mining Colossal Frequent Patterns by Core Pattern Fusion, ICDE 2007, pp. 706-715 (Жу и другие, (2007), Извлечения часто встречающихся огромных шаблонов посредством слияния основных шаблонов, ICDE 2007, стр. 706-715)).
В варианте осуществления, подходящий алгоритм оценки признака выбирается из группы алгоритма прироста информации, алгоритма Relief (например, смотрите Robnik-Sikonja and Kononenko (2003), Theoretical and empirical analysis of Relief and ReliefF. Machine learning, 53:23-69 (Робник-Зиконжа и Кононенко (2003), Теоретический и эмпирический анализ Relief и ReliefF, Машинное обучение, 53:23-69); и Kononenko (1995). On biases in estimating multi-valued attributes. In IJCAI95, pages 1034-1040 (Кононенко (1995). О смещениях при оценке многозначных атрибутов. В IJCAI95, страницы 1034-1040)), алгоритма ReliefF (например, смотрите Kononenko, (1994), Estimating attributes: analysis and extensions of Relief. In: L. De Raedt and F. Bergadano (eds.): Machine learning: ECML-94. 171-182, Springer Verlag. (Кононенко, (1994), Оценка атрибутов: анализ и расширения Relief. В: Л. де-Раедт и Ф. Бергано (и др.): Машинное обучение: ECML-94. 171-182, Спрингер Верлаг)), алгоритма RReliefF, алгоритма симметричных неопределенностей, алгоритма отношений прироста и алгоритма ранжировщика.
В варианте осуществления, подходящим алгоритмом машинного обучения является алгоритм отбора поднабора признаков, выбранный из группы алгоритма основанного на корреляции отбора признаков (CFS) (смотрите Hall, M. A. 1999. Correlation-based feature selection for Machine Learning. Ph.D. thesis. Department of Computer Science - The University of Waikato, New Zealand (Холл, M. A. 1999. Основанный на корреляции отбор признаков для машинного обучения. Ph.D. диссертация. Департамент вычислительной техники - университет Уайкато, Новая Зеландия)), и алгоритма упаковки в ассоциации с любым другим алгоритмом машинного обучения. Эти алгоритмы отбора поднабора признаков могут быть ассоциативно связаны с методом поиска, выбранным из группы жадного алгоритма многошагового поиска, алгоритма поиска наилучшего первого, алгоритма исчерпывающего поиска, алгоритма поиска с состязаниями, и алгоритма рангового поиска.
В варианте осуществления, подходящим алгоритмом машинного обучения является алгоритм байесовской сети, включающий в себя наивный алгоритм Байеса.
В варианте осуществления, подходящим алгоритмом машинного обучения является основанный на примерах алгоритм, выбранный из группы, состоящей из основанного на примерах алгоритма 1 (IB1), основанного на примерах алгоритма k ближайших соседей (IBK), KStar, алгоритма облегченных правил Байеса (LBR) и алгоритма локально взвешенного обучения (LWL).
В варианте осуществления, подходящим алгоритмом машинного обучения является для классификации или прогнозирования алгоритм машины опорных векторов. В предпочтительном варианте осуществления, подходящим алгоритмом машинного обучения является алгоритм машины опорных векторов, который использует алгоритм последовательной минимальной оптимизации (SMO). В предпочтительном варианте осуществления, алгоритм машинного обучения является алгоритмом машины опорных векторов, который использует алгоритм последовательной минимальной оптимизации для регрессии (SMOReg) (например, смотрите Shevade et al., (1999), Improvements to SMO Algorithm for SVM Regression. Technical Report CD-99-16, Control Division Dept of Mechanical and Production Engineering, National University of Singapore (Шивади и другие, (1999), Усовершенствования в алгоритм SMO для регрессии SVM. Технический отчет CD-99-16, Департамент отдела управления механической и технологической подготовки производства, Государственный университет Сингапура); Smola & Scholkopf (1998), A Tutorial on Support Vector Regression. NeuroCOLT2 Technical Report Series - NC2-TR-1998-030 (Смола и Чолкопф (1998), Пособие по регрессии опорных векторов. Серия технических отчетов NeuroCOLT2 - NC2-TR-1998-030)).
В варианте осуществления, подходящим алгоритмом машинного обучения является самоорганизующаяся карта (Самоорганизующиеся карты, Теуво Кохонен, Спрингер).
В варианте осуществления, подходящим алгоритмом машинного обучения является алгоритм дерева решений, выбранный из группы алгоритма дерева логистической модели (LMT), алгоритма дерева переменных решений (ADTree) (Смотрите Freund and Mason (1999), The alternating decision tree learning algorithm. Proc. Sixteenth International Conference on machine learning, Bled, Slovenia, pp. 124-133 (Фреунд и Мейсон (1999), Алгоритм дерева переменных решений. Ученые записки, Шестнадцатая международная конференция по машинному обучению, Блед, Словения, стр. 124-133)), алгоритма M5P (смотрите Quinlan (1992), Learning with continuous classes, in Proceedings AI'92, Adams & Sterling (Eds.), World Scientific, pp. 343-348 (Куинлан (1992), Обучение с непрерывными классами, в трудах AI'92, Адамс & Стерлинг (и другие), Научный мир, стр. 343-348); Wang and Witten (1997), Inducing Model Trees for Continuous Classes. 9th European Conference on machine learning, pp. 128-137 (Ванг и Виттен (1997), Деревья индукционной модели для непрерывных классов. 9-ая европейская конференция по машинному обучению, стр. 128-137)), и алгоритма REPTree (Виттен и Франк, 2005).
В варианте осуществления, целевой признак выбирается из группы непрерывного целевого признака и дискретного целевого признака. Дискретный целевой признак может быть двоичным целевым признаком.
В варианте осуществления, по меньшей мере, один основанный на растениях молекулярный генетический маркер происходит из популяции растений, а популяция растений может быть неструктурированной популяцией растений. Популяция растений может включать в себя инбредные растения или гибридные растения или их комбинацию. В варианте осуществления, пригодная популяция растений выбирается из группы кукурузы, сои, сахарного тростника, сорго, пшеницы, подсолнечника, риса, канола, хлопка и просо. В варианте осуществления, популяция растений может включать в себя от приблизительно 2 до приблизительно 100000 членов.
В варианте осуществления, количество молекулярных генетических маркеров может находиться в диапазоне от приблизительно 1 до приблизительно 1000000 маркеров. Признаки могут включать в себя данные молекулярных генетических маркеров, которые включают в себя, но не в качестве ограничения, один или более из простой повторяющейся последовательности (SSR), расщепленных амплифицированных полиморфных последовательностей (CAPS), полиморфизма длин простой последовательности (SSLP), полиморфизма длин рестрикционных фрагментов (RFLP), маркера произвольной амплифицированной полиморфной ДНК (RAPD), полиморфизма одиночных нуклеотидов (SNP), полиморфизма длины произвольного фрагмента (AFLP), вставки, удаления или любого другого типа молекулярного генетического маркера, выведенного из ДНК, РНК, белка или метаболита, гаплотипа, созданного из двух или более из описанных выше молекулярных генетических маркеров, выведенных из ДНК, и их комбинации.
В варианте осуществления, признаки также могут включать в себя один или более из простой повторяющейся последовательности (SSR), расщепленных амплифицированных полиморфных последовательностей (CAPS), полиморфизма длин простой последовательности (SSLP), полиморфизма длин рестрикционных фрагментов (RFLP), маркера произвольной амплифицированной полиморфной ДНК (RAPD), полиморфизма одиночных нуклеотидов (SNP), полиморфизма длины произвольного фрагмента (AFLP), вставки, удаления или любого другого типа молекулярного генетического маркера, выведенного из ДНК, РНК, белка или метаболита, гаплотипа, созданного из двух или более из описанных выше молекулярных генетических маркеров, выведенных из ДНК, и их комбинацию в соединении с одним или более измерений фенотипа, данных микроматрицы уровней экспрессии РНК, включающих в себя m-РНК, микро-РНК (mi-РНК), некодирующую РНК (nc-РНК), аналитических измерений, биохимических измерений или относящихся к окружающей среде измерений, либо их комбинации, в качестве признаков.
Подходящий целевой признак в популяции растений включает в себя одну или более численно представимых и/или количественно выражаемых особенностей фенотипа, включающих в себя устойчивость к болезням, урожайность, зерновой выход, прочность пряжи, белковый состав, содержание белка, устойчивость к насекомым, влагосодержание зерна, содержание масла в зерне, качество зерновых масел, засухоустойчивость, устойчивость к корневому полеганию, высота растения, высота колоса, содержание белка в зерне, содержание аминокислот в зерне, цвет зерна и устойчивость к стеблевому полеганию.
В варианте осуществления, генотип выборочной популяции растений для одного или более молекулярных генетических маркеров определяется экспериментально прямым секвенированием ДНК.
В варианте осуществления, способ извлечения набора данных с, по меньшей мере, одним основанным на растениях молекулярным генетическим маркером для нахождения правила ассоциации и использования признаков, созданных по этим правилам ассоциации, для классификации или прогнозирования касательно одного или более целевых признаков, при этом, способ включает в себя этапы:
(a) выявления правил ассоциации;
(b) создания новых признаков на основании выводов этапа (a), и добавление этих признаков в набор данных;
(c) оценки признаков;
(d) отбора поднабора признаков из признаков в наборе данных; и
(e) разработки модели для прогнозирования или классификации касательно одного или более целевых признаков с, по меньшей мере, одним признаком, созданным на этапе (b).
В варианте осуществления, способ для отбора инбредных линий, отбора гибридов, ранжирования гибридов, ранжирования гибридов для определенной географии, отбора родителей новых инбредных популяций, нахождения участков для интрогрессии в элитные инбредные линии, или любой их комбинации выполняется с использованием комбинации этапов (a)-(e), приведенных выше.
В варианте осуществления, выявление правил ассоциации включает в себя пространственные и временные ассоциации с использованием самоорганизующихся карт.
В варианте осуществления, по меньшей мере, один признак модели для прогнозирования или классификации является поднабором признаков, выбранных ранее с использованием алгоритма оценки признаков.
В варианте осуществления перекрестная проверка используется для сравнения алгоритмов и наборов значений параметров. В варианте осуществления, кривые рабочих характеристик приемника (ROC) используются для сравнения алгоритмов и наборов значений параметров.
В варианте осуществления, один или более признаков выводятся математически или вычислительным образом из других признаков.
В варианте осуществления, раскрыт способ извлечения набора данных, который включает в себя, по меньшей мере, один основанный на растениях молекулярный генетический маркер для нахождения, по меньшей мере, одного правила ассоциации и использования признаков по этим правилам ассоциации для классификации или прогнозирования касательно одного или более целевых признаков, при этом, способ включает в себя этапы:
(a) выявления правил ассоциации;
(i) при этом, правила ассоциации, пространственные и временные ассоциации выявляются с использованием самоорганизующихся карт;
(b) создания новых признаков на основании выводов этапа (a), и добавление этих признаков в набор данных;
(c) разработки модели для прогнозирования или классификации касательно одного или более целевых признаков с, по меньшей мере, одним признаком, созданным на этапе (b);
при этом этапы (a), (b) и (c) могут предваряться этапом отбора поднабора признаков из признаков в наборе данных.
В варианте осуществления, раскрыт способ извлечения набора данных, который включает в себя, по меньшей мере, один основанный на растениях молекулярный генетический маркер для нахождения, по меньшей мере, одного правила ассоциации и использования признаков, созданных по этим правилам ассоциации, для классификации или прогнозирования, при этом, способ включает в себя этапы:
(a) выявления правил ассоциации;
(b) создания новых признаков на основании выводов, основанных на выводах этапа (a), и добавления этих признаков в набор данных;
(c) отбора поднабора признаков из признаков в наборе данных.
В варианте осуществления при этом результаты этих способов содержат набор данных с, по меньшей мере, одним основанным на растениях молекулярным генетическим маркером, используемым для нахождения, по меньшей мере, одного правила ассоциации, и с использованием признаков, созданных из этих правил ассоциации для классификации или прогнозирования, применяются для:
(a) прогнозирования продуктивности гибрида,
(b) прогнозирования продуктивности гибрида по различным географическим местоположениям;
(c) отбора инбредных линий;
(d) отбора гибридов;
(e) ранжирования гибридов для определенных географий;
(f) отбора родителей новых инбредных популяций;
(g) нахождения участков ДНК для интрогрессии в элитные инбредные линии;
(h) или любой их комбинации (a)-(g).
В варианте осуществления набор данных с, по меньшей мере, одним основанным на растениях молекулярным генетическим маркером используется для нахождения, по меньшей мере, одного правила ассоциации, и признаки, созданные из этих правил ассоциации, используются для классификации или прогнозирования и отбора, по меньшей мере, одного растения из популяции растений для одного или более интересующих целевых признаков.
В варианте осуществления, учитываются априорные знания, состоящие из предварительного исследования, количественных исследований генетики растения, генных сетей, анализов последовательностей или любой их комбинации.
В варианте осуществления, способы, описанные выше, модифицированы, чтобы включать в себя следующие этапы:
(a) понижения размерности заменой исходных признаков комбинацией одного или более признаков, включенных в одно или более из правил ассоциации;
(b) извлечения различительных и присущих часто встречающихся шаблонов посредством основанного на модели дерева поиска.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Фиг. 1: площадь под кривой ROC до и после добавления новых признаков с этапа (b).
ПОДРОБНОЕ ОПИСАНИЕ
Алгоритмы извлечения правил ассоциации предоставляют инфраструктуру и масштабируемость, необходимую для нахождения значимых взаимодействий на очень больших наборах данных.
Способы, раскрытые в материалах настоящей заявки, полезны для идентификации многолокусных взаимодействий, оказывающих влияние на фенотипы. Способы, раскрытые в материалах настоящей заявки, полезны для идентификации взаимодействий между молекулярными генетическими маркерами, гаплотипами и факторами влияния окружающей среды. Новые признаки, созданные на основании этих взаимодействий, полезны для классификации или прогнозирования.
Устойчивость некоторых из этих способов по отношению к проблемам мультиколлинеарности и отсутствующих значений для признаков, а также пропускная способность этих способов для описания сложных зависимостей между признаками, делают такие способы пригодными для анализа больших сложных наборов данных, которые включают в себя признаки, основанные на молекулярных генетических маркерах.
WEKA (Среда Уайкато для анализа знаний, разработанная в Университете Уайкато, Новая Зеландия) является комплектом программного обеспечения машинного обучения, написанным с использованием языка программирования Java, который реализует многочисленные алгоритмы машинного обучения из различных парадигм обучения. Эти инструментальные средства программного обеспечения машинного обучения содействуют реализации алгоритмов машинного обучения и поддерживают разработку алгоритма или адаптацию способов извлечения данных и вычислительных способов. WEKA также предоставляет инструмент для надлежащего испытания качества функционирования каждого алгоритма и наборов значений параметров посредством способов, таких как перекрестная проверка и кривые ROC (рабочих характеристик приемника). WEKA использовался для реализации алгоритмов машинного обучения для моделирования. Однако, специалист в данной области техники принял бы во внимание, что другое программное обеспечение машинного обучения может использоваться для осуществления на практике настоящего изобретения.
Более того, извлечение данных с использованием подходов, описанных в материалах настоящей заявки, дает гибкую масштабируемую инфраструктуру для моделирования с наборами данных, которые включают в себя признаки, основанные на молекулярных генетических маркерах. Эта инфраструктура гибка, так как она включает в себя встроенные средства испытания (то есть, перекрестную проверку и кривые ROC) для определения, какой алгоритм и конкретные настройки параметров должны использоваться для анализа набора данных. Эта инфраструктура является масштабируемой, так как она пригодна для очень больших наборов данных.
В варианте осуществления раскрыты способы для извлечения наборов данных, содержащих в себе признаки, созданные из, по меньшей мере, одного основанного на растениях молекулярного генетического маркера для нахождения, по меньшей мере, одного правила ассоциации, а затем, для использования признаков, созданных по этим правилам ассоциации для классификации или прогнозирования. Некоторые из этих способов пригодны для классификации или прогнозирования по наборам данных, содержащим в себе признаки растений и животных.
В варианте осуществления этапы для извлечения набора данных с, по меньшей мере, одним признаком, созданным из, по меньшей мере, одного основанного на растениях молекулярного генетического маркера, для нахождения, по меньшей мере, одного правила ассоциации, и использования признаков, созданных по этим правилам ассоциации для классификации или прогнозирования касательно одного или более целевых признаков, включают в себя:
(a) выявления правил ассоциации;
(b) создание новых признаков на основании выводов этапа (a), и добавление этих признаков в набор данных;
(c) разработку модели для одного или более целевых признаков с, по меньшей мере, одним признаком, созданным с использованием признаков, созданных на этапе (b);
(d) отбора поднабора признаков из признаков в наборе данных; и
(e) выявления правил ассоциации из пространственных и временных ассоциаций с использованием самоорганизующихся карт.
В варианте осуществления раскрыт способ извлечения набора данных с, одним или более, признаками, при этом, способ включает в себя использование, по меньшей мере, одного основанного на растениях молекулярного маркера для нахождения, по меньшей мере, одного правила ассоциации и использование признаков, созданных по этим правилам ассоциации, для классификации или прогнозирования, способ содержит этапы: (a) выявления правил ассоциации; (b) создания новых признаков на основании выводов этапа (a), и добавления этих признаков в набор данных; (c) отбора поднабора признаков из признаков в наборе данных.
В варианте осуществления, алгоритмы извлечения правил ассоциации используются для классификации или прогнозирования одним или более алгоритмами машинного обучения, выбранными из: алгоритмов оценки признаков, алгоритмов отбора поднабора признаков, байесовых сетей, основанных на примерах алгоритмов, машин опорных векторов, алгоритма голосований, чувствительного к стоимости классификатора, алгоритма укладки, правил классификации и алгоритмов дерева решений.
Подходящие алгоритмы извлечения правил ассоциации включают в себя, но не в качестве ограничения, априорный алгоритм, алгоритм FP-growth, алгоритмы извлечения правил ассоциации, которые могут обрабатывать большое количество признаков, алгоритмы извлечения огромных шаблонов, алгоритм извлечения прямого различительного шаблона, деревья решений, неточные множества и алгоритм самоорганизующейся карты (SOM).
В варианте осуществления, подходящий алгоритм извлечения правил ассоциации для обработки больших количеств признаков включает в себя, но не в качестве ограничения, CLOSET+, CHARM, CARPENTER и COBBLER.
В варианте осуществления, подходящий алгоритм для нахождения прямых различительных шаблонов, включает в себя, но не в качестве ограничения, DDPM, HARMONY, RCBT, CAR и PATCLASS.
В варианте осуществления, подходящий алгоритм для нахождения огромных шаблонов, включает в себя, но не в качестве ограничения, алгоритм слияния шаблонов.
В варианте осуществления, подходящим алгоритмом машинного обучения является алгоритм отбора поднабора признаков, выбранный из группы алгоритма основанного на корреляции отбора признаков (CFS) и алгоритма упаковки в ассоциации с любым другим алгоритмом машинного обучения. Алгоритмы отбора поднабора признаков могут быть ассоциативно связаны методом поиска, выбранным из группы жадного алгоритма многошагового поиска, алгоритма поиска наилучшего первого, алгоритма исчерпывающего поиска, алгоритма поиска с состязаниями и алгоритма рангового поиска.
В варианте осуществления, подходящим алгоритмом машинного обучения является алгоритм байесовской сети, включающий в себя наивный алгоритм Байеса.
В варианте осуществления, подходящий алгоритм машинного обучения является основанным на примерах алгоритмом, выбранным из группы, состоящей из основанного на примерах алгоритма 1 (IB1), основанного на примерах алгоритма k ближайших соседей (IBK), KStar, алгоритма облегченных правил Байеса (LBR) и алгоритма локально взвешенного обучения (LWL).
В варианте осуществления, подходящим алгоритмом машинного обучения является для классификации или прогнозирования алгоритм машины опорных векторов. В предпочтительном варианте осуществления, подходящим алгоритмом машинного обучения является алгоритм машины опорных векторов, который использует алгоритм последовательной минимальной оптимизации (SMO). В предпочтительном варианте осуществления, алгоритм машинного обучения является алгоритмом машины опорных векторов, который использует алгоритм последовательной минимальной оптимизации для регрессии (SMOReg).
В варианте осуществления, подходящим алгоритмом машинного обучения является самоорганизующаяся карта.
В варианте осуществления, подходящим алгоритмом машинного обучения является алгоритм дерева решений, выбранный из группы алгоритма дерева логистической модели (LMT), алгоритма дерева переменных решений (ADTree), алгоритма M5P и алгоритма REPTree.
В варианте осуществления, целевой признак выбирается из группы непрерывного целевого признака и дискретного целевого признака. Дискретный целевой признак может быть двоичным целевым признаком.
В варианте осуществления, по меньшей мере один основанный на растениях молекулярный генетический маркер происходит из популяции растений, а популяция растений может быть неструктурированной популяцией растений. Популяция растений может включать в себя инбредные растения или гибридные растения, или их комбинацию. В варианте осуществления, пригодная популяция растений выбирается из группы кукурузы, сои, сахарного тростника, сорго, пшеницы, подсолнечника, риса, канола, хлопка и просо. В варианте осуществления, популяция растений может включать в себя приблизительно 2 и приблизительно 100000 членов.
В варианте осуществления, количество молекулярных генетических маркеров может находиться в диапазоне от приблизительно 1 до приблизительно 1000000 маркеров. Признаки могут включать в себя данные молекулярных генетических маркеров, которые включают в себя, но не в качестве ограничения, один или более из простой повторяющейся последовательности (SSR), расщепленных амплифицированных полиморфных последовательностей (CAPS), полиморфизма длин простой последовательности (SSLP), полиморфизма длин рестрикционных фрагментов (RFLP), маркера произвольной амплифицированной полиморфной ДНК (RAPD), полиморфизма одиночных нуклеотидов (SNP), полиморфизма длины случайного фрагмента (AFLP), вставки, удаления или любого другого типа молекулярного генетического маркера, выведенного из ДНК, РНК, белка или метаболита, гаплотипа, созданного из двух или более из описанных выше молекулярных генетических маркеров, выведенных из ДНК, и их комбинации.
В варианте осуществления, признаки также могут включать в себя один или более из простой повторяющейся последовательности (SSR), расщепленных амплифицированных полиморфных последовательностей (CAPS), полиморфизма длин простой последовательности (SSLP), полиморфизма длин рестрикционных фрагментов (RFLP), маркера произвольной амплифицированной полиморфной ДНК (RAPD), полиморфизма одиночных нуклеотидов (SNP), полиморфизма длины случайного фрагмента (AFLP), вставки, удаления или любого другого типа молекулярного генетического маркера, выведенного из ДНК, РНК, белка или метаболита, гаплотипа, созданного из двух или более из описанных выше молекулярных генетических маркеров, выведенных из ДНК, и их комбинацию в соединении с одним или более измерений фенотипа, данных микроматрицы, аналитических измерений, биохимических измерений или относящихся к окружающей среде измерений, либо их комбинации, в качестве признаков.
Подходящий целевой признак в