Классификация данных выборок

Иллюстрации

Показать все

Изобретение относится к классификации биомолекулярных данных. Техническим результатом является повышение надежности классификации. Предусмотрена система (100) классификации для классификации биомолекулярных данных. Вход системы принимает множество признаков (102) выборки, которая должна быть классифицирована, и множество соответствующих оценок (104) ошибок. Статистический модуль (106) ассоциирует функции (108) плотности распределения вероятностей с признаками, при этом соответствующие функции плотности распределения вероятностей зависят от оценок ошибок. Модуль (110) репликации формирует множество возмущенных реплик (112) выборки, при этом признаки являются произвольно возмущенными согласно соответствующим надлежащим функциям плотности распределения вероятностей. Классификатор (114) классифицирует возмущенные реплики на основе возмущенных признаков. Анализатор (118) классифицирует выборку, которая должна быть классифицирована, на основе статистического анализа классифицированных реплик (116), чтобы получать классификацию (120) выборок. 3 н. и 10 з.п. ф-лы, 6 ил.

Реферат

Область техники, к которой относится изобретение

Изобретение относится к классификации, в частности к классификации выборок, заключающих в себе зашумленные данные измерений. Более конкретно, изобретение относится к классификации биомолекулярных данных.

Уровень техники

В области молекулярной диагностики данные с биочипов и протеомические данные все в большей степени используются для того, чтобы создавать новые тесты для классификации пациентов. Пример такого теста описывается в "Multiclass classification of microarray data with repeated measurements: application to cancer" авторов K.Y. Yeung и R.E. Bumgarner, в Genome Biology, 2004, 4:R83.

Классификация данных с биочипов и протеомических данных может касаться, например диагностики и стратификации пациентов. Нахождение правильных биомаркеров, например, правильного набора генов или протеинов, на которых следует базировать эту классификацию, и нахождение правильного правила для того, чтобы преобразовывать измерения этих биомаркеров в классификацию, имеет первостепенное значение, поскольку оно может оказывать большое влияние на точность классификации. С учетом биомаркеров и правила классификации, новые случаи могут быть классифицированы в медицинском учреждении или терапевтом.

Биочипы предлагают важный инструмент для биологов за счет упрощения возможности одновременно измерять тысячи уровней экспрессии генов в расчете на выборку. Одна из главных задач классификации на основе биочипов состоит в том, чтобы преобразовывать набор измерений экспрессии генов, признаков, в данную целевую метку, т.е. класс пациента. В отличие от измерения температуры тела человека или роста человека, измерение уровней экспрессии генов является очень сложным, затратным и длительным. Это многоэтапный процесс, в котором должно выполняться множество отдельных процедур. Некоторые из этих этапов заключают в себе условия, которые не могут полностью управляться, и могут приводить к ненадежности результата классификации.

Сущность изобретения

Усовершенствованная классификация биомолекулярных данных может обеспечить дополнительные преимущества. Чтобы оптимальнее разрешать эту проблему, в первом аспекте изобретения предоставляется система классификации, которая содержит:

- ввод для приема данных измерений, содержащих измерения множества численных признаков выборки, которая должна быть классифицирована, и множества соответствующих оценок ошибок соответствующих из множества численных признаков;

- статистический модуль для ассоциирования соответствующих функций плотности распределения вероятностей с соответствующими численными признаками из множества численных признаков, при этом соответствующие функции плотности распределения вероятностей зависят от соответствующих оценок ошибок соответствующих численных признаков;

- модуль репликации для формирования множества возмущенных реплик выборки, причем возмущенные реплики содержат возмущенные признаки, при этом соответствующие численные признаки из множества численных признаков являются произвольно возмущенными согласно соответствующим надлежащим функциям плотности распределения вероятностей, чтобы получать возмущенные признаки;

- классификатор для классификации соответствующих возмущенных реплик из множества возмущенных реплик на основе возмущенных признаков и посредством применения заранее определенных критериев классификации, чтобы получать классифицированные реплики, при этом каждая классифицированная реплика имеет ассоциированный с ней класс;

- анализатор для классификации выборки, которая должна быть классифицирована, на основе статистического анализа классифицированных реплик, чтобы получать классификацию выборок.

Поскольку численные признаки реплик являются возмущенными, классификация, в общем, не всегда является одинаковой для всех реплик. Кроме того, поскольку признаки реплик являются возмущенными согласно распределению вероятностей, приписанному шуму, который присутствует в измеренных признаках, число реплик, классифицированных как принадлежащие конкретному классу, связано с вероятностью или правдоподобием того, что выборка, которая должна быть классифицирована, принадлежит данному конкретному классу с учетом шума. Следовательно, анализатор может принимать во внимание эту вероятность, чтобы предоставлять усовершенствованную классификацию и/или предоставлять большее понимание по надежности классификации.

Предпочтительно, статистический модуль варьирует дисперсию в зависимости от оценок ошибок, например пропорционально оценкам ошибок.

Например, анализатор назначает класс, имеющий наивысшую вероятность или правдоподобие, выборке. Это повышает точность (например, специфичность и/или чувствительность) классификации.

Предпочтительно, анализатор выполнен с возможностью вычисления значения, служащего признаком правдоподобия (т.е. указывающего на правдоподобие) того, что выборка принадлежит конкретному классу. Это предоставляет пользователю системы классификации индикатор, который он может использовать для того, чтобы определять, может он или нет полагаться на классификации. Правдоподобие может указываться, например, посредством значения вероятности или p-значения теста статистической гипотезы.

Предпочтительно, множество значений правдоподобия вычисляется, при этом каждое соответствующее значение правдоподобия служит признаком вероятности или правдоподобия того, что выборка принадлежит соответствующему конкретному классу. Это дает возможность пользователю получать лучшее понимание возможных классов, которым может принадлежать выборка, которое может использоваться для того, чтобы определять то, требуются или нет дополнительные диагностики.

Чтобы получать хороший классификатор, классификатор может быть обучен с использованием набора обучающих данных, который содержит множество возмущенных реплик каждой выборки.

Другие аспекты изобретения заданы в независимых пунктах формулы изобретения. Зависимые пункты формулы изобретения задают преимущественные варианты осуществления.

Краткое описание чертежей

Эти и другие аспекты изобретения дополнительно поясняются и описываются со ссылкой на чертежи, на которых:

фиг.1 является блок-схемой системы классификации;

фиг.2 является блок-схемой последовательности операций способа, иллюстрирующей этапы обработки системы классификации;

фиг.3 является блок-схемой последовательности операций способа, иллюстрирующей базовый процесс обучения классификатора и выполнения классификации с помощью обученного классификатора;

фиг.4 является блок-схемой последовательности операций способа, иллюстрирующей процесс выбора соответствующего поднабора признаков;

фиг.5 является блок-схемой последовательности операций способа, иллюстрирующей процесс использования шума при измерении в отдельных признаках в процессе выбора признаков;

фиг.6 является блок-схемой аппаратной архитектуры.

Подробное описание вариантов осуществления

Одна из трудностей с молекулярными измерениями, такими как данные с биочипов, заключается в том, что они являются достаточно зашумленными. Один из источников этого шума в данных с биочипов обусловлен изменением в гибридизации. Тем не менее, измерение с помощью биочипов не только дает индикатор относительно экспрессии генов, но также дает оценку для ошибки, вводимой, помимо прочего, посредством разностей гибридизации в матрицу. Эта оценка ошибки использована в некоторой степени на фазе обнаружения биомаркеров, например, на этапе предварительной фильтрации, как описано в L.J. van 't Veer и др. "Gene expression profiling predicts clinical outcome of breast cancer", Nature, 415:530-536, 2002 (в дальнейшем: Van 't Veer и др.).

Если оценка ошибки не используется в конечной классификации, классификация нового случая основана только на измерениях экспрессии генов, без учета того, что эти измерения могут быть очень неточными.

В варианте осуществления случай классифицируется не один раз на основе фактических измерений, а многократно, при этом каждый раз шумовые возмущения добавляются согласно данной оценке ошибки. Подробнее, это может выполняться следующим образом.

Обычно задается n генов, используемых в биомаркере, и измерения xi для генов i=1,..., n. Эти измерения генов используются в классификаторе, который может рассматриваться как функция f(x) и который вызывается один раз для данных x=(x1,..., xn) для случая.

Если оценка ошибки каждого измерения xi обозначается посредством ei, то новый экземпляр x' создается посредством прибавления шумовых возмущений к x. Такой новый экземпляр x' или реплика создается многократно (например, 1000 раз). Если, например, ошибка имеет нормальное распределение (как типично имеет место в данных с биочипов) и ei указывает оцененное среднее квадратическое отклонение измерения, то новый экземпляр формируется посредством следующего:

xi'=xi+N(0, ei),

- где N(0, ei) - это нормальное распределение, имеющее среднее значение в нуль и среднее квадратическое отклонение в ei. Затем классификатор f применяется к каждой из реплик, чтобы получать классифицированные реплики. Результаты классифицированных реплик комбинируются в один результат. Правило, которое может применяться для вышеуказанного, состоит в том, чтобы использовать мажоритарную систему, причем реплика, классифицированная с помощью конкретного класса, представляет мажоритарную выборку для этого класса. Помимо этого, можно демонстрировать то, как часто каждая мажоритарная выборка возникает, чтобы предоставлять индикатор относительно неопределенности, вводимой посредством погрешности измерения. Этот вид информации затем может использоваться в клинической системе поддержки принятия решений (CDSS), чтобы принимать во внимание в итоговой рекомендации.

Эти технологии могут использоваться не только для данных с биочипов, но также и для других данных до тех пор, пока оценка доступна для шума при измерении. Этот шум может быть обусловлен техническим шумом в эксперименте с использованием биочипов, а также, например, шумом от шумовых моделей на основе повторных экспериментов.

При применении технологий, описанных выше, погрешность измерения влияет на результат классификации, поскольку технологии используют не только фактические измерения, но также и оценки ошибок. Кроме того, способ может давать не только один результат классификации, но также и распределение вероятностей по различным результатам.

Фиг.1 иллюстрирует вариант осуществления системы 100 классификации для классификации биомолекулярных данных. Эта система 100 классификации имеет ввод для приема данных измерений. Данные измерений могут содержать, например, по меньшей мере, одно из следующего:

(a) данные экспрессии генов,

(b) данные транскрипта ДНК (измеряют не только экспрессию генов, но также и другие фрагменты ДНК, которые могут экспрессировать в клетке и которые могут влиять на функцию клетки), или

(c) протеомические данные (например, концентрации числа протеинов в выборке).

Вышеуказанные типы данных (a) и (b) типично могут измеряться с использованием биочипов или образцов. Тип данных (c) типично может измеряться с использованием масс-спектрометра. Тем не менее, другие типы измерений также могут использоваться.

Ввод системы 100 классификации выполнен с возможностью приема измерений множества признаков 102 выборки, которая должна быть классифицирована. В данном документе признаки содержат, например, типы данных, указанных выше согласно (a), (b) и (c). Например, признак служит признаком концентрации конкретного вещества в выборке. Признак может представлять то, в какой степени конкретный ген или транскрипт ДНК приводит к экспрессии. Ввод системы 100 классификации также выполнен с возможностью приема множества соответствующих оценок 104 ошибок соответствующих из множества признаков. Эти оценки ошибок предоставляют индикатор относительно степени, до которой можно основываться на измерении признака.

Система 100 содержит статистический модуль 106 для ассоциирования соответствующих функций 108 плотности распределения вероятностей с соответствующими из множества признаков. Функции 108 плотности распределения вероятностей могут представлять функцию плотности распределения вероятностей погрешности измерения, когда функция плотности распределения вероятностей типично имеет среднее значение в нуль и дисперсию, зависящую от оценки ошибки. Альтернативно, функции 108 плотности распределения вероятностей могут представлять функции плотности распределения вероятностей самих признаков, и при этом среднее значение такой функции плотности распределения вероятностей типично соответствует измерению признака, а дисперсия зависит от оценки ошибки признака. Общий тип распределения вероятностей, лежащего в основе функции 108 плотности распределения вероятностей, может быть одинаковым для всех признаков. Как правило, нормальное распределение может использоваться для функций плотности распределения вероятностей, в которых дисперсия зависит от соответствующих оценок 104 ошибок, а средние составляют нуль (или соответствуют измеренному признаку). Тем не менее, другие функции плотности распределения вероятностей могут использоваться, в частности, когда известно, что измерение имеет распределение ошибок, которое не является нормальным распределением. В прямой реализации системы 100 классификации независимое распределение вероятностей допускается для каждого признака, тем не менее, в более усовершенствованной реализации функции плотности распределения вероятностей могут быть многопеременными и зависеть от нескольких или всех измеренных признаков 102 и/или оценок 104 ошибок.

Система 100 содержит модуль 110 репликации для формирования множества возмущенных реплик 112 выборки, т.е. возмущенных реплик множества признаков 102 (и, возможно, множества оценок 104 ошибок, при этом оценки ошибок могут быть возмущенными или невозмущенными). Чтобы формировать возмущенную реплику, модуль 110 репликации произвольно возмущает признаки 102 согласно соответствующим надлежащим функциям плотности распределения вероятностей. Эти соответствующие функции плотности распределения вероятностей могут иметь различную дисперсию на основе оценок ошибок, ассоциированных с признаками посредством статистического модуля 106. Как пояснено выше, в прямой реализации все функции плотности распределения вероятностей могут иметь одинаковый тип распределения (например, нормальное распределение). Возмущенные реплики содержат возмущенные признаки.

Система 100 содержит классификатор 114 для классификации соответствующих из множества возмущенных реплик на основе возмущенных признаков. Классификатор оценивает возмущенные признаки возмущенной реплики посредством применения заранее определенных критериев классификации, чтобы получать классифицированные реплики 116. Множество видов классификаторов известно в данной области техники. Подходящим классификатором может быть, например, классификатор на основе ближайшего среднего или метод опорных векторов.

Система 100 содержит анализатор 118 для классификации выборки, которая должна быть классифицирована, на основе статистического анализа классифицированных реплик 116, чтобы получать класс выборок 120. Статистический анализ, выполняемый посредством анализатора 118, может содержать систему на основе мажоритарных выборок (например, класс, имеющий наиболее возмущенные реплики, становится классификацией выборок).

Чтобы вычислять значение, указывающее правдоподобие того, что выборка принадлежит конкретному классу, может вычисляться процент от реплик в классе выборок. Это дает индикатор относительно надежности классификации выборок, который может использоваться оператором, чтобы определять то, требуются или нет дополнительные измерения или какие-либо другие диагностические действия для того, чтобы получать диагностику с достаточной достоверностью. Правдоподобием может быть, например, вероятность или p-показатель (мера достоверности).

Анализатор 118 также может быть выполнен с возможностью вычислять множество значений правдоподобия, при этом каждое соответствующее значение правдоподобия служит признаком вероятности, правдоподобия или достоверности того, что выборка принадлежит соответствующему конкретному классу. Это может использоваться, например, для того чтобы обнаруживать, является или нет один из классов намного более вероятным, чем любой другой класс, либо два или более классов являются приблизительно одинаково вероятными. Во втором случае результат может быть менее надежным, и полезно знать это. Также это позволяет исключать один или более классов, если они имеют очень низкое правдоподобие.

В конкретно эффективном варианте осуществления, который при этом предоставляет хорошие результаты, статистический модуль 106 выполнен с возможностью ассоциирования нормальных распределений с нулевым средним и средними квадратическими отклонениями, пропорциональными оценкам ошибок.

Классификатор 114 может быть выполнен с возможностью применения соответствующих весовых коэффициентов к соответствующим из множества признаков отдельных реплик на основе соответствующих оценок ошибок соответствующих признаков. Таким образом, влияние признаков, имеющих большую оценку ошибки, уменьшается по сравнению с влиянием признаков, имеющих меньшую оценку ошибки. Это улучшает отдельные классификации возмущенных реплик и может использоваться для того, чтобы уменьшать влияние признаков, имеющих очень большую оценку ошибки.

Например, допустим, что классификатор использует метод ближайшего центроида, в котором средний профиль (центроид) предоставляется для каждого из классов. Выборка (или, более конкретно, возмущенная реплика) может быть классифицирована посредством вычисления расстояний до различных центроидов и выбора ближайшего центроида. Затем, если определенное измерение пациента, который должен быть классифицирован, является очень зашумленным, влияние этого измерения на классификацию может уменьшаться посредством модификации вычисления расстояний (например, признаки могут взвешиваться с помощью весового коэффициента, который является обратно пропорциональным оцененной ошибке измерения признака). Если правило k-го ближайшего соседа используется, то также можно взвешивать долю измерения в используемом показателе расстояния. Оно может быть основано не только на погрешности измерения пациента, который должен быть классифицирован, но также и на ошибке в измерениях "соседей". Оно может использоваться не только для данных с биочипов, но также и для других данных до тех пор, пока оценка доступна для шума при измерении. Оно включает в себя не только технический шум, к примеру, присутствующий в экспериментах с использованием биочипов, но также может включать в себя шум от шумовых моделей на основе повторных измерений.

Система 100 классификации может быть встроена в измерительную систему, такую как, например, система с биочипами, или образец, или масс-спектрометр. Она также может быть реализована как компьютерный программный продукт, который должен выполняться на любом подходящем устройстве обработки, таком как рабочая станция, персональный компьютер, PDA и т.п. Предпочтительно, устройство обработки связано с измерительной системой через линию передачи данных (либо прямую линию связи, такую как USB, либо через сеть, такую как сеть по стандарту Ethernet, беспроводная LAN или Интернет). Результаты анализатора могут отображаться на дисплее устройства обработки или на отдельном дисплее, они могут быть напечатаны или переданы в другой программный модуль или другое устройство для дополнительной обработки. Например, вывод анализатора может быть вводом клинической системы поддержки принятия решений.

Такая клиническая система поддержки принятия решений может формировать диагностику на основе вывода системы 100 классификации и любых других данных, которые могут быть доступными для клинической системы поддержки принятия решений. Вывод анализатора также может использоваться в системе автоматизированного обнаружения и автоматизированной диагностики.

Типично классификатор 114 должен быть обучен для того, чтобы давать надежные результаты классификации. Преимущества, например, возмущенных реплик также могут использоваться в ходе процедуры обучения. С этой целью могут предоставляться формирователь наборов обучающих данных и обучающий модуль. Эти элементы не показываются на чертеже. Чтобы обучать классификатор 114, формирователь наборов обучающих данных формирует набор обучающих данных. Предпочтительно, формирователь наборов обучающих данных выполнен с возможностью включения множества возмущенных реплик в набор обучающих данных. Например, он начинает с набора обучающих данных, содержащего измеренные признаки множества выборок. Эти измеренные признаки получаются из микрообразца, например, и предпочтительно сопровождаются с классификацией для контроля данных. Измеренные признаки каждой выборки реплицируются такое число раз, чтобы получать множество возмущенных реплик каждой выборки. Обучающий модуль используется для того, чтобы обучать классификатор с использованием таким образом сформированного набора обучающих данных. После обучения обученный классификатор может использоваться для того, чтобы классифицировать новые выборки, предпочтительно вместе с набором возмущенных реплик новой выборки.

Фиг.2 иллюстрирует этапы обработки способа классификации биомолекулярных данных. Способ инициируется на этапе 200, например, в ответ на команду пользовательского ввода. На этапе 202 данные измерений принимаются. Данные измерений содержат измерения множества признаков 102 выборки, которая должна быть классифицирована, и множества соответствующих оценок 104 ошибок соответствующих признаков из множества признаков. На этапе 204 соответствующие функции 108 плотности распределения вероятностей ассоциируются с соответствующими из множества признаков. Соответствующая дисперсия соответствующих функций плотности распределения вероятностей зависит от соответствующих оценок ошибок соответствующих признаков. На этапе 206 формируется множество возмущенных реплик 112 выборки. Возмущенные реплики содержат возмущенные признаки. Соответствующие из множества признаков являются произвольно возмущенными согласно соответствующим надлежащим функциям плотности распределения вероятностей, чтобы получать возмущенные признаки. На этапе 208 соответствующие из множества возмущенных реплик классифицируются на основе возмущенных признаков и посредством применения заранее определенных критериев классификации. Это приводит к классифицированным репликам 116. Как результат каждая классифицированная реплика имеет ассоциированный класс. На этапе 210 выборка классифицируется на основе статистического анализа классифицированных реплик 116, чтобы получать классификацию выборок 120.

Этот способ может быть реализован посредством электронной схемы или, предпочтительно, посредством компьютерного программного продукта, содержащего машиночитаемые инструкции.

Фиг.6 иллюстрирует аппаратную архитектуру, подходящую для того, чтобы реализовывать систему по фиг.1 и/или способ по фиг.2, а также другие технологии, описанные в этом тексте. Показанная аппаратная архитектура является просто примером. Чертеж показывает процессор 602 и запоминающее устройство 606. Компьютерный программный продукт может быть загружен в запоминающее устройство 606 (например, запоминающее устройство ROM или RAM), и процессор 602 выполнен с возможностью осуществлять этапы, заданные посредством машиночитаемых инструкций и сохраненные в запоминающем устройстве 606. Компьютерный программный продукт содержит машиночитаемые инструкции, необходимые для применения одной или более технологий, описанных в этом тексте. Ввод 604 может использоваться для того, чтобы инициировать определенные действия, такие как ввод данных, обработка данных, начало классификации, управление визуализацией и другой вывод результатов. Дисплей 612, например, предусматривает способ показывать результаты классификации. Порт 608 связи может подключаться, например, к микрообразцу, возможно, через сеть, как описано выше. Порт 608 связи также может подключаться к устройству, которое дополнительно обрабатывает вывод системы 100 или способа, например, чтобы предоставлять поддержку принятия решений. Альтернативно, данные могут предоставляться посредством устройства 610 на съемном носителе (например, устройства чтения DVD или устройства чтения CD-ROM или USB-карты на основе флэш-памяти). Если устройство на съемном носителе имеет возможность записи (например, оно является совместимым с DVD+RW или является USB-картой на основе флэш-памяти), также можно выводить конечные результаты и/или промежуточные результаты системы 100 классификации на съемные носители.

Биочипы, по сути, являются зашумленной технологией с варьирующимися степенями неопределенности при отдельных измерениях. Степень неопределенности в измерении с помощью биочипов может быть определена количественно через шумовые модели, которые пытаются определять количественно различные источники, которые возмущают процесс измерения. Они предоставляют информацию по изменчивости измерений с помощью биочипов, например, в форме доверительных интервалов или P-значений. Эта информация может быть расширена на определение дифференциальной экспрессии или задачи кластеризации. Тем не менее, информация изменчивости также может использоваться в задачах классификации. Такой шум от признаков оказывает влияние на выбор и классификацию признаков.

Биочипы могут измерять экспрессии генов косвенно через измерения интенсивности гибридизации. Измеренная интенсивность гибридизации является приблизительно пропорциональной распространенности мРНК в выборке. Вероятно, наиболее важное применение этих измерений состоит в том, чтобы изучать изменения в экспрессии генов при различных условиях. В двухцветных матрицах два источника мРНК конкурентно гибридизируются в одну матрицу. В расчете на пробу получаются две меры интенсивности, I1(i,j) и I2(i,j), где i - это индекс биочипа, а j представляет "ген" или целевую последовательность. Зачастую имеется интерес к логарифмическому отношению измерений интенсивности, задаваемому посредством следующего:

Соотношение называется кратным изменением. Следует отметить, что когда обе интенсивности равны, xij равно нулю. Ненулевое логарифмическое отношение отражает изменение в измеренной интенсивности между отдельными интенсивностями. Например, логарифмическое отношение в 2 подразумевает, что интенсивность I2 в 102=100 раз превышает интенсивность I1. Взятие логарифмов этих кратных изменений имеет несколько преимуществ, поскольку оно имеет тенденцию симметрировать в ином случае более асимметричные распределения интенсивности и интерпретирует регулирование вверх и вниз аналогично, к примеру:

Как указано выше, отдельные измерения интенсивности с помощью биочипов являются очень зашумленными. Так называемые модели ошибок предоставляют в каждое измерение интенсивности оценку его изменчивости. Как результат, значения признаков xij также являются стохастическими.

Наборы данных, которые использованы в двух предыдущих исследованиях, используются для того, чтобы оценивать производительность технологий, раскрытых в данном документе. Оба исследования рассматривают группы пациенток, у всех из которых обнаружен рак молочной железы. Цель в Van 't Veer и др. состоит в том, чтобы определять сигнатуру экспрессии генов, предположительно присутствующую в удаленной опухолевой ткани, которая может использоваться для того, чтобы прогнозировать, должен или нет развиваться у пациента отдаленный метастаз в течение 5 лет. Эти пациенты являются так называемыми пациентами с отрицательным анализом лимфатических узлов, т.е. у них отсутствуют опухолевые клетки в региональных лимфатических узлах при диагностике.

Данные Van 't Veer и др. содержат обучающий набор из 78 пациентов и набор для проверки достоверности из 19 пациентов. Другой набор данных описан в "A gene-expression signature as the predictor of survival in breast cancer" авторов Van de Vijver и др., New England Journal of Medicine, 347 (25):1999-2009, декабрь 2002 года, Evaluation Studies (в дальнейшем: Van de Vijver и др.). Van de Vijver и др. интерпретирует когорту из 295 пациентов, которая использована для того, чтобы дополнительно проверять достоверность прогностического значения сигнатуры, извлеченного в Van 't Veer и др. Оба исследования используют одинаковые биочипы и протоколы, и, следовательно, данные могут быть объединены в пул. В настоящем исследовании данные обоих исследований комбинированы в обучающий набор из 78 пациентов и набор для проверки достоверности из 106. Заслуживает внимания то, что Van de Vijver и др. рассматривает пациентов как с отрицательным анализом лимфатических узлов (151), так и с положительным анализом лимфатических узлов (144). Группы пациентов в Van 't Veer и др. и Van de Vijver и др. перекрываются, поскольку когорта из 295 случаев содержит 61 из обучающих случаев, и 3 из случаев проверки достоверности также присутствуют в Van 't Veer и др. Чтобы получать гомогенную совокупность, рассматриваются только случаи отрицательного анализа лимфатических узлов. Исходный набор для проверки достоверности из 19 случаев расширен с помощью дополнительных 151-(61-1-3)=87 случаев. Это предоставляет больший набор для проверки достоверности, содержащий в сумме 19+87=106 случаев.

Фиг.3 иллюстрирует базовый процесс обучения классификатора и выполнения классификации с помощью обученного классификатора. На этапе 300 процесс инициируется. Блок 301 (который содержит этапы 302 и 304) указывает этапы, участвующие в обучении классификатора. Этап 306 иллюстрирует выполнение классификации с помощью обученного классификатора. На этапе 302 набор обучающих данных предоставляется следующим образом для обучения классификатора. Пусть Ig обозначает набор из ng пациентов, принадлежащих хорошему прогностическому классу, а IP обозначает набор из np пациентов, принадлежащих плохому прогностическому классу. Метка класса пациента i обозначается посредством Li. На этапе 304 средний хороший профиль xg и средний плохой профиль xp вычисляются. Обозначим с помощью xi вектор, содержащий уровни экспрессии пациента i. Средний хороший профиль xg и средний плохой профиль xp задаются следующим образом:

и .

Эти формулы, задающие xg и xp, используются на этапе 304, чтобы вычислять средний хороший профиль xg и средний плохой профиль xp.

Классификатором, приспосабливаемым Van 't Veer и др. и Van de Vijver и др., является классификатор на основе ближайшего среднего с использованием косинусоидальной корреляции в качестве показателя расстояния. Другие классификаторы и другие показатели расстояния также могут использоваться. Такой классификатор классифицирует пациента i как принадлежащего хорошему прогностическому классу, если расстояние xi до xg, обозначенное посредством d(xi,xg), меньше расстояния xi до xp, обозначенного посредством d(xi,xp). Из задания косинусоидального расстояния следует, что пациент i с экспрессионным вектором xi может быть классифицирован как имеющий хороший прогноз исключительно в том случае, если:

(1)

где задается следующее:

Следует отметить, что правило классификации уравнения 1 приводит к линейному классификатору. Тем не менее, классификатор, используемый в Van 't Veer и др., немного отличается, поскольку он смещается к меньшему числу ложноотрицательных суждений, что делает его более нелинейным. Такой нелинейный классификатор также может использоваться здесь. На этапе 306 новая выборка (не исходящая из набора обучающих данных) классифицируется согласно правилу классификации уравнения 1 (xiT xdif>0). Этап 306 может выполняться для выборки из набора данных для проверки достоверности. Он также может выполняться в ходе практического применения классификатора для классификации выборок, например, чтобы помогать в диагностике пациента.

Чтобы создавать классификатор на основе ближайшего среднего, вектор средних признаков может быть определен для каждого класса. Такой вектор средних признаков конкретного класса может получаться посредством усреднения набора векторов признаков, о которых известно, что они принадлежат данному конкретному классу. Чтобы использовать классификатор на основе ближайшего среднего для того, чтобы классифицировать вектор новых признаков, может вычисляться расстояние от вектора новых признаков до каждого из векторов средних признаков. Вектор новых признаков может быть классифицирован согласно классу вектора средних признаков, имеющего наименьшее расстояние от вектора новых признаков.

По нескольким причинам классификация, как описано выше, может осуществляться не для полного набора признаков, а для выбранного поднабора признаков (или генов). Для этого может использоваться процедура, которая содержит два этапа фильтрации признаков, этап ранжирования признаков и этап оценки классификации. В качестве примера, можно начинать с обучающего набора в 78 пациентов, по каждому из которых сообщены уровни экспрессии относительно 24481 генов.

Фиг.4 иллюстрирует процесс выбора соответствующего поднабора признаков. На этапе 400 процесс инициируется. Процесс продолжается следующим образом.

Этап 402. Выбор только тех признаков j, которые имеют, по меньшей мере, двукратное изменение (т.е. |xij|>log10(2)≈0,3) и P-значение (понятие P-значения подробнее поясняется в дальнейшем) меньше 0,01 для более чем 3 случаев. В примерном наборе данных или для 78 пациентов это может приводить к сокращенному набору в 4918 признаков.

Этап 404. Выбор тех признаков из выбранных на этапе 402 (4918 признаков в примере), которые имеют абсолютную корреляцию Пирсона с меткой класса, по меньшей мере, в 0,3. В примере это дополнительно уменьшает набор признаков до набора из 231 признака.

Этап 406. Ранжирование признаков, выбранных на этапе 404 (231 признака в примере) по абсолютному значению коэффициента корреляции Пирсона, от наибольшего к наименьшему.

Этап 408. Оценка классификатора на основе ближайшего среднего по отдельным объектам ("по отдельным объектам" - это технология, которая известна в данной области техники) с использованием лучших 5, лучших 10, лучших 15 и т.д. признаков, как ранжировано на этапе 406. Этот этап заключает в себе обучение и оценку классификаторов на основе выбранных поднаборов признаков с использованием процесса по фиг.3.

Этап 410. Выбор поднабора признаков, оцененных на этапе 408, который приводит к наименьшей полной частоте ошибок. Tn - это примерный набор данных, а именно, при 70 признаках.

В примерном наборе данных классификатор с использованием лучших 70 признаков корректно прогнозирует 65 из этих 78 меток классов. В процессе по фиг.4 этап 402 является единственным этапом, который включает в себя информацию шума при измерении.

Усложняющим фактором в получении количественной информации по экспрессии генов через биочипы является то, что предусмотрено большое число различных источников, которые могут возмущать измерение интенсивности. Помимо этого, погрешность измерения может быть зависимой от интенсивности, например, более высокие измерения интенсивности могут иметь тенденцию иметь более высокое измерение. Следует отметить, что множество статистических тестов неявно допускают, что погрешности измерения являются равными для каждого измерения. Данные с