Интегрированное программное обеспечение настольного компьютера для управления данными по вирусам

Иллюстрации

Показать все

Изобретение относится к системе и способу для управления данными по вирусам. Техническим результатом является обеспечение быстрого и гибкого управления данными по вирусам. Система содержит набор средств графического интерфейса пользователя (ГИП), включающий средство импорта, средство аннотирования, средство просмотра, обеспечивающее представление видов нуклеотидов и аминокислот, средство для направления запросов, обеспечивающее изолирование определенных пользователем генетических характеристик посредством определенных пользователем аннотаций, ассоциированных с последовательностями, средство для выравнивания, связанное со средством для направления запросов для выделения одного или более атрибутов запроса в функции выравнивания, средство для сборки контигов генома, средство для филогении, которое собирает выравнивания в эволюционные деревья, и средство для анализа мутаций, и систему для хранения и поиска данных (СХПД), реализованной в системе управления реляционной базой данных, СХПД хранит генетические, биологические, клинические, фенотипические и микроматричные геномные данные, и набор средств ГИП для осуществления управления системой, чтобы управлять данными и анализировать данные, набор средств ГИП и СХПД интегрированы для управления геномными данными без экспорта данных. 3 н., 18 з.п. ф-лы, 18 ил.

Реферат

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИ

Настоящая заявка притязает на преимущество предварительной заявки США №61/205,033, поданной 14 января 2009 года, содержание которой включено в настоящий документ путем ссылки.

УРОВЕНЬ ТЕХНИКИ

Настоящее изобретение относится в общем к системе и способу для управления данными по вирусам, включая данные по гепатиту С.

Вирусом гепатита С (ВГС), в частности, инфицировано около 4 млн человек в США, и он является основной причиной хронического заболевания печени. Связанное с ВГС заболевание печени на конечной стадии сейчас является одной из основных причин смерти среди ВИЧ-положительных пациентов. Патология ВГС включает фиброз, цирроз и гепатоцеллюлярный рак. Вирус гепатита С трудно исследовать и его нельзя эффективно вылечить, используя противовирусные лекарства, причем благоприятная реакция на современные способы терапии наблюдается меньше чем в 50% случаев; на поиск эффективных способов потребует годы.

Частицы ВГС имеют оболочку и содержат плюс-цепь РНК 9 кб. Геном РНК имеет одну открытую рамку считывания (ОРС), кодирующую полибелок, который протеолитически расщеплен на набор из 10 четких продуктов (см. Фиг.1, где алмазами показаны точки расщепления), которые содержат вирусную частицу и механизм вирусной репликации. Нетранслированная область 5' направляет трансляцию ОРС ВГС через свое связывание клеточных рибосом и белков. ВГС инфицирует макрофаги и гепатоциты и, в отличие от ретровирусов, не внедряется в хозяйский геном.

Мутации накапливаются на участках вдоль генома ВГС, составляя горячие точки мутаций. Эти гипервариабельные участки сконцентрированы в пяти областях, которые включают белок NS5B, области в и между белками Е1 и Е2 и в капсидном белке. ВГС имеет шесть идентифицированных генотипов и свыше 50 подтипов ВГС, которые отличаются друг от друга своими нуклеотидными последовательностями на 31-35%.

Белки ВГС легко мутируют, вызывая стойкость к лекарствам. ВГС - это явно успешный патоген. Он имеет способность избегать реакций хозяйской иммунной системы, что он делает путем быстрой репликации и поощрения мутаций через подверженную ошибкам РНК-зависимую полимеразу ВГС, у которой нет способностей к исправлению ошибок. Когда ВГС заражает пациента, новые варианты (квази виды, изменяющиеся от одного к другому в их последовательностях на 1-9%) непрерывно возникают из доминирующего заражающего генотипа во время вирусной репликации, давая сотни гетерологичных геномов ВГС. Наиболее подходящие из этих вариантов непрерывно выбираются в репликационной среде на основании их способностей к репликации и давлений отбора, включая все давления противовирусных лекарств. В какой-то момент времени во время инфицирования распределение квази видов ВГС отражает баланс между непрерывным созданием новых вариантов, необходимостью сохранять существенные вирусные функции и положительными давлениями отбора, оказываемые репликационной средой. Так, инфекция ВГС создает сложную проблему для выработки лекарства, поскольку ученые пытаются отслеживать генетическое изменение ВГС с течением времени между передачей вируса и после лечения терапевтическими средствами. Инфекция ВГС представляет четкий набор проблем для анализа. Высокая скорость мутации ВГС приводит к накапливанию огромных количеств новых генетических последовательностей и соответствующих биологических данных в повседневных лабораторных исследованиях и клинических испытаниях. Управление данными является постоянной проблемой. В настоящее время исследователи полагаются на самодельные базы данных, многофункциональное программное обеспечение и средства из открытых источников в Интернете для сортировки, организации и анализа своих геномных и биологических данных. В таблице 1 (ниже) представлены девять этапов, которые обычно выполняют для организации и анализа данных по последовательностям ВГС (левая колонка). В правой колонке указаны соответствующие программы или ручные этапы, которые обычно используют для управления этими данными.

ТАБЛИЦА 1
Обычная деятельность ПО и/или ручные этапы
Генотипирование MacVector
Mutation Surveyor
3. BioEdit
Редактирование Вручную
BioEdit
3. Mutation Surveyor
Выравнивания MacVector
Mutation Surveyor
3. BioEdit
Трансляция LaserGene
2. Mutation Surveyor
Исследование мутации 1. Mutation Surveyor
Аннотирование 1.Ручное
Филогенетический анализ MacVector
2. Открытые базы данных (Лос-Аламос, Стэнфорд)
Обращение с запросом LaserGene
Открытые базы данных (Лос-Аламос)
3. Собственная база данных
Графика Excel
PowerPoint
Illustrator
4. Prism

В Исследовательской лаборатории научный сотрудник, имеющий ученую степень, будет проводить исследования и управлять данными, которые он получит. Рассмотрим проект, который включает повседневный отбор 100 клонов ВГС для секвенирования в день (т.е. 500-600 клонов в неделю). Ежедневно новые последовательности сохраняются на сервере или в файлах в папках на настольных компьютерах, и на этих последовательностях выполняется серия обычных действий (таблица 1). Вполне обычно, что данные по нескольким дням работы накапливаются и создают очень трудные проблемы с управлением ими, которые задерживают выполнение проекта.

В отрасли испытания часто проводят на тысячах пациентов. Забор крови у 1000-2000 пациентов в неделю требует создания 1000-2000 последовательностей в неделю или приблизительно 200 в день. Управление данными представляет собой реальную проблему. Обычные действия, выполняемые ежедневно на последовательностях, подобны таковым в исследовательской лаборатории (см. таблицу 1). Обычно управлением накапливаемыми данными занимаются один или несколько человек, работающих полный рабочий день.

Высокая скорость мутации результатов ВГС дает огромное количество новых генетических и соответствующих биологических данных при ежедневных лабораторных исследованиях и клинических испытаниях при сопутствующих серьезных проблемах с управлением данными. В настоящее время исследователи используют самодельные базы данных, многофункциональное программное обеспечение и средства из открытых источников в Интернете для сортировки, организации и анализа геномных и биологических данных. Эти средства часто связаны с определенными конфигурациями аппаратного или программного обеспечения. Эти средства не приспособлены для работы с геномом ВГС, и перемещение данных из одной программы в другую требует много усилий, времени и не исключает ошибок.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

Настоящее изобретение относится к системе и способу для управления данными по вирусом, включая данные по гепатиту С. Система может включать программное обеспечение для настольного компьютера, приспособленное для быстрого, эффективного и гибкого управления данными по вирусам, включая данные по ВГС. Система может облегчать для ученых преодоление проблем, связанных с управлением данными. Более того, система может упорядочить управление данными, значительно сократив время между сбором данных и определением способа лечения.

Система может состоять из средств графического интерфейса пользователя (ГИП) и системы для хранения и поиска данных (СХПД), которая может быть конкретно предназначена для анализа конкретного вируса (например, ВГС). Она также может включать коммерческий механизм СУБД.

Система может включать средство аннотирования, которое может упрощать получение, сохранение и управление критическими результатами обработки экспериментальных данных и вводить эти определенные пользователем результаты (аннотации) в тот же поисковый контекст, который уже содержит систематизированные и структурированные данные.

Система может, кроме того, включать средства для выравнивания, филогенетики и анализа мутаций, которые могут быть конкретно приспособлены к математике скорости репликации вируса (например, ВГС) и его точкам генезиса мутаций (например, полимераза, подверженная ошибкам).

Система может включать архитектуру программного обеспечения, которая имеет три уровня: уровень представления (ГИП), уровень связующего ПО (предметный) и уровень системы управления реляционной базой данных (СУРБД).

Средство для выравнивания может быть связано со средством представления запроса и включать средство сборки фрагментов для анализа полных и частичных геномных последовательностей. Средство для филогении может собирать выравнивания в эволюционные деревья, которые могут кодировать цветом вводимые последовательности и ставить временные метки. Графическое средство может представлять необработанные данные электроферограммы (следы) и собирать линейные и гистограммы для нанесения данных по переменным на график.

Система может включать дополнительные средства для отслеживания мутаций, создания отчетов и измерения энтропии, а также статистические подпрограммы и пакеты безопасности и установки.

Система может объединять информатику с базовыми исследованиями для быстрого обнаружения. Система может способствовать быстрому развитию рынка исследований ВГС. В результате система может в значительной степени повысить аналитические возможности и сократить время обработки данных. Система также может способствовать базовым исследованиям в области биоинформатики и теории информации и дать огромную выгоду обществу.

Система может иметь структуру из N уровней, которая позволяет легко масштабировать программное обеспечение среди разных ресурсов аппаратного обеспечения без необходимости в замене средств. Например, отдельные уровни могут быть реализованы на разных машинах с разными операционными системами, при этом вся система останется способной к связи между ними и эффективной обработке данных по вирусам.

Различные преимущества настоящего изобретения станут очевидны специалистам в данной области из нижеследующего подробного описания предпочтительного варианта осуществления, взятого вместе с прилагаемыми чертежами.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Фиг.1 - схематическое представление генома ВГС.

Фиг.2 - схематическое представление частей примера системы для управления данными по вирусам.

Фиг.3 - схематическое представление примера набора средств для управления данными по вирусам.

Фиг.4 - пример архитектуры приложений.

Фиг.5 - пример средства импорта данных.

Фиг.6 - пример окна администратора данных.

Фиг.7 и 8 - иерархические структуры папок и файлов.

Фиг.9 - окна примера средства аннотирования.

Фиг.10 - пример экрана редактирования.

Фиг.11 - пример окна конструктора запросов и пример окна результатов запроса.

Фиг.12 - примеры окон средства для направления запроса.

Фиг.13 - схематическое представление примера средства для выравнивания.

Фиг.14 - схематическое представление примера средства для сборки контигов.

Фиг.15 - схематическое представление примера средства для создания дерева филогенетики.

Фиг.16 - схематическое представление примера варианта осуществления многоуровневой структуры.

Фиг.17 - схематическое представление примера средства для просмотра следов.

Фиг.18 - схематическое представление примера графического средства.

ПОДРОБНОЕ ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНОГО ВАРИАНТА ОСУЩЕСТВЛЕНИЯ

Теперь со ссылкой на Фиг.2, где показан пример системы, которая может решать и преодолевать основные проблемы с управлением данными, которые обычно встречаются при работе с вирусами, такими как ВГС. Система 10 может состоять из средств 12 графического интерфейса пользователя (ГИП) (например, графических иконок и визуальных указателей, которые представляют информацию и действия, доступные для пользователя), и системы для хранения и поиска данных (СХПД) 14, причем и то, и другое может быть разработано конкретно для анализа ВГС или анализа других вирусов. Система 10 также может включать коммерческий механизм 16 реляционной базы данных (например, компонент программного обеспечения, который можно использовать для создания, поиска, обновления и удаления данных). Эти компоненты могут позволить осуществлять интегрирование, анализ и хранение генетических, биологических, клинических и фенотипических данных и обеспечивать способность направления запроса о таких данных (смотрите ниже).

Как показано на Фиг.3, система может содержать разные средства. Показанная система включает средство для аннотирования 18, которое может упростить сбор, хранение и управление критическими результатами обработки экспериментальных данных и вводить эти определенные пользователем результаты (аннотации) в тот же поисковый контекст, который уже содержит систематизированные и структурированные данные. Кроме того, средство для аннотирования 18 может упростить язык манипулирования данными (ЯМД) для поиска таких данных. В результате пользователь может получить беспримерную гибкость добычи и анализа данных из массивов большого размера. Вирусные последовательности, включая последовательности ВГС, могут быть ассоциированы с многими измеренными биологическими параметрами, такими как вирусная нагрузка, антивирусный ингибитор, клеточная линия, длина эксперимента, профиль ферментов печени и т.д. Так, последовательности могут иметь большую размерность, которая уникальна для вируса (например, ВГС). Эти биологические параметры могут сопровождать каждую последовательность при хранении и манипулировании (в настоящее время биологи ВГС прикрепляют такие комментарии вручную). Следует отметить, что средства 20, 22, 24 для выравнивания, филогенетики и анализа мутаций могут быть специально подстроены под математику скорости репликации вируса (например, ВГС) и точки генезиса мутаций (например, полимеразы, подверженной ошибкам). Сочетание этих средств 20, 22, 24 в одном месте может значительно упростить проблемы управления и манипулирования данными, так что вирусолог сможет более эффективно выполнять свои исследования.

Средство для выравнивания 20 может быть связано со средством для направления запроса 26, которое может быть существующим средством для направления запроса. Средство для выравнивания 20 может включать средство для сборки фрагментов 28 для сборки фрагментов геномных последовательностей в консенсусную последовательность вируса (например, ВГС). Средство для выравнивания 20 может подавлять ложные прогнозы мутаций, возникающие из-за технической ошибки или невыравнивания, и итеративно улучшать выравнивания в нуклеотидных и аминокислотных последовательностях (например, в пяти гипервариабельных участках ВГС (см. Фиг.1), которые рассеяны между консервативными областями). Оно может делать это со специальными указателями последовательностей и модифицированными алгоритмами, которые могут вычислять расстояния на основе кумулятивных мутаций от базовой линии в этих областях. Средство для филогении 22 может предназначаться, помимо прочего, для сборки этих специализированных выравниваний в эволюционные деревья, и проставлять цветные коды и время на вводимых последовательностях, например, на основании желательных наборов результатов, например, согласно квази видам от одного пациента или от проб клонов. Графическое средство 30 может представлять необработанные данные электроферограмм (следы) и собирать линейные графики и гистограммы для нанесения переменных на график.

Могут быть предусмотрены дополнительные средства для отслеживания мутаций, измерения энтропии и создания отчетов. Система 10 также может включать статистические подпрограммы 32 и пакеты безопасности и установки. Средство для филогении 22, средства 34, 36 для отслеживания мутаций и измерения энтропии и статистические процедуры 32 могут совместно квантифицировать степень изменения вируса в последовательностях квази видов и в них путем, например, вычисления профилей мутации нуклеотидных и аминокислотных последовательностей (разнообразие), энтропии (сложность) и генетических расстояний (расхождение). Средство для отслеживания мутаций 34 может быть связано со средством для филогении 22 для определения скорости эволюции типов мутаций и вклада рекомбинации в разнообразие квази видов и в адаптивную эволюцию вируса (например, ВГС) при давлениях окружающей среды.

Статистические подпрограммы 32 могут формировать вывод из средства для филогении 22, средств для отслеживания мутаций и измерения энтропии 24, 36 для вычисления генетической изменчивости вируса (например, ВГС). Используемые в сочетании со средствами для аннотирования и направления запроса 18, 26, эти средства 32, 34, 36 могут позволить исследователям выполнять критические анализы относительно чувствительности генотипа к противовирусным лекарствам, включая: 1) исследование распределений квази видов и уничтожение вируса, 2) сравнение генетической неоднородности среди противовирусных респондеров и нереспондеров и 3) определение, перемещают ли квази виды вируса (например, ВГС) резистивные мутации в пределах или между генами вируса, чтобы повысить разнообразие для генотипов, стойких к лекарствам. Статистические подпрограммы 32 могут также включать формулы, например, для вычисления ковариантности инфицирующих генотипов для определения того, влияет ли изменение в нуклеотиде или аминокислоте в положении А на мутацию или рекомбинацию в положении В в какой-то данной последовательности.

Пример системы 10 может состоять из компонентов программного обеспечения, которые облегчают хранение, интегрирование и анализ генетических, клинических и фенотипических данных и имеют способность запрашивать такие данные. Например, как показано на Фиг.4, архитектура программного обеспечения может состоять из уровней 38, 40, 42 представления, ПО промежуточного/логического уровня и базы данных при взаимодействии с объектными слоями. Например, эти уровни могут включать ГИП, связующее ПО и компоненты данных. Компоненты ГИП могут включать формы (например, формы окон), которые могут быть предоставлены пользователю с уровня представления, как средства 12 ГИП, с которыми пользователь может взаимодействовать. Компоненты ГИП могут принимать данные, вводимые пользователем, и отображать результаты. Компоненты связующего ПО могут включать логику обработки (например, способы), используемую системой 10 для обработки введенных данных и возврата результатов компонентам ГИП (например, объектам ГИП). Компоненты связующего ПО (например, объекты связующего ПО) могут взаимодействовать с компонентами базы данных, например, путем подготовки и передачи данных для хранения и поиска данных в компонентах базы данных. Уровень базы данных может включать систему управления реляционной базой данных (СУРБД) 44 для постоянного хранения данных и модель данных. Архитектура программного обеспечения описана более подробно ниже. Ввод последовательностей может быть легко осуществлен через многочисленные опции во время сеанса пользователя. Вирусные последовательности могут быть введены в систему 10, например, посредством любого подходящего средства ввода, способного вводить вирусные последовательности или данные по вирусным последовательностям. Необходимо понять, что последовательности могут быть введены в систему 10 целиком с использованием средства для импорта всей последовательности. Пример средства для импорта 45 показан в центре Фиг.5. Средство для импорта может быть конфигурировано так, чтобы позволить вводимым последовательностям оставаться как необработанные импортированные данные или каким-то образом автоматически обрабатываться, например автоматически транслироваться или автоматически идентифицироваться. Может быть разработано подходящее средство для приема генетических последовательностей в форме отдельных файлов, файлов формата FASТА или любых других подходящих источников данных. Это позволит осуществлять прямой импорт данных из секвенирующего устройства или машины. Секвенирующая машина может быть прямо соединена с системой или программным обеспечением, или же программное обеспечение может быть введено в секвенирующее устройство или машину для работы без создания файлов. Это средство также может быть предназначено для приема разных типов последовательностей, таких как нуклеиновокислотные (ntd) или аминокислотные (аа) последовательности. Пользователь может выбрать определение генотипа, трансляцию и идентификацию нативных и частичных белков вируса (например, ВГС), используя идентификатор последовательности (см. Фиг.5). Средство-транслятор последовательности может транслировать данные по нуклеинокислотной последовательности в данные по аминокислотной последовательности. Идентификатор последовательности может иметь форму средства, состоящего из алгоритмов, используемых для идентификации всех известных генотипов и подтипов вируса (например, ВГС). После ввода последовательности система 10 может автоматически вычислять чистые заряды белков и помечать все сайты гликозилирования и фосфорилирования. Генотипирование и трансляция могут быть представлены пользователю как опции.

На Фиг.6 показан пример средства-администратора данных (например, окно 46), которое пользователь может видеть после ввода последовательностей. Окно 46 администратора данных может включать проводник записей 48, который может иметь гибкий организатор 50 по типу листов и узлов дерева, позволяющий пользователям легко работать с их данными по последовательностям. Пользователи могут создавать иерархические структуры папок и файлов (см. Фиг.7 и 8), в которые они могут загружать различные объекты, включая без ограничения банки последовательностей, результаты выравнивания, следы и результаты запросов.

Система 10 может, кроме того, иметь средство для просмотра последовательностей 51 (например, средство отображения и редактирования, которое позволяет пользователям просматривать хранящиеся последовательности). Пользователи могут выбрать для отображения один или несколько банков последовательностей 52. После отображения для работы с выбранными последовательностями могут быть доступны различные опции, такие как редактирование, аннотирование, просмотр содержащихся белков или просмотр нуклеотидных участков. В соответствующий банк могут быть добавлены новые последовательности, или несколько последовательностей могут быть выбраны для выравнивания. Это является общим рабочим пространством, где пользователи могут манипулировать последовательностями и просматривать последовательности, которые хранятся в их банках последовательностей. Система 10 может позволять использовать разные средства из этого и других рабочих пространств.

Выделив последовательность в средстве просмотра 51 (как показано на Фиг.6), пользователь может просматривать отдельные белки, идентифицированные в этой последовательности в экране просмотра участка/белка 53 (показан в нижней панели окна 46 администратора данных на Фиг.6). Средство для просмотра участка/белка 53 может быть способно отображать нуклеотидные и/или белковые последовательности, сегментированные на составляющие белки или участки, соответственно. Одиночные последовательности могут быть выбраны в средстве для просмотра последовательностей для отображения в этом средстве. Пользователи могут переключаться для просмотра белкового участка и нуклеотидного участка. Система 10 может разрешать соотносить участки кодирования нуклеиновой кислоты и белки с необработанными данными. Пользователь может выбирать опции в пунктах меню для редактирования, трансляции, генотипирования, аннотирования, сохранения или удаления последовательностей, что более подробно описано ниже. Хотя администратор данных 46 может работать как графический интерфейс пользователя (ГИП), посредством которого пользователи могут взаимодействовать с системой, неграфический администратор данных может быть реализован отдельно или в сочетании с ГИП.

Определенные пользователем аннотации также могут быть связаны с одной или несколькими последовательностями с помощью средства для аннотирования 18 (см. экран аннотирования 54 вверху справа в окне 46 администратора данных на Фиг.6). Средство для аннотирования может работать как средство представления данных, определенных пользователем, которое позволяет пользователям просматривать и прикреплять введенные данные к последовательностям для справки. Стандартные и определенные пользователем аннотации могут быть связаны с последовательностями в любое время в сеансе. Экран аннотирования 54 может позволять пользователям создавать определения для значений или текста, представляющего клинические, экспериментальные и/или биологические данные, которые они хотели бы связать с их генетическими данными. Эта определяемая пользователем система аннотирования может позволять исследователям легко сохранять конфиденциальность пациента и стандарты HIPPА, поскольку они могут выбирать, как хранить собранную ими информацию.

Пользователь в любое время сеанса может добавлять аннотации к последовательностям. Аннотации, уже определенные в системе, могут быть прикреплены к последовательности для элементов выбора, как показано в окне 55 «Добавить новую аннотацию» (правая панель на Фиг.9). Новые аннотации могут быть созданы в Администраторе определения аннотаций 56 (нижняя панель на Фиг.9). Пользователь может ввести название аннотации, определить тип аннотации в выпадающем меню и выбрать, ограничена ли аннотация определенными значениями. Примеры вариантов осуществления системы 10 могут разрешать аннотациям принимать в сущности любую форму, включая текст, числа, изображения, гиперссылки, ассоциации файлов или другие полезные данные. Возможность определить аннотацию с большой точностью позволяет выполнять сложные поиски, используя средство для направления запроса 26.

Пользователи могут выбирать последовательности, которые они хотят аннотировать, и делать это в средстве для аннотирования 18, которое может отображаться для удобства рядом со средством для просмотра последовательности. По аннотациям можно проводить поиск. Администратор определения аннотаций 56 может позволять пользователям использовать предварительно определенные метки и типы ассоциированных данных для настройки аннотаций (например, идентификационные данные по пациенту, тип биопсии, последовательные даты и т.д.). Средство для аннотирования 18 также может позволять пользователям настраивать функции, например находить и возвращать специальные модели в определенных положениях в последовательности. Средство для аннотирования 18 может, кроме того, позволять пользователям просматривать, добавлять новые и редактировать существующие аннотации для отдельных последовательностей или наборов последовательностей.

Щелчок мышью на любом из пунктов меню редактирования последовательности из меню редактирования 57 (показано на Фиг.6) или на иконке средства для редактирования (не показана) может открывать требуемую последовательность для редактирования, трансляции или повторной трансляции, генотипирования и сохранения. Пример средства для редактирования последовательности 57 показан на Фиг.10. Средство для редактирования последовательности 57 может позволять пользователю добавлять и редактировать данные по последовательности. Кнопка «Следующее тире» 58 может легко переводить курсор от тире до тире, устраняя ручное повторение редактирования. Это окно также может разрешать ввод одной последовательности путем простой вставки последовательности в формате FASTA (ntd или аа) в соответствующее окно. Метка последовательности FASTA может быть автоматически вставлена в бокс "Метка" 59. Связь геномных, клинических и экспериментальных данных по вирусу (например, ВГС) дает системе 10 дополнительную способность направления запросов. Пример средства для направления запросов 26 показан на Фиг.11 и 12. Средство для направления запросов 26 может включать окно 60 конструктора запроса и окно 62 результатов или отчета. Окно 60 конструктора позволяет пользователю выбирать атрибуты, такие как реакция на лечение, количество сайтов гликозилирования и заряд последовательности. Легко конструируемые запросы, направленные на наборы реляционных данных, могут помочь в идентификации и корреляции особых генетических вирусных изменений с терапевтическими, биологическими, демографическими и клиническими признаками. Пользователи могут выделить наборы данных через определенные пользователем генетические характеристики (модифицировать поиски, идентификационные данные по участку) или через аннотации, ассоциированные с последовательностью.

Отчет по результатам запроса может быть представлен в окне результатов 62. Окно результатов 62 может обеспечивать легкий просмотр найденных данных. В показанном примере окно результатов 62 показывает продолжительность лечения, результат реакции и количество сайтов гликозилирования, найденных для областей Е1 и Е2. Результаты запроса могут быть выровнены с помощью средства для выравнивания 18 или обработаны другим средством в системе 10 для расширенного анализа. Используя средство для аннотирования 18, пользователь может проводить поиск и аннотировать последовательности для этих специальных модифицированных сайтов после трансляции, которые дали возможность сделать этот запрос.

Из окна результатов 62 пользователь может запросить вычисление процентов изменения в любом положении в выравнивании. Щелчок правой кнопкой мыши на последовательности может вызвать средство для редактирования 52, чтобы можно было редактировать последовательности или аннотации, или и те, и другие. Окно результатов 62 можно экспортировать в разные форматы, например в файл Excel, или отправить в средство для выравнивания 20 (например, щелчком правой кнопки мыши).

Средство для направления запросов 26 может позволять пользователям получать данные об их последовательностях, ограниченные только аннотациями. Это средство может быть введено в удобный для пользователя указательный интерфейс для определения параметров запроса и полей вывода для облегчения отчетов и получения данных по последовательности. Пользователи могут выбирать из перечней полей в стандартной структуре данных, но также могут вести поиск пользовательских полей (аннотаций), определенных пользователем в средстве для аннотирования 18. Результаты запроса могут быть отображены в разных форматах, например, в формате с сеткой, и могут быть экспортированы в разные форматы, такие как CVS или FASTA, в зависимости от случая.

Пример использования средства для направления запросов 26 состоит в следующем. Пользователь может захотеть исследовать предварительную корреляцию между вирусной инфективностью и иммунной функцией. Белки вирусной оболочки играют основные роли в тропизме, инфективности и иммунной реакции хозяйской клетки. Уровень положительного заряда на Е2 ВГС может усиливать вирусную инфективность, количество остатков пролина влияет на формирование альфа-спирали в Е2 и, таким образом, на вход вируса, а пониженное количество CD4+ предполагает снижение иммунной функции и прогрессирование инфекции ВГС.

Для исследования вышеупомянутой корреляции пользователь может направить запрос в систему 10, чтобы: i) установить места всех последовательностей Е2 с зарядом аа больше (>) 4, Количество D4+ от 1 до 55 и количество пролина >20 (см. панель выбора оператора 64 на Фиг.12) и ii) найти данные по всем последовательностям Е2 аа, заряд Е2 и количество гликозилирования, идентификационные номера пациентов и количества CD4+ в наборе результатов. Этот простой запрос может дать набор результатов (показанный в окне результатов 62 на Фиг.12), который позволяет исследователю коррелировать последовательности, ассоциированные с тропизмом клеток, с параметром прогрессирования заболевания. Все задачи и количества по специальным участкам, таким как сайты гликозилирования и фосфорилирования, могут быть выделены, например, с использованием средства выделения 66 (показано как нижняя панель на Фиг.12). Запросы могут быть при необходимости сохранены и аннотированы. Средство выравнивания 20 может быть связано со средством для направления запросов 18, позволяя в выравнивании выделить все ассоциированные атрибуты запроса.

Теперь снова со ссылкой на Фиг.4, где показано связующее ПО 40 (т.е. доменный слой), который может состоять из нескольких логических слоев. В одном примере системы 10 связующее ПО 40 может содержать два слоя. Один предназначен для обработки доменной логики и называется "деловые правила" 68. Этот логический слой 68 может располагаться между слоями представления и доступа к данным 70 и может отвечать за обработку запросов, направляемых от слоя представления и к нему и от слоя доступа к данным 70 и к нему. Все классы, которые существуют в деловых правилах 68, могут в соответствующих случаях иметь дополнительные классы в слое доступа к данным. Слой доступа к данным 70 может существовать между слоем доменной логики 68 и СУРБД 44 и может называться "Доступ к данным". Слой доступа к данным 70 может включать все классы, ответственные за запрос данных из системы СУРБД 44 и представления данных в нее. Все классы, которые существуют в слое доступа к данным 70 могут иметь дополнительный класс в слое деловых правил 68, а также дополнительные таблицы в модели данных 72, описанной ниже.

База данных (СУРБД) 44 может использоваться для постоянного хранения данных приложений. Она может содержать систему управления реляционной базой данных (СУРБД) третьих лиц и модель данных 72. Модель данных 72 может определить табличные записи, взаимозависимости которых определяются посредством первичных отношений и отношений внешних ключей. Модель 72 может содержать записи, включающие последовательности, аннотации, контрольные последовательности и дополнительные данные (справочные генотипы, типы данных аннотации и т.д.). В одном примере СУРБД 44 может использоваться бесплатная версия ПО Microsoft SQL Server 2005 express.

Один пример описанной выше системы 10 может использовать следующую технологию.

Программное обеспечение:

Структура приложений: Microsoft ASP .NET

Языки:

VB .Net: Объекты просмотра и презентатора

С# .Net: Объекты деловых правил и доступа к данным

С++: Интеграция алгоритмов третьих лиц

Формы окон.NET: Представление

T-SQL: Хранящиеся процедуры для сбора данных в виде дерева

XML: Схема представления в виде дерева

SQL: DDL и ЯМД

СУРБД (Microsoft SQL Server 2005 Express)

IDE (Microsoft Visual Studio .NET 2005)

Аппаратное обеспечение:

Память: 2 Гб DDL Ram

ЦП: 1 ГГц Pentium

Жесткий диск: 80 Гб 7800 об/мин Seagate

Как сказано выше, система 10 может использовать N-уровневую архитектуру, содержащую уровни представления, связующего ПО и системы реляционной базы данных (для постоянного хранения данных). Слой представления 38 может состоять из компонентов для просмотра, таких как средства ГИП 12 (например, формы окон), и классов презентатора (например, процессоров для обработки событий и логических приложений). Слой связующего ПО 40 может состоять из основных доменных слоев, таких как слой доменной логики (т.е. деловые правила) 68 и слой доступа к данным 70. Масштабируемость, подразумеваемая этим архитектурным подходом, может быть использована так, что система 10 может быть масштабирована к нагрузке без необходимости изменения средств. Таким образом, система 10 может быть легко реализована на нескольких компьютерах и нескольких операционных системах без необходимости значительной перестройки системы 10. Система 10 может быть разработана с использованием шаблона разработки презентатора для просмотра модели (ППМ). Программное приложение системы может быть написано главным образом на С# .NET (или другом подходящем языке) и может быть разделено на три слоя, включая интерфейс пользователя (просмотр), приложение (презентатор) и доменный слой (модель). Слой интерфейса пользователя может давать пользователю элементы управления формами окон и передавать потребности в обработке, например, через обработчики событий и запросы, соответствующим объектам презентато