Интеллектуальная грид-система для высокопроизводительной обработки данных
Иллюстрации
Показать всеИзобретение относится к программным средствам высокопроизводительных вычислений при решении сложных задач анализа и интерпретации информации в условиях разделения вычислительных и информационных ресурсов, объединенных в единую систему, обеспечивающую удобство администрирования и использование ресурсов. Техническим результатом изобретения является повышение эффективности функционирования параллельных вычислений при решении сложных ресурсоемких задач. Ядром интеллектуальной Грид-системы является сервер, который выбирает из реляционной базы данных программы пользователей, запускает эти программы на удаленных высокопроизводительных вычислительных ресурсах, сохраняет результаты работы программ в виде файлов в базе данных для взаимодействия с сервером и обработки его команд на каждом удаленном вычислительном ресурсе, отслеживает и сообщает серверу состояние ресурса и запущенных на нем программ, обеспечивает хранение файлов с расчетными программами, начальными данными и результатами, поддерживает очереди заданий на основе критериев пользователей, отслеживает состояния доступных вычислительных ресурсов, осуществляет передачу программ пользователей на вычислительные системы, прием и сохранение файлов с полученными результатами. 12 ил.
Реферат
Изобретение относится к компьютерным средствам высокопроизводительной обработки данных при решении сложных задач анализа и интерпретации информации в условиях разделения вычислительных и информационных ресурсов на основе открытой интеллектуальной Грид-системы.
Известен патент JP 9114980, 1997.06.02 «Method and program for selecting GRID executor via neural», в котором предлагается метод Грид-выполнения операций с помощью нейросетевой модели, обучение которой осуществляется на основе структурированных данных, поступающих на вход и выход нейронной сети, причем обученная нейронная сеть осуществляет селективный выбор последовательности функционирования Грид-сети и на выходе выдает интенсивность обслуживания.
Аналогом рассматриваемой Грид-системы является программа «Система удаленного управления распределенными вычислительными ресурсами» (см. свидетельство №2008611206 (07.03.2008). Система удаленного управления разработана с целью объединения территориально распределенных высокопроизводительных вычислительных систем (компьютерных кластеров) в единую систему, обеспечивающую удобство администрирования и использование этих ресурсов. Ядром системы является сервер, который выбирает из реляционной базы данных программы пользователей, запускает эти программы на удаленных высокопроизводительных вычислительных ресурсах и сохраняет результаты работы программ в виде файлов в базе данных для взаимодействия с сервером и обработки его команд на каждом удаленном вычислительном ресурсе, устанавливается программный агент, который отслеживает и сообщает серверу состояние ресурса и запущенных на нем программ. Система обеспечивает хранение файлов с расчетными программами, начальными данными и результатами; поддержку очереди заданий на основе критериев пользователей; отслеживание состояния доступных вычислительных ресурсов; передачу программ пользователей на вычислительные системы; прием и сохранение файлов с результатами.
Недостаток этой среды связан с отсутствием эффективных процедурных и логических компонент для использования в Грид-среде, которые существенно отличаются от традиционных подходов кластерных систем.
Более близким аналогом рассматриваемой системы является «Инструментальная оболочка проектирования высокопроизводительных приложений для Грид-архитектур «PEG-2» (см. свидетельство №2008614623 25.09.08), которая рассматривает ресурсную интерпретацию Грид-приложения как среды, предоставляющей пользователю доступ к предметно-ориентированным ресурсам в виде прикладных Грид-сервисов. Отличительной особенностью проектирования и разработки Грид-сервисов является ориентация на использование таких ресурсов, как готовых компонентов с описанием схемы их взаимодействия в нотации потока задач (work-flow). В отличие от блок-схем алгоритмов в системе PEG-2 очередность операций задана неявно и подчиняется принципу передачи управления по наличию исходных данных.
Недостатком инструментальной оболочки PEG-2 является ограниченность функционирования в рамках корпоративной Грид-среды из-за несовершенной организации логики функционирования, а также отсутствие управляющей программы, обеспечивающей интеллектуальную поддержку принятия решений в сложной динамической среде в условиях неоднородности вычислительных ресурсов, неопределенности характеристик задачи и неполноты исходной информации.
Для обеспечения работоспособности программного инструментария распределенной Грид-системы в условиях растущей сложности инфраструктуры и стохастической изменчивости параметров коммуникационных связей и вычислительных систем возникает необходимость разработки приложения, обеспечивающего объединение и синхронизацию большого количества компьютерных систем, построение прикладных Грид-сервисов и управление вычислительным процессом на основе интеллектуальных технологий.
Техническим результатом изобретения является повышение эффективности функционирования параллельных вычислений при решении сложных ресурсоемких задач с помощью функциональных блоков, реализующих механизм логического вывода на основе принципа адаптивного резонанса, поиск и извлечение «скрытых» знаний и закономерностей, динамическую модель знаний при организации конкурирующих вычислительных технологий и взаимодействие с пользователем с помощью интеллектуального интерфейса.
Указанный технический результат достигается путем построения интеллектуальной проблемно-ориентированной Грид-системы на основе системной интеграции вычислительных и информационных компонент. Формализованная логика управления решением ресурсоемких задач при изучении сложных явлений и закономерностей динамических систем, а также при функционировании виртуальных организаций и полигонов позволяет выполнять расчеты и моделирование на основе экспертной системы интеллектуальной поддержки принятия решений, блока адаптации, обеспечивающего выбор предпочтительной вычислительной технологии обработки данных, настройку логических моделей на восприятие новой информации и извлечение «скрытых» знаний, интеллектуального интерфейса, поддерживающего взаимодействие пользователей с компьютерной средой интеллектуальной Грид-системы.
Функциональная схема системы представлена на фиг.1.
Система включает 4 основных блока: блок интеллектуальной поддержки функционирования Грид-системы 1, блок программного управления 2, блок человеко-компьютерного взаимодействия 3, блок прикладных Грид-сервисов 4.
Блок интеллектуальной поддержки 1 (фиг.2) является основным элементом, обеспечивающим функционирование компьютерного комплекса. В состав блока входят экспертная система 5, генератор композитного приложения 6 и блок адаптации 7.
Блок программного управления 2 (фиг.3) реализует функции интеллектуальной поддержки принятия решений при выполнении высокопроизводительных вычислений в интеллектуальной Грид-системе. На основе исходной информации, поступившей на выполнение сложной задачи, блок 2 осуществляет семантический поиск по описанию задачи 8 и, взаимодействуя с базой знаний экспертной системы 5, получает информацию о доступных сервисах и их онтологических описаниях 4 и осуществляет вызов интерпретатора 9, балансировочных алгоритмов 10 и элемента прогнозирования времени выполнения Грид-приложений 11.
Блок человеко-компьютерного взаимодействия 3 (фиг.4) осуществляет функции ввода и вывода информации и содержит четыре базовых компоненты: блок интеллектуального интерфейса 12, осуществляющий разработку и запуск задания, блок представления информации 13, блок визуализации 14, блок документирования 15.
Блок прикладных Грид-сервисов 4 (фиг.5) обеспечивает выполнение пользовательского задания на удаленных целевых системах и включает дополнительные функциональные элементы: виртуальную оболочку проектирования 16, элемент представления (нотация) 17 в виде набора блоков, соответствующих основным операциям прикладных Грид-сервисов и взаимосвязей между ними, определяющих обмен данными, элемент балансировки и построения расписаний 18, планировщик 19, который на основе знаний о сервисах и исходных данных создает набор альтернативных методов построения и выбора вариантов решений и расписаний.
Экспертная система предметных областей 5 (фиг.6) обеспечивает функционирование Грид-системы в заданной вычислительной среде и включает следующие базы знаний: базу знаний предметно-ориентированного описания сервисов 20, базу знаний характеристик производительности вычислительных сервисов 21, базу знаний характеристик производительности моделей основных операций и взаимодействий между ними 22, базу знаний характеристик достоверности интерпретируемых знаний 23, механизм логического вывода на основе принципа адаптивного резонанса 24, систему объяснений 25, общесистемную базу данных 26. Базы знаний экспертной системы 5 содержат наборы понятий предметной области в виде фреймово-продукционных моделей, причем модель представления предметных знаний реализуется с использованием онтологии в виде семантической сети, множество узлов которой соответствует фактам, а множество дуг отражает логические связи между ними.
Логический вывод на основе принципа адаптивного резонанса (блок 24) реализует блок-схема, представленная на фиг.7. Динамическая модель знаний, использующая этот принцип, ориентирована на перестройку логических моделей и формализацию информации, содержащуюся в базах знаний 20-23, в условиях неопределенности входных данных, стохастичности параметров Грид-среды, слабой формализации постановки задачи. В процессе функционирования блока 24 осуществляется проверка соответствия исходных данных логической системе фреймово-продукционных моделей и последующая корректировка логических правил экспертной системы 5, связанная с модификацией имеющихся правил, либо построением новых правил, соответствующих исходным данным.
Блок адаптации 7 (фиг.8) реализует процедуры адаптивного обучения за счет возможности управления вычислительным процессом с динамически меняющейся информацией. При этом обеспечивается взаимодействие с базой данных 26 экспертной системы 5, содержащей прикладные компьютерные программы расчета и моделирования, и блоком прикладных Грид-сервисов 4. Помимо этого блок адаптации 7 осуществляет реализацию принципа конкуренции при выборе предпочтительной вычислительной технологии 27, поддержку процесса поиска и извлечения «скрытых» знаний и закономерностей 28 (процедуры интеллектуального анализа данных - Data Mining), особенно интеграцию знаний в условиях неоднородности вычислительных ресурсов, стохастической изменчивости параметров коммуникационных сетей и вычислительных систем, неопределенности характеристик задачи и неполноты исходной информации.
Алгоритм реализации принципа конкуренции (блок 27) при решении сложных задач в процессе функционирования интеллектуальной Грид-системы состоит в выполнении следующих шагов:
Шаг 1. Генерация альтернативных решений задачи с помощью генератора композитного приложения 6.
Шаг 2. Выбор конкурирующих вычислительных технологий на основе семантического поиска по описанию задачи 8 в виде стандартных алгоритмов (блок 17) и нейросетевых моделей (блок 35).
Шаг 3. Параллельное решение задачи с помощью интерпретатора 9, балансировочных алгоритмов 10 и интеллектуального интерфейса 12.
Шаг 4. Анализ альтернатив и выбор предпочтительного решения с помощью планировщика 19 и блока 24, реализующего механизм логического вывода на основе принципа адаптивного резонанса.
Операции по выполнению шагов 1-4 осуществляются в блоке 36 с помощью экспертной системы 5 и интеллектуального интерфейса 12.
Другая операция, выполняемая в блоке адаптации 7, связана с выявлением «скрытых» знаний и закономерностей 28 (фиг.9) на основе статистического анализа 29, байесовской сети 30, метода иерархий 31, деревьев решений 32, принципа редукции 33, онтологии 34, искусственных нейронных сетей 35, формального концептуального анализа 36.
Блок интеллектуального интерфейса 12 (фиг.10) представляет собой программно-аналитический комплекс, обеспечивающий «прозрачность» смысла доступа к информации при поддержании взаимодействия пользователей с помощью блока программного управления 2, блока адаптации 7 и блока документирования 15. Интеллектуальный интерфейс 12 ориентирован на формализацию понятий предметной области и включает четыре основных модуля: синтаксический анализатор 37, выполняющий процедуры морфологического и синтаксического анализа предложений входной информации, семантический анализатор 38, использующий результаты синтаксического анализа для формализации информационного содержания входных данных, процессор понятийного словаря 39, представляющий собой библиотеку функций, обеспечивающих вычисление характеристик, представленных в словаре понятий, и полного набора отношений между ними, а также фиксированного набора ассоциативных отношений вида «часть - целое», «устройство - функция», процессор справочника баз данных 40, который характеризует модели предметных областей, определяющих функционирование интеллектуальной Грид-системы с помощью средств адаптации 7 и блока программного управления 2. В сложных ситуациях с помощью интеллектуального интерфейса 12 реализуется взаимосвязь блока адаптации 7 с блоком интеллектуальной поддержки 1, обеспечивающим функциональные возможности интеллектуальной Грид-системы.
Модульный принцип построения интеллектуальной Грид-системы высокопроизводительной обработки данных реализуется на автономных носителях информации с применением самостоятельно функционирующих блоков: блока интеллектуальной поддержки Грид-системы 1, блока программного управления 2, блока человеко-компьютерного взаимодействия 3, блока прикладных Грид-сервисов 4. Инструментальная среда интеллектуальной Грид-системы, как совокупности вычислительных ресурсов, использующих проблемно-ориентированные Грид-сервисы 4, обеспечивает формализацию процесса проектирования композитных вычислительных приложений, достигающих оптимальной производительности с использованием интеллектуальных технологий.
Реализация интеллектуальной Грид-системы высокопроизводительной обработки данных осуществляется с использованием стандартных технических средств высокопроизводительных вычислений с использованием языка программирования Jawa 5. В оболочке PEGI реализована основная функциональность, определяющая взаимодействие с инфраструктурой интеллектуальной Грид-системы на основе Intel Grid Programming Emvironment (GPE). Процедура использует библиотеки GPE API версии 1.5, которые являются надстройкой над средой Globus. Это решение позволяет изолировать реализацию инструментальной оболочки от особенностей архитектуры интеллектуальной Грид-системы. Элемент исполнения в оболочках PEG2 обеспечивает реализацию пользовательского задания 4 на удаленных целевых системах: осуществляя вызовы интерпретатора 9 WF (workflow), балансировочных алгоритмов 10 и осуществляя мониторинг с помощью интеллектуального интерфейса 12. В инструментальной оболочке вводятся дополнительные функциональные элементы, в частности визуальная оболочка проектирования 14, элемент представления WF 13, элемент мониторинга интеллектуальной Грид-системы 12 и элемент прогнозирования времени выполнения приложений 11. Визуальная оболочка 3, 14 реализует процесс человеко-компьютерного взаимодействия в графической форме. Элемент WF по существу является интерпретатором 9 пользовательской постановки задачи 12 для дальнейшего использования другими элементами программного комплекса 1-4. Элементы мониторинга среды интеллектуальной Грид-системы 1 и прогнозирования времени работы композитного приложения 11 используются элементом балансировки и построения расписаний 10 для создания конкретного workflow - CWF, имеющего наибольшую производительность.
Обобщенная схема функционирования интеллектуальной Грид-системы представлена на фиг.11. На этапе проектирования пользователь посредством визуальной оболочки выполняет интерпретацию композитного приложения в форме MWF (meta workflow). При этом используются знания о соответствующем наборе доступных прикладных Грид-сервисов 4, которые предоставляются системой управления знаниями Grid Knowledge Manager 2. Это описание передается планировщику Workflow Planner 19, который на основании знаний о сервисах 20, 21, 22, 23 и данных 26 создает набор альтернативных Workflow - AWF. Каждый AWF представляет собой непротиворечивый процесс вычислений с фиксированным прикладным Грид-сервисом и исходными данными. На основе набора AWF блоком построения расписаний (Workflow Scheduler) 18 строится набор конкретных расписаний выполнения (CWF). Расписание, наиболее точно соответствующее пользовательским критериям, принимается окончательным и передается на выполнение. По завершении выполнения задач на целевых системах Workflow Executor с помощью экспертной системы 5 и интеллектуального интерфейса 12 осуществляется сбор результатов работы и пользователю предоставляется окончательный результат в виде файла данных 13. При возникновении нестандартных ситуаций, связанных с решением больших задач в сложной динамической среде в условиях неоднородности вычислительных ресурсов, описанная выше последовательность функционирования интеллектуальной Грид-системы дополняется процедурами, реализующими механизм логического вывода на основе принципа адаптивного резонанса 24 и процедур выявления «скрытых» знаний 28 при поддержке интеллектуального интерфейса 12.
В качестве примера практического использования разработанной интеллектуальной технологии ниже рассмотрена одна их сложных и трудоемких задач на примере обработки геофизической информации - анализ климатических спектров морского волнения. Результаты функционирования интеллектуальной Грид-системы при решении этой задачи иллюстрирует фиг.12.
Здесь представлены характеристики времени обработки массива из 8 тысяч спектров, полученные на интеллектуальной Грид-системе, состоящей из 24 целевых систем. В процессе решения задачи производилось статистическое обобщение заданных функций распределения энергии волн по частотам и направлениям в фиксированной точке пространства за длительный интервал времени. Приведенные на фиг.13 данные иллюстрируют зависимость времени выполнения задачи от числа вычислителей в виде ядерных оценок плотности распределения времени работы для трех конкурирующих технологий параллельных вычислений (схем расписаний): равномерная схема 1, прямая 2 и обратная 3 каскадные схемы. Видно, что с увеличением количества вычислителей (р=2÷4) разброс времени выполнения возрастает, что связано с ростом влияния стохастических эффектов коммуникаций в рассмотренной Грид-системе. При этом взаимное расположение плотностей распределения определяют правила ранжирования конкурирующих расписаний. Например, в случае «А» (фиг.12) для р=2 прямая и обратная каскадные схемы приводят в среднем к практически одинаковым оценкам времени работы. Различие между ними существенно меньше соответствующего диапазона изменчивости, однако, разброс времени работы для прямой каскадной схемы в 1,5 раза больше, чем для обратной каскадной схемы. Поэтому окончательный выбор схемы распараллеливания определяется исходя из стратегии: меньший риск - меньшая производительность или больший риск - большая производительность.
С другой стороны, в процессе выполнения задачи возможны случаи (ситуация «Б» при р=24), когда плотности распределения времени работы для разных схем перекрываются, однако, различие между средними значениями сопоставимо с их диапазоном изменчивости. Тогда ранжирование конкурирующих расписаний необходимо вести с учетом заданного уровня значимости ошибки. В частности, в ситуации «Б» в 5% случаев обратная каскадная схема будет давать лучший по производительности результат, чем равномерная, несмотря на то, что в среднем равномерная схема работает в 1,5 раза быстрее. Из фиг.12 также видно, что кривые производительности имеют ярко выраженный минимум: для каскадных схем при р=6, для равномерной - при р=12, который определяет оптимальный режим выполнения задачи. Максимальное ускорение в среднем составляет около 2,5, а выигрыш по сравнению с конкурирующими каскадными расписаниями - в 2 раза, что характерно для Грид-систем в силу существенного вклада коммуникационной составляющей как одного из определяющих факторов (наравне с объемом доступной памяти, дискового пространства и пр.),
Таким образом, реализация интеллектуальной Грид-системы обеспечивает гибкое, скоординированное, раздельное использование разнообразных компьютерных ресурсов удаленных виртуальных организаций как сообщества пользователей с динамически меняющимся составом для совместного использования распределенных Грид-ресурсов в рамках общих научных и технических целей и задач.
Интеллектуальная Грид-система для высокопроизводительной обработки данных, содержащая формализованную логику функционирования совокупности территориально распределенных высокопроизводительных вычислительных систем, объединенных в единую систему, обеспечивающую удобство администрирования и использования ресурсов, ядром которой является сервер, который выбирает из реляционной базы данных программы пользователей, запускает эти программы на удаленных высокопроизводительных вычислительных ресурсах и сохраняет результаты работы программ в виде файлов в базе данных для взаимодействия с сервером и обработки его команд на каждом удаленном вычислительном ресурсе, отслеживает и сообщает серверу состояние ресурса и запущенных на нем программ, обеспечивает хранение файлов с расчетными программами, начальными данными и результатами, поддерживает очереди заданий на основе критериев пользователей, отслеживает состояния доступных вычислительных ресурсов, осуществляет передачу программ пользователей на вычислительные системы, прием и сохранение файлов с полученными результатами, отличающаяся тем, что интеллектуальная проблемно-ориентированная Грид-система реализована на основе системной интеграции вычислительных и информационных компонент, формализованная логика управления которыми связана с решением ресурсоемких задач при изучении сложных явлений и закономерностей динамических систем, а также при функционировании виртуальных организаций и полигонов при выполнении сложных расчетов и моделирования, для чего в компьютерный комплекс дополнительно введены блок интеллектуальной поддержки функционирования Грид-системы, взаимосвязанный посредством блока программного управления с блоками человеко-компьютерного взаимодействия и блоком прикладных Грид-сервисов, причем блок интеллектуальной поддержки содержит экспертную систему, обеспечивающую функционирование Грид-системы в заданной вычислительной среде и принятие решений по управлению вычислительными процессами, блок адаптации, реализующий процедуры адаптивного обучения за счет возможности управления вычислительным процессом с динамически меняющейся информацией, выбор предпочтительной вычислительной технологии обработки данных, настройку логических моделей на восприятие новой информации и извлечение «скрытых» знаний, генератор композитного приложения, реализующий функции выработки альтернативных решений, блок человеко-компьютерного взаимодействия содержащий интеллектуальный интерфейс, поддерживающий взаимодействие пользователей с вычислительной средой в условиях неоднородности вычислительных ресурсов, неопределенности характеристик задачи и неполноты исходной информации.