Лаборатория   информационных   технологий 

"Содержание"

3. Визуализация мониторинга GRID-инфраструктуры EGEE
как географически распределенной системы

Введение

Одним из принципов в концепции грид-систем является децентрализация [1]. Это свойство гридов позволяет создавать системы, распространяющиеся за административные и политические границы. Этот принцип также учитывался при создании крупнейшей европейской грид-инфраструктуры — EGEE, объединяющей множество вычислительных центров и пользователей грида на территории Европы и, на данный момент, простирающейся по всему миру.

Мониторинг систем является необходимым условием их управляемости — для принятия решений об управлении системой необходимо знать ее состояние. Реализация надежного процесса мониторинга системы, состоящей из множества разнородных элементов и простирающейся через множество административных доменов со своими правилами и политикой администрирования, является чрезвычайно сложной задачей.

Одной из очевидных составных частей задачи мониторинга системы является представление результатов процесса мониторинга, в частности — простая и наглядная визуализация, удобная для восприятия человеком.

Постановка задачи

Цель — создать систему визуализации мониторинга грид-инфраструктуры EGEE как географически распределенной системы.

Требования к такой системе:

    • Наглядность географического распределения составных частей системы.
    • Визуализация взаимодействия составных частей и активности пользователей грид-инфраструктуры EGEE.

Проектирование

В качестве отправной точки необходимо рассмотреть существующие разработки в области мониторинга систем грид. В инфраструктуре EGEE самым активно развивающимся проектом в области мониторинга является проект Dashboard, созданный в рамках организации CERN специально для обобщенного мониторинга грид-инфраструктуры EGEE [2]. В данный момент проект предоставляет услуги мониторинга для четырех экспериментов на БАК, проводимых крупнейшими и ключевыми виртуальными организациями (ВО) в данной грид-инфраструктуре. Представление их активности в проектируемой системе визуализации мониторинга было бы вполне достаточное, чтобы наметить пути для дальнейшего развития; включение в мониторинг активности других пользователей грид-инфраструктуры, а также взаимодействия другого рода преобразуются в дополнительные требования по расширяемости системы.

В рамках проекта Dashboard ВО, включенным в четыре поддерживаемых эксперимента, предоставляется перечень следующих пользовательских услуг:

— мониторинг исполнения задач, в том числе количество отправленных, исполняющихся и завершенных задач на каждом грид-сайте, а также мониторинг успешности исполнения задачи и коды завершения исполнения;

— отношения отправитель—исполнитель задачи по отношению к сайту, отправившему конкретную задачу, и сайту, принявшему эту задачу в очередь к исполнению;

— передача данных, в том числе передача файлов между элементами хранения данных и пользователями.

В то время как ВО являются географически нелокализованными сущностями, сайты, на которых происходит их активность, имеют выраженное свойство локализованности, то есть имеют точное положение на карте, определяемое парой координат широта—долгота.

Очевидно, что представленных выше данных вполне достаточно для использования в качестве входных данных прототипа системы визуализации мониторинга.

Итак, теперь можно сформулировать окончательные требования к реализации системы мониторинга грид-инфраструктуры EGEE:

1) визуализация сайтов как географически распределенных объектов системы;

2) визуализация мониторинга исполнения задач, включая отправление задач на счет и результатов счета пользователям, а также передачу данных, как взаимодействие элементов системы;

3) поддержка различных источников однотипных данных, например, для каждой ВО;

4) расширяемость системы в сторону поддержки новых видов отображаемых данных.

Приложение “Google Планета Земля” как база
для географически-ориентированной визуализации мониторинга

Постановка задачи визуализации грид-инфраструктуры как географически распределенного объекта задает необходимость отображения данных мониторинга с привязкой к географическим данным и, как следствие, интеграции системы мониторинга и геоинформационных систем (ГИС). В случае выбора стратегии, основанной на использовании стороннего ГИС-приложения, возникает проблема разработки требований для него.

Пользовательский интерфейс системы, с учетом требований к системе мониторинга, должен предоставлять следующие возможности:

— отображение географически привязанных данных в виде графических объектов на карте мира;

— динамическая подстройка под изменяющуюся грид-инфраструктуру.

В качестве основы пользовательского интерфейса было решено использовать приложение “Google Планета Земля”. Бесплатная версия приложения распространяется по лицензии, включающей возможность коммерческого и научного использования [3].

Программный интерфейс визуализации произвольных данных приложения “Google Планета Земля” выполнен в виде загружаемого из виртуальной файловой системы или из сети Интернет файла, который содержит данные, описанные на “языке географической разметки” (KML) — декларативном языке, основанном на языке структурирования документов “расширяемый язык разметки” (XML). Для динамической привязки данных используется механизм периодического обновления данных.

Приложение для своей работы требует подключения к сети Интернет, поддерживает операционные системы MS Windows и Linux.

Реализация

Система визуализации мониторинга выполнена в виде двух компонент: сервера файлов географической разметки (ФГР) и пользовательского интерфейса. В рамках такой системы пользовательский интерфейс, выполненный на основе приложения “Google Планета Земля”, взаимодействует с сервером ФГР и другими серверами, принадлежащими компании Google.

Серверный компонент в свою очередь выполняет функции генерации ФГР и их публикации клиентам. Сервер получает следующие данные мониторинга:

— информацию о географической привязке данных мониторинга;

— сведения о компонентах грид-инфраструктуры и их взаимодействии.

Сервер отображает эти данные на географически привязанные динамические графические элементы и записывает их в генерируемый файл географической разметки. После этого файл географической разметки становится доступен по сети Интернет. Взаимодействие с приложением “Google Планета Земля” осуществляется через сервер гипертекстового протокола Apache HT [4].

Реализация не затрагивает такие задачи мониторинга, как сбор и хранение данных. Таким образом, изменения в функциональности, решающей эти задачи, не потребуют изменений в системе визуализации мониторинга.

Сервер файлов географической разметки

Функциональность сервера файлов географической разметки распределена согласно шаблону проектирования “слои” и состоит из 6 слоев с четко разделенной функциональностью и ответственностью (табл. 1). Поток данных мониторинга направлен снизу вверх, управление — сверху вниз.

Таблица 1

Структура слоев серверного компонента

Наименование слоя

Функциональность

Структурные компоненты

6

Веб-сервер

Обслуживание
запросов клиентов

Веб-сервер Апач

5

Генератор ФРГ

Генерация ФГР

Объект-генератор ФГР

4

Слой управления
данными

Управление данными

Объекты-менеджеры, управляющие и агрегирующие данные в соответствии
с заданными правилами

3

Слой унификации
доступа

Абстрагирование от специфики источников данных

Объекты, реализующие
унифицированный интерфейс
для доступа к данным для каждой ВО

2

Слой доступа
к данным

Доступ к данным
мониторинга

Объекты доступа к данным,
специфические для источников данных

1

Слой хранения
данных

Хранение данных

Базы данных мониторинга,
соответствующие различным данным и ВО

Базы данных выведены в отдельный структурный слой — слой хранения данных. Система визуализации мониторинга не включает базы данных и не выполняет функции хранения данных, но, являясь составным компонентом большей системы мониторинга, явно взаимодействует с базами данных.

Слой доступа к данным абстрагирует способ доступа к данным от самих данных. Реализованные способы доступа к данным включают прямое подключение к базам данных, а также обращение к программным интерфейсам веб-служб, являющихся источниками данных мониторинга.

Слой унификации абстрагирует вышележащие слои от специфики данных мониторинга однотипных но различных составных частей грида, а также активности различных виртуальных организаций. Так, например, в случае если сбором и хранением данных мониторинга управляют сами виртуальные организации, то могут использоваться различные правила агрегации данных.

На данный момент этот слой состоит из четырех объектов, соответствующих ВО экспериментов на БАК.

Выделение функциональности унификации также позволяет использовать существующие методы доступа к данным, создавая объекты-адаптеры для каждого типа данных.

Слой управления данными задает правила и алгоритмы сбора и агрегации данных, полученных из разных источников.

Схема данных

Диаграмма, отображающая потоки данных между основными функциональными компонентами, показана на рис. 1.

Данные, циркулирующие в приложении, содержат неунифицированные данные мониторинга, унифицированные данные мониторинга и ФГР.

Неунифицированные данные мониторинга имеют свою специфику для каждого источника данных, например — различную агрегацию или ее отсутствие. Для каждого типа таких данных создается свой объект слоя унификации данных, транслирующий с той или иной точностью данные мониторинга в требуемый формат.

Унифицированные данные, над которыми работают алгоритмы, лежащие в основании приложения, бывают четырех типов:

1) отображающие грид-сайты на географической карте;

2) сведения о количестве задач, завершившихся удачно и неудачно за данный интервал времени, а также запущенных на сайте в конечный момент данного интервала времени;

3) информация о количестве задач, запущенных к исполнению с определенного сайта на определенном, возможно другом, сайте;

4) сведения о количестве файлов и объеме данных, переданных с одного сайта на другой средствами грид.

Рис. 1. Диаграмма потоков данных

В то время как пункты 2—4 представляют собой простое отображение из идентификаторов сайтов (или пары идентификаторов) в соответствующие значения, пункт 1 является нетривиальным ввиду сочетания следующих двух проблем:

— данные 2—4, получаемые от ВО, представляют собой отображение из имен сайтов, используемых в самих ВО, но не всегда совпадающие с общепринятыми;

— есть необходимость визуализации на карте сайтов, используемых внутри ВО.

В ходе реализации пришлось столкнуться с проблемой отображения сайтов ВО в реальные сайты: отображение происходит не в масштабе 1 : 1, а M : N.

Для решения этой проблемы от ВО требуются источники данных, предоставляющие отображение виртуальных сайтов в реальные и реальных сайтов — в координаты на карте. Если требуется визуализация сайтов в терминах ВО, то виртуальные сайты получают координаты реальных сайтов согласно прямому отображению, так как такая постановка задачи сразу отрицает агрегацию данных различных ВО.

Для случая, когда нужно агрегировать данные от различных ВО, был разработан алгоритм, объединяющий сайты обоих множеств в кластеры. В данном случае кластеры — абстрактные сущности, объединяющие сайты в непересекающиеся множества по правилу достижимости в двудольном ненаправленном графе, образованном отображением сайтов ВО в реальные сайты. В качестве координат сайта выбирают координаты реального сайта, принадлежащего этому кластеру, по одному из вариантов:

1) реальный сайт является общим для всех сайтов ВО (если таких сайтов несколько — выбирается любой из них);

2) любой реальный сайт.

В дальнейшем на карте в виде сайтов отображаются кластеры, а данные агрегируются по кластерам.

Формат ФГР задан согласно описанию компании Google [5]. Ввиду особенностей данного формата, визуализация грида в динамике является ресурсоемким процессом: данный аспект визуализации реализуется через возможность анимации в приложении “Google Планета Земля”. Данная функциональность реализована как визуализация относительно простых графических элементов — точек (пиктограмм), отрезков, линий, полигонов — в определенный интервал времени и отсутствие вне этого интервала. Таким образом, процесс анимации определенного события в гриде состоит в а) отображении на карте графических элементов и б) назначении для них определенного временного интервала, во время которого они будут отображаться.

Как показали эксперименты, отображение реальных событий в анимацию 1 : 1 является ресурсоемким — размер ФГР увеличивается так сильно, что задержки при его передаче становятся недопустимо большими. Для сокращения размера ФГР используется купирование анимационной составляющей визуализации: отображаются не все события. Для сокращения отображенных событий их количество логарифмируется, после чего они располагаются на полном анимационном интервале в случайном порядке. Метод логарифмирования эффективен при сокращении размера ФГР и, при этом, не сильно влияет на соответствие анимации реальным данным мониторинга. Конкретные коэффициенты — такие, как основание логарифмирования, в каждом отдельном случае должны подбираться индивидуально в зависимости от ожидаемого количества событий.

Пользовательский интерфейс

Ядром пользовательского интерфейса является приложение “Google Планета Земля” (рис. 2).

Для динамического мониторинга в реальном времени используется возможность приложения “Google Планета Земля” для периодического получения нового ФГР по сети Интернет по протоколу HTTP. В текущей реализации приложение обновляет ФГР каждые 10 минут [6].

 

Рис. 2. Пользовательский интерфейс (http://lit.jinr.ru/Inf_Bul_5/google_earth_sample_image.jpg)

Свойство динамичности выполнено с помощью функциональности анимации. В приложении анимированы следующие события:

— передача файлов;

— постановка задач на счет и возвращение результатов.

Каждый сайт (или кластер, если используется механизм агрегирования данных разных ВО) обозначен на карте в виде круговой диаграммы, зеленая и красная составляющие которой обозначают соотношение удачно и неудачно исполнившихся задач соответственно. Размер диаграмм соответствует количеству исполняющихся задач на данный момент.

Результаты

В результате было построено приложение для визуализации мониторинга грид-инфраструктур и активности пользователей на них. Визуализации мониторинга подвергаются следующие аспекты:

1) исполнение задач, включая результаты выполнения задач на сайтах, отправку задач на счет и его завершение;

2) передача данных между сайтами.

На данный момент визуализации подвергаются только активность ВО эксперимента на БАК, принадлежащих грид-инфраструктуре EGEE.

Заключение

Безусловно, визуализация мониторинга является очень важной подзадачей более общей задачи мониторинга грид-инфраструктур. Сложно представить систему мониторинга, которая не имеет тех или иных компонент визуализации результатов. Среди причин, заставляющих прибегнуть к визуализации, особенно стоит отметить наглядность получаемых данных. Данная работа является одним из важных этапов продвижения к еще более совершенным системам представления данных мониторинга.

Библиографический список

  1. Фостер, Ян. Что такое грид? Три критерия / Ян Фостер. — Электрон. дан. — Режим доступа: http://gridclub.ru/library/publication. 2004-11-29.5830756248.
  2. Электрон. дан. — Режим доступа: http://dashboard.cern.ch/
  3. Электрон. дан. — Режим доступа: http://earth.google.com/intl/en-US/license.html.
  4. Электрон. дан. — Режим доступа: http://httpd.apache.org/
  5. Электрон. дан. — Режим доступа: http://earth.google.com/intl/ru/userguide/v4/ug_kml.html.
  6. Электрон. дан. — Режим доступа:
    http://dashb-cms-job-devel.cern.ch/doc/guides/service-monitor-gearth/html/user/index.html.

С. Мицын (svm@mammoth.jinr.ru)


"Раздел III(2)" "Раздел IV"