Лаборатория   информационных   технологий 

"Содержание"

Раздел V. Какова степень необходимости в World-Wide Grid?

Данный обзор продолжает публикацию материалов по данной тематике, начатую в 2005 г. в выпусках информационных бюллетеней (ИБ) ЛИТ № 3 (44), 4 (45) и 5 (46), где автор давал текущую информацию о состоянии дел по техническому и программному обеспечению GRID-структур для использования их в научных исследованиях: в электронном виде материал указанных бюллетеней доступен по ссылкам http://lit.jinr.ru/Inf_Bul_3/, http://lit.jinr.ru/Inf_Bul_4/ и http://lit.jinr.ru/Inf_Bul_5/, см. их разделы IV.

По существу речь шла и идет о том, как и в какой степени реализуются и развиваются идеи основоположников GRID-тематики (К. Кессельмана, Я. Фостера…), ставших ключевыми фигурами для объединений Globus Alliance и Globus Grid Forum, занявшихся организацией проработки и реализации систем типа Grid: их технической и программной основы, т. е. тех наборов программных средств (Globus Toolkits, GT), с помощью которых можно создавать эксплуатационные варианты систем. Исходной целью было сравняться по масштабу и общедоступности с реализацией “Всемирной информационной паутины World Wide Web”, созданной на основе идей и программного задела Тима Бернерс-Ли почти 20 лет назад. К сожалению, несмотря на то, что указанные выше объединения начали разработку универсальных пакетов программой поддержки подобных структур более 10 лет назад — единой вычислительной структуры не получилось, а история как-то изложена в указанных выше обзорах. Получилось своеобразное “лоскутное одеяло” использования вычислительных ресурсов: в Европе свое (с применением версий пакетов GT стали строить “локальные гридики” в рамках локальных сетей организаций или стран, как, например, NorduGrid для северных стран), в Америке свое… Реализация проекта EGEE (European Grid for E-science), в рамках которого до 2010 г. работали в основном те, кто был связан с обработкой данных с ускорителя LHC (и не только), вынудила ответственных за программное обеспечение своих GRID-структур организовывать программные системные мосты для перехода к использованию EGEE (эта ситуация охарактеризована в обзоре ИБ № 4 (45)); возникла проблема обеспечения интероперабельности средств EGEE и американского OSG (Open Science Grid)... Наконец, в рамках расширения возможностей EGEE и унификации его использования по крайней мере для европейских стран была запущена реализация панЕвропейского проекта EGI (European Grid Initiative) как преемника EGEE. Целью было и укрепление общей компьютерной ресурсной базы (например, включением в состав совместно используемого странами-участницами оборудования суперкомпьютерных центров из 15 европейских стран) плюс унификация использования того программного системного обеспечения, которое необходимо для доступа и использования объединенного европейского GRID. Как указывалось в обзоре раздела IV (ИБ № 5 (46)), всеми организационными и финансовыми вопросами занялся Совет EGI Council, куда входят и представители России и Белоруссии. в их зоне ответственности — предоставление для общего использования грид-инфраструктуры RDIG (Russian Data IntensiveGrid) и оборудования федерации суперкомпьютерных центров “Скиф-полигон” (в которую вошли суперкомпьютерные центры ряда университетов и институтов России).

Ситуация с расширением рамок EGI за пределы Европы (например, объединение с американскими грид-структурами и не только, что позволило бы говорить о проекте WGI (Wordwide Grid Initiative)) не очевидная, хотя, казалось бы, общей системной программной основой начала работ по созданию всех грид-структур были упомянутые выше пакеты Globus Toolkits и их развитие. Так, в статье авторов из МГУ (см. http://x-com.parallel.ru/about.html) отмечается: “Направление создания универсальных средств по созданию глобальных полигонов, объединяющих в рамках высокоскоростных сетей значительные распределенные ресурсы, — интересное, однако реальные системы крайне тяжелы в установке, администрировании и сопровождении; организация расчетов на доступных компьютерах требует привилегированных административных полномочий, многие компьютерные платформы вообще не поддерживаются, тиражирование крайне затруднено. Примером работ в этом направлении является инфраструктура EGEE…”. Правда, в рамках проекта EGI усилия по преодолению указанных трудностей предпринимаются, но всё же… Есть и одна чисто прозаическая проблема для российских участников EGI — государственная финансовая поддержка. Создание и эксплуатационная поддержка широкомасштабного GRID требуют не только унификации его системного и сетевого обеспечения, но и значительных государственных финансовых вложений. По информации одного ответственного участника проекта WLCG, уже начало реализации проекта EGI выявило значительные сложности с финансированием. Ответственность за национальную грид-инфраструктуру (NGI) в России была возложена на негосударственную некоммерческую организацию e-ARENA (см. http://www.e-arena.ru), возможно этим объясняются указанные сложности (только Министерство связи РФ частично компенсировало затраты на сетевую инфраструктуру)… Сравнение с ежегодной финансовой поддержкой на развитие и сопровождение национальных структур (NGIs) в других европейских странах было не в нашу пользу: более 100 млн фунтов в Англии, около 40 млн евро в Польше, в Румынии, Чехии и Словакии — больше, чем в России за прошедшие годы... Поэтому в России многие грид-сайты оказались под угрозой прекращения работы из-за отсутствия средств на эксплуатацию. Некоторую инициативу по обеспечению приема, накопления и обработки информации в рамках проектов типа GRID на сетевой структуре ГЛОРИАД (см. http://www.ripn.net/press/2007/gloriad_for_science.html) стал проявлять Институт атомной энергии (ИАЭ) им. И. В. Курчатова с расчетом на получение государственной финансовой поддержки. Сейчас, судя по информации в статье “Дирижеры информационных потоков” (см. еженедельник “Дубна: наука, содружество, прогресс” № 41, 28 окт. 2011 г.), подготовлено соглашение об ассоциированном членстве Российской Федерации в ЦЕРН, в России на базе ОИЯИ и ИАЭ будет создан центр сбора и обработки данных уровня Tier1. Судя также по информации, опубликованной 9 ноября 2011 г. в еженедельнике “Internet science grid this week” (http://www.isgtw.org) в разделе “Towards a pan-European collaborative data infrastructure”, вопросам объединения технических средств для сбора, хранения и обработки информации по крайней мере в Европе при финансовой поддержке Европейской комиссии придается первостепенное значение.

Знак вопроса в заглавии обзора поставлен и потому, что для ряда прикладных задач типа той, которая описана в статье “Grids for Experimental Science: The Virtual Control Room” (см. http://www.globus.org/alliance/publications/papers/clade_submitted_corrected.pdf), авторам вполне достаточно было взаимодействия с системой Access Grid, когда для контроля и интерпретации результатов в проведении экспериментов по термоядерному синтезу на установке Токамак требовалось оперативное привлечение вычислительного ресурса...

Отдельной проблемой можно считать и создание информационных систем и коллекций, которые называют “Digital Libraries” (DL) и “Virtual Digital Libraries” (VDL). Речь не идет о библиотеках в традиционном смысле, к этому понятию относят цифровые коллекции разного типа — например, коллекцию фотографий или снимков событий в экспериментах, дополненную средствами поиска через Web интересующей фотографии (снимка) по определенным признакам. Для реализации таких средств должна быть предварительно проведена обработка каждого элемента коллекции, что может потребовать значительных вычислительных ресурсов. В обзорном докладе на 10-й Всероссийской конференции по тематике электронных библиотек и коллекций (RCDL’2008) автор приводил пример реализации проекта DILIGENT (Digital Library Infrastructure on Grid Enabled Technology) и его предполагаемом развитии в последующие годы в рамках проекта D4Science (сейчас он представлен на сайте по адресу http://www.d4science.eu). Одной из первых прикладных целей проекта DILIGENT было создание сервисов для проекта SAPIR (Search in Audio Visual Content Using Peer-to-Peer IR) как части проекта Chorus, т. е. для задачи создания в интересах этих проектов нового типа представления и поиска данных, отсутствовавших в традиционно используемых поисковых системах типа Google и Yandex. Указанным проектом DILIGENT авторов из CNR-ISTI (Пиза, Италия) заинтересовались в ЦЕРН и выделили компьютерные мощности из ресурсов EGEE для создания и формализованного описания информационных объектов. с применением сервисов “gCube on top of gLite” (см. http://www.gcube-system.org), разработанных авторами проекта, на инфраструктуре EGEE был проведен 16-недельный прогон (data challenge) по обработке 37 млн фотографий из on-line базы данных Flickr (известного модифицированного web-приложения для поиска и обмена фотографиями), сгенерировано около 112 млн текстовых и image-объектов.

Может быть, полезно вспомнить и статью 2002 г. “The Semantic Grid: a Future e-Science Infrastruture” (http://www.semanticgrid.org/documents/semgrid-journal/semgrid-journal.pdf), где авторы предполагали, что программная среда компьютеризованной науки и все Grids должны будут включать в себя трехуровневую систему сервисов:

1) Data/Computation Services — средства размещения данных и их транспортировки между обрабатывающими программами, обеспечение вычислительных и сетевых ресурсов;

2) Information Services — средства представления, запоминания и доступа к информации, управления ею;

3) Knowledge Services — средства накопления, представления, обновления, “публикации” (сетевого распространения) знаний для помощи ученому в исследовательском процессе.

Все положения демонстрировались детальным формализованным примером цикла полной автоматизации обработки экспериментальных данных в сетевой компьютерной среде (от начала поступления данных на анализ до подведения итогов результата обработки научным сообществом) с применением конкретного перечня сервисов каждого из указанных уровней; подчеркивалась роль семиуровневой системы онтологий (аппарата формализованного представления информации) для нормального функционирования всей клиент-сервисной структуры приведенного примера.

Комментируя эту статью в обзорном докладе на конференции “Научный сервис в сети Интернет” в 2003 г., я отмечал следующее (на основе определений авторов статьи):

Разделение понятий “информация” и “знание” сделано просто: информация — это какие-то данные и их значения, определение, смысл (“данное целое число относится к температуре во время реакции”, “эта строка — имя человека”), а знание — это информация, побуждающая к действию (“данное значение температуры критическое, необходима остановка реакции”). Соответственно “сервис” можно определить как программный процесс реализации какого-то действия из набора служебных и прикладных программ в какой-то научной предметной области или в междисциплинарных сферах: например, сервис автоматического уведомления ученых, заинтересованных в результатах проведенной другими сервисами обработки какого-то набора данных. Агенты в этой схеме — своеобразные “брокеры” на бирже (рынке) программных услуг-сервисов, программные инициаторы процессов: агент по своей инициативе или поручению от другого агента организует поиск нужного сервиса в каком-то репозитории, сверяет полномочия поручителя с указаниями в описании сервиса, запускает сервис в работу и предпринимает какие-то действия по концу его работы. Что касается упомянутой системы онтологий (документов или файлов с метаданными, которые формально определяют классы, типы и свойства объектов, понятий, терминов и т. д., а также отношения между ними за счет использования описаний свойств классов и подклассов и логических правил вывода), то в упомянутой статье отмечается, что проблемы аннотирования контента (содержания коллекций информации разных типов) и сервисов определяют необходимость порождения аппаратом онтологий следующих типов метаданных:

— Domain ontologies — описания (концептуализация) важных объектов, их свойств и отношений между ними (согласованный набор аннотаций, понятий, определений в предметной области и т. д.);

— Task ontologies — описания задач и процессов, их свойств и отношений (например, набора характеристик фаз процесса химического анализа и т. д.);

— Quality ontologies — описание атрибутов знания (например, аннотации к тому, могут ли результаты, полученные какими-то средствами, быть более эффективно получены и расширены более совершенными средствами);

— Value ontologies: характеристика тех атрибутов, которые относятся к установлению значимости (важности) контента (“стоимость” полученных в эксперименте физических данных, например);

— Argumentation ontologies — широкий набор аннотаций, имеющих отношение к описанию причин — почему контент был накоплен (например, данные какого-то эксперимента), почему он был использован тем или иным способом, кто его одобряет или не признает.

Понятно, что в реализации такой архитектуры накопления, обработки и использования ее результатов в значительной степени замешаны и понятие семантического GRID, и понятие семантического Web. В этом смысле интересна работа В. Ф. Хорошевского из ВЦ РАН “Онтологические модели и Semantic Web: откуда и куда мы идем?” (http://ontology.ipi.ac.ru/files/f/f0/OM2008-khoroshevskiy.ppt).

Должен отметить, что многие работы по тематике данного обзора рассматривались в разные годы на четырех международных конференциях “Распределенные вычисления и грид-технологии в науке и образовании”, проходивших в ЛИТ ОИЯИ; тезисы докладов конференции 2010 г. опубликованы (ISBN 978-5-9530-0253-0). Впрочем, полный текст работы “Mediation Based Semantic Grid” сотрудников из Института проблем информатики Российской академии наук (соучастников реализации и развития международного проекта AstroGrid) на русском языке и сейчас доступен по адресу http://synthesis.ipi.ac.ru/synthesis/publications/10semgrid/10semgrid.pdf.

В заключение отмечу, что тематика, которая рассматривалась в редакторском обзоре ИБ № 5 (46), — о совместном использовании грид-технологии и технологии “облачной обработки данных” (Cloud computing), будет ли общий всемирный грид WGI или по-прежнему будет многогридовская структура — остается актуальной и сегодня. Интересующимся можно рекомендовать материалы Европейского исследовательского консорциума по информатике и математике (ERCIM), подготовившего в октябре 2010 г. специальный выпуск по этой теме (см. http://ercim-news.ercim.eu/en83, откуда можно скачать 64 страницы объемом 17 Мбайт в pdf-формате).

В. Шириков (shirikov@jinr.ru)

Раздел VI. Если Вам нужна помощь…

Вид деятельности

Фамилия, имя

Телефон

E-mail

1

Системное
администрирование ЦИВК

Мицын Валерий
Громова Наталья
Тихоненко Елена

64317
64317
67553

vvm@cv.jinr.ru
grom@cv.jinr.ru
eat@cv.jinr.ru

2

Инженерное обслуживание ЦИВК

Астахов Николай

64105

Nikolai.Astakhov@jinr.ru

3

Библиотеки программ:
CERN
JINRLIB


ГромоваНаталья
Сапожникова Татьяна


64317
62752


grom@cv.jinr.ru

tsap@jinr.ru

4

Поддержка программного
обеспечения рабочих мест ЛИТ

Первушов Валерий
Степаненко Виктор

64890
64740

pervush@jinr.ru
vstep@jinr.ru

5

Программное обеспечение ПК:
FAXE (www/ftp-сервер)
Linux4u (www/ftp-сервер)


Жиронкин Сергей
Гусев Анатолий
Мицын Валерий


64695
64482
64317


serji@mail.ru
gusev@jinr.ru
vvm@cv.jinr.ru

6

Работа с AFS

Трофимов Владимир
Громова Наталья
Мицын Валерий

64944
64317
64317

tvv@jinr.ru
grom@cv.jinr.ru
vvm@jinr.ru

7

Data Management System:
dCache, XROOTD

Трофимов Владимир

64944

tvv@jinr.ru

8

WWW-серверы:
lit.jinr.ru, wwwinfo.jinr.ru

Калмыкова Лидия
Давыдова Наталья

63961
62683

lidak@cv.jinr.ru
luna@jinr.ru

9

  Сервер WWW.JINR.RU:
администрирование
и поддержка

Олейник Данила
Приходько Алексей
Моисенз Кристина

62302
64089
63741

danila@jinr.ru
aprikh.stat@gmail.com
kristina@jinr.ru

10

ORACLE

Семенов Роман

64089

roman@jinr.ru

11

Регистрация пользователей MySQL на ЦИВК

Голоскокова Татьяна

63144

golosk@jinr.ru

12

GNU, REDUCE

Рапортиренко
Анатолий

63646

ram@cv.jinr.ru

13

Вопросы распараллеливания

Сапожникова Татьяна
Айриян Александр

62752
64875

tsap@jinr.ru
ayriyan@jinr.ru

14

Проблемы безопасности
в сети. Антивирусное ПО

Долбилов Андрей
Ангелов Кирилл

63488
63488

dolbilov@jinr.ru
kirill@jinr.ru

15

Ответственные
по LHC экспериментам:
CMS
ATLAS
ALICE
WLCG

 

Тихоненко Елена
Громова Наталья
Луция Вальова
Мицын Валерий

 

67553
64317
64875
64317

 

eat@cv.jinr.ru
grom@cv.jinr.ru
jancurova@jinr.ru
vvm@cv.jinr.ru

Окончание таблицы.                                      

Вид деятельности

Фамилия, имя

Телефон

E-mail

16

Мониторинг работы ЦИВК
и грид-инфраструктуры

Белов Сергей
Дмитриенко Павел

65936

belov@jinr.ru
orelnotre@mail.ru

17

Учебно-тестовая
грид-инфраструктура

Кутовский Николай

65936

kut@jinr.ru

18

WWW-портал hepweb.jinr.ru

Александров Евгений

64605

aleksandrou_e_i@mail.ru

19

Доступ к лицензионному ПО

Первушов Валерий

64890

pervush@jinr.ru

20

Доступ к электронным
журналам

Мусульманбеков
Женис

65562

genis@jinr.ru

21

Дежурный инженер ЦИВК

Зал ЦИВК, 2 эт. ЛИТ

62761

 

22

Диспетчер сетевой службы

Комната 216 ЛИТ

63488

noc@jinr.ru

23

Библиотека ЛИТ

Комната 568 ЛИТ

62726

libr407@jinr.ru

24

Техническая поддержка
рабочих мест ЛИТ

КИП, ком. 236 ЛИТ

64033

 


"Содержание" Вверх         "Конец"