Лаборатория   информационных   технологий 

"Содержание"

Раздел I. Базовый информационно-вычислительный сервис для пользователей локальной сети ОИЯИ

1 (1). Развитие Центрального вычислительно-информационного комплекса ОИЯИ в 2008-2009 гг. и текущее состояние программно-аппаратной среды

Центральный информационно-вычислительный комплекс (ЦИВК) ОИЯИ логически построен как единый информационно-вычислительный ресурс, предназначенный для обеспечения всех направлений деятельности сотрудников ОИЯИ. Счетные ресурсы и ресурсы для хранения данных управляются базовым программным обеспечением (ПО), позволяющим использовать средства ЦИВК как удаленным пользователям в рамках международных проектов (WLCG, EGEE), так и локальным пользователям ЦИВК ОИЯИ.

Настройки ПО ЦИВК обеспечивают оптимальное использование счетных ресурсов и поддержку наиболее универсальных и защищенных методов доступа к хранилищам данных. Распределение и учет счетных ресурсов реализован на основе системы пакетной обработки (batch) torque и планировщика ресурсов maui. Доступ к данным выполняется через dCache и частично через NFS. Доступ к общему ПО и домашним директориям пользователей реализован через AFS и NFS. Для регистрации и идентификации локальных пользователей ОИЯИ применяется система kerberos5.

Текущее состояние ресурсов ЦИВК

В настоящее время в состав ЦИВК входят следующие счетные машины:

60 64-х битных машин:
2 процессора Xeon 5150 (2 ядра на процессор);
тактовая частота 2.66 Ггц;
4096 Кбайт кэш на ядро;
8 Гбайт оперативная память;
160 Гбайт диск на 20 и 250 Гбайт на 40 машинах;
1Гбит Ethernet.
30 64-х битных машин:
2 процессора Xeon E5430 (4 ядра на процессор);
тактовая частота 2.66 Ггц;
6144 Кбайт кэш на ядро;
16 Гбайт оперативная память;
250 Гбайт диск;
1Гбит Ethernet.
10 64-х битных машин:
2 процессора Xeon X5450 (4 ядра на процессор);
тактовая частота 3.00 Ггц;
6144 Кбайт кэш на ядро;
16 Гбайт оперативная память;
250 Гбайт диск;
1Гбит Ethernet;
2x infiniband.
10 64-х битных машин:
2 процессора Xeon E5410 (4 ядра на процессор);
тактовая частота 2.33 Ггц;
6144 Кбайт кэш на ядро;
16 Гбайт оперативная память;
2 × 160 Гбайт диск;
1Гбит Ethernet;
2x infiniband.
40 64-х битных машин, по 2 машины в одном корпусе высотой 2 дюйма (U2):
2 процессора Xeon E5420 (4 ядра на процессор);
тактовая частота 2.50 Ггц; 6144 Кбайт кэш на ядро;
16 Гбайт оперативная память;
250 Гбайт диск;
1Гбит Ethernet.

Так как 2-х и 4-х ядерные процессоры содержат, соответственно, два и четыре независимых процессора на одном кристалле, то на данный момент парк счетных машин ЦИВК включает 960 64-х битных ЦПУ. Все эти ЦПУ доступны пользователям ЦИВК ОИЯИ и пользователям grid-среды через единую систему пакетной обработки заданий - batch.

Для разработки собственного ПО и обеспечения доступа к ресурсам ЦИВК для пользователей ОИЯИ установлены 5 машин с интерактивным доступом:

2 x 64-х битных машин (Core 2 Duo, 4 Гбайт RAM, 120 Гбайт + 250 Гбайт HDD, 1 Гбит Ethernet);
2 x 32-
х битнах машин (Dual Athlon 2400+, 2 Гбайт RAM, 40 Гбайт + 120 Гбайт HDD, 1 Гбит Ethernet);
64-
х битная машина (Xeon E5420, 8 x Core, 16 Гбайт RAM, 250 Гбайт HDD, 1 Гбит Ethernet).

Имеется несколько серверов поддержки работы пользователей и служб ОИЯИ: batch, WWW, БД mysql и Oracle; e-mail; DNS и др. Эти серверы имеют различные аппаратные платформы: от 32-х битных Pentium-3 до 64-х битных Xeon и Opteron.

Основной системой для хранения больших объемов информации в ЦИВК является аппаратно-программный комплекс dCache. В настоящий момент в него включены:

12 серверов основных интерфейсов системы dCache;
32 системы хранения данных (Pool).

Рис. 1: Структурная схема ЦИВК ОИЯИ

Несколько пользовательских групп ЦИВК используют систему доступа к удаленной информации XROOTD. Для обеспечения работы этой системы создан аппаратно-программный комплекс, содержащий 1 сервер обработки запросов к системе и 6 систем хранения данных. В этом комплексе используются разные аппаратные платформы: Athlon64 X2, Athlon 2000+, Pentium 4, Pentium D, Xeon. Все системы хранения построены с использованием аппаратного механизма RAID5. Общая доступная емкость системы составляет ~500 Tбайт.

В ЦИВК ОИЯИ установлено 6 серверов AFS – высокозащищенной, распределенной файловой системы, которая используется для сопровождения домашних директорий пользователей и для доступа к общему ПО для всего ОИЯИ. Общее пространство AFS в ОИЯИ составляет ~3.56 Tбайт.

Для обслуживания сайта WLCG в ОИЯИ (сайт - это отдельный кластер в распределенной системе WLCG и EGEE) установлено 24 сервера под системой gLite (ПО EGEE/WLCG). Кроме функций поддержки работы самого сайта JINR-LCG2, часть серверов реализуют важные сервисы и функции поддержки Российского сегмента проектов LCG и EGEE.

В состав ЦИВК ОИЯИ входит тестовая ферма из 8 машин, предназначенная для проверки и отладки новых версий ПО gLite.

Для обеспечения высокой пропускной способности локальной сети ЦИВК и минимального времени доступа к данным и файлам применяется агрегирование (TRUNK) нескольких соединений 1 Гбит Ethernet в единый виртуальный канал с увеличенной пропускной способностью.

На рис. 2 приведена логическая схема сетевого подключения корзины Superblade из 10-ти вычислительных лезвий и 10-ти счетных машин, установленных в стойке, к локальной сети ЦИВК. На рис. 3 показана схема подключения стойки с 8-ю дисковыми серверами к основному маршрутизатору локальной сети ЦИВК.

Рис.2: Схема подключения счетных машин к локальной сети: а) -корзинный вариант Superblade, b) - стоечный вариант

Рис.3: Схема подключения дисковых серверов к локальной сети ЦИВК ОИЯИ

Методика агрегирования сетевых линков позволила удовлетворить требования по скорости доступа к данным из счетных задач как для локальных пользователей ОИЯИ, так и для пользователей среды WLCG/EGEE. Этот подход также позволил не переводить основную часть локальной сети ЦИВК на более мощные каналы (10GbE, или Infiniband), что потребовало бы весьма значительных денежных затрат.

Базовое программное обеспечение ЦИВК

Базовой операционной системой для ЦИВК является OS Linux, а именно, дистрибутив Scientific Linux - SL4.8 и SL5.4. Этот дистрибутив сопровождается такими крупными научными центрами, как CERN и FNAL, распространяется бесплатно и является аналогом широкоизвестного коммерческого продукта фирмы Redhat Enterprise Linux. SL4.8 и SL5.4 также выбраны в качестве базовой ОС в проектах WLCG и EGEE.

С 2004 года ЦИВК ОИЯИ является составным элементом мировой вычислительной grid -инфраструктуры - вначале в среде LCG, а с 2007 года - в среде WLCG/EGEE. Для интеграции ресурсов ЦИВК в grid-среду на счетных машинах, ряде серверов, а также на интерактивных машинах установлено ПО промежуточного уровня - gLite. В настоящее время вклад вычислительных ресурсов ЦИВК по отношению ко всему Российскому сообществу WLCG составляет от 40 до 50 процентов и чуть меньше по ресурсам для хранения данных. Сайт ОИЯИ является одним из наиболее эффективно работающих сайтов всей инфраструктуры WLCG по критериям надежности и доступности.

Для расширения возможностей работы локальных пользователей на ЦИВК установлено дополнительное ПО: оптимизирующие компиляторы Intel, система распараллеливания задач, графические утилиты, системы аналитических выкладок (REDUCE, AXIOM, CAP, FORM на ферме lxpubxx) и др. (см. материалы раздела ЦИВК базового сервера lit.jinr.ru).

В состав ЦИВК также входят несколько специализированных машин для поддержки проектов ОИЯИ и международных коллабораций, в частности, таких как NICA/MPD, PANDA-GRID и CBM. На этих машинах устанавливается специализированное ПО для конкретных экспериментов и организуется запуск счетных задач через систему пакетной обработки. Эти же машины поддерживают NFS-сервис для специализированного ПО на счетных машинах.

Для массовой установки базового ПО на вычислительные узлы (счетные машины) в ЛИТ разработана система удаленной установки (СУУ) ПО. СУУ построена на стандартных средствах OS Linux с использованием элементов из ПО Warewulf. Она позволяет автоматизировать массовую установку ПО на новые машины и замену старых версий операционной системы.

Тестирование счетных машин, дисковых серверов, серверов общего назначения, сетевых маршрутизаторов и другого оборудования инфраструктуры ЦИВК

В 2008 и 2009 гг. в ЛИТ была проведена большая работа по закупкам и установке новой аппаратуры: счетных машин, дисковых серверов, серверов общего назначения, сетевых маршрутизаторов и другого оборудования инфраструктуры ЦИВК. Для обеспечения требуемых характеристик всего комплекса и отдельных его составляющих, а также удовлетворения достаточно жестким требованиям основных потребителей ресурсов из коллабораций физики высоких энергий БАК, практически каждый тип закупаемого оборудования проходил тестирование в ЛИТ перед заключением реального контракта на поставку. Обычно тестировалось несколько видов функционально эквивалентного оборудования, для выбора лучшего варианта по различным параметрам, в том числе и по отношению стоимости к единицам оцениваемой мощности.

В эти же годы были проведены сравнительные испытания четырех типов дисковых серверов и трех вариантов счетных узлов. Выдержки из протоколов испытаний приводятся ниже.

Испытания дисковых серверов (2008-й год).
Испытано 3 модели дисковых серверов следующих поставщиков и производителей.
1. Superserver, поставщик Ниагара, производство Supermicro;
2. NS400, поставщик и производитель ETegro Technologies;
3. SunFire X4500, поставщик JET Infosystem, производство Sun.

Испытания всех 3-х дисковых серверов проводились в одинаковых условиях. Серверы подключались последовательно, в перечисленном порядке, к выделенным для этой цели: сетевым розеткам, сетевым соединениям локального Ethernet’а вычислительного центра ОИЯИ; 10-ти машинам из состава корзины SuperBlade, используемым для создания нагрузки на сетевые и дисковые контроллеры, процессоры, оперативную память и непосредственно на диски серверов.
Тестирование проводилось путем создания многочисленных параллельных потоков данных в обоих направлениях: от клиентов на сервер; от сервера на клиенты.

Основными целями тестирования были следующие характеристики работы каждого из серверов:

1) Совместимость аппаратуры сервера с программным обеспечением, используемым в проекте WLCG: ОС "Scientific Linux SL release 4.6", ПО промежуточного уровня gLite и системы управления дисковыми ресурсами dCache.
2) Интегрированная скорость обмена данными между многими клиентами и одним сервером
3) Наличие, или отсутствие ошибок (исправляемых ПО dCache) при передачи каждого отдельного файла.
4) Максимальная загрузка CPU (центральных процессоров) сервера в процессе обмена данными.
5) Загрузка сетевых ресурсов соединения клиентов с сервером, ошибки на сетевых интерфейсах.
6) Сложность установки всего комплекса ПО на сервере, настройки и управления сервером.
7) Технологическое исполнение сервера: надежность аппаратного решения; внутренняя охлаждение; возможности "горячей" замены отдельных частей сервера (дисков и блоков питания.

Фактический тест состоит из следующих компонент и действий:

- на клиентах запускались 120 параллельных передач на/с дисковый сервер по протоколу DCAP системы dCache;
- на каждом клиенте одновременно запускалось 12 передач;
- на 4-е файловые системы сервера передачи распределялись равномерно средствами dCache;
- передавались файлы размером 5GiB каждый;
- всего передавалось 1200 файлов;
- выбор направления передачи задавался случайно с вероятностью 50%.

Получены следующие результаты тестов передачи:
По серверам Superserver и NS400 результаты тестов практически совпадают:

- ошибок передачи - 0;
- интегрированная скорость передачи - 300MiB/sec;
- нагрузка на клиентах < 1 (uptime 1 минута);
- пиковая нагрузка на сервере ~120 (uptime 1 минута).
При тестировании сервера SunFire X4500 получены следующие результаты:
- ошибок передачи - 54, все ошибки чтения по timeout, dcap запускал повторное чтение, которое завершалось нормально.
- Интегрированная скорость передачи - 137MiB/sec.
- нагрузка на клиентах < 1 (uptime 1 минута);
- пиковая нагрузка на сервере ~210 (uptime 1 минута).

Сервера Superserver (Ниагара/Supermicro) и NS400 (ETegro Technologies) полностью удовлетворяют требованиям для использования в качестве дискового пула в системе WLCG с ПО gLite 3.1.
Сервер SunFire X4500 (JET Infosystem/Sun) не удовлетворяет требованиям по количеству ошибок и пропускной способности.

Испытания счетных узлов (2009-й год).
Фактически была вычислена относительная производительность всех типов счетных узлов кластера ЦИВК по стандартному тесту производительности SPEC CPU2006 фирмы Standard Performance Evaluation Corporation, на которое у нас куплена лицензия. Была использована схема запуска теста для получения производительности в единицах HEP-SPEC06, которые требуются для публикации мощности счетных ресурсов сайта
WLCG. Отметим, что HEP-SPEC06 запускается без максимальной оптимизации, так как моделирует работу ПО сообщества физики высоких энергий, поэтому его результаты всегда меньше максимальной производительности машины, посчитанной по стандартной схеме SPEC CPU2006.

Результаты тестов приведены в виде таблицы далее.

HEP-SPEC06 results for JINR' WNes and the whole site JINR-LCG2

Scientific Linux SL release 5.4 (Boron) x86_64
GCC: gcc (GCC) 4.1.2 20080704 (Red Hat 4.1.2-46)
C++: g++ (GCC) 4.1.2 20080704 (Red Hat 4.1.2-46)
FC: GNU Fortran (GCC) 4.1.2 20080704 (Red Hat 4.1.2-46)
*FLAGS: -O2 -pthread -fPIC -m32
SPECall_cpp2006 with 32-bit binaries.
SPEC2006 version 1.1

host model    nCPU    CPU  MHz  L2+L3 cache  RAM Main board HEP-SPEC06 per-Core
wm000 Intel MP Server 4 Xeon 5150 2666   8192+0 8 Intel S5000PSL 38.77 9.69
wn020  Intel MP Server  4 Xeon 5150 2666 8192+0 Intel S5000PSL  38.82 9.71
wn040 HP ProLiant DL140 G3 4 Xeon 5150 2666 8192+0 8 Wistron M95ILA 38.37 9.59
wn100 Supermicro Super Blade 8 Xeon E5430 2670 24576+0 16 Supermicro B7DBE 72.47 9.06
wn110  Supermicro Super Blade 8 Xeon E5430 2670 24576+0 16 Supermicro B7DBE 72.72 9.09
wn120 Supermicro Super Blade 8 Xeon E5430 2670 24576+0 16 Supermicro B7DBE 73.32 9.04
wni000 Supermicro Super Blade 8 Xeon X5450 3020 24576+0 16 Supermicro B7DBE 77.94 9.74
wni010 Supermicro Super Blade 8 Xeon E5410 2365 24576+0 16 Supermicro B7DBE 67.30 8.41
wn200 Supermicro Twin 8 Xeon E5420 2514 24576+0 16 Supermicro X7DWT 69.92 8.74
--- test node with HT off            
qtwn00 Supermicro Twin^2 8 Xeon E5540 2533 2048­ 24 Supermicro X8DTT-IBX 94.61 11.83
--- test node with HT on              
qtwn01 Supermicro Twin^2 16 Xeon E5540 2533 2048­ 48 Supermicro X8DTT-IBX 120.53 7.53

-------------------------------------------------------------------------------------------------------------------

RAM:

wn000  667MHz   1024MB x 8 modules = 8GB

wn020  667MHz   1024MB x 8 modules = 8GB

wn040  667MHz   1024MB x 8 modules = 8GB

wn100  667MHz   2048MB x 8 modules = 16GB

wn110  667MHz   2048MB x 8 modules = 16GB

wn120  667MHz   2048MB x 8 modules = 16GB

wn200  667MHz   2048MB x 8 modules = 16GB

wni000 667MHz   2048MB x 8 modules = 16GB

wni010 667MHz   2048MB x 8 modules = 16GB

qtwn00 1066MHz  4096MB x 6 modules = 24GB

qtwn01 1066MHz  4096MB x 12 modules = 48GB

-------------------------------

Sums:

20*wm000+20*wn020+20*wn040+10*wn100+10*wn110+10*wn120+10*wni000+10*wni010+40*wn200=

(38.77*20)+(38.82*20)+(38.37*20)+(72.47*10)+(72.72*10)+(73.32*10)+(77.94*10)+(67.30*10)+(69.92*40)=

Total: 8753.50 HEP-SPEC06

8753.50*250/1000=

Total: 2188.375 HEP-kSI2k

-------------------------------

Min Core = 8.41 HEP-SPEC06

Max Core = 9.74 HEP-SPEC06

---------------------

Site total CPU power:

8753.50 HEP-SPEC06

2188.375 HEP-kSI2k

---------------------

Н. Астахов (Nikolai.Astakhov@jinr.ru)
А. Долбилов (dolbilov@jinr.ru)
В. Иванов (ivanov@jinr.ru)
В. Коренков (korenkov@cv.jinr.ru)
В. Мицын (vvm@jinr.ru)
С. Мицын (svm@mammoth.jinr.ru)
А. Рапортиренко (
ram@cv.jinr.ru)
В. Трофимов (
tvv@jinr,ru)

"Содержание" "Раздел I (2)"