Лаборатория   информационных   технологий 


«Содержание»

   9. Общие рекомендации для пользователей вычислительного кластера для параллельных вычислений

   С 10 декабря 2002 года в ЛИТ введен в эксплуатацию вычислительный кластер для параллельных вычислений, состоящий из восьми 2-х процессорных узлов Pentium III 1 GHz 512 MB RAM, соединенных коммуникационной средой Myrinet 2000. Доступ к кластеру производится через интерактивные машины lxpub01, lxpub02, lxpub03 или lxpub04,на которых задачи компилируются и отлаживаются.

   Компиляция

   На данный момент на интерактивных машинах доступны компиляторы: mpicc и mpif77.

   В перспективе планируется также обеспечить использование mpiCC и mpiF90, которые на данный момент недоступны по техническим причинам.

   Запуск задач

   После компиляции и процесса отладки задачи ставятся в очередь для обработки в пакетном режиме. Для этого используется команда qsub.

   Существует 2 способа использования этой команды:

   1) Создать script-файл для запуска в пакетном режиме; в этом script-файле определяются параметры, необходимые для работы задачи.

   Пример командной строки

qsub pbs_script

   Пример содержания файла pbs_script:

#!/bin/sh

#PBS -q para

#PBS -l walltime=10:00:00,nodes=8:para

#PBS -m abe

#PBS -M username@lxpub01

#PBS -r n

mpiexec $PBS_O_WORKDIR/program_name

   2) Ввести все параметры в командной строке.

   Пример командной строки:

qsub -q para -l walltime=10:00:00,nodes=8:para -m abe -M username@lxpub01 -r n mpiexec $PBS_O_WORKDIR/program_name

   Описание параметров:

-q — название очереди пакетной обработки (для параллельных вычислений это "para"),

-l — набор технических параметров, набираемых через ",":

walltime максимальное время выполнения задачи,

nodes — требуемое количество процессоров (после указания количества процессоров, после ":" следует указывать название очереди)

-m — события, происходящие в процессе пакетной обработки задачи, о которых следует извещать e-mail'ом: b - начало, e - завершение, a - прекращение работы по ошибке;

-M — e-mail адрес, на который будут направляться все служебные сообщения о состоянии задачи

-r — (y/n) (т.е. “да” или “нет”) следует ли восстанавливать задачу, при перезагрузке узлов,

$PBS_O_WORKDIR это переменная окружения при пакетной обработке, которая инициализируется автоматически в процессе пакетной обработки и значение этой переменной окружения есть абсолютный путь к текущему каталогу пользователя, из которого производится запуск задания посредством команды qsub; т.е. если запускаемый исполняемый модуль, например, myprogr, находится в каталоге, из которого производится запуск, то в команде qsub следует ввести $PBS_O_WORKDIR/myprogr

   Контроль за исполнением задачи

   После того, как задача была отправлена в очередь, ее состояние можно контролировать с помощью команды qstat, после ввода которой на экране появляется таблица, столбцы которой имеют следующие значения:

Job id — уникальный идентификатор задачи,

Name имя исполняемой задачи,

User — имя владельца задачи,

Time Use — общее процессорное время, использованное задачей на данный момент,

S — состояние задачи (Q — находится в очереди, R — вычисляется, E — произошла ошибка при выполнении),

Queue — название очереди, в которой запущена задача.

   Результаты выполнения задачи в пакетной обработке

   В рабочем каталоге пользователя появляются 2 файла:

   Имя_задачи.oИдентификатор — содержит стандартный вывод (stdout),

   Имя_задачи.eИдентификатор — содержит сообщения об ошибках(strerr).

   Следует помнить, что после изменения AFS-пароля необходимо также выполнить команду pbspwstore для обеспечения возможности работы с системой пакетной обработки.

 

А. Сергеев (aradon1@cv.jinr.ru)


«Содержание»