События

Производительность суперкомпьютера «Говорун» в ОИЯИ достигла 2,2 Петафлопс, открывая новые возможности для применения методов машинного обучения в физике элементарных частиц

Пресс-релиз

Дубна, 7 июля 2025 г. – Специалисты группы компаний РСК совместно с Лабораторией информационных технологий им М.Г. Мещерякова Объединенного института ядерных исследований (ЛИТ ОИЯИ) завершили новый этап модернизации суперкомпьютера «Говорун». Вычислительные ресурсы этой системы были расширены за счет установки двух узлов на базе нового серверного решения «РСК Экзастрим ИИ» c 8-ю графическими ускорителями NVidia H100 в каждом и прямым жидкостным охлаждением. Новые сервера уникальны и были сконструированы и изготовлены для СК «Говорун» с учетом его архитектурных особенностей. При этом пиковая производительность ГПУ компоненты суперкомпьютера «Говорун» выросла на 36% и достигла 1,4 Петафлопс (в операциях с числами двойной точности), а пиковая суммарная производительность всего суперкомпьютера теперь составляет 2,2 Петафлопс в операциях с числами двойной точности.

«Сервера «РСК Эксзастрим ИИ», установленные в суперкомпьютере «Говорун», являются современной модульной аппаратно-программной платформой для высокопроизводительных вычислений, направленных на решение научно-инженерных задач с помощью технологий искусственного интеллекта. Мы полагаем, что это позволит более широко и интенсивно внедрять различные методы машинного обучения при реализации исследовательских программ ОИЯИ», – подчеркнул директор ЛИТ ОИЯИ Сергей Шматов.

Решение «РСК Экзастрим ИИ» представляет собой вычислительный сервер с пулом графических карт (GPGPU) с прямым жидкостным охлаждением, попарно объединённых мостами на базе технологии NVLink для высокоскоростных соединений для обеспечения быстрой передачи данных между графическими процессорами (GPU). Кроме того, оно имеет локальную подсистему хранения «теплых данных», сетевую подсистему с доступом с помощью технологии GPUDirect. Также в «РСК Экзастрим ИИ» реализована возможность расширения ресурсов путем подключения дополнительных пар GPU или системы внешнего хранения данных на базе пула твердотельных дисков (JBOF), подключаемой напрямую к серверу.

Конфигурация серверов «РСК Экзастрим ИИ», установленных в ОИЯИ:

  • высота узла 2U,
  • два процессора Intel Xeon Platinum 8468 (4-го поколения, 48 ядер, тактовая частота 2,1-3,8 ГГц, объем кэш-памяти 105 МБ),
  • 8 графических ускорителей NVidia H100 (PCIe, 80 ГБ),
  • 1 ТБ оперативной памяти,
  • 16 ТБ емкости хранения данных на базе SSD-дисков с интерфейсом NVMe,
  • 4 блока питания производства РСК,
  • система прямого жидкостного охлаждения разработки РСК.

Кроме того, в конце 2024 года было проведено расширение системы хранения данных (СХД) суперкомпьютера «Говорун», в результате чего общая емкость хранения увеличилась на 25% - с 8 до 10 Петабайт. В состав СХД вычислительного комплекса ОИЯИ были добавлены еще два узла хранения данных RSC Tornado AFS емкостью 1 ПБ каждый. Обновленная модификация СХД RSC Tornado AFS включает серверную плату на базе процессоров Intel Xeon 4-го поколения, а также коммутатор с интерфейсом PCIe Gen4, что позволило установить по два адаптера интерконнекта с пропускной способностью 200 Гбит/с каждый. Кроме того, СХД RSC Tornado AFS поддерживает технологию GPUDirect Storage (GDS), которая обеспечивает прямую передачу данных между локальным или удаленным хранилищем и памятью графического процессора.

«Гибкая система конфигурирования, реализованная в СХД RSC Tornado AFS с помощью модуля «РСК БазИС СХД», позволяет нам достигать наивысшей эффективности в использовании ресурсов суперкомпьютера «Говорун» для решения широкого круга задач, стоящих перед Институтом, имеющих самые разные требования к параметрам производительности подсистемы доступа к данным. Эти задачи могут требовать, как высокой скорости для чтения/записи больших порций данных, так и обработки большого числа запросов к небольшим порциям данных. В частности, два новых сервера RSC Tornado AFS уже задействованы в качестве серверов для распределенной файловой системы Lustre и используются для работы с данными мега-проекта NICA», – отметил Научный руководитель ЛИТ ОИЯИ Владимир Кореньков.

В вычислительной системе «Говорун» используются интегрированный программный комплекс «РСК БазИС 4» и модуль «РСК БазИС СХД» (включены в Реестр российского ПО).

«РСК БазИС СХД» – программный модуль, разработанный для автоматизации процесса создания статических и динамических систем хранения данных по запросам пользователей или операторов вычислительного комплекса.

Функциональные возможности этого модуля реализованы с помощью средств программного решения «РСК БазИС 4», которое позволяет оператору вычислительной системы описывать все компоненты кластера, устанавливать статичные или динамические связи между объектами управления, то есть осуществлять конфигурирование всего комплекса. Микроагентная архитектура «РСК БазИС 4» позволяет не только поддерживать все объекты системы в рабочем состоянии, но и активно взаимодействовать с ними, тем самым повышая эффективность использования вычислительных ресурсов.

Они поставляются заказчикам в составе программно-аппаратных решений на базе высокоплотной и энергоэффективной платформы «РСК Торнадо» и в составе других решений РСК. «РСК БазИС», в сочетании с аппаратными платформами РСК, позволяет создавать гиперконвергентные решения для высокопроизводительных вычислений и эффективной обработки больших объемов данных.

Вычислительные ресурсы и СХД суперкомпьютера «Говорун» используются для ускорения комплексных теоретических и экспериментальных исследований в области физики высоких энергий, ядерной физики и физики конденсированных сред, в том числе для реализации мега-проекта NICA по созданию на базе ОИЯИ ускорительного комплекса для воссоздания в лабораторных условиях особого состояния вещества, в котором пребывала наша Вселенная в первые мгновения после Большого Взрыва – кварк-глюонную плазму. Реализация этого мега-проекта начата в 2013 году.

Стоит отметить, что две СХД, установленные ранее специалистами РСК в составе суперкомпьютера «Говорун» Объединенного института ядерных исследований, входят в мировой рейтинг IO500 самых высокопроизводительных системам хранения данных. В текущий список IO500 (июнь 2025 г.) входит сегмент СХД на базе решения RSC Storage on-Demand с поддержкой новой системы хранения с открытым кодом DAOS – он лидирует среди российских систем хранения данных и занимает 139-ю позицию. Этот проект на базе распределенной системы хранения объектов DAOS реализован для обработки данных в рамках реализации мега-проекта NICA. Сегмент хранения на базе файловой системы Lustre в ОИЯИ сейчас размещается в этом рейтинге на 167-м месте. Уместно напомнить, что СХД суперкомпьютера «Говорун» еще в июне 2018 г., сразу после установки и запуска в эксплуатацию, заняла высокое 9-е место в мировом списке IO500. Система хранения данных в ОИЯИ смогла занять столь высокие позиции в этом мировом рейтинге, благодаря применению уникальной технологии создания многоуровневых, масштабируемых, распределённых и компонуемых «по требованию» систем хранения данных класса RSC Storage on-Demand с поддержкой файловых систем NFS и Lustre, а также распределенной системы хранения объектов DAOS.

История создания и развития суперкомпьютера имени Н.Н. Говоруна в ОИЯИ

Суперкомпьютер «Говорун» – первый в мире гиперконвергентный комплекс для высокопроизводительных вычислений со 100% жидкостным охлаждением на «горячей воде», созданный специалистами группы компаний РСК в 2018 году и прошедший к настоящему времени уже несколько этапов модернизации. В основе построения гиперконвергентной системы лежит подход объединения ресурсов для вычисления и хранения на каждом узле системы. Это позволяет наиболее эффективно масштабировать общие ресурсы системы с увеличением количества узлов.

Эксплуатация первой очереди суперкомпьютера имени Н.Н. Говоруна позволила провести целый ряд сложнейших ресурсо-eмких вычислений в области квантовой хромодинамики на решетках для исследования свойств адронной материи при высокой плотности энергии и барионного заряда и в присутствии сверхсильных электромагнитных полей, качественно повысить оперативность моделирования динамики столкновений релятивистских тяжелых ионов, позволил ускорить процесс генерации и реконструкции событий для экспериментов в рамках мегасайенс-проекта NICA, провести расчеты радиационной безопасности экспериментальных установок, существенно ускорить исследования в области радиационной биологии и других научно-прикладных задач, решаемых в ОИЯИ. Результаты данных научных исследований были опубликованы в более чем 50-ти ведущих мировых научных изданиях.

В 2019 году суперкомпьютер ОИЯИ был модернизирован. Обновленный вычислительный комплекс стал обладать совокупной теоретической пиковой производительностью 860 ТФЛОПС двойной точности, являясь при этом гиперконвергентной программно-определяемой системой. Данный подход является новым для индустрии высокопроизводительных систем, а реализованный с его использованием проект обладает уникальными свойствами по гибкости настройки системы под конкретную задачу пользователя и, тем самым, позволяет существенно повысить эффективность использования ресурсов суперкомпьютера.

В 2022 году в ходе плановой модернизации производительность вычислительной системы «Говорун» в ОИЯИ достигла уровня 1,1 ПФлопс 1,1 Пфлопс (петафлопс – это квадриллион или 1015 операций с плавающей точкой в секунду).

Применение жидкостного охлаждения в суперкомпьютере ОИЯИ позволяет не только существенно экономить электроэнергию во время работы вычислительного комплекса (на его охлаждение расходуется менее 3% электричества, требуемого для функционирования всей системы), но и использовать самые высокопроизводительные серверные процессоры Intel Xeon Platinum 8368Q – суффикс Q означает, что они специально предназначены для охлаждения жидкостью и превосходят другие модели, ориентированные на использование ранее широко распространенного воздушного охлаждения.

Применение гиперконвергентного подхода позволило создать для суперкомпьютера «Говорун» уникальную высокоскоростную систему хранения данных, обладающую лидерскими характеристиками — скорость параллельной файловой системы на чтение/запись информации превышает 300 ГБ/с. Достижение таких показателей стало возможным только благодаря внедрению комплексных программно-аппаратных решений РСК, поскольку применение стандартных технологий построения отдельно стоящих СХД потребовало бы в десятки раз более дорогого решения.

Уникальное внедренное решение системы хранения «по требованию» позволяет на суперкомпьютере «Говорун» формировать специфическую систему хранения для каждой запускаемой на суперкомпьютере задачи с требуемыми свойствами, такими как (объем и скорость, тип файловой системы, время существования, уровень надежности и безопасности), что было бы также невозможно в случае стандартного подхода к построению СХД для высокопроизводительных вычислительных систем.

О группе компаний РСК

Группа компаний РСК — ведущий российский разработчик и интегратор «полного цикла» инновационных сверхплотных, масштабируемых, энергоэффективных гиперконвергентных решений для суперкомпьютеров и высокопроизводительных вычислений (HPC). центров обработки данных (ЦОД) и интеллектуальных систем хранения данных «по требованию» на основе различных процессорных архитектур и передового жидкостного охлаждения, а также целого ряда собственных ноу-хау. РСК с 2018 года является участником приоритетного проекта «Национальные чемпионы», реализуемым в Российской Федерации.
Существующий потенциал компании позволяет: создавать самые энергоэффективные решения с рекордным показателем эффективности использования электроэнергии (PUE), реализовать самую высокую вычислительную плотность в индустрии на базе стандартных процессоров архитектуры x86 и отечественных «Эльбрус-16С», использовать полностью «зеленый» дизайн, обеспечить высочайшую надежность решения, полную бесшумность работы вычислительных модулей, 100% совместимость и гарантированную масштабируемость, при этом достигается беспрецедентно низкая стоимость владения и невысокий уровень энергопотребления. Кроме того, специалисты РСК имеют опыт разработки и внедрения интегрированного программного стека решений для повышения эффективности работы и прикладного использования суперкомпьютерных комплексов: от системного ПО до вертикально-ориентированных платформ на базе технологии облачных вычислений.
Дополнительную информацию можно найти на корпоративном сайте www.rscgroup.ru.
РСК, РСК Экзастрим, РС БазИС, RSC, Tornado, PetaStream, ScaleStream, RSC BasIS и логотипы РСК, RSC являются зарегистрированными товарными знаками группы компаний РСК в России, США, Японии и многих странах Европы.