南京大学IBMHS22刀片集群系统用户手册 下载本文

内容发布更新时间 : 2024/5/2 7:19:29星期一 下面是文章的全部内容请认真阅读。

南京大学IBM HS22刀片集群系统用户手册

一、IBM HS22刀片集群系统的硬件架构和软件配置

1. 硬件架构

1.1 系统总体逻辑图

1.2 节点命名规则:

根据用途系统内各节点分为:

(1) 登录节点:c01n01, c01n02….c01n10对应的网址:172.19.18.11…..172.19.18.20 (2) 计算节点:c02n01,c02n02…c02n14 c03n01,c02n02…c03n14 …….

c28n01,c28n02…c28n10 c29n01,c29n02…c30n14 c30n01,c30n02…c30n14 (3) 并行存储节点: fnode01-----fnode20

(4) 作业管理调度节点:qnode01,qnode02,qnode03 1.3 登录节点配置:

? HS22刀片中心9U高度,2X2900W 电源,20Gb14口Infiniband交换机,双千兆

对内14口对外六口交换机,双百兆管理网口,14个刀片插槽

每刀片2路 Intel Xeon 5550 2.67GHz 4核处理器 每节点配备24GB DDRIII ECC 1333GHz 内存 内置2块146GB SAS本地硬盘 内置2双 1000Mbps网卡

一块Infiniband(20Gb/S)网卡 一块光纤存储卡(4Gb/S)

OS RedHad Linux 5.3 64Bit Server Edition

登录节点包括5套网络:千兆外部接入网络、千兆作业调度、管理网络、Infiniband并行互联网络、百兆管理网络和光纤存储网络

1.4计算节点配置:

? HS22刀片中心9U高度,2X2950W 电源,20Gb14口Infiniband交换机,千兆对

内14口对外六口交换机,双百兆管理网口,14个刀片插槽 ? 每刀片2路 Intel Xeon 5550 2.67GHz 4核处理器 ? 每节点配备12GB DDRIII ECC 1333GHz 内存 ? 内置146GB SAS本地硬盘

? 内置 1000Mbps网卡,用于作业管理、调度

? 一块Infiniband(20Gb/S)网卡,用于作业并行计算高速互联

? 计算节点包括3套网络:千兆作业调度、管理网络、Infiniband并行互联网络、百

兆管理网络

1.5 存储系统:

存储系统分为两部分:

第一部分作为用户的家目录和备份用,由IBM DS5300 SAN存储构成,SATA磁盘阵列,裸容量128TB,双存储控制器,16GB共享缓存,16个4Gb光纤主机接口,4Gb光纤存储网络,做成两个GPFS文件系统、通过光纤接口分别连接到10个登录节点上,可提供2GB的I/O总带宽,用户家目录在登录节点上的路径为:/gpfssan1/home/username 或/gpfssan2/home/username

第二部分作为并行计算时的临时工作缓冲区,总共由20台IBM X3650 机架服务器组成: (1) Infiniband 存储网络数据传输带宽20Gb/s,连接集群系统中所有节点

(2) 配置成两个GPFS网络文件系统,挂接在10个登录节点和402个计算节点上,为每个

用户开辟一块tmp区挂接在家目录下,用户将需要并行计算的作业脚本、运行数据及有关程序拷贝到该区后,用bsub递交作业

(3) 20个存储节点分别命名为fnode01~fnode20,存储节点通过SAS卡与6块450GB SAS

盘直连,其中一块硬盘作为系统盘,另5块盘做成raid5磁盘阵列, 提供320Mb/s的IO带宽;通过Infiniband交换机与高速网络系统连接,组成1个gpfs文件系统,可提供6GB/s的I/O总带宽

存储节点上的挂载路径为:/gpfsTMP

2 软件

2.1 操作系统:

RedHad Linux 5.3 64 bits Enterprise Server Edition 编译软件:

Intel C 11.0、C++ 11.0、Fotran 11.0、MKL10.0库、OpenMPI、MPI3.2 Mpich 2.0

? ? ? ? ? ? ? ?

2.2 应用软件:(安装在 /gpfssan1/apps目录下) 1.Gaussian 03 2. VASP 4.6 3. AMBER 4. gromacs

5. Material Studio 3.作业管理系统与调度策略

南京大学高性能计算中心采用Platform公司的LSF资源调度软件对集群上的计算资源进行统一调度管理,用户提交作业时将统一使用LSF作业管理系统进行作业提交、管理、监控、删除、卸载等操作。

3.1 lsf 基本介绍

LSF HPC是智能化的、基于调度策略的高性能计算负载均衡管理系统,通过集中监控、调度和分析联网计算机的负载,LSF HPC可最大限度地共享计算机的CPU、内存、磁盘、License等计算资源。IBM HS22集群系统上安装集成了LSF HPC 7.0。 3.2 LSF作业生命周期流程 注:作业提交只可在登录节点c01n01….c01n10上 3.3IBM HS22集群系统的队列划分

常用的任务队列名称和说明见下表:

Qseq

用户作业为串行进程的提交队列。C02、C03、C04、C05和C06刀片中心的节点被调度,按照先进先运行策略调度

小规模应用作业队列。限制任务的进程数在2—8个进程,按照先进先运行策略调度,C11、C10、C09、C08、C07、C06、C05、C04、C03和C02刀片中心的节点被调度

中规模应用作业队列。限制任务的进程数在9—64个进程,按照先进先运行策略调度,

qmedium

C12、C13、C14、C15、C16、C17、C18、C19、C20、C21和C22刀片中心的节点被调度

qlarge

用户大作业队列,限制任务的进程数在9---512个进程,按照先进先运行策略调度,C30、C29、C27、C26、C25、C24、C23、C22刀片中心的节点被调度

qsmall

3.4 队列管理及其调度策略

? qlarge队列:

(1) 大作业调度队列,且CPU数目必须为8的整数倍;