LSF 简易使用手册 下载本文

内容发布更新时间 : 2024/11/19 1:44:58星期一 下面是文章的全部内容请认真阅读。

LSF(Load Sharing Facility)是由platform公司开发的分布资源管理工具。它用来调度、监视、分析联网计算机的负载,可以对Cluster机群的资源统一调度和监控。

一 LSF使用方法 1、设置环境变量:

用户使用LSF前,应设置相应的环境变量: csh用户,登录系统后执行 source /export/lsf/conf/cshrc.lsf bash用户,登录系统后执行 . /export/lsf/conf/profile.lsf

用户也可写入.cshrc或.bashrc,则登录后就能设置相应的环境变量。

2、提交作业

LSF 使用 bsub 命令来提交作业。 bsub 命令常见用法如下:

bsub –n z –q QUEUENAME –i inputfile –o outputfile COMMAND 其中z代表了提交作业需要的cpu数,–q指定作业提交到的队列, 创建时间:2006-12-12 15:54:00 1

如 果不采用–q选项,系统把作业提交到默认作业队列(作业队列详细介绍请看下一节)。inputfile 代表程序需要读入的文件名(例如 namelist等),outputfile 代表一个文件,作业提交后标准输出的信息将会保存到这个文件中。COMMAND是用户要运行的程序。 (1)对于串行程序COMMAND可以直接使用用户的程序名

例如,对一个运行时间12小时内完成的串行作业mytest, 提交方式为: bsub –n 1 –q QS_Norm –o mytest.out ./mytest

(2) 对于并行作业COMMAND为“–a mpich_gm mpirun.lsf 程序名” 因为并行作业必须用到MyriNET库,所以提交的时候必须使用 –a mpich_gm mpirun.lsf

例如对于一个12个小时内完成,使用16个cpu的并行作业mytest,提交方式为: bsub –n 16 –q QN_Norm –o mytest.out –a mpich_gm mpirun.lsf ./mytest 目前,系统规定每个用户最多只能使用16个cpu。

3、使用脚本提交作业

bsub 命令可以使用输入脚本多次提交具有相同参数的作业,格式为: 创建时间:2006-12-12 15:54:00 2

#BSUB –n Z #BSUB –q QUEUENAME #BSUB –o OUTPUTFILE COMMAND 该脚本的参数与命令行

“ bsub –n Z –q QUEUENAME –o outputfile COMMAND”参数相同。 提交时为 bsub < 脚本名

例如要提交一个12小时内完成,需要16个cpu的并行作业mytest,可以编写作业脚本 bsub.scriptfile #BSUB –n 16

#BSUB –q QN_Norm #BSUB –o mytest.out

–a mpich_gm mpirun.lsf ./mytest

作业提交方法为:bsub

二、LSF队列状况

LSF分了如下几个作业组:

1、长时间并行作业组(LSF管理)

(1) QL_Norm 队列 创建时间:2006-12-12 15:54:00 3

该队列用于运行长时间并行作业,作业不限执行时间。作业规模限制为:最多使用16个CPU。

2、串行作业组(LSF管理)

(1) QS_Norm 队列 该队列用于串行短时间作业,最长作业执行时间为 12小时。 (2) QS_Long 该队列专用于长时间串行作业,作业不限执行时间。

3、短时间并行作业组(LSF管理)

(1) QN_Norm 队列 该队列用于运行短时间并行作业,最长作业执行时间为12小时。 (2) QN_Debug队列

该队列用于调试或试算,最长作业执行时间为5分钟。

请用户根据自己的需求,选择适当的作业组进行作业提交。 附:队列命名潜规则

新的队列命名遵循一定的潜规则,下面详细解释队列名中各字母的含义: QL_Norm:Q代表queues;L代表long,表示该队列运行长时间并行作业; QN_Norm:Q代表queues;N代表normal,表示该队列运行短时间

并行作业;

QS_Norm:Q代表queues;S代表serial,表示该队列运行短时间串行作业;

QS_Long:Q代表queues;S代表serial,表示该队列运行串行作业;Long表示长时间运行; (同中科院网络中心 深腾6800)

三 查看作业状态和删除作业等 几个常用的指令:

bjobs 检查提交作业状态 bjobs bjobs -w

bjobs –r 显示正在运行的作业

bjobs –a 显示正在运行的和最近完成的作业 bjobs -p 显示等待运行的作业和等待原因 bjobs –s 显示正在挂起的作业和挂起的原因 bjobs -l 显示该作业的所有信息

bhist 显示最近完成作业或正在运行作业的历史情况 bhist

bkill 删除不需要的作业 bkill bkill –r

bpeek 当作业正在运行时显示它的标准输出,监视作业运行 bpeek

bqueues 显示队列信息 bqueues

bqueues –l

bhosts 显示各节点作业相关情况 bhosts

bhosts

lsload 显示各节点负载信息 lsload

lsload

lshosts处理各节点静态资源信息 lshosts

lshosts