互赢站网络兼职能提交几次slurm 任务提交截图?

写下自己的关于slurm感悟一二

与各人pc鈈同slurm的基本架构是,一个中专节点之后有很多局域网ip对应不同的计算节点,在中专节点敲命令命令中可以指定需要用到哪些计算节點

slurm最基本的命令是srun,比如上面一行是指定-p分区-w节点名称运行一个run.py的文件,当然还有更高级的指定gpu的数量和指定进程的数量

比如上面的命令,--gres=gpu:8表示每个节点上用几个gpu-n表示有多少个进程,一般多线程的时候用到多卡的时候会这么操作

比如上图,我运行了ipython命令然后我用squeue -u +峩的用户名,查看了一下我的slurm 任务提交占据的节点的名称分区jobid等等,这个命令的主要作用还是有时候机器用完的时候排队用机器,看看排队情况或者是不指定节点名称的时候(刚刚我们说的-w指定节点名称,实际上也可以不指定这个时候slurm系统自动分配),看看节点名稱是多少方便后续操作

因为放到了cuda里面,确实占用一定的显存

查看内存或者是gpu的使用的时候可以使多个节点一起看,中间用逗号隔开即可

}

本博客通过VMware workstation创建了虚拟机console然后茬console内部创建了8台kvm虚拟机,使用这8台虚拟机作为集群来部署配置和测试slurmslurm 任务提交调度系统。
console虚拟机配置为:4核心CPU8G内存,20G系统盘安装OS20G数據盘挂载到/opt,10G数据盘挂载到/home一块NAT网卡模拟带外,一块Host only网卡模拟专用内网

在使用console部署8台kvm虚拟机之后需要做一下操作:

  • 部署console为LDAP服务器,能夠实现全局用户认证

上面这部分内容涉及较多如VMware workstation部署虚拟机console,console虚拟机部署kvm虚拟机创建并挂载NFS全局文件系统,console到多节点的免密码登陆NTP囷LDAP服务部署等,这里不做一一详述

将该命令写入定时slurm 任务提交:

slurm-16.05.3(该软件包因为安全漏洞问题,已经无法下载可下载其他版本)

我希朢munged在运行的时候,以root用户的身份运行(默认是munge用户)此时需要修改配置。

这里munge.key可以手动创建但是必须保证其内容在32个字节以上,且文件权限为600方可

假如这三个目录为全局目录即安装在/opt上的话,则节点不能够同时启动munged

  • state:用户存放作业状态的目录
#slurm主控制器主机名 #slurm从控制器主机名 #slurmd节点守护进程用户 #slurmd节点守护进程端口 #slurmslurm 任务提交状态保存目录 #slurmd守护进程日志保存 #slurmctld控制器守护进程的日志存放全局文件系统 #slurmd节点守护進程的日志文件,节点本地 #slurm运行插件的路径 #采用slurmdbd守护进程进行存储 #运行slurmdbd进程的节点主机名 #资源配置包括节点配置,队列(分区)配置等

夲博客中只是对slurm部署做了最基本的配置和测试。
在部署过程中遇到两个比较棘手的问题:

1.munge编译过程中的没有安装mysql-devel环境,导致在编译slurm的時候不能够编译相应的插件
2.在所有环境部署好之后,通过sinfo发现有6个节点总是drain状态
这个状态表示节点通过slurmd获取的节点配置和配置文件中嘚不相同,尤其是节点的CPU的参数最后通过重新配置参数,然后清空state目录下的所有文件同事修改log目录权限为777 解决。

在下一篇博客中将會对slurm一些具体的功能做测试

}

我要回帖

更多关于 slurm 任务提交 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信