中科曙光智算平台的使用

中科曙光智算平台的使用本文讲述了如何在曙光智算平台上配置 Python 环境 使用 SLURM 调度资源 编写并提交作业 以及解决 Keras 查找问题的过程

大家好,欢迎来到IT知识分享网。

曙光智算平台的初使用

最近得到了中科曙光服务器的免费体验资格,也是第一次用服务器跑深度学习 (穷啊,买不起服务器,实验室又不给配),记录一下这个入门过程。

使用入门

添加链接描述
在这里插入图片描述
进入命令行模式:
在这里插入图片描述
应该是也可以界面操作
进入后就按照linux环境下配置python环境,但不要在这里运行,这里是登录节点,不是计算节点,要使用sbatch提交作业到计算节点进行模型训练。
具体操作可以参考:
曙光智算入门手册
其通过slurm管理计算资源的调度,这个暂时不重要不用管
在这里插入图片描述
这里默认配置好了深度学习程序的运行环境,就是安装anaconda,pytorch或者tensorflow等框架,然后在工程文件夹下建立一个脚本,比如:run.sh, 通过配置这个脚本来提交作业。
比如:

#!/bin/bash #指定作业提交的队列 #SBATCH -p kshdsctest #指定作业申请的节点数 #SBATCH -N 1 #指定每个节点运行进程数。 #SBATCH --ntasks-per-node=32 #指定任务需要的处理器数目 #SBATCH --cpus-per-task=1 #指定每个节点使用通用资源的名称及数量 #SBATCH --gres=dcu:4 #作业名称,使用squeue看到的作业名 #SBATCH -J ceshi #指定作业标准结果输出文件名称 #SBATCH -o output.txt #指定作业标准错误输出文件名称 #SBATCH -e error.txt #添加环境变量 #export MIOPEN_DEBUG_CONV_IMPLICIT_GEMM=0 PYTHON_HOME=/public/home/ac4r2lhqwl/miniconda3/envs export PATH=$PYTHON_HOME/bin:$PATH source ~/miniconda3/bin/activate conda activate test #加载本地环境  module load compiler/rocm/dtk-22.10.1 #运行程序 python3 run.py 

PYTHON_HOME的路径换成自己的,加载本地环境的时候可以使用

module avail 
  1. 提交作业
sbatch run.sh 

在这里插入图片描述

  1. 查看作业
squeue 

在这里插入图片描述
3. 如果作业停了可能是程序有错误或者配置有错误,通过 cat error.txt查看
4. 实时查看输出通过tail -f output.txt查看,output.txt是在sh文件中配置过的
5. 取消作业

scancel 作业号 (JOBID) 

终于跑起来了
在这里插入图片描述

踩坑记录

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/154501.html

(0)
上一篇 2025-02-25 17:05
下一篇 2025-02-25 17:10

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信