作业提交相关

July 27, 2023 · 4 min read

常见的作业运行失败有以下几种:

1. 作业提交失败，没有作业号?

作业提交命令或作业脚本中的参数有误，检查错误，修改为正确参数后重新提交任务。

作业提交的资源（cpu核心或GPU卡数）超出整体集群最大资源数或超出分区（队列）的最大资源数。修改作业资源（CPU核心或GPU卡数）后重新提交任务。

缺少lib库文件，在运行软件的安装目录下查找lib,查到后设置lib库文件的调用环境；或联系管理员进行安装lib库文件；缺少或找不到cudnn.x库，x为cudann版本；查看cuda版本以及相关cudnn版本，加载正确版本的CUDA环境。

在windows操作系统中编辑的作业脚本，上传到Linux系统，提交作业时出现编码问题，使用dos2unix进行转换编码，转换命令为：dos2unix filename

作业运行失败后会生成-e 参数和-o参数的log文件，通过查看这些log文件判断作业失败的原因。

环境配置问题，典型问题包括hosts不完整、系统时间不一致、slurm配置文件不一致。此时，出问题的节点可能是comp节点本身，也可能是其它参与消息转发的其它计算节点。

解决方法：统一检查所有节点的上述配置，并对出问题的节点进行修正，或者关闭该节点的slurmd服务。

解决方法：结合系统日志和其它工具，定位问题并修正。

可以执行以下命令恢复节点状态，使得作业完全退出。具体步骤：

scontrol update nodename=<node name> state=down reason=comp

scontrol update nodename=<node name> state=resume
systemctl restsart slurmd

Slurm支持重新安排处于完成或失败状态的job，可以使用命令：scontrol requeue job_id 然后，该job将被重新排队，回到 PENDING 状态