天河二号简明使用手册V1.2 - 图文

天河二号简明使用手册

计算开始后,工作目录中会生成以slurm开头的.out 文件为输出文件。 更多选项,用户可以通过yhbatch --help命令查看。

5.5 结点资源抢占命令yhalloc

5.5.1 简介

该命令支持用户在提交作业前,抢占所需计算资源(此时开始计算所用机时)。

5.5.2 使用示例

yhalloc提交方式如下:

首先申请资源,执行如下命令:

通过yhq查看相应的jobID 为391753,结点为cn1483.

用户可以选择如下方式:

切换到cn1483结点,之后执行程序。

5.6 任务取消yhcancel

用户使用yhcancel命令取消自己的作业。命令格式如下: yhcancel jobid

jobid可通过yhq获得。对于排队作业,取消作业将简单地把作业标记为CANCELLED状态而结束作业。对于运行中或挂起的作业,取消作业将终止作业的所有作业步,包括批处理作业脚本,将作业标记为CANCELLED状态,并回收分配给作业的结点。一般地,批处理作业将会马上终止;交互作业的yhrun进程将会感知到任务的退出而终止;抢占结点资源的yhalloc进程不会自动退出,除非作业所执行的用户命令因作业或任务的结束而终止。但是在作业被取消时,控制进程都会发送通知消息给分配资源的yhrun或yhalloc进程。用户可以选择通过yhalloc的--kill-command选项设置在收到通知时向所执行的命令发送信号将其终止。

15

天河二号简明使用手册

6 常见上机问题(FAQ)

? VPN账号连接成功,但是终端工具连接不了天河二号。

若出现该现象,首先请查看您的电脑是否安装360卫士、安全卫士等软件,若安装了请先将软件关闭,再重新连接VPN;若上一步完成后仍无法连接,请ping 系统IP,查看丢包率,若丢包率很高则是您的网速导致,若丢包率低,则请联系中心相关人员排查。

? “ls”等访问文件夹操作很慢。

出现“ls”等访问文件夹操作慢的原因主要有3个:一是网络慢,网络时延大;二是有大量的IO操作正在进行,造成IO阻塞;三是该文件夹下的文件过多(有成千上万个文件)。若是原因一和二,通常等一段时间后即可恢复正常;若是原因三,则需用户将自己文件夹下的文件分开存放。

? 重新生成Private Key。

Private Key可以重新生成,用户在登录天河二号系统后,按照如下步骤操作 第一步: $ cd ~/.ssh $ tar cvf bak.tar * 第二步:

$ ssh-keygen -t rsa(一直输入回车) $ cd ~/.ssh

$ cp id_rsa.pub authorized_keys $ chmod 600 authorized_keys $ chmod 700 -R .ssh 第三步:

将id_rsa(Private Key linux系统版)的内容复制到本地的文本文件中,新建一个终端用此新文件用作Private Key文件登陆。若登陆成功则新的Private Key生成成功。若不成功,重复第二、三步操作。若多次操作不成功,请解压第一步中生成的压缩包($ tar –xvf bak.tar),并使用旧Private Key登陆。

? 提交作业报“Invalid partition name specified”。

报该错时,建议用户先用“yhi”查看是否可以看见自己所在的分区。若无法看见分区,

16

天河二号简明使用手册

则是您的机时已到限制.。

? 提交作业报“Failed to allocate resources: User's group not permitted to use this

partition”。

用户提交作业时通常需要加“-p 分区名”这一参数,同时该参数应写在程序名前。分区可用“yhi”来查看所在分区。

? 采用yhrun提交作业,关闭界面后,再次登录时发现作业被killed。

yhrun是交互式提交作业模式,一旦作业提交的界面关闭作业就会被killed。若需要较长时间运行的作业,建议用户采用yhbatch批处理提交方式。yhbatch负责资源分配,yhbatch获取资源后会在获取资源的第一个结点运行提交的脚本,当前登陆shell断开后,加载作业仍可正常运行。

? 采用yhbatch提交多结点作业失败的原因。

采用yhbatch提交作业首先进行的是分配资源,因此对于多结点作业,采用yhbatch提交时应在提交命令中指定-N参数,即提交命令是“yhbatch –N nodenum –n pronum –p pardition job.sh”。

? 计算结点无法登陆。

目前我们对计算结点做了限制,除非用户分配了计算结点,否则无法登陆。用户若想登陆计算结点再算题,首先需要用yhalloc分配结点,方可登陆结点算题。

? yhalloc分配资源,退出yhalloc后发现作业断掉。

yhalloc与yhbatch最主要的区别是,yhalloc命令资源请求被满足时,直接在提交作业的结点执行相应任务,适合需要指定运行结点和其他资源限制,并有特定命令的作业。当当前登陆shell断开后,申请获得的资源以及加载作业任务会退出。

? 如果遇到一些作业报错,应该如何临时处理?

较为常见的报错如:“No enough endpoint resources”,“Job credential expired”,“bus error”,用户可以通过日志找到相关的报错结点,在提交作业命令中使用参数“-x 结点名称”剔除掉问题结点重新进行作业提交,如“-x cn1”表示在我申请的资源中不使用cn1这个结点。如遇到相关报错问题也希望您能及时与我们进行联系,并提供您的报错日志信息,以便我们进行有效的分析和处理。

? 如果遇到一些作业运行时报库无法找到,如何处理?

用户可通过locate命令查找相应的库,并将在/HOME或/WORK目录下的对应的库路径加入环境变量PATH中。

17

天河二号简明使用手册

? 天河二号作业提交模式。

目前天河二号系统采用独占式作业提交模式,即作业一旦提交到计算结点,则该结点被您独占使用。也就是说,一旦作业提交到计算结点,即使该结点的CPU核没有用满,其他的作业也无法再提交上去。

? 作业退出后仍显示CG状态,是否影响作业退出?

CG状态是作业退出时,部分结点上的进程没有完全停止导致,并不影响作业的正常退出。

? 作业完成退出时显示部分进程被killed,然后退出。

这种情况下,用户首先应检查所需的输出是否已正常输出完成。导致这种情况出现的原因是有部分进程先完成了计算而提前结束,而当一个作业的部分进程结束,系统默认为作业已完成,在一定时间内其他进程若不结束,则会被强制结束。

? /tmp文件夹无法写问题。

由于/tmp文件夹不能自动删除文件,为/tmp文件夹写入的文件过多而导致内存减小,从而影响作业运行效率,我们对/tmp文件夹的权限进行了限制,普通用户没有写的权限,建议用户重新指定临时文件存储路径。若用户的作业一定要用到/tmp文件夹,请与中心相关人员联系。 同时,无需使用/tmp文件夹的用户提交作业,发现log中输出了“TMPDIR [/tmp] is not writeable”和“Setting TMPDIR to /tmp”两句话,也请不用担心,这不影响作业的正常运行。

18

联系客服:779662525#qq.com(#替换为@)