天河二号简明使用手册V1.2 - 图文

天河二号简明使用手册

计算开始后,工作目录中会生成以slurm开头的.out 文件为输出文件。 更多选项,用户可以通过yhbatch --help命令查看。

5.5 结点资源抢占命令yhalloc

5.5.1 简介

该命令支持用户在提交作业前,抢占所需计算资源(此时开始计算所用机时)。

5.5.2 使用示例

yhalloc提交方式如下:

首先申请资源,执行如下命令:

通过yhq查看相应的jobID 为391753,结点为cn1483.

用户可以选择如下方式:

切换到cn1483结点,之后执行程序。

5.6 任务取消yhcancel

用户使用yhcancel命令取消自己的作业。命令格式如下: yhcancel jobid

jobid可通过yhq获得。对于排队作业,取消作业将简单地把作业标记为CANCELLED状态而结束作业。对于运行中或挂起的作业,取消作业将终止作业的所有作业步,包括批处理作业脚本,将作业标记为CANCELLED状态,并回收分配给作业的结点。一般地,批处理作业将会马上终止;交互作业的yhrun进程将会感知到任务的退出而终止;抢占结点资源的yhalloc进程不会自动退出,除非作业所执行的用户命令因作业或任务的结束而终止。但是在作业被取消时,控制进程都会发送通知消息给分配资源的yhrun或yhalloc进程。用户可以选择通过yhalloc的--kill-command选项设置在收到通知时向所执行的命令发送信号将其终止。

15

天河二号简明使用手册

6 常见上机问题(FAQ)

? VPN账号连接成功,但是终端工具连接不了天河二号。

若出现该现象,首先请查看您的电脑是否安装360卫士、安全卫士等软件,若安装了请先将软件关闭,再重新连接VPN;若上一步完成后仍无法连接,请ping 系统IP,查看丢包率,若丢包率很高则是您的网速导致,若丢包率低,则请联系中心相关人员排查。

? “ls”等访问文件夹操作很慢。

出现“ls”等访问文件夹操作慢的原因主要有3个:一是网络慢,网络时延大;二是有大量的IO操作正在进行,造成IO阻塞;三是该文件夹下的文件过多(有成千上万个文件)。若是原因一和二,通常等一段时间后即可恢复正常;若是原因三,则需用户将自己文件夹下的文件分开存放。

? 重新生成Private Key。

Private Key可以重新生成,用户在登录天河二号系统后,按照如下步骤操作 第一步: $ cd ~/.ssh $ tar cvf bak.tar * 第二步:

$ ssh-keygen -t rsa(一直输入回车) $ cd ~/.ssh

$ cp id_rsa.pub authorized_keys $ chmod 600 authorized_keys $ chmod 700 -R .ssh 第三步:

将id_rsa(Private Key linux系统版)的内容复制到本地的文本文件中,新建一个终端用此新文件用作Private Key文件登陆。若登陆成功则新的Private Key生成成功。若不成功,重复第二、三步操作。若多次操作不成功,请解压第一步中生成的压缩包($ tar –xvf bak.tar),并使用旧Private Key登陆。

? 提交作业报“Invalid partition name specified”。

报该错时,建议用户先用“yhi”查看是否可以看见自己所在的分区。若无法看见分区,

16

天河二号简明使用手册

则是您的机时已到限制.。

? 提交作业报“Failed to allocate resources: User's group not permitted to use this

parti

>>灞曞紑鍏ㄦ枃<<
12@gma联系客服:779662525#qq.com(#替换为@)