手把手教你更换VNX5100的控制器SP
更换控制器SP相对于其他常见冗余部件,如硬盘,电源等来说,还是有点技术难度的。搞不好,就把系统搞down了。下面是一个标准的SP更换流程,供朋友们参考。 从大的方面来讲,更换SP主要由下面的6个步骤组成:
1. 找到有故障的SP。不要以为这个是吹毛求疵,历史上发生过很多的悲剧就是工程师直接
把好的那个SP给断电了,然后业务就停了; 2. 关闭故障SP的电源; 3. 更换SP
? 线缆标记,然后拆下和该SP相连的各种线缆或者电源线; ? 物理上卸下该SP;
? 把一些非SP部件从故障的SP上转移到新更换的SP上。如:
1) 电源 2) 内存模块
3) IO模块,如果没有IO模块,要把IP挡板转移过来. ? 将新的SP安装到存储系统机柜中; ? 根据线缆标记,重新连接线缆. 4. 检查SP的各种LED灯指示; 5. 检查系统运行状态。 6. 再次检查系统硬件状态。
好了,下面详细介绍一下上述6个步骤的详细操作步骤: 1. 检查系统故障部件
检查系统硬件故障最简单的办法就是使用Unisphere图形化工具, 这个怎么使用就不介绍了。在WEB界面中System > Hardware > Storage Hardware。如果有硬件故障,在这里就可以看到故障报警。
建议使用USM来做一个系统的健康检查,确认故障点并看看是否还有其他故障。USM是Windows的一个GUI管理工具,这里不在详细介绍了。 2. 关闭SP电源
在给SP下电前,要检查和执行failover以及LUN的trespass。确保业务顺利切换到partner的SP上,否则会引起DU,也就是业务不可用。
不同的OE版本,在对SP下电前的操作稍有不同,所以,在下电前的第一步是确定当前系统运行的OE版本。
使用Navisphere CLI来确定当前运行的VNX OE版本:
naviseccli -h
如果OE版本是R31.008或者更低的版本,需要完成下面的两个工作:
1) 将系统的write cache disable
首先显示和确认一下当前Write cache的状态:
naviseccli -h
naviseccli -h
关闭有故障SP部件的电源,这里不是直接把电源线,而是通过命令行来关闭。该命令一定是从对端的SP来发出。如你要关闭SP A的电源,则登录到SP B来运行CLI名来来关闭A的电源。从下面的名来也可以看出来,shutdown的是peer的SP。
naviseccli -h
为确保电源已经关闭,可以使用ping命令来查看一下是否还能ping通。
如果OE版本是R31.011 或者以上版本,不需要disable write chache,直接关闭SP的电源。
3. 更换SP部件
SP A和SP B的命名规则如下,从机柜后面来看,位于左边的SP B,右边的是SP A,如果从机柜前面来看,刚好相反,左边是SP A,右边是SP B,这个不要搞错呀,拔错SP麻烦就大了。
下面是详细步骤,供参考:
1) 对所有的线缆做标签,这个很重要,不要以为你脑子好使,能记住。和SP相连的线
缆有电源线,SPS的传感器线,一些管理使用的LAN或者和后端磁盘相连的SAS线以及前端端口连线等。
2) 依次把上述线缆从SP上拆下来。 3) 从SP从DPE中拆下来
如下图所示:
最下面有两个桔色的把手,如上图所示的方向打开该把手。然后向外拉动,SP就可以从DPE中抽出来了。 4) 交换部件
将故障SP上的一些部件转移到新的要更换的SP上,主要有电源、内存条和一些IO模块。
电源的转移是比较容易的,如下图所示,从故障SP上拆下电源模块。搬动桔色把手,然后抽出电源。
转移内存条一样,如下图拆下内存条:
同样,我们把刚拆下来的电源和内存条安装到新的SP上,安装方法就不在详细叙述,很简单的。
下面还需要把IO模块转移到新的SP上,同样,先从故障SP上拆下IO模块,如下图所示:
至此,已经转移完毕了所有其他部件。然后,将SP插入到存储系统中,并按照以前的线缆标记连线。
4. 检查SP的各种指示灯
一般SP的reboot需要10分钟左右的时间,这时候SP上的故障指示灯和电源指示灯会显示各种状态,请仔细观察,不要着急,等SP的故障指示灯熄灭以及电源指示灯常亮后系统才进入正常状态。下图是SP的指示灯位置,供参考:
SP成功启动后,系统会trespass会以前的LUN。如果没有自动trespass,需要手工干预一下。
5. 检查系统工作状态
对于OE版本在R31.008以下的系统,要首先enable write cache。对于高于这个版本的系统,不需要这个步骤。
进入Unisphere,再次检查系统工作状体,检查硬件状态。 6. 再次检查系统健康状态
使用USM运行Health check wizard,对系统进行一次彻底检查。