山东地纬计算机软件有限公司 地纬容灾监控系统解决方案及使用说明书
地纬公司监控工作站INTERNETSCSI电缆主服务器备份服务器磁盘柜监控工作站主系统核心网络交换机备份系统业务工作站
图1:系统整体架构
第三节 备机接管原则
为了尽可能不影响业务的运行,减少用户的停业务时间,我们让备机系统并不是在主机出现的任何故障的情况下都接管主机的数据库系统。
在下面的情况下,备机不接管主机数据库,而是尽快通过人为干预方式恢复主机业务:
1. 主机服务器操作系统出现的故障,包括硬盘故障、操作系统软件故障。我们的
解决方式是,尽快用备用操作系统硬盘恢复。 2. 主机网卡、网络故障。
3. 主机服务器上的数据库出现故障,但是可以通过远程方式迅速恢复的情况。 在下面的情况下,备机系统需要接管主机系统的数据库:
4
山东地纬计算机软件有限公司 地纬容灾监控系统解决方案及使用说明书
1. 主机上的数据库系统所在的硬盘硬件出现问题。
2. 主机上的数据库系统软件出现问题,并且不能很快恢复。
第四节 服务器系统远程恢复方案
在用户的服务器系统发生故障后,为了快的完成用户服务器系统的恢复工作,减少技术人员在路途上耽搁的大量不必要的时间。我们结合我们的软件制定了服务器系统远程恢复方案。
4.1 服务器安装要求
为了更快更简单的恢复服务器操作系统,服务器应该按下面的要求进行安装: 先拿一块硬盘安装到服务器上安装好操作系统,然后把这块硬盘拆下来作为这台服务器操作系统的冷备份;再拿另一块硬盘也安装到服务器的同一个硬盘插槽中安装好操作系统。
最后,把剩余的硬盘做成RAID并添加到操作系统中,然后把数据库安装到这个RAID上的文件系统中。
这一过程如图2所示:
图2:服务器安装
5
山东地纬计算机软件有限公司 地纬容灾监控系统解决方案及使用说明书
4.2服务器发生故障后的远程恢复方案 4.2.1 单纯的数据库问题
当作为主机的服务器上的生产数据库发生问题时,我们首先通过远程方式看看能不能迅速修复,如果能迅速修复就立即修复好;如果不能迅速修复就先把备机数据库改变为生产库以保证用户业务的运行,然后我们通过远程方式把主机上的数据库基本系统修复或者重新安装好,最后再把备机上的数据重新同步到主机上,让主机系统再次成为生产数据库。
当备机上的备用数据库发生问题时,我们只需要远程把数据库基本系统修复或者重新安装好,然后再把主机上的数据同步到备机上即可。如图3所示:
6
山东地纬计算机软件有限公司 地纬容灾监控系统解决方案及使用说明书
监控机主机主机 备机 备机 客户端客户端 监控软件发现备机数据库发生问题监控机主机备机通过远程方式对备机数据库进行修复或者重新安装客户端 备机修复完成后,把主机数据库同步到备机上,系统恢复正常
图3:备机故障的处理
4.2.2 操作系统故障、或者是操作系统所在的硬盘故障
对于操作系统故障、或者是操作系统所在的硬盘故障,我们的解决方案是: (1) 首先把事先做好的操作系统冷备份硬盘替换到服务器上,然后通过远程把数据库系统启动起来,让用户的业务正常运行。
(2) 把出现问题的操作系统硬盘邮寄到我们公司,我们进行更进一步的检测。如果只是操作系统本身问题,我们就重新安装操作系统,再邮寄回用户方,作为操作系统的
7