第3章 典型故障案例
北京马连道机房RNC3有3个RCB板不能正常运行 【原因分析】
在RCB后面插上后插板,连超级终端检查发现如下打印消息: Attached TCP/IP interface to fei2. Succeed Set fei2 to 100M|FD. Attaching network interface lo0... done. Booting from network Loading... Error loading file: errno = 0x3c. Can't load boot file!! 正常的为:
Attached TCP/IP interface to fei2. Succeed Set fei2 to 100M|FD. Attaching network interface lo0... done. [BSP]:NOR-Flash Detected... [BSP]:Creat tffs device for /DOC0
[BSP]:/DOC0 has been successfully initialized. WatchDog Task Start...
/DOC0/ - disk check in progress ...
【故障解决】
判断三块RCB硬件故障,现场通过更换flash子卡后,单板可以正常运行,基本可以确认子卡有问题。
19
课程模块代码 RRU处理规范
3.2.5 CLKG板状态为CATCH
【故障现象】
北京马连道机房RNC6 1架-2框-14槽的CLKG板状态为CATCH,13槽位的时钟板状态正常。 【原因分析】
经过对比正常的板子发现故障CLKG板的跳线少一个(X45),接好后正常。但根据硬件手册,X45的作用如下:
X40 X41 X44 X45 BITS时钟第一路 2 M bps、2 M Hz匹配阻抗选择 短路1、2脚,表示匹配阻抗为75 Ω 短路2、3脚,表示匹配阻抗为120 Ω 短路1、2脚
3.2.6 GLI单板插光纤后不能启动
【故障现象】
厦门RNC2的2架4框3槽位GLI单板启动不成功。观察启动过程发现GLI在上电复位时面板灯ACT,ALM,ENUM,RUN等长亮一段时间后熄灭,然后RUN灯快闪,过段时间RUN,ACT灯长亮,再然后就单板复位重启。 【原因分析】
发现故障现象后,查询单板的异常记录,发现CPU的负荷达到100%,然后单板就被复位。准备把单板拔下来时,在拔掉光纤的时候发现单板启动成功,RUN灯慢闪,ACT灯亮,查看后台发现当前无告警。后来再尝试,发现拔掉任一对光纤,都能启动成功,但如果配置的几对光纤同时都连接好,复位后就不能启动完成。怀疑是板上子卡问题。 【故障解决】
将单板的上下子卡互换位置后单板恢复正常,再将两个子卡恢复成原位后,故障现象没有复现。估计是子卡没有插紧导致。
3.2.7 GIPI无法正常启动
【故障现象】
20
第3章 典型故障案例
北京马莲道RNC某RNC出现GIPI单板异常告警,同时单板运行指示灯,告警指示以及PWR指示灯等指示灯长亮一段时间然后熄灭,然后单板复位重启。 【原因分析】
从指示灯长亮情况来看,单板上电后无法下载版本,因此原因可能是单板本身启动异常,GIPI与ROMB单板通信异常。因此将RGIM后插卡插入GIPI的后背板槽位,通过串口信息观察GIPI单板在启动过程中的打印信息。在GIPI上点过程中有如下打印:
======== IXP23XX BOOT START ========= boot type = 0x00000002
configuration register 0 = 0x8066B02E xsi memory init.................done! cpp memory init.................
观察打印消息中在做CPP 内存初始化不能正确完成,导致单板复位重启,因此怀疑为内存初始化失败或主板故障 【故障解决】
将该单板的内存和别的GIPI单板内存更换,更换内存后启动单板故障现象依旧,因此判断为单板故障,将该单板更换至别的槽位故障复现,更换单板后解决
3.2.8 UIMU每隔1小时主备倒换
【故障现象】
某局RNC15UIMU单板每隔1小时左右主备切换,历史告警如下
SUBNET15,RNC15,1/3/9,CPU1 SUBNET15,RNC15,1/3/10,CPU1 SUBNET15,RNC15,1/3/10,CPU1 SUBNET15,RNC15,1/3/9,CPU1 SUBNET15,RNC15,1/3/9,CPU1 SUBNET15,RNC15,1/3/10,CPU1 单板和归属模块之间的控制面通讯异常(8393985) 主备单板通信链路断(5122) 单板和归属模块之间的控制面通讯异常(8393985) 主备单板通信链路断(5122) 单板和归属模块之间的控制面通讯异常(8393985) 主备单板通信链路断(5122) 2008-09-16 09:08:56 2008-09-16 09:08:46 2008-09-16 08:03:57 2008-09-16 08:03:47 2008-09-16 06:58:59 2008-09-16 06:58:49 【故障分析】
查询系统异常日志,10槽位UMIU有如下打印:
21
课程模块代码 RRU处理规范
###:2008-09-16 08:03:43 02102 SCH9,SCS_RTMgt: Ctrl Link Err ChangeOver UIM,tSlotCtrlPortInfo.aucCtrPortNum[13] = 1 and ucSlotCrtlPortOKNum[13] = 0. ###:2008-09-16 08:03:43 02000 SCH9,SCSMCProc: M2S change over finished, reason is 157.
###:2000-01-02 08:00:00 01000 SCH4,ExcRecAgent: **********Board Start**********
###:2000-01-02 08:00:00 01011 SCH4,ExcRecAgent: ExcLog:The link road of ExcInfo is INIT!
###:2000-01-02 08:00:10 01008 SCH9,OSS_ClockConfi:
Task: SCH9, Proc 0x8130001(msgId:1852) set time, The Error-value between set-time and
OSS-time
Larger
than
300
sec,
after
system
start
10
sec,
OSS-current-time(Greenwich) is 86410 sec, set-time(Greenwich) is 274838691 sec, time-zone is 480.
###:2008-09-16 08:04:51 01000 SCH9,OSS_ClockConfi:**ClockConfig power on succeed,already send success ack to scsMc**
###:2008-09-16 08:04:51 01000 SCH9,OSS_ClockConfi:**********Exact system time is recorded from now on**********
###:2008-09-16 08:04:52 01008 SCH8,OSS_Config: Config process power on succeed! ###:2008-09-16
08:04:52
05000
SCH6,Brs_L2fwdtbl:
BRS::L2fwdtblUimInitPhyInfo Shelf= 3 Rack= 1 GroupNo= 137
###:2008-09-16 09:08:42 02000 SCH9,SCSMCProc: S2M Change over finished, reason is 157.
###:2008-09-16 09:08:42 02000 SCH9,SCSMCProc: MCM Rcv EV_MATE_ERROR in state 1, msg 3.
###:2008-09-16 09:08:46 02000 SCH9,SCSMCProc: MCM Rcv EV_MATE_ERROR in state 1, msg 1. 9位UIMU的异常打印如下:
22