云课堂主机当前比较多的是内存故障问题,一般由于长时间放置不使用,造成的内存条金手指或插槽氧化造成的接触不良。尤其在南方,学校暑假暑假结束后,高温高湿环境中,外加学校机房门窗紧闭,造成学校9月份开学时内存故障频发。在此充分描述了此类故障现象与处理方法。


故障诊断:

        现象一:开机后电源状态指示灯、风扇等无异常,当经过正常开机所需时间后教师机、终端都无法连接到云主机,也无法ping通云主机。将云主机后部分VGA接口接上显示器,显示器黑屏无输出。


        现象二:开机后有时能正常使用,有时开机后如“现象一”中所描述的现象,有时开机能正常使用但是使用过程中突然出现教师机与终端连接不上无法ping通。在以上过程中可能伴随出现系统异常指示灯(V1主机)或内存故障指示灯(V2主机)出现黄色(V1主机)或红色(V2主机)。在能正常使用时,登录web界面,如下图中的工具/数据收集中点击数据收集。保存文件名为“rcd_info_collect.tar.gz”的压缩包并解压,用写字板打开rcd_info_collect\bmc\bmc.log文件,此文件为系统bmc日志,看最近时间里面是否出现“Correctable ECC,Asserted”的ECC警告如下图 。

blob.png

                                              系统日志收集示意图

blob.png

                         bmc日志中出现ECC错误警告


        现象三:对于正常长时间使用的主机出现系统异常指示灯(V1主机)或内存故障指示灯(V2主机)出现黄色(V1主机)或红色(V2主机)警告等。登录web界面收集BMC日志,实际也有ECC错误警告。若是偶尔出现的一两次ECC错误,属于正常现象,无需过多关注。若连续、经常出现ECC错误,以致导致系统崩溃等如现象二中描述。则需要进一步采取措施。


处理步骤:

1)确认云主机的网线是否连接并正常使用,确认连接到云主机的VGA线以及显示器是否完好。

2)以上确认无异常后,很有可能是主机内存条出现故障。此时,将主机机箱拆开,拆除导风槽,拔出主机内存条,用橡皮擦将金手指逐一进行擦拭。清除内存条金手指上面的金属氧化层。

3)按照内存条的安装规则(注:文档前部分有V1、V2的内存条安装规则,随意安装可能主机无法运行造成无法排除故障,建议将内存条逐一拔插,避免忘记安装插槽)将内存条重新安装好。

4)装回导风槽后,将主机开机,看故障是否解除。基本上内存故障,通过以上操作方法,绝大部分皆可解除。

5)若故障仍未解除,可以逐一增加内存条的方式进行重复开机测试。可以逐一排除可能出现故障的内存条。可以通过多次拔插确认内存本身故障后可以联系浪潮进行故障内存条更换。

6)若故障仍无法解除,可以进行清除主板CMOS(见CMOS清除部分操作说明部分)操作。此时故障还未解除,可以直接联系浪潮进行故障深层次定位更换对应部件。

7)对于“现象三”中ECC报错,通过观察BMC日志,如果偶发的一两次(即基本记录就一两条,之前与之后再无此记录),一般不会影响正常使用。可以不用理会。但对于经常出现该警告记录甚至导致系统崩溃的问题时,需要按照前面部分进行金手指擦拭处理等工作。此时出现ECC故障的内存条槽位,对于V2主机,一方面BMC日志中会有对应槽位标注,另一方面主板对于槽位旁边会有红色指示灯亮。只需将对于插槽内存条取出进行金手指擦拭处理。若处理后仍有此故障,包括进行内存调换后扔有此故障。基本可以断定内存条出故障,需要找400进行故障内存条更换。