逐步排查 硬盘检测失败故障分析与实战解决
电脑故障提供关于逐步排查 硬盘检测失败故障分析与实战解决的解决办法
为了将大量多媒体文件放到网上去发布,单位最近新买了一台HP ProLiant DL385服务器,同时购买了一台HP Smart Array 500 G2磁盘控制阵列卡,配置了10块容量为146GB的1万转SCSI硬盘,现在笔者打算将这10块SCSI硬盘做成RAID 5,以便让磁盘阵列系统担负起保存大量多媒体信息的任务。想到做到,笔者迅速将服务器机箱外壳打开,然后将HP Smart Array 500 G2磁盘阵列卡小心翼翼地插入到服务器主板的PCI插槽里,接着把SCSI数据线缆的一头与磁盘阵列卡连接,另外一头与插满10块SCSI硬盘的磁盘控制阵列柜直接连接; 接下来接通磁盘控制阵列柜电源,等到其中的所有硬盘信号灯闪烁状态稳定后,再接通服务器主机电源,这样一来服务器就会自动开始执行检测操作。
在检测过程中,笔者发现Windows系统先是识别到了安装在插槽1位置处的磁盘阵列卡,之后又对其中的硬盘进行了初始化扫描操作,但是当扫描操作结束后,笔者发现安装在磁盘控制阵列柜中的所有硬盘信号灯都变成了红色,同时系统还弹出提示说检测不到逻辑硬盘和物理硬盘。笔者不放心,重新启动了一下计算机系统,并在启动过程中及时按下了F8功能键,进入到磁盘阵列参数配置界面,并在其中执行了查看逻辑盘命令,可是系统依然提示没有找到可用的逻辑硬盘,看来安装在磁盘控制阵列柜中的10块SCSI硬盘真没有被系统识别到。
考虑到10块SCSI硬盘是通过磁盘控制阵列柜来与计算机相连的,只要任意一块硬盘发生损坏,或者SCSI信号线缆、磁盘控制阵列卡中的任意一个损坏的话,都会导致计算机系统无法检测到硬盘。为了消除硬盘检测失败故障,笔者只好从可能的因素着手,来对多方面因素进行逐步排查:
首先笔者将连接磁盘控制阵列柜与安装在计算机PCI插槽中的阵列卡的SCSI线缆拔了下来,然后将该线缆的一端直接与计算机主板中的SCSI端口相连,而不与磁盘阵列卡相连,另外一端仍然与磁盘控制阵列柜相连,然后接通计算机电源,让Windows服务器系统重新对硬盘进行检测扫描,结果笔者发现所有的SCSI硬盘都能被Windows服务器系统正确扫描识别到,同时屏幕上还显示出每块硬盘的详细参数信息,包括硬盘的生产厂家、具体型号、容量大小以及所用的SCSI标识号,这样的结果至少能表明SCSI连接线缆是正常的,而且磁盘控制阵列柜的工作状态也是正常的。
在排除了磁盘控制阵列柜与SCSI信号线缆因素后,下面笔者又将排查的重点“锁定”在磁盘控制阵列卡上。为了检验磁盘控制阵列卡究竟有没有发生损坏,笔者特意向其他部门临时借用了一块工作状态正常的HP Smart Array 500 G2磁盘阵列卡,来将计算机原配的磁盘阵列卡替换掉;可是,当笔者用SCSI信号线缆将工作正常的磁盘阵列卡与磁盘控制阵列柜直接连接起来,并接通计算机电源后,发现Windows服务器系统在检测扫描硬盘时,仍然发生了失败故障,而且故障症状与先前产生的症状几乎是一模一样,到了这里笔者基本认定磁盘控制阵列卡也没有任何问题。既然磁盘控制阵列柜、阵列卡以及SCSI信号线缆都没有问题,那安装在磁盘控制阵列柜中的10块SCSI硬盘,为什么不会被Windows服务器系统正确扫描、识别到呢?
经过上面的逐步排查后,现在导致硬盘检测失败故障的唯一可能因素就是有部分硬盘发生损坏了;为了验证自己的猜想,笔者将安装在磁盘控制阵列柜中的所有硬盘全先拔了出来,然后重新在磁盘控制阵列柜中只安装一块硬盘,并接通计算机电源进行扫描测试,结果发现Windows服务器系统竟然能够扫描识别到该硬盘。按照相同的操作方法,笔者又在磁盘控制阵列柜中新增加了一只硬盘,并接通计算机电源进行扫描测试,测试结果也是正常的;依此类推,当笔者加入第六块硬盘进行测试时,发现Windows服务器系统又找不到硬盘了;当将第六块硬盘排除在外,同时依次加入其他硬盘继续测试时,发现测试结果都很正常。
到了这里,笔者基本认定安装在磁盘控制阵列柜中的10块SCSI硬盘,之所以不能被Windows服务器系统扫描识别到,是因为第六块硬盘自身存在硬件故障,导致了与它安装在一起的其他硬盘都不能被系统识别到;当将该故障硬盘剔除掉,或者重新更换新的硬盘替换故障硬盘后,安装在磁盘控制阵列柜中的10块SCSI硬盘又能被系统全部扫描检测到了。