希望有一些更有知识的人可以指点我在正确的方向请!
有一个服务器的问题,我相信它可能与RAID控制器\背板\电缆有关,但寻找一些build议。
这里是细节 –
服务器 – 戴尔Poweredge R410存储 – 250GB RAID 1arraysRAID控制器 – Dell SAS IR / 6(LSI Logic SAS1068)操作系统 – Ubuntu服务器14.04(x64)
问题总结 –
最近服务器已经开始内核恐慌,需要重启才能恢复服务。 偶尔看到“拒绝离线设备的I / O”login到TTY输出。 我相信底层存储会间歇性地脱机,有时会导致操作系统内核崩溃。
RAIDarrays是健康的并且同步 –
ioc0 vol_id 0 type IM, 2 phy, 232 GB, state OPTIMAL, flags ENABLED ioc0 phy 1 scsi_id 1 ATA WDC WD2500AAJS-7 3E02, 232 GB, state ONLINE, flags NONE ioc0 phy 0 scsi_id 8 ATA WDC WD2500JS-75N 2E04, 232 GB, state ONLINE, flags NONE
在查看SAS诊断时,偶尔会看到INVALID DWORD计数器增量。
Adapter Phy 0: Link Up Invalid DWord Count 1,962 Running Disparity Error Count 1,772 Loss of DWord Synch Count 0 Phy Reset Problem Count 2 Adapter Phy 1: Link Up Invalid DWord Count 1,402 Running Disparity Error Count 1,342 Loss of DWord Synch Count 0 Phy Reset Problem Count 0
我重置这些stats ..第一次启动服务器后,重置计数器,“适配器Phy 1”显示以下 –
Adapter Phy 1: Link Up Invalid DWord Count 1,402 Running Disparity Error Count 1,342
对于两个计数,适配器Phy 0都显示为0。
服务器已经连续4天了。 今天早上检查计数器,我可以看到适配器Phy 1:计数是稳定的,但适配器Phy 0的无效DWORD计数增加到 –
Adapter Phy 0: Link Up Invalid DWord Count 1,962 Running Disparity Error Count 1,772 Phy Reset Problem Count 2
此外,PHY重置问题计数已增加到2,但我不完全知道这一点的影响。
服务器目前没有显示任何不当行为的迹象,但根据最近的经验,在内核再次出现恐慌之前,这只是一个时间问题。
无效的DWORD计数和PHY复位是否表示布线/背板问题(因为RAID控制器已被更换)还是还有其他问题需要考虑?
干杯