如果我做了以下
/opt/MegaRAID/MegaCli/MegaCli -LDInfo -Lall -aAll -NoLog > /tmp/tmp /opt/MegaRAID/MegaCli/MegaCli -LDPDInfo -aAll -NoLog >> /tmp/tmp
然后我看到这些错误
Media Error Count: 11 Other Error Count: 5
题
他们是什么意思? 他们是否危急?
全输出:
Adapter 0 -- Virtual Drive Information: Virtual Disk: 0 (target id: 0) Name:Virtual Disk 0 RAID Level: Primary-5, Secondary-0, RAID Level Qualifier-3 Size:951296MB State: Optimal Stripe Size: 64kB Number Of Drives:5 Span Depth:1 Default Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU Current Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU Access Policy: Read/Write Disk Cache Policy: Disk's Default Adapter #0 Number of Virtual Disks: 1 Virtual Disk: 0 (target id: 0) Name:Virtual Disk 0 RAID Level: Primary-5, Secondary-0, RAID Level Qualifier-3 Size:951296MB State: Optimal Stripe Size: 64kB Number Of Drives:5 Span Depth:1 Default Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU Current Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU Access Policy: Read/Write Disk Cache Policy: Disk's Default Number of Spans: 1 Span: 0 - Number of PDs: 5 PD: 0 Information Enclosure Device ID: N/A Slot Number: 0 Device Id: 0 Sequence Number: 2 Media Error Count: 0 Other Error Count: 0 Predictive Failure Count: 0 Last Predictive Failure Event Seq Number: 0 Raw Size: 238418MB [0x1d1a94a2 Sectors] Non Coerced Size: 237906MB [0x1d0a94a2 Sectors] Coerced Size: 237824MB [0x1d080000 Sectors] Firmware state: Online SAS Address(0): 0x1221000000000000 Connected Port Number: 0 Inquiry Data: ATA WDC WD2500JS-75N2E04 WD-WCANK9523610 PD: 1 Information Enclosure Device ID: N/A Slot Number: 1 Device Id: 1 Sequence Number: 2 Media Error Count: 11 Other Error Count: 5 Predictive Failure Count: 0 Last Predictive Failure Event Seq Number: 0 Raw Size: 238418MB [0x1d1a94a2 Sectors] Non Coerced Size: 237906MB [0x1d0a94a2 Sectors] Coerced Size: 237824MB [0x1d080000 Sectors] Firmware state: Online SAS Address(0): 0x1221000001000000 Connected Port Number: 1 Inquiry Data: ATA WDC WD2500JS-75N2E04 WD-WCANK9507278 PD: 2 Information Enclosure Device ID: N/A Slot Number: 2 Device Id: 2 Sequence Number: 2 Media Error Count: 0 Other Error Count: 0 Predictive Failure Count: 0 Last Predictive Failure Event Seq Number: 0 Raw Size: 238418MB [0x1d1a94a2 Sectors] Non Coerced Size: 237906MB [0x1d0a94a2 Sectors] Coerced Size: 237824MB [0x1d080000 Sectors] Firmware state: Online SAS Address(0): 0x1221000002000000 Connected Port Number: 2 Inquiry Data: ATA WDC WD2500JS-75N2E04 WD-WCANK9504713 PD: 3 Information Enclosure Device ID: N/A Slot Number: 3 Device Id: 3 Sequence Number: 2 Media Error Count: 0 Other Error Count: 0 Predictive Failure Count: 0 Last Predictive Failure Event Seq Number: 0 Raw Size: 238418MB [0x1d1a94a2 Sectors] Non Coerced Size: 237906MB [0x1d0a94a2 Sectors] Coerced Size: 237824MB [0x1d080000 Sectors] Firmware state: Online SAS Address(0): 0x1221000003000000 Connected Port Number: 3 Inquiry Data: ATA WDC WD2500JS-75N2E04 WD-WCANK9503028 PD: 4 Information Enclosure Device ID: N/A Slot Number: 4 Device Id: 4 Sequence Number: 2 Media Error Count: 0 Other Error Count: 0 Predictive Failure Count: 0 Last Predictive Failure Event Seq Number: 0 Raw Size: 238418MB [0x1d1a94a2 Sectors] Non Coerced Size: 237906MB [0x1d0a94a2 Sectors] Coerced Size: 237824MB [0x1d080000 Sectors] Firmware state: Online SAS Address(0): 0x1221000004000000 Connected Port Number: 4 Inquiry Data: ATA WDC WD2500JS-75N2E04 WD-WCANK9503793
您在插槽1中的驱动器有问题。它是RAID 5,因此您的数据受到保护,但是失去了冗余(一个磁盘不可靠)。 媒体错误意味着驱动器用尽了备用扇区来重新映射坏扇区( http://kb.lsi.com/KnowledgebaseArticle15809.aspx http://mycusthelp.info/LSI/_cs/AnswerDetail.aspx?inc = 7468 )。 如果是我的数据,备份时会倍加谨慎,请卸下驱动器,将其replace为新驱动器并同步arrays。 一些供应商(如IBM)将接受基于预测性故障指标的RMA,有些则不会。 如果您的供应商不接受具有错误的不可重映射扇区的磁盘,则将其从arrays中取出并在testing系统中运行。 它应该在合理的时间内失败。
编辑:
媒体事件只对插槽ID为1的磁盘非零。在您提供的日志中,每个条目都有插槽ID。 奇怪的是,尽pipe磁盘上存在媒体错误,但是raid报告的状态是最优的。 仍然',我不会相信磁盘。
使用n个相同大小的磁盘制作的RAID 5可以提供(n-1)个磁盘的容量,因为它存储了一个磁盘的冗余数据。 因此,如果您有6个250 GB的磁盘和1T的可用空间,那么它们很可能分为5个磁盘的RAID 5(可提供4×250 GB的可用空间)和1个备用磁盘。
实际上smartctl可以为您提供有关MegaRaid raid中每个磁盘的详细信息。 获取有关物理磁盘#0运行的信息:
smartctl -a -d megaraid,0 /dev/sda|less
正如Pawel正确地指出它是重新分配的扇区,但是当通信问题(在smartctl -l xerror -d megaraid,5 / dev / sda中可见)被报告为媒体错误计数时,我几乎没有发生过任何情况。
只要你的arrays启动并运行,应该没问题。 媒体错误计数器可能会因诸如其中一个驱动器上的故障扇区重新分配等事件而增加,而其他错误计数器可由任何无问题的事件(总线设备重置,重新通电等)增加。 但是,如果错误非常严重,驱动器将被控制器自动从arrays中取出,并报告为失败,在这种情况下,您必须采取措施。
如果smartctl能够提供有关megaraid和个人单位状态的详细SMART信息,那将是非常好的,但是我不认为它支持它。 试一试以防万一。
有时,驱动器会产生读取错误,根据我的经验,通常当发生这种情况时,我可以在其上运行“坏块”来强制testing驱动器,驱动器可能会在早期报告一些错误,但是一旦驱动器被强调一点它会继续报告错误,在这种情况下,这是不好的,否则将报告没有错误。
我认为这是由于驱动器的某些部分是边缘的,坏块重新映射只能在你写入光盘时才起作用,而不能读取。 如果您将数据写入坏扇区,则驱动器必须报告读取错误,因为如果它只是悄悄地将该扇区重新映射到其中一个备用扇区,则会导致无效数据而不是错误。 但是写一下,如果它注意到这个扇区是坏的,它可以把这个数据写到一个备用扇区并重映射它。
不幸的是,你不能清除这个错误计数,所以如果你有监测报告媒体错误,你要么必须更换驱动器或使之成为可以告诉监测忽略这个或那么多的错误,只有当它改变时报告再次。
您可以使用smartctl(谢谢,@pQd,我不知道这个)检查驱动器的SMART状态:
MegaCli64 -PDList -aALL | grep -e '^$' -e Slot -e Count # Find the slot number to use for "X". # For "Y" use the device name the system knows, such as "sda". smartctl -a -d megaraid,X /dev/sdY
重build驱动器并查看是否继续存在问题可能不是完全不合理的。 使用MegaRAID,您可以使用以下命令来完成此操作:
# WARNING: Make sure the array is "Optimal" first, this will degrade it. MegaCli64 -LDInfo -Lall -aALL | grep State # NOTE: This assumes drive 3 of enclosure 32 for adapter 0 MegaCli64 -PDOffline -PhysDrv [32:3] -a0 MegaCli64 -PDRbld -Start -PhysDrv [32:3] -a0 # Now check the rebuild status until it completes: MegaCli64 -PDRbld -ShowProg -PhysDrv [32:3] -a0 # And the array status should go back to Optimal MegaCli64 -LDInfo -Lall -aALL | grep State
我曾经有驱动器一直从RAIDarrays中脱落(可能是每个月或两个月,一次采样100到200个驱动器)。 但是我replace之后硬盘并没有显示出糟糕的performance。
在开始生产之前,我开始使用所有驱动器进行刻录,使用“badblocks”大约一个星期,在开始这样做之后,这些arrays退出的数量大大减less。 现在它可能每年发生两次,跨越500个驱动器。
这是一个破坏性的testing,所以确保你没有驱动器上的数据:
badblocks -svw -p 5 /dev/sdX
“sdX”是要testing的设备。 在这里要非常小心,选错驱动器会破坏你的数据 。 我在testing台上的独立机器上运行我的testing。