我是一个Web开发人员。 我没有太多的硬件经验。 出于这个原因,我使用托pipe服务器。
今天早上,我们设置的其中一个驱动器失败了。 然而,整个网站下降。 我问我的虚拟主机发生了什么事,他回答说硬盘发生故障,RAID控制器无法正常工作。 该arrays被设置为RAID 4。
你们以前见过吗? 可能吗?
感谢这个家伙的帮助。 我需要知道我的虚拟主机是否对我诚实。
更有可能的是,您的提供商使用的硬盘不是用于RAID的。 普通的消费型SATA驱动器属于这一类。
可能的问题是驱动器开始遇到不可纠正的读取错误(URE)。 当消费者驱动器发生这种情况时,驱动器位于此处并重新尝试读取操作(通常持续30-60秒),直到放弃为止。 RAID将等待驱动器报告错误(30-60)秒。 因此,一个简单的请求几个扇区可以很容易地导致服务器停下来,而故障的驱动器通过这些读取重试操作。
适用于RAIDarrays的驱动器具有有限时间错误恢复(适用于SATA驱动器)。 TLER将故障快速报告给控制器,以便控制器可以智能地对这种故障做出反应(主要是智能地;希望)。 SCSI(SAS也)有些不同。 SCSI命令集允许控制器在驱动器上指定各种恢复工作量限制(MODE SELECT:RW ERR RECOVERY)。 RAID控制器应该将驱动器设置为快速失败,然后控制器可以testing驱动器是否认为TUR命令正常工作,如果存在检查条件,则将驱动器从arrays中取出。
是的,这是可能的,即使在你认为arrays应该能够幸存下来的情况下也是如此。
一些数组为什么失败的可能性:
如果这是一个RAID 0实现,那么当一个驱动器出现故障时,您将失去arrays及其所有数据。
当硬盘坏了,或者开始报告即将发生的故障时,我发现固件错误会将整个RAID取出。 对不起,我没有任何具体的指向你,但是,是的,它可以发生。 不是RAID规范的一部分,当然,这绝对是一个错误。
是的,这是可能的。 这不应该发生,但它当然可以。 inputURE(不可恢复的读取错误)和控制器故障以及固件错误等。
如果没有额外的信息(你的主机可能不会给你的),不可能肯定是这样或那样的,但是任何一个使用了大量RAIDarrays的人都有过这样的经历,那就是整个arrays丢失或者崩溃不应该有。
(顺便说一下, RAID4并不是一个非常常用的RAID级别,但是应该承受任何驱动器的损失 ,但是这并不意味着它总是会这样。
我有很多硬盘故障,不是机械故障,而是电子组成通信接口。 由于其体积小,许多电子元件对即使较小的电气不规则性也非常敏感(当附近的大型空调电机打开/closures时,这种情况可能会发生,并且电源稍微便宜)。
当驱动器的内部电源转换器或电容器(储能缓冲器)烧坏时,HDD外部连接器产生的电信号可能会超出规范。 由于变频器通过铜线连接到控制器,并且通常在服务器中,许多变频器共享一个电缆连接以便于安装和减less混乱,这可能会轻易中断甚至永久破坏任何数量的相邻组件。
这与定价的方式很less有关。 确实,昂贵的控制器和驱动器可能会使用对exception条件更加宽容或者具有更好屏蔽性的部件,而使用预算部件则更可能获得不合标准的部件。 但是我经常在$ 50驱动器和$ 500驱动器上find相同的电容器。 如果一个故障硬盘直接将12伏的电源连接到SATA连接器,因为出现故障,无论有多less数字,RAID控制器都会被炸掉。
这不是通常发生的事情,但是根据我的经验,这绝对不是闻所未闻的。
是的,我猜整个驱动器故障后,整个raid可能会失败。 第一个失败的驱动器将由控制器脱机,并且raid仍然可以正常工作。 但是,当失败的驱动器被更换后,控制器开始重buildRAID。 如果其他驱动器中有一个未发现的读取问题,重build故障驱动器可能会导致更多驱动器脱机(在重buildRAID时发现读取问题),导致整个RAID发生故障失败。