奇怪的问题与不同的RAID控制器。 这是否可以归因于环境问题?

我们正在开发一个项目,这个项目涉及到所有托pipe在一个机架上的不同硬件。 这些机器主要是IBM服务器:2个x206(scsi),1个x226(scsi),2个x3400(sata)以及另一个带有sata控制器的组装机器。 我们正在使用几个RAID控制器。 一些机器只有一个Serveraid控制器,其他的有一个或多个控制器并不总是Adaptec的。 所有的固件和BIOS都被更新。 所有服务器和连接的设备都在运行。

在过去的四个月里,我们在硬件上经历了一些奇怪的行为。 突然和随机地,我们松了2或3驱动器和突袭体积停止工作。 它可以每周发生一次,但绝不会在一天或一周的同一时间发生。

大多数情况下,重build过程会解决问题,有时我们会丢失数据。 通常我们只需要拔出RAID控制器,重启服务器,问题就解决了。

一开始我们认为这是由于固件的问题,但是我们对每台机器和RAID控制器都进行了精确的更新,而且硬件上没有其他的东西可以做。 我们没有任何暗示是什么原因造成了这些麻烦。

我们开始认为这是一个环境问题,但我们不知道是否会有干扰我们的硬件的东西。 你有没有听说过这样的事情? 你有什么想法如何调查这个问题?

这很容易由于固件错误,而不是在控制器上,而是在驱动器上。 经常看到这个数字。

如果我在不同供应商的RAID控制器上从不同厂商的服务器上以不正常的速度发送驱动器,我会开始考虑服务器机房内的高温和气stream不良,这是导致问题的一个潜在原因。