SAN典型的MTBF

我们在一个项目中使用SAN，在技术上这是一个单一的故障点。似乎没有人有任何硬性数据。

有问题的SAN是一个单一的物理盒子，但内部冗余组件（对不起 – 不知道它具有什么级别的RAID，但我可以找出）。

SAN的典型MTBF是多less？总理在项目风险登记表上声称“相当常见” – 我从来没有听说过SAN会下降，但是我没有任何统计数字表明它有多可能。

有没有人有任何有用的信息？

在不知道确切的SAN问题以及如何configuration和pipe理的情况下，对这个问题的任何回答都是一个猜测。我这样说有两个原因：

有些SAN比其他的更好。我们有一个古老的EMC CX500已经生产了7年，没有一个呃逆。我们有一台经常遇到麻烦的戴尔MD3000i。你得到你所付出的。
即使是最好的SANpipe理或configuration不好，可能会有很差的正常运行时间。我曾经看到一个愚蠢的pipe理员导致200万美元的EMC Symmetrix在一个月内两次失败。在我们聘用他之前，连续近四年来一直没有问题。

这实际上并不常见，实际上我认为它几乎和整个房间失去电源一样常见 – 就好像它们正确configuration和维护一样，电力损失是丢失一个完整SAN盒的唯一真正方法。

这就是说，你需要确保它们是由两个独立的UPS供电的，具有双控制器，双交换机，不同路由的光纤，并且你计划你的货架/arrays布局来迎合整个架子的损耗。如果你这样做，那么你就像没有第二个网站一样覆盖。

自今年年初以来，我们遇到了各种各样的麻烦，到了“下一个可用的维护时间”就成为了SAN的一个委婉说法。如果你听销售，他们是各种坚实的。实际上，在生产之前，你没有专门的testingSAN的专业知识，所以在高需求时暴露你configuration问题的命运就是箭头。

与实际的磁盘驱动器和其他硬件相比，令人难以置信的复杂的SAN软件或configuration失败是未知的数量。这最终意味着你可以添加尽可能多的物理冗余，但是由于它们都运行着相同的破解软件，所以你仍然有一个单一的故障点。

也就是说，我们似乎运行得更顺畅，因为我们把整个事情都拿下来做了一个固件补丁。我们的SAN修复总结报告让我担心有点太神奇的想法仍然归因于SAN。

正如其他人指出的那样，正确configuration和指定的存储后端（冗余控制器，电源，交换机等）停止运行并不常见。我认真地请总理讨论这个背后的思想，把它评为一个共同的风险。

从技术上讲，logging一个“单点故障”作为风险评估的一部分总是值得的，但是关于HAconfiguration中的完全冗余存储是否代表“单点故障”，还有一个严肃的讨论。它可能或不会取决于你的组织和应用程序。如果这是一个单点故障，那么同样值得讨论失败的场景，因为整个数据中心的服务丢失是不可能的，因为冗余的HA SAN不可能完全失效。

处理这些场景是非常昂贵的…冗余数据中心首先要考虑地理范围扩展的结构，多个完全冗余的SAN，存储部分的“实时复制”。需要这些东西的场景和应用程序并不是那么常见。

只是我的个人经验：我遇到了固件和控制器错误，导致孤立的问题。在极less数情况下，我甚至遇到了一个bug，导致active-active对中的一个控制器进行转储并触发故障转移。这并没有造成停机。

我听说过噩梦般的场景，比如控制器脑裂或者导致整个arrays崩溃的东西，但是这种情况很less见，而且这也不是由于人为错误或错误configuration造成的。（人为错误和configuration错误是个大问题…我不是故意淡化它们，但是它们不像单个SAN一样意义上的“spofs”）。