我们在一个项目中使用SAN,在技术上这是一个单一的故障点。 似乎没有人有任何硬性数据。
有问题的SAN是一个单一的物理盒子,但内部冗余组件(对不起 – 不知道它具有什么级别的RAID,但我可以找出)。
SAN的典型MTBF是多less? 总理在项目风险登记表上声称“相当常见” – 我从来没有听说过SAN会下降,但是我没有任何统计数字表明它有多可能。
有没有人有任何有用的信息?
在不知道确切的SAN问题以及如何configuration和pipe理的情况下,对这个问题的任何回答都是一个猜测。 我这样说有两个原因:
有些SAN比其他的更好。 我们有一个古老的EMC CX500已经生产了7年,没有一个呃逆。 我们有一台经常遇到麻烦的戴尔MD3000i。 你得到你所付出的。
即使是最好的SANpipe理或configuration不好,可能会有很差的正常运行时间。 我曾经看到一个愚蠢的pipe理员导致200万美元的EMC Symmetrix在一个月内两次失败。 在我们聘用他之前,连续近四年来一直没有问题。
这实际上并不常见,实际上我认为它几乎和整个房间失去电源一样常见 – 就好像它们正确configuration和维护一样,电力损失是丢失一个完整SAN盒的唯一真正方法。
这就是说,你需要确保它们是由两个独立的UPS供电的,具有双控制器,双交换机,不同路由的光纤,并且你计划你的货架/arrays布局来迎合整个架子的损耗。 如果你这样做,那么你就像没有第二个网站一样覆盖。
自今年年初以来,我们遇到了各种各样的麻烦,到了“下一个可用的维护时间”就成为了SAN的一个委婉说法。 如果你听销售,他们是各种坚实的。 实际上,在生产之前,你没有专门的testingSAN的专业知识,所以在高需求时暴露你configuration问题的命运就是箭头。
与实际的磁盘驱动器和其他硬件相比,令人难以置信的复杂的SAN软件或configuration失败是未知的数量。 这最终意味着你可以添加尽可能多的物理冗余,但是由于它们都运行着相同的破解软件,所以你仍然有一个单一的故障点。
也就是说,我们似乎运行得更顺畅,因为我们把整个事情都拿下来做了一个固件补丁。 我们的SAN修复总结报告让我担心有点太神奇的想法仍然归因于SAN。
正如其他人指出的那样,正确configuration和指定的存储后端(冗余控制器,电源,交换机等)停止运行并不常见。 我认真地请总理讨论这个背后的思想,把它评为一个共同的风险。
从技术上讲,logging一个“单点故障”作为风险评估的一部分总是值得的,但是关于HAconfiguration中的完全冗余存储是否代表“单点故障”,还有一个严肃的讨论。 它可能或不会取决于你的组织和应用程序。 如果这是一个单点故障,那么同样值得讨论失败的场景,因为整个数据中心的服务丢失是不可能的,因为冗余的HA SAN不可能完全失效。
处理这些场景是非常昂贵的…冗余数据中心首先要考虑地理范围扩展的结构,多个完全冗余的SAN,存储部分的“实时复制”。 需要这些东西的场景和应用程序并不是那么常见。
只是我的个人经验:我遇到了固件和控制器错误,导致孤立的问题。 在极less数情况下,我甚至遇到了一个bug,导致active-active对中的一个控制器进行转储并触发故障转移。 这并没有造成停机。
我听说过噩梦般的场景,比如控制器脑裂或者导致整个arrays崩溃的东西,但是这种情况很less见,而且这也不是由于人为错误或错误configuration造成的。 (人为错误和configuration错误是个大问题…我不是故意淡化它们,但是它们不像单个SAN一样意义上的“spofs”)。