最小的企业容错服务器结构

我试图找出一个被荒谬的硬件问题困扰的小企业该怎么做。目前，这项业务运行在五六台台式机上，没有服务器基础设施。最重要的是，我也没有对此进行修饰，今年他们已经看到了四个硬件故障，这让他们感到疯狂。

我已经和他们讨论过把小型企业服务器放在哪里（他们是一家微软商店），他们接受这个想法。我还计划用System Center Essentials让自己的脚保持注意。重点然后确保该服务器保持可用。

另外，我刚刚阅读了这个其他高可用性线程。就像那个线程中的人一样，我对IT很陌生，而不是来自编程背景。

想到一些想法：

简单的RAID 5与热插拔编辑：和热备用
得到两个更便宜的服务器机器，configuration运行一个虚拟化服务器热迁移（我已经做了一些阅读，但遗憾的是我不能告诉SBS标准和SCE是否会支持这一点）
故障转移群集？我从另一个主题中得到了这个术语，但是过去没有被曝光过。

这是否有最佳做法？这个企业主很愿意为此掏腰包，因为他正在为宕机而感到恐慌，但是我没有这方面的经验可以把我带到另一个方向。

我会感激你的智慧！

编辑：提供一些他们所经历的问题的附加细节，这是一个奇怪的混合无法解释的失败。

打开机箱没有打开系统电源：主板有机载开关，这提供了一个暂停解决scheme，但是切换出来的情况并没有解决问题。后来，切换出主板也没有解决问题。
两台相同的机器在RAID-1arrays中都遭遇了驱动器故障，两台机器在不到5个月的时间内都进行了组装。
启动失败问题：raid-1中的一个系统根本无法启动。不幸的是，我没有写下原始的错误信息，但是在我的笔记中，我有Windows维修和恢复中的“无法保存启动选项”，导致我的这个线程支持我的怀疑，这是一个硬件相关的问题。

编辑：此外，机器运行在一个家庭办公室的集合，所以住宅级电器正在发挥。我想这可能是一个比我所认为的更重要的因素。但是，这些机器都是在办公桌上（字面上是台式机！），而不是在地板上; 我不相信包含尘土。

首先，SCE对于5-6台台式机器来说是过度的。 WSUS可能是一个更好的select，是免费的。

你没有说太多什么是失败的。它是在机器中的一部分？这是一个多尘的环境？我的主要支持环境大约有40个用户，大约有10个服务器（不包括虚拟化）。我们购买戴尔机器（Optiplex's），在过去的5年里，我们可能有4次硬件故障。所以你在工作站上看到的是不正常的。

他们是否有合适的服务器机房/服务器的位置（至less有散热和防尘function）？

RAID 5与热插拔是一个便宜的方式去这台服务器，并提供一些防止硬盘驱动器故障的保护。我还会添加冗余电源（廉价）和UPS。

服务器类硬件
袭击硬盘 （编辑添加）有一个热备用可能是矫枉过正，因为大多数保修驱动器可能会过度。 例如，在RAID 5中有3个驱动器，你可以丢失一个驱动器，直到新驱动器到达。 失去> 1驱动器，然而，不pipe你怎么看，都会被搞砸。
冗余电源
正确的保证 （例如戴尔，我们会在下一个工作日收到您的硬盘，因为我们可以在任何一台服务器上停留一天。）
备份解决scheme

故障转移群集？您开始进入这样一个在这样一个小环境中既昂贵又复杂的领域。请记住，在如此小的环境中，虽然正常运行时间很重要，但要记住要保持尽可能简单的事情也很重要。

至于工作站，解决这个问题（你并不十分清楚）。也许你可以购买一个拥有基本映像的“额外”工作站，它只是在那里从WSUS获取所有更新，如果其中一个工作站死亡（这是我们所做的）。我们也有一大堆零件，我们可以交换，以取代最常见的零件（电源，RAM，硬盘驱动器），直到质保部分到达。

备份。没有多余的冗余可以替代良好的备份。你有很多select在这里。有了这样一个小环境，您可以看到很多（Mozy，Carbonite浮现在脑海中）线上解决scheme，可以在合理的成本的同时照顾异地和自动化。您也可以放入一个磁带解决scheme，并使用Iron Mountain这样的服务将磁带移出现场。 不pipe你做什么，不要把磁带带回家！ 特别是如果他们有有价值的信息（SS＃等）

从我的经验来看，SBS有它自己的一套问题。特别是如果你把它设置成簇等等。维护的努力对于这样一个小商店来说太大了。

设置一个合适的servlets器，4个磁盘，raid（5 | 10 | 6），pci-e RAID控制器，一个基本的文件服务器，ups（谢谢tomtom）。

只有几个人的邮件可能是最好的外部提供商处理。

远离SCE和类似的矫枉过正的情况，因为你必须有VPN，活动目录和类似的东西。设置这一切是一项重大的努力，也许不符合客户的最佳利益。

通过引导您的小客户到一个简单，高效和可靠的解决scheme，您将使他们和您自己的快乐。

教他们看事件日志，也许给他们一个简单的脚本，检查磁盘警告。定期拜访他们，如果他们想要的话，并检查他们的日志。一次处理一个问题。

这不是主要的硬件问题。立即获得USV。一个是在线（即过滤electicity）。

最重要的是，我没有对此进行修饰，今年他们已经看到了四个硬件故障

这是非常滑稽的 – 非常罕见 – 或者基于例如波动的力量或者某些服务器没有处理好的东西。这是不正常的，发生“恰好”的可能性非常低。喜欢彩票赢得低。我已经看到了类似的行为 – 但基于CRAP电源供应或…在不稳定的电源供应尖峰，部分家庭导入（看到服务器死亡，当你打开灯，感谢一个非常糟糕的开关，你可以看到火花）。

SCE是不需要的。 WSUS就够了。
SBS并不真正支持你在正常运行时需要的东西 – 但你可以尝试在虚拟化平台上运行它。它可以在Hyper-V中运行…我知道有人在做这个演示。

只是一些额外的见解：

使用RAID-6而不是RAID-5 +热备份。使用RAID-6时，磁盘间的奇偶校验会增加一倍，因此可以同时有两个磁盘故障。或者只是使用RAID-5，并且正在进行DR备份
首先关注冗余在服务器盒（磁盘，电源，冷却）
为服务器机箱购买一些高级支持服务，硬件故障的响应时间SLA（比集群解决scheme便宜得多）
买一些（好的）在线UPS
实施一些基于复制的可用性解决scheme，如DoubleTake Availability。有一个适用于Windows SBS的DoubleTake Availability版本，价格非常便宜。您将需要2个服务器来完成这个任务，但是如果出现硬件故障，您的停机时间将缩短到10分钟以内

我不明白服务器应该解决什么问题。

如果所有四台机器都来自同一个供应商，并且您的位置没有什么不寻常的事情（湿度/灰尘非常高，静电，闪电或非常不可靠的电源），您需要一个新的硬件供应商。无论戴尔，惠普和IBM如何处理业主的糟糕的一面，至less从硬件的angular度来看，这些机器的供应商更糟糕。你会得到更好的可靠性，购买你可以在沃尔玛find最便宜的机器。

这可能不是整个供应商的错 – 也许有人指定了特定的硬件和/或坚持一些非常低规格的设备 – 但他们仍然应该拒绝构buildconfiguration不当的机器，或者做一些英雄的事情来取代坏的机器。

我build议你从戴尔/惠普/联想购买一些中端PC（或踢当前供应商的屁股，以支持他们卖的），注册一些付费的Dropbox帐户（或box.net或NetDocuments ）共享文件，让您的ISP或Google处理邮件和networking服务。

[*是的，“云”服务在理论上不如拥有自己的服务器安全 – 但是如果这是在一堆家庭办公室中运行的，那么如果这些家庭中的任何一个被盗，或者如果某人的家庭成员使用工作机器在员工不在家或休假时从互联网运行随机恶意软件。宕机的最大危险将来自消费级networking连接，而不是云供应商的停机时间。

这听起来像你需要更less的硬件和更简单的硬件，如果你想要可靠性，而不是更复杂和更昂贵的硬件/软件。