我们的应用程序托pipe在EC2上,但是由于应用程序的性质,它需要极高的可用性。 我们有一个在Linode上运行的应用程序的图像作为故障转移。 然而,做一个DNS翻转Linode将需要一些时间。 我们提出了一个减less这种停机时间的策略,但是我想就如何最好地实施这个方面提供一些build议。 该应用程序是一个ROR应用程序。 我们在EC2上运行6个前端节点,并使用Nginx作为proxy_pass的负载均衡器。 然而,我们在Linode上的负载平衡器不能平衡到Linode节点,而是平衡到EC2节点。 这是因为我们的DNSlogging中有我们的Linode LB的IP。 所以当一个客户端连接时,DNS循环到EC2或者Linode LB。 所select的LB将把请求redirect到EC2上的一个节点。 在EC2中断的情况下,我们只需要改变Linode LB的configuration,以平衡自己的节点(加上其他的东西,比如数据库翻转等等)。 我知道这对性能不是很好,但可靠性对我们来说更重要。 为了问题,我们在出于任何原因而出现问题时,Linode LB无法连接到EC2。 在这种情况下,Nginx会返回502错误的网关错误,这不会导致客户端使用DNS故障转移。 我们希望有一种方法来迫使客户在出现这种情况时使用DNS后备。 有没有办法做到这一点? 最好使用Nginx,但是如果不支持这种解决scheme,则会考虑其他解决scheme。 谢谢!
我遇到了一个奇怪的Windows 2008R2集群相关的问题,困扰着我。 我觉得我已经接近了这个问题,但是还没有完全理解发生了什么。 我有两个2008R2服务器上运行的两节点交换2007群集。 在“主”群集节点上运行时,交换群集应用程序正常工作。 将群集资源故障转移到辅助节点时会发生此问题。 将群集故障转移到与“主”相同的子节点上的“辅助”节点时,故障转移最初工作正常,群集资源在新节点上继续工作几分钟。 这意味着接收节点确实发送了更新networking上arp表的免费ARP响应数据包。 但是在x时间之后(通常在5分钟之内),再次更新arp表,因为突然间群集服务不响应ping。 所以基本上,我开始ping到交换机群集地址,当它在“主节点”上运行。 它工作得很好。 我将集群资源组故障切换到“辅助节点”,并且只丢失了一个可接受的ping。 失败后,群集资源仍然会回答一段时间,突然间,ping开始超时。 这告诉我,arp表最初是由辅助节点更新的,但是之后有些东西(我还没有发现)会错误地更新它,可能是主节点的MAC。 为什么会发生这种情况 – 有没有人遇到同样的问题? 群集没有运行NLB,问题在故障转移回没有问题的主节点后立即停止。 每个节点正在使用网卡绑定(intel)和ALB。 就我而言,每个节点都在同一个子网上,并具有网关等等。 编辑: 我想知道它是否可能与networking绑定顺序有关? 因为我注意到,从节点到节点的唯一区别就是在显示本地的arp表时。 在“主”节点上,arp表作为源在集群地址上生成。 而在其次要的,它从节点自己的网卡产生。 对此有何意见? 编辑: 好的,这里是连接布局。 集群地址:AB6.208 / 25交换申请地址:AB6.212 / 25 节点A:3个物理的nics。 两个使用Intere和地址AB6.210 / 25合作的群组称为public最后一个群集通信使用private 10.0.0.138/24 节点B:3个物理节点。 两个使用Intere和AB6.211 / 25组合在一起称为public最后一个用于集群通信的被称为private的10.0.0.139/24 每个节点都位于一个连接在一起的独立数据中心。 terminal交换机是DC1中的思科交换机,DC2中的NEXUS 5000/2000。 编辑: 我一直在testing多一点。 我现在在同一个集群上创build了一个空的应用程序,并且在交换应用程序的同一个子网上给它一个另外的ip地址。 失败这个空的应用程序结束后,我看到了完全相同的问题发生。 在一两分钟后,其他子网上的客户端无法ping应用程序的虚拟IP地址。 但是,当其他子网上的客户端不能使用同一个子网上的另一个群集的另一台服务器时,则无法ping通。 但是,如果我再做一个故障转移到原来的状态,那么情况是相反的。 所以,现在在同一子网上的客户端不能,而在另一个上他们可以。 我们有另外一个集群在相同的子网上设置,使用相同的intel网卡,相同的驱动程序和相同的分组设置。 在这里,我们没有看到这一点。 […]
昨天我向我的一些同事夸耀说,我的Windows家庭服务器(WHS)有我的整个家庭networking备份,这是我的家用电脑之一的故障硬盘恢复计划。 然后我被问到如果(HP MediaSmart)WHS上的引导硬盘出现故障,或者某些其他硬件组件(如内置网卡)发生故障,我该怎么办。 我该如何恢复? 我没有答案 所以我的问题是: WHS可以将启动分区复制到服务器的其他磁盘上吗? (如果是这样,这是自动完成?) 如果启动分区失败,你将如何恢复? 如果其他硬件出现故障,您将如何恢复?
我想知道一个Hadoop服务器磁盘发生故障时应该怎么做的策略。 比方说,我有多个(> 15个)Hadoop服务器和1个名称节点,并且从属设备上的6个磁盘中的一个停止工作,磁盘通过SAS连接。 我不关心从这个磁盘检索数据,而是关于保持群集运行的一般策略。 你是做什么?
Backround:我们需要在小型办公环境中使用HA服务器,并且正在寻找DRBD来提供它。 我们只有约100GB需要在HA服务器上,服务器负载将会非常低。 如果我们存档较旧的办公室数据,每年的数据可能会增加大约10%-25%,如果我们不这样做,每年可能增加50%-75%。 要点是我们使用消费品级和使用企业级硬件的混合,如果我们不预先规划它,这将是一个问题; 而预先构build的高质量服务器也会失败,所以冗余服务器似乎是要走的路。 计划:我们认为find(2)最好的“我们的降压”服务器并同步它们是件好事。 我们只需要支持SATA / SAS的服务器和空间就可以为价格提供尽可能多的驱动器。 这些服务器好像可以有$ 100- $ 200(+一些零件和额外的驱动器),如果你达成协议。 这在理论上意味着一台服务器可能会失败,如果我们花了几天的时间去解决问题,只要我们没有再次发生巧合的故障,事情就会一直响起,直到我们的IT部门(我)能够实现。 我们将使用Debian作为操作系统。 一些问题 (A)DRBD如何处理驱动器或控制器故障? 这就是显示存储驱动程序之前的DRBD,那么当控制器发生故障并写入脏数据或驱动器发生故障但不立即崩溃时会发生什么情况? 数据是否镜像到其他服务器,在这种情况下是否存在跨服务器数据损坏的风险? (B)DRBD的失败点是什么? 这在理论上只要一台服务器启动并运行就没有问题了。 但是我们知道存在一些问题,那么使用DRBD的失败模式是什么,因为它们大多数在理论上应该是软件? 如果我们要为此有两台服务器,那么使用MYSQL和Apache来运行虚拟机的数据库和Web服务器复制是否合理? (我假设如此) DRBD是否足够可靠? 如果不是,某些任务是不可靠的,或者是更随机的。 search出现了各种各样的问题的人,但这是互联网与看似更坏的信息比好。 如果数据通过LAN进行同步,DRBD是否使用了两倍的带宽? 也就是说,我们应该把NICS加倍,做一些链路聚合和中继? 然后,也许把他们分开的路由器在不同的电路和不同的房间UPS,现在你真的有一些冗余! 就服务器pipe理而言,这对于一个办公室来说太疯狂了吗? 有一个更简单的REALTIME替代(理论上认为DRBD看起来简单)。 我们已经有一台服务器。 所以在我看来,第二台配备DRBD专用驱动器的USED服务器可以很容易地以一些智能购物的价格达到150-250美元左右。 添加第二个路由器,更多的驱动器,更多的网卡(使用),和(2)UPS的,并谈论$ 1,000 +/-。 那相对便宜! 我希望这将主要是在服务器故障期间为我们购买时间。 这些日子,驱动器故障似乎是RAID处理起来更容易的事情。 这是其他硬件故障,如控制器,内存或电源,可能需要停机诊断和解决这个问题。 对于我们来说,冗余服务器意味着使用的硬件变得更加可行,更多的运行时间和更多的灵活性让我能够在我的日程安排允许的情况下解决问题,而不必停止一切来修复服务器。 希望我不会错过这些问题容易search的答案。 我做了一个快速search,没有find我正在寻找的东西。
我一直在试图用Apache 2.2.3来设置冗余的LDAP服务器。 /etc/httpd/conf.d/authn_alias.conf <AuthnProviderAlias ldap master> AuthLDAPURL ldap://192.168.5.148:389/dc=domain,dc=vn?cn AuthLDAPBindDN cn=anonymous,ou=it,dc=domain,dc=vn AuthLDAPBindPassword pa$$w0rd </AuthnProviderAlias> <AuthnProviderAlias ldap slave> AuthLDAPURL ldap://192.168.5.199:389/dc=domain,dc=vn?cn AuthLDAPBindDN cn=anonymous,ou=it,dc=domain,dc=vn AuthLDAPBindPassword pa$$w0rd </AuthnProviderAlias> /etc/httpd/conf.d/authz_ldap.conf # # mod_authz_ldap can be used to implement access control and # authenticate users against an LDAP database. # LoadModule authz_ldap_module modules/mod_authz_ldap.so <IfModule mod_authz_ldap.c> <Location /> AuthBasicProvider master slave AuthzLDAPAuthoritative Off […]
我已经读了一些关于ifenslave与nics的关系。 我很难理解的是,为了在两台交换机之间拆分债券,是否需要特殊的configuration。 例如,如果我有几台服务器,每台服务器都有两个nics和两个独立的交换机,那么我可以configuration这些bond,并将每个交换机分别插入交换机#1和另一个交换机#2中。 还是有更多的呢? 如果这些债券是主动备份的,那么在单机上出现故障意味着服务器可能会断开连接,因为其余的机器正在使用主networking,并且使用次级? 或者你也用一根电缆连接交换机?
我正在阅读有关虚拟化技术的HA技术,但是我所看到的所有解决scheme或多或less都与更专业的VRRP一样 – 当主机closures时,虚拟机将在另一个虚拟主机上启动。 如果存储是共享的(例如,iSCSI),那么“同一个”虚拟机可以启动,所以对客户操作系统来说,看起来像是一种电源故障。 但是,如果有一些重要的数据驻留在RAM中(例如内存数据库),那么它仍然会丢失。 虽然可以在一定的时间间隔内创build正在运行的虚拟机的快照(不幸的是,创build这样的快照需要大量的时间,所以不能每隔10秒就完成一次)。 然后另一个虚拟化主机可以加载这样的快照,并继续运行虚拟机“不中断”(加上减间隔时间)。 所以我的问题是 – 是否有任何解决scheme自动“镜像”虚拟机的方式,在虚拟化主机故障后虚拟机可以“恢复”在另一台主机没有明显的中断? 就像虚拟机的RAID1一样。 与RAM级别完全同步的镜像。
我的主机向我收取每月50美元的费用,将我的服务器放在同一个VLAN上,以便使用networking负载平衡function创build一个群集。 我真的不需要拆分服务器之间的负载,我正在寻找一种简单的方法来创build故障转移scheme,以防止服务器故障。 不过,我认为这个费用是小贵的。 有没有什么办法可以在不使用NLB的情况下创build群集? 也许是一些监视我的主服务器,并更改域名的DNS当它closures?
作为他非常stream行的问题的后续问题: 为什么不build议DNS故障转移? ,我认为,由于caching,DNS故障转移不是100%可靠的。 然而,最高票数的答案并没有真正讨论在两个不同的数据中心之间实现故障转移的更好的解决scheme。 唯一的解决scheme是本地负载平衡(单个数据中心)。 所以我的问题很简单,跨数据中心故障切换的真正解决scheme是什么?