我在EC2上的三个实例上安装了Graphite: 碳继电器 – relay1.graphite.prod.example.ec2 carbon-cache + webapp – cache3.graphite.prod.example.ec2 carbon-cache + webapp – cache4.graphite.prod.example.ec2 该继电器与一致哈希完美工作。 问题是两个Web服务器没有互相通信,所以我只能看到一个服务器的指标。 我花了很多时间在https://answers.launchpad.net/graphite/+question/114206 ,我无法弄清楚我设置不正确。 我可以从cache3对cache4运行wget,获取数据并在Apache日志中查看。 所以我不认为这是一个防火墙问题。 我试着在remote_storage.py中启用suppressError = False ,并在local_settings.py中打开了DEBUG,但是在Firebug中没有看到任何错误。 cache3 – local_settings.py CLUSTER_SERVERS = [ 'cache4.graphite.prod.example.ec2', 'localhost' ] cache4 – local_settings.py CLUSTER_SERVERS = [ 'cache3.graphite.prod.example.ec2', 'localhost' ] 我也尝试使用IP地址,并没有影响。 我做了一些更多的debugging和修改storage.py直接硬编码我的远程主机: STORE = Store(settings.DATA_DIRS, remote_hosts=["cache4.graphite.prod.example.ec2", "127.0.0.1"]) 这工作。 所以,不知何故,我的CLUSTER_SERVERS值不能从local_settings.py正确拉入。 有什么build议么?
我希望有人能帮助我一个奇怪的问题。 我们运行带有Server 2008 R2和Equallogic PS4000 SAN的Microsoft故障转移群集。 我们的主要configuration在集群中有2个Dell Poweredge T710服务器。 我们有CSV和Quorm设置。 每台服务器有10个Broadcom 1Gb网卡。 目前,NICS中有4个用于访问SAN的iSCSInetworking。 他们使用MPIO和戴尔HIT包。 我们有5个虚拟机在每个节点上运行,一切运行平稳。 没有明显的性能问题或任何事情。 在SAN中,我可以看到从每台服务器到每个卷的4个iSCSI连接(CSV和Quorm)。 再次,这似乎performance很好。 我遇到的问题是备份。 我已经尝试了一些备份程序,如backupchain和Veeam。 问题是他们都备份虚拟机非常慢。 例如,我有一个在集群上运行的500GB(固定磁盘)VHD。 这需要超过18个小时来备份VHD,而压缩和解除closures应该是禁食。 我们还有一个独立的服务器,用于备份。 它有很多定向附加存储。 作为故障排除的一部分,我决定将该服务器作为节点引入群集。 它现在可以访问CSV并可以从C:\ clusterstorage \ volume1中读取,这是我们的VHD所在的地方。 该备份服务器只有2个网卡。 1个NIC正在连接到iSCSInetworking,另一个正好在主networking上。 它内置英特尔NICS,没有任何MPIO或团队。 所以现在在集群中的第三台服务器,我开始做一些基准testing。 我有一个存储在CSV中的大约7GB的testingVHD。 我已经testing了从所有3个服务器将VHD复制到相应服务器的定向附加存储的文件。 作为群集中主要节点的2个戴尔服务器(它们容纳虚拟机)正以约20Mbs /秒的速度读取该文件。 以这种速度减慢备份速度。 另一台只有1个NIC的服务器读取速度约为100Mbs / Sec。 我今天和戴尔通了几个小时的电话。 我们经历了各种各样的考验,他很愚蠢。 他真的不知道为什么只有1个NIC的服务器读取的速度是使用4个NICS和MPIO的服务器的5倍。 我们在文件复制过程中查看了NIC的networking利用率。 具有4个NIC的服务器在文件复制期间的活动略有增加,但是在所有4个NIC上它们仅增加了约8-10%。 在文件复制过程中,具有1个NIC的另一台服务器跳到了80%以上。 我打算在下class后进行更多的testing,并且明天再打电话给戴尔,但是我真的很困惑(戴尔的支持代表),为什么我无法在这些服务器上获得更快的文件复制访问权限。 任何人对此有任何意见? 任何反馈将不胜感激。 提前致谢。
我运行3节点多主MariaDB galera群集。 它对我来说基本上是如何工作的。 当一个节点失败时,另外两个工作就可以了。 但我想知道是否有办法让它继续在一个节点上工作? (这是真的不太可能,但我只是想知道)我知道,当没有法定人数以防止分裂大脑时,集群将失败。 我也知道,有一个节点离开集群closures。 这意味着所有的数据库连接/查询都会丢失。 我想知道是否有办法将剩下的主节点切换到单节点模式,让它工作,然后当发现失败时(停止连接到数据库的应用程序),将其他节点复位并让它们复制数据(这样没有任何东西丢失) 我知道有一种叫做虚拟法定数字的东西,但是在3个主节点的情况下这会是一个不错的select吗?
这个问题让我想到了DHCP的容错问题,所以我在当前的环境下进行了一些挖掘,发现我们公司每个主要站点只有一台DHCP服务器,没有冗余。 我们所有的DHCP服务器都是虚拟的,具有VMWare高可用性,并使用Quantum VMPro进行定期备份,所以在发生几乎任何灾难性的DHCP服务器崩溃的情况下,我们仍可以在一个小时内恢复。 这将导致我认为冗余的DHCP服务器进行故障转移是多余的。 但是我以前的经验大部分来自小企业,这种情况从来没有出现过。 大生意是非常不同的。 我们的大部分文件服务器都处于相同的configuration,除了剩下的less数物理服务器群集尚未被我们的虚拟化工作所捕获。 那么在虚拟环境中,添加服务器冗余的决定点是什么? 示例:我何时添加虚拟DHCP备用服务器? 或者为文件服务器创build虚拟故障转移群集? 我明白,在没有列举组织的具体需求的情况下,这可能很难回答,但我认为可以描述一些有助于在需求出现之前准备好安全事故的情况。 我严格关心容错和故障转移 – 在这种情况下的负载平衡是完全不相关的。
我们有一个由Veritas Storage Foundationpipe理的dynamic磁盘的Microsoft故障转移群集。 今天,系统pipe理员为SQL Server添加了一个新的磁盘,但卷上的簇大小是错误的,所以我发布了一个快速格式来更改它。 磁盘卷失败,SQL Server组也失败,群集无响应。 几分钟后,我设法故障转移到被动节点。 SANpipe理员说这是我的错,因为我不应该从Windows格式小程序格式化磁盘,但我应该使用Veritas Enterprise Administrator。 格式化操作是否可以通过这种方式使整个群集群脱机? 相关的错误消息: 从事件日志: The cluster resource host subsystem (RHS) stopped unexpectedly. An attempt will be made to restart it. This is usually due to a problem in a resource DLL. Please determine which resource DLL is causing the issue and report the problem to […]
概要 当我调用Get-Cluster powershell会返回我的集群的名称。 为了简单起见,我们称之为Cluster1 。 如果我调用Get-Cluster -Name Cluster1则会失败,并显示错误消息。 错误: Get-Cluster : Check the spelling of the cluster name. Otherwise, there might be a problem with your network. Make sure the cluster nodes are turned on and connected to the network or contact your network administrator. The RPC server is unavailable At line:1 char:1 + Get-Cluster […]
我创build了一个windows2003集群,然后尝试通过链接configurationMSDTC http://support.microsoft.com/kb/301600/#appliesto按照这个我已经启用Windows Server 2003中的networkingDTC访问 依照指示 http://support.microsoft.com/kb/817064/ 但是我创build了MSDTC(如第7个点起第一个链接中所述),因为分配事务处理协调器失败,并且在完成此操作后全部处于联机状态。 但我不知道为什么它失败.. 我不知道如何发布屏幕截图在这里…..
我将要configuration两个Nagios服务器,一个是热备用或故障转移单元。 它会定期检查活动的Nagios服务器,并在发生故障时需要窃取其IP地址。 我的第一个直觉就是使用bash和cron编写脚本,这应该是相当简单的。 有更好的工具来接pipe另一台服务器IP吗? 也许是一个允许以前活跃的服务器在它恢复在线时将它的IP窃取回来的方法。
我一直在考虑尝试一些免费软件集群软件。 IIUC我们使用服务器Apache和PostgreSQL的两个主要事情可以设置为通过负载均衡模块和Slony-I复制在集群上冗余运行。 文件共享也可以,也许更容易一点。 什么是你不能在一个集群上托pipe的一些通常很重要的服务(即,你或多或less会被托pipe在一个单一的,健壮的机器上?)
我在两个不同的数据中心有服务器,每个数据中心都获得静态IP。 我想要做的是将服务器设置为IIS7服务器,并允许它们从数据中心故障切换到数据中心,几乎没有(或最好)不中断。 双方的服务器都运行带有IIS7的Windows Server 2008 x64(如果需要,还可以运行7.5)。 我感兴趣的是如何将DNSstream量指向新的数据中心而无需人工干预。 例如: 数据中心A: IP:192.168.1.115 服务器:Server 2008 x64 w / IIS 7 数据中心B: IP:192.168.1.220 服务器:Server 2008 x64 w / IIS 7 其他信息: 域名:Example.org 域名DNS:192.168.1.115 如果数据中心A连接断开(服务线断开等),则stream量如何知道路由到192.168.1.220上的数据中心B? 谢谢, 斯科特