集群服务器 Gind.cn

在Squid集群中缓慢的故障切换

我用Corosync / Pacemaker创build了一个集群。在集群中，我configuration了两个资源，一个虚拟IP和Squid。在Debian 8上，集群中有两个节点。 crm_status显示，两个节点都在线，一切工作正常。出于testing目的，我停止了节点之一。 CRM显示资源已经迁移到第二个节点，但是当我在客户端浏览器上使用虚拟IP时，我没有得到任何回应。大部分时间大概需要10分钟，直到客户端能够通过第二个节点浏览虚拟IP。我想（希望）这是一个小小的configuration，但在这一刻，我不知道在哪里find失败。这是我的configuration：节点 Node 1 Node 2 eth0 10.0.0.234 eth0 10.0.0.235 eth1 xxx134 eth1 xxx135 Virtual IP: 10.0.0.233 Corosync totem { version: 2 cluster_name: SQUID token: 3000 token_retransmits_before_loss_const: 10 clear_node_high_bit: yes crypto_cipher: aes256 crypto_hash: sha1 interface { ringnumber: 0 bindnetaddr: xxx0 mcastaddr: 239.255.1.1 mcastport: 5405 […]

群集磁盘显示脱机，因为我可以从Windows资源pipe理器访问磁盘

我有一个SQL服务器上的日志驱动器，我可以通过Windows资源pipe理器访问文件。故障转移群集pipe理器显示日志驱动器＃处于脱机状态。当我尝试使群集磁盘＃在线，它会给出错误 “无法将资源'联机群集磁盘＃'错误代码0x8007174b群集Sotrage没有连接到节点”

无法将共享添加到2012 R2文件服务器群集 – 找不到angular色名称

我正在尝试build立一个概念文件服务器集群的certificate，以确保它能满足我们的需求，然后再实施一个实时集群。我已经build立了两个节点的集群，两个networking（一个用于集群和客户端（10.0.0.0），另一个集群只用于（10.1.0.0）），集群运行两个angular色（SOFS和普通FS）。这些angular色在我的客户机所在的10.0.0.0networking上设置了静态IP地址。 SOFS的angular色似乎很好，因为我可以创build共享，浏览他们并添加/删除文件。正常的FSangular色，但是，当我尝试添加一个文件共享，我收到错误消息，根据下面的截图。正如你所看到的，当我从客户端机器上pingangular色名称时，返回静态IP。我还在两个节点上做了ipconfig / flushdns，以防问题出在哪里。这是暗示一个DNS问题？我不明白为什么这样的情况下，DNS条目看起来是正确的angular色名称，并提供在angular色设置中分配的IP。

群集上的程序超出RSS内存限制

我一直在试图在计算机群集上运行python脚本，但仍然遇到一个错误，指出超出了RSS内存限制。我正在使用这个程序分析一个包含大约40000个案例的数据集。我已经在我的电脑上尝试了1000个元素，而且它似乎使用了非常less量的内存。 Fedora上的系统监视工具显示我的电脑的内存使用率为23％左右，相当于1.7Gb（主要由操作系统本身使用），但是当我在群集上运行时，RSS内存超过了14GB。我不知道发生了什么，为什么我的电脑和群集之间的内存使用情况有所不同。任何帮助表示赞赏。

Linux环境variables在集群中的单点设置问题

我有一些机器集群。我必须从单个系统控制所有configuration。为此，我决定在Centos 7服务器中使用.bashrc（我通过单机上的rsync在每个系统中推送相同的.bashrc）。我面临一个问题，每个系统都有像/dev/sdb /mnt/2c511624-12ea-48d9-853a-54af000e7239一样的外置硬盘。硬盘的名称因机器而异。这个名字怎么可能对每台机器都是正确的。然后我必须在每个系统的每个磁盘上自动传输一些数据。我尽力解释我的问题，如果还不清楚的话请评论一下？

随机化Slurm节点分配

有没有人有运气随机Slurm节点分配？我们有一个由12个节点组成的小型集群，可以在1-8个人的任何地方使用不同规模/长度的作业。当testing我们新的Slurm设置时，如果没有其他用户同时进行交互作业和批处理作业，则作业总是转到分区中的第一个节点。有没有办法随机化这个调度？看起来，取决于用户的时间表，他们可以始终如一地获得相同的节点，这可以掩盖硬件/configuration中可能会看到的问题。我们的节点总是排他性的，所以我们只考虑随机化节点级调度。

JBossMQ – 群集队列/ NameNotFoundException：QueueConnectionFactory错误

我试图让一个应用程序在JBoss集群上工作。它在内部使用队列，开发人员声称它应该在集群环境中正常工作。我把jbossmq设置为集群上的一个ha-singleton。应用程序可以正确运行在当前正在运行队列的任何节点上，但在其他节点上运行失败：“javax.naming.NameNotFoundException：QueueConnectionFactory not bound”错误。我可以从jmx控制台查看JNDIview，看到QueueConnectionFactory类确实只出现在全局上下文中的主节点上。有没有办法看到集群的JNDI列表，而不是每个服务器？我从默认的Jboss 4.2.3.GA安装中采取的步骤是使用“all”configuration。然后删除/server/all/deploy/hsqldb-ds.xml和/deploy-hasingleton/jms/hsqldb-jdbc2-service.xml，将示例/ jms / mysq-jdbc2-service.xml文件复制到它的位置（编辑文件使用DefaultDS而不是MySqlDS）。最后，我在部署目录中创build了一个mysql-ds.xml文件，在一个空的数据库中指向“DefaultDS”。我使用队列定义在部署目录中创build了一个-services.xml文件。如下所示： <server> <mbean code="org.jboss.mq.server.jmx.Queue" name="jboss.mq.destination:service=Queue,name=myfirstqueue"> <depends optional-attribute-name="DestinationManager"> jboss.mq:service=DestinationManager </depends> </mbean> </server> 所有其他集群function的工作，服务器在视图中相互列出，会话来回复制。 JBoss的文档在这方面有些轻微，还有另外一些我可能错过的设置？或者，这可能是一个代码问题（是否有不同的代码在一个修复的环境中进行JNDI查找？）谢谢

GFS故障，无法启动lock_gulmd，说状态=过期

Someting已经坏了，我失去了第一台服务器上的存储连接。第二台服务器可以访问该FS。我尝试通过服务lock_gulmd，gfs，pool，ccsd stop / start（以各种命令）重新启动GFS，但没有运气。在主服务器上（第三个）“ gulm_tool nodelist localhost ” “说 Name: srv1 state = Expired mode = Slave missed beats = 0 last beat = 0 delay avg = 0 max delay = 0 我发现它需要被围起来？自动或手动？任何人都可以帮忙目前，没有一个东道主正在给FS写任何东西，所以我认为不会造成任何伤害。第二个主机现在也过期了，无法启动lock_gulmd。

位于不同站点的两个Web服务器的最佳DR选项

我们正在寻求改善我们的Disater revoery，并使function失效或我们的Web服务器和Webpshere应用程序服务器失效。我们在英国拥有2个站点[HQ和Callcentre]，并且希望在呼叫中心站点托pipeDR Web服务器和应用程序服务器。所以如果HQ不在行动Callcenter服务器可以接pipe。我们正在考虑运行两个VMware ESx机箱，并镜像它们之间的configuration更改（我不确定）我们考虑的一个替代方法是使用Websphere Culstering。这些似乎是很好的select？

SQL 2005主动 – 主动configuration – 共享Quorum？

我正在计划这种情况：具有主动/主动configuration的SQL 2005（即2个节点，2个实例，每个节点保存活动的一个实例，每个节点是另一个的备份） SQL（master db），Data，Log和Quorum分区在LUN上。我知道我们需要两个SQL，两个数据和两个日志分区来完成这个设置，而且我很确定我们还需要两个Quorum分区，但是我的团队并不一致。我的想法是，这个“主动/主动”集群configuration实际上是两个逻辑集群，压扁成两个节点，每个节点都戴着两个帽子（主动和被动）。每个集群都需要自己的Quorum，以便其活动节点可以拥有它 – 一个分区（甚至一个LUN）不能同时拥有多个节点。所以，主动/主动每个节点需要一个仲裁分区，就像Sql，Data和Log分区一样，对吧？谢谢，贾森

Intereting Posts

MySQL停止工作 – 完整的磁盘需要重新获得与域控制器的信任对于SSL桥接，HTTPS后端validation负载均衡器是否使用相同的私钥？如果是这样，怎么样？如何追踪垃圾邮件脚本？在NFS挂载期间超时客户端本地主机工作，但计算机名称不 Rpmbuild更改当前目录硬盘写入操作的预期费率在Windows 7主机文件中使用IIS QMail – 继电器队列中的许多故障通知只对localhost打开在docker服务器中发生503错误（服务不可用） Vnc带宽质量和压缩水平将端口80请求redirect到站点443 失败的http代理，但不是负载平衡 OpenVPN的63最大客户端限制？

Articles of 集群