我用Corosync / Pacemaker创build了一个集群。 在集群中,我configuration了两个资源,一个虚拟IP和Squid。 在Debian 8上,集群中有两个节点。 crm_status显示,两个节点都在线,一切工作正常。 出于testing目的,我停止了节点之一。 CRM显示资源已经迁移到第二个节点,但是当我在客户端浏览器上使用虚拟IP时,我没有得到任何回应。 大部分时间大概需要10分钟,直到客户端能够通过第二个节点浏览虚拟IP。 我想(希望)这是一个小小的configuration,但在这一刻,我不知道在哪里find失败。 这是我的configuration: 节点 Node 1 Node 2 eth0 10.0.0.234 eth0 10.0.0.235 eth1 xxx134 eth1 xxx135 Virtual IP: 10.0.0.233 Corosync totem { version: 2 cluster_name: SQUID token: 3000 token_retransmits_before_loss_const: 10 clear_node_high_bit: yes crypto_cipher: aes256 crypto_hash: sha1 interface { ringnumber: 0 bindnetaddr: xxx0 mcastaddr: 239.255.1.1 mcastport: 5405 […]
我有一个SQL服务器上的日志驱动器,我可以通过Windows资源pipe理器访问文件。 故障转移群集pipe理器显示日志驱动器#处于脱机状态。 当我尝试使群集磁盘#在线,它会给出错误 “无法将资源'联机群集磁盘#'错误代码0x8007174b群集Sotrage没有连接到节点”
我正在尝试build立一个概念文件服务器集群的certificate,以确保它能满足我们的需求,然后再实施一个实时集群。 我已经build立了两个节点的集群,两个networking(一个用于集群和客户端(10.0.0.0),另一个集群只用于(10.1.0.0)),集群运行两个angular色(SOFS和普通FS)。 这些angular色在我的客户机所在的10.0.0.0networking上设置了静态IP地址。 SOFS的angular色似乎很好,因为我可以创build共享,浏览他们并添加/删除文件。 正常的FSangular色,但是,当我尝试添加一个文件共享,我收到错误消息,根据下面的截图。 正如你所看到的,当我从客户端机器上pingangular色名称时,返回静态IP。 我还在两个节点上做了ipconfig / flushdns,以防问题出在哪里。 这是暗示一个DNS问题? 我不明白为什么这样的情况下,DNS条目看起来是正确的angular色名称,并提供在angular色设置中分配的IP。
我一直在试图在计算机群集上运行python脚本,但仍然遇到一个错误,指出超出了RSS内存限制。 我正在使用这个程序分析一个包含大约40000个案例的数据集。 我已经在我的电脑上尝试了1000个元素,而且它似乎使用了非常less量的内存。 Fedora上的系统监视工具显示我的电脑的内存使用率为23%左右,相当于1.7Gb(主要由操作系统本身使用),但是当我在群集上运行时,RSS内存超过了14GB。 我不知道发生了什么,为什么我的电脑和群集之间的内存使用情况有所不同。 任何帮助表示赞赏。
我有一些机器集群。 我必须从单个系统控制所有configuration。 为此,我决定在Centos 7服务器中使用.bashrc(我通过单机上的rsync在每个系统中推送相同的.bashrc)。 我面临一个问题,每个系统都有像/dev/sdb /mnt/2c511624-12ea-48d9-853a-54af000e7239一样的外置硬盘。 硬盘的名称因机器而异。 这个名字怎么可能对每台机器都是正确的。 然后我必须在每个系统的每个磁盘上自动传输一些数据。 我尽力解释我的问题,如果还不清楚的话请评论一下?
有没有人有运气随机Slurm节点分配? 我们有一个由12个节点组成的小型集群,可以在1-8个人的任何地方使用不同规模/长度的作业。 当testing我们新的Slurm设置时,如果没有其他用户同时进行交互作业和批处理作业,则作业总是转到分区中的第一个节点。 有没有办法随机化这个调度? 看起来,取决于用户的时间表,他们可以始终如一地获得相同的节点,这可以掩盖硬件/configuration中可能会看到的问题。 我们的节点总是排他性的,所以我们只考虑随机化节点级调度。
我试图让一个应用程序在JBoss集群上工作。 它在内部使用队列,开发人员声称它应该在集群环境中正常工作。 我把jbossmq设置为集群上的一个ha-singleton。 应用程序可以正确运行在当前正在运行队列的任何节点上,但在其他节点上运行失败:“javax.naming.NameNotFoundException:QueueConnectionFactory not bound”错误。 我可以从jmx控制台查看JNDIview,看到QueueConnectionFactory类确实只出现在全局上下文中的主节点上。 有没有办法看到集群的JNDI列表,而不是每个服务器? 我从默认的Jboss 4.2.3.GA安装中采取的步骤是使用“all”configuration。 然后删除/server/all/deploy/hsqldb-ds.xml和/deploy-hasingleton/jms/hsqldb-jdbc2-service.xml,将示例/ jms / mysq-jdbc2-service.xml文件复制到它的位置(编辑文件使用DefaultDS而不是MySqlDS)。 最后,我在部署目录中创build了一个mysql-ds.xml文件,在一个空的数据库中指向“DefaultDS”。 我使用队列定义在部署目录中创build了一个-services.xml文件。 如下所示: <server> <mbean code="org.jboss.mq.server.jmx.Queue" name="jboss.mq.destination:service=Queue,name=myfirstqueue"> <depends optional-attribute-name="DestinationManager"> jboss.mq:service=DestinationManager </depends> </mbean> </server> 所有其他集群function的工作,服务器在视图中相互列出,会话来回复制。 JBoss的文档在这方面有些轻微,还有另外一些我可能错过的设置? 或者,这可能是一个代码问题(是否有不同的代码在一个修复的环境中进行JNDI查找?) 谢谢
Someting已经坏了,我失去了第一台服务器上的存储连接。 第二台服务器可以访问该FS。 我尝试通过服务lock_gulmd,gfs,pool,ccsd stop / start(以各种命令)重新启动GFS,但没有运气。 在主服务器上(第三个)“ gulm_tool nodelist localhost ” “说 Name: srv1 state = Expired mode = Slave missed beats = 0 last beat = 0 delay avg = 0 max delay = 0 我发现它需要被围起来? 自动或手动? 任何人都可以帮忙 目前,没有一个东道主正在给FS写任何东西,所以我认为不会造成任何伤害。 第二个主机现在也过期了,无法启动lock_gulmd。
我们正在寻求改善我们的Disater revoery,并使function失效或我们的Web服务器和Webpshere应用程序服务器失效。 我们在英国拥有2个站点[HQ和Callcentre],并且希望在呼叫中心站点托pipeDR Web服务器和应用程序服务器。 所以如果HQ不在行动Callcenter服务器可以接pipe。 我们正在考虑运行两个VMware ESx机箱,并镜像它们之间的configuration更改(我不确定) 我们考虑的一个替代方法是使用Websphere Culstering。 这些似乎是很好的select?
我正在计划这种情况:具有主动/主动configuration的SQL 2005(即2个节点,2个实例,每个节点保存活动的一个实例,每个节点是另一个的备份) SQL(master db),Data,Log和Quorum分区在LUN上。 我知道我们需要两个SQL,两个数据和两个日志分区来完成这个设置,而且我很确定我们还需要两个Quorum分区,但是我的团队并不一致。 我的想法是,这个“主动/主动”集群configuration实际上是两个逻辑集群,压扁成两个节点,每个节点都戴着两个帽子(主动和被动)。 每个集群都需要自己的Quorum,以便其活动节点可以拥有它 – 一个分区(甚至一个LUN)不能同时拥有多个节点。 所以,主动/主动每个节点需要一个仲裁分区,就像Sql,Data和Log分区一样,对吧? 谢谢, 贾森