Articles of 群集

Stop-CauRun停止当前服务器还是整个​​CAU操作?

在“Windows群集感知更新”和“更新运行configuration文件”中使用PreUpdateScript或PostUpdateScript ,将调用Stop-CauRun cmdlet执行以下任一操作: 它会真的停止更新过程吗? 它会停止在该节点上的更新过程吗? 它会取消整个CAU操作(意味着没有其他节点会更新)? 我读过这个MS页面,并不清楚前/后脚本是否可以帮助控制CAU进程。 以供参考: 高级选项和更新CAU的运行configuration文件

Windows群集丢失或丢弃了CLUSDB

2008R2上双节点Windows故障转移群集的两个节点都丢失了CLUSDB文件。 我认为这是因为没有经验的pipe理员来到一个有保留磁盘问题的群集,并重新安装了群集function。 所以服务器上没有configuration信息,没有CLUSDB文件,这意味着没有registryconfiguration单元的群集。 在任一服务器上。 但是,服务器仍然知道它的一部分。 您无法启动集群服务,因为集群configuration丢失。 从cluster.log文件中 [CS] Service CreateNodeThread Failed, ERROR_FILE_NOT_FOUND(2)' because of 'Open parameters key failed.' 没有CLUSDB文件的备份,它是一个testing集群,所以有人认为它适合从备份中省略。 由于无法启动群集服务,因此无法从群集中删除节点,因此从头开始重新configuration将无法工作。 我看到它的最后一招是卸载Clusteringfunction,但是当服务器仍然认为它属于一个集群时,你不能这样做。 所以这个问题。 这是从零开始重build,包括操作系统还是有什么办法呢?

2012R2集群 – 无停机添加主机

基本上只是想确认我目前的想法 – 有一个3节点2012R2集群。 我们正在更换两台主机。 在将新主机添加到群集并运行validation的时候,存储testing是使VM脱机的原因。 但是,如果我要创build一个额外的LUN,并将其作为可用磁盘添加到群集(此LUN将不包含资源),然后仅select此项用于存储validation,则可以完全避免停机时间?

在SoftLayer中设置Windows Server故障转移群集

我正在尝试创build一个Windows Server故障转移群集。 我已经成功创build了Active Directory。 我目前正处于这个阶段: 在屏幕截图上,模糊的地方有子网/networkingID,如xxx.xx.xx.xxx/xx。 在旁边,它说“点击这里键入一个地址”。 只要我明白,我必须提供一个特定子网的地址。 这是问题。 我正在尝试在SoftLayer中的生产环境中设置故障转移群集。 当我使用Oracle的VirtualBox在实验室环境中尝试群集时,我没有任何问题,因为networking完全在我的本地机器的控制之下。 但是,在Softlayer中,它们不提供来自子网的空闲/可用IP地址。 所以我没有公开的知识产权投放到那个位置。 我能在这种情况下做什么?

从群集文件服务器DRBD&GFS2运行服务器

我们正试图消除没有SAN的文件的单点故障。 我们目前有一个文件服务(本地)服务器,networking服务器和数据库(在虚拟机)。 查看使用DRBD和GFS2创build群集文件系统,然后从文件系统(包括主机操作系统,虚拟机和共享文件)尽可能多地运行。 我们希望在从共享源运行的主/从设置中设置两台服务器 ; 但是服务器的硬件configuration(驱动器端口分配,实际品牌和主板型号,NIC等)略有不同,因此硬件configuration文件将保持在本地(例如fstab和mdadm)。 理想情况下, 一台服务器将作为主要服务器 。 只有在集群文件系统上,主服务器才会进行程序包pipe理,因为如果从服务器使用相同的数据(来自同一个块设备的数据),则该服务器不需要。 主服务器也是两台服务器的单一pipe理点,仅仅是因为它们共享数据和configuration文件,而第二台服务器只是作为冗余硬件集来运行在服务器1上configuration的软件, STONITH,Hearbeat,起搏器等 但据我所知,似乎大多数人彼此独立pipe理服务器,并试图自动使用cron作业和rsync。 也似乎大部分的文件是相当静态和用户修改; 即由操作系统(日志,交换文件等)独立于用户input和/或依赖硬件而被主动修改的文件/文件夹的数量非常小。 我们希望保留本地操作系统提供的文件(不在虚拟机中)。 所以现在的问题。 软件pipe理可以与硬件pipe理分离吗? 似乎唯一需要独立pipe理的是每台机器上的硬件; 应该通过集群文件系统一次性pipe理软件。 (可能是错的,所以这个问题) 主机操作系统是否可以通过两台机器中的任何一台从一组共享的文件中运行? 也就是说,两台机器是否都可以准备好pipe理主机操作系统,但是只有主机才能执行,直到故障转移,从机才能执行pipe理工作? 还是这个假设不准确? 我们可以将机器设置为从机/空闲状态,直到主机出现故障? (暂停cron作业,暂停服务等)我假设这将是一个击剑软件的问题? (这不是一个如何从同一组数据同时运行两台机器的问题,它们将在不同的时间从同一组数据有效地运行,服务器每个需要不断修改的文件将在本地文件系统) 我们只是想设置一个冗余服务器,并尽量减less冗余pipe理。

在故障转移群集中同时发生服务器崩溃

在故障转移群集中有两台服务器。 集群定义了一个共享的“ClusterStorage”驱动器。 驱动器通过iScsi映射到SAN设备。 最近,两台服务器同时自行重新启动。 服务器和群集的事件日志中的错误表示服务器无法访问/写入共享驱动器。 每个服务器都可以通过2个不同子网上的2个独立networkingpath使用2个网卡访问SAN。 SAN有2个控制器。 SAN上的事件日志不会报告与此事件相对应的任何错误。 另外,也使用SAN的数据库服务器(通过群集上定义的SQLangular色和专用驱动器)没有报告任何IO错误。 这似乎表明SAN很好,可以到达。 然而,这两台服务器自己重新启动,通过集群破坏了冗余。 集群事件 – MAPLE重新启动 在MAPLE上pipe理事件日志 系统甚至loginMAPLE 任何想法在这个重新启动的实际原因?

无法从机器获取域控制器名称

通过两台成员服务器validation故障转移群集时,出现以下两个错误: 从节点SQL2.domain.com连接到可写域控制器无法确定,因为此错误:无法从计算机SQL2获取域控制器名称。 节点(s)SQL2.domain.com不能到达一个可写的域控制器。 请检查这些节点连接到域控制器。 如果我从SQL2.domain.com运行故障转移群集,则会收到与SQL1.domain.com相同的错误。 我在DC和SQL1 / 2上禁用了IPv6,在每次尝试后都重新启动了服务器,并删除/重新join了域中的成员服务器,并且没有任何工作。 这两台服务器只使用一台DNS服务器,即DC,并且DC在转发器列表中设置了公共DNS服务器。 这是一个没有防火墙,DNS或LDAP更改的香草安装。 从这两个成员服务器上,我可以在域名和域控制器FQDN上执行nslookup,并对ICMP做出响应。

当在通过LANbuild立的MPI集群中使用两台主机时,mpiexec不会运行mpi4py脚本

所以我有另一台台式电脑,作为我的服务器, primesystem和一台笔记本电脑作为我的客户端,连接到它的zerosystem 。 它们分别作为我的ssh-server和ssh-client ,并通过以太网(而不是交叉)电缆连接。 我都遵循这些教程中的说明:在局域网内运行MPI集群并在Ubuntu中设置MPICH2集群 ,只是我想使用MPI实现的python ,所以我使用mpi4py来testing两台PC是否可以利用MPI。 我在素数系统中build立了一个目录/cloud ,它应该在我的networking中被共享,并按照第一个教程的指示安装在我的zerosystem系统中(所以我也可以在两个系统中工作而不需要通过ssh )。 在服务器或primesystem ,如果我运行示例helloworld脚本,它工作正常: one@primesystem:/cloud$ mpirun -np 5 -hosts primesystem python -m mpi4py helloworld Hello, World! I am process 0 of 5 on primesystem. Hello, World! I am process 1 of 5 on primesystem. Hello, World! I am process 2 of 5 on primesystem. Hello, World! […]

在VPS云服务器上托pipe大型群集数据库的性能问题

我想知道有没有人碰到这个问题? 您可以在DigitalOcean等某些云中获得一些健壮的12核VPS实例,并在“主动 – 被动”群集configuration中为其设置数据库。 一切工作起来都很好,与专用服务器相比,你节省了大量的资金,而且还有高可用性。 如果您长时间未故障转移此群集,您的云提供商将会注意到您的备用服务器从不使用这12个CPU。 而且他们会将一堆其他VPS实例添加到主机中,以消耗所有未充分利用的容量。 然后,您的下一个故障转移会导致重大灾难,因为您的主机服务器不堪重负,您的数据库无法处理正常的负载。 你知道这个问题的任何解决方法,不花钱吗? 我正在考虑安排一些脚本来检查最近的系统负载,并创build一些人造的工作负载,以确保虚拟机pipe理程序不会低估备用服务器的资源需求。您是否有更优雅的选项?

Kubernetes集群IP不回答

我们已经build立了一个有3个主站和3个workernode的kubernetes集群。 然后我们安装了kubernetes-dashboard,因为它无法连接到kubernetes(api-server),所以它失败了。 它正在寻找本地主机:8080,但无法访问。 在busybox中执行env时,我收到: KUBERNETES_SERVICE_PORT_HTTPS=443 KUBERNETES_PORT=tcp://10.2.0.1:443 KUBERNETES_PORT_443_TCP=tcp://10.2.0.1:443 KUBERNETES_PORT_443_TCP_PROTO=tcp KUBERNETES_PORT_443_TCP_PORT=443 KUBERNETES_PORT_443_TCP_ADDR=10.2.0.1 KUBERNETES_SERVICE_HOST=10.2.0.1 KUBERNETES_SERVICE_PORT=443 所以我期望kubernetes应该在10.2.0.1:443上可用,但是它不回答。 (拒绝连接) 绑定地址是0.0.0.0(由ssl auth保护),不安全绑定地址是未设置的(这意味着它绑定到127.0.0.1)。 在文档中,我可以看到非安全端口(8080)暴露于集群networking。 但是我看不到。 如果我执行kubectl获取服务,我看到: NAME CLUSTER-IP EXTERNAL-IP PORT(S) AGE kubernetes 10.2.0.1 <none> 443/TCP 1d 我必须采取一些更多的行动来揭露8080和/或使这些端口上的kubernetes可用吗?