任何人都有调度程序的经验吗? 我知道sbd进程是一个实时进程,所以使用默认的linux io scheduler cfq,sbd进程在高负载下工作得非常好。 noop调度程序只合并在fifo队列中的IO请求,我可以有问题与我的集群使用nbd调度程序与sbd? 谢谢
我试图在由2个2012 R2节点(sql1和sql2)组成的Windows Server 2012 R2群集(cl01)上设置SQL Server 2012 SP1“AlwaysOn故障转移群集实例”。 使用3个VMXNet3适配器(LAN,iSCSI和私有心跳)在VMWare ESXi v5.5上进行托pipe。 Windows服务器启用了故障转移群集,映射了iSCSI LUN并分配了仲裁,创build了MSDTC群集angular色,并使用向导(无警告)validation了群集,这一切似乎都不错。 我安装了带有数据库引擎,报告服务和分析服务的主(sql1)SQL 2012 SP1节点 – 根据最佳实践,使用各自的networking帐户进行安装。 然后我去添加第二个Windows服务器(sql2)“添加节点到现有的SQL集群” – 在这个节点安装到集群服务期间,主SQL节点(sql1) 总是BSODs:IRQL_NOT_LESS_OR_EQUAL(tcpip.sys) 。 然后在每次重启时继续BSOD,最后在启动循环中结束。 所以我认为它一定是在操作系统上的sql1,所以我卸载了所有的组件在这两个服务器上,而是设置为主要的sql2和sql1作为次要的 – 这次sql2(现在的主要)与完全相同的蓝屏死机,并显示相同的行为作为最后一个场景。 SQL集群在2012 SP1或Server 2012 R2中是否被破解? 它与使用VMXNet3适配器的机器有什么关系(我试过E1000E的结果相同) – networking中断导致“有目的的”BSOD作为集群驱逐? 显然这是networking相关的( tcpip.sys )事件查看器显示没有任何不良然而。
我正在devise一个头节点,其主要function是向Torque / Maui调度程序提交作业,第二个function是运行testing作业。 不幸的是,大多数集群的硬件select指南都是在2000年〜2004年编写的,现在大多数都是不相关的。 我已经能够很容易地决定硬件configuration的大部分内容(例如,基于互连的NIC),但我不明白如何select硬盘/内存/处理器。 硬盘驱动器:由于我使用的是networking存储,因此硬盘的尺寸/types(SSD与主轴)几乎没有关系,因为这些只需要满足典型的启动驱动器的要求? 内存:假设testing任务不是内存密集型的,那么头节点拥有大量内存是否有任何性能优势? 作业调度似乎并不需要大量的内存。 如果没有,用什么经验法则来决定我需要多less内存? 处理器:将testing工作排除在外,在处理器上拥有更多内核或更高的时钟频率有什么优势? 我可以想象,这个作业调度不是计算密集型的,几乎不能从更快的处理器或并行性中获益。 冗余:如何避免头节点成为SPOF? 有2个或更多头节点? 我是否将冗余头节点完全保留为被动(未使用) – 否则,我会想象从死亡节点中恢复过来会非常麻烦。 头节点之间是否可以接受异构(不同的硬件规格)? 头节点上的引导驱动器是否需要RAID镜像?
我在CentOS 6.5上安装了Red Hat的集群软件,并使用它来提供从一个networking到另一个networking的冗余路由。 这工作正常,我有一对盒子提供服务,所以如果一个失败(例如,如果我通过删除其networking连接testing),另一个接pipe路由。 但是,如果我必须对剩下的盒子做任何事情,由于rgmanager的问题,我无法重新启动它: service rgmanager stop 挂起,停止这个过程的唯一方法是kill -9它。 这显然也会影响任何试图停止服务的操作,如reboot或reboot 。 当我设法自己启动服务器时,虽然集群启动,但是rgmanager并没有显示为在clustat运行,并且冗余路由服务都不可见,更不用说启动了。 例如,如果将这些盒子部署到远程位置,并且在我们有机会更换出现故障的盒子之前需要closures电源,这可能会导致问题。 这是我的cluster.conf: <?xml version="1.0"?> <cluster config_version="2" name="router-ha"> <fence_daemon/> <clusternodes> <clusternode name="router-01" nodeid="1"/> <clusternode name="router-02" nodeid="2"/> </clusternodes> <cman expected_votes="1" two_node="1"/> <fencedevices/> <rm> <failoverdomains/> <resources> <ip address="10.0.0.1" monitor_link="1" sleeptime="0"/> <ip address="10.0.0.2" monitor_link="1" sleeptime="0"/> <ip address="10.2.0.1" monitor_link="1" sleeptime="0"/> <ip address="10.4.0.1" monitor_link="1" sleeptime="0"/> </resources> <service autostart="1" […]
我正在使用以下内容: [root@kpdbm01 ~]# cat /etc/redhat-release Red Hat Enterprise Linux Server release 6.5 (Santiago) [root@kpdbm01 ~]# uname -a Linux kpdbm01 2.6.32-431.20.3.el6.x86_64 #1 SMP Fri Jun 6 18:30:54 EDT 2014 x86_64 x86_64 x86_64 GNU/Linux [root@kpdbm01 ~]# rpm -q rgmanager cman corosync ricci rgmanager-3.0.12.1-19.el6.x86_64 cman-3.0.12.1-59.el6_5.2.x86_64 corosync-1.4.1-17.el6_5.1.x86_64 ricci-0.16.2-69.el6_5.1.x86_64 [root@kpdbm01 ~]# 我试图使用clusvcadm来Disable / Enable / Relocate <group>而不pipe我最终与Failure 。 我在/var/log/cluster/corosync.log看到很多消息,比如一个低音/var/log/cluster/corosync.log : […]
我们正在两个地点的服务器上configurationproxmox 每个位置都有; 1个hp c7000机箱,带16个刀片1个hp proliant dl585 我们还计划在每个位置添加一个24TB的SAN。 我们将为每个位置设置两个群集,并将c7000作为可故障转移到其他刀片的HA群集。 c7000中的每个刀片都有1x 1TB的硬盘,缺省的proxmox安装占用了vz转储的大部分空间。 我想在安装时对硬盘进行分区,并在一个分区上保留50GB左右的proxmox安装,并留下另一个分区作为DRBD存储。 我可以在启动时运行此安装来设置proxmox安装细节Linux ext4 maxroot = 20 swapsize = 30 如果我添加标志minfree = nGB 这是否会创build另一个分区,我可以configuration为DRBD存储? 还有这个标志maxvz = nGB 这设置最大的数据目录分区,我如何configurationproxmox不存储在本地分区上的数据转储,只有在DRDB存储? 谢谢
设置:操作系统:CentOS 7,最新版本Corosync,Pacemaker&PCS – 两个节点主动/主动群集,虚拟IP – 两个节点上Exim运行在远程邮件(SMTP),没有什么特别的configuration – 当Exim在其中一个节点上失败,节点不应该参与回复虚拟IP,直到Exim恢复运行 我试图得到这个工作: – 克隆ocf:心跳:虚拟IP的IPaddr2资源 – 克隆systemd:Exim资源观看Exim与on-fail =“待机”选项 问题:最初,一切工作都应该如此。 当其中一个节点无法运行Exim时,它会正确停止,并且该节点不再参与虚拟IP。 问题是,在停止和启动其中一个节点之后,Exim重新启动(因为它应该),但监视器返回“不运行”。 当Exim-resource没有configurationon-fail =“standby”时,一切都按照devise工作,我可以按照自己的想法启动/停止Exim和其中一个节点。 消息在日志中: Jan 28 16:17:30 testvm101 crmd[14183]: notice: process_lrm_event: LRM operation exim:0_monitor_30000 (call=141, rc=7, cib-update=211, confirmed=false) not running Jan 28 16:17:30 testvm101 crmd[14183]: warning: status_from_rc: Action 20 (exim:0_monitor_30000) on testvm101 failed (target: 0 vs. rc: 7): Error […]
我们要build立一个小群集,首先会存储一些数据库和testing服务。 该集群最初将在8台专用服务器(HP G3 / G5)上启动。 6个服务器位于同一机架中,其中两个位于单独的独立位置。 在这个集群之外,我们有2-4个强大的服务器,这些服务器大多没有使用自己的所有资源。 这使我想到,这些可以被添加到群集,并执行群集操作时,他们不使用其资源的100%。 我希望集群具有的另一个function是将Docker容器作为集群服务运行,当然,集群是HA并且负载均衡。 我在这方面一直在寻找很多东西,但是却找不到一个好的答案。 现在最强的select是安装Ubuntu 14.04和Apache Mesos,并且在Mesos已经实现了dynamic从属性之后,在群集中添加非专用服务器作为从属
我需要存储和服务约30TB的数据(现在),这个数字将会增长很快。 我也必须保持低成本,所以我会有没有RAID的服务器。 相反,数据应该复制到多个服务器上,因为它更便宜。 所以数据将在至less三台10TB的服务器之间进行拆分,并且至less应该被复制到其他3台服务器(甚至6台)。 数据将由用户上传,系统必须将其分发到3台服务器中的一台。 所有的服务器必须能够提供数据来拆分它们之间的带宽使用。 我不是一个非常有经验的系统pipe理员,我发现很难决定GlusterFS,XtreemFS和我也考虑过使用rsync。 我正在寻找最好的解决scheme,这也应该很容易使用。 这是必须的,我必须确定,如果数据在一台服务器上被损坏,系统不会将损坏的数据传播给其他服务器。 提前致谢!
你能帮我看看如何形成一个集群吗? 使用corosync和起搏器。 两个节点rac0 ip 192.168.0.140&rac1 ip 192.168.0.142它们互不显示。 他们没有连接。 [ryan@rac1 cluster]$ sudo pcs status corosync [sudo] password for ryan: 会员信息 Nodeid Votes Name 2 1 rac1 (local) ================================================== ====== [ryan@rac0 ~]$ sudo pcs status corosync [sudo] password for ryan: 会员信息 Nodeid Votes Name 1 1 rac0 (local) ================================================== ===== nodelist { node { ring0_addr: rac0 nodeid: […]