我们有几十个用于SQL Server 2008和2008 R2 Enterprise / Datacenter的Win2008和2008R2企业集群。 过去,我们在全球的另一台服务器上出现了许多随机故障转移和“networking分区”错误的问题。 这主要是在更新网卡驱动程序和卸载Forefront端点保护解决(不知道如何发挥了一切,但它帮助)。
快到六月份到十一月,我们从SCOM和事件日志中获得了不断的警报,这些群集(特别是两个群集)每周几次都出现“networking分区”错误,但实际上并没有发生故障 。 SQL Server仍在运行,Web前端没有发现服务中断。 这些错误似乎来源于“被动”节点,并通过networking进行复制(我们收到来自被动,然后活动,然后是Web前端的第一个警报),但是所有节点/networking适配器/磁盘/应用程序/ IP /网站保持正常运行。 当群集,networking或任何东西没有出现问题时,我们无法find导致这些错误不断出现的原因。 任何有关我们可以去调查的原因或可能的方向的想法都会很好。
当networking出现分区错误时,这意味着当前正在运行集群应用程序的服务器与其他节点以某种方式隔离。 假设没有其他错误,完全可能(也可能)您的服务将继续运行。 警告告诉您,如果需要故障切换,则可能会失败(通常是由于节点没有切换磁盘/ CSV的path)。
请务必仔细检查相关服务器之间的networking拓扑和群集networking设置。 我们有一个令人讨厌的经验,故障转移群集正在使用多pathNIC进行与SQL服务器使用的不同的节点间通信(即单独的VLAN)。 由于主群集连接和备份群集连接的path都是这样的,只有一个交换机closures时,法定人数可能会丢失,所以SQL服务器仍然显示为联机状态,但群集显示为分区,这意味着如果服务器(或交换机)将失败,这会使集群陷入困境。