Win2012R2上的MS SQL 2016 AlwaysOn群集 – 如果文件共享见证closures,则AG故障转移

我们目前的设置包括:

群集validation报告显示一些小的警告(更新等的差异),但总体看来一切正常。

最近,由于大约半小时的直stream停机时间以及随之而来的文件共享见证不可用,所以AG之一发生故障。 这并不是我们所期望的,因为我们的想法是所有8个节点的法定人数仍然存在,所以没有预期的故障转移。

看过所有关于法定人数/ FSW /等的文档,我仍然没有明确的答案或理解为什么发生故障切换

FC事件日志包含以下含义:

FailoverClustering Event ID:1069 Resource Control Manager

Cluster resource 'File Share Witness' of type 'File Share Witness' in clustered role 'Cluster Group' failed.

Based on the failure policies for the resource and role, the cluster service may try to bring the resource online on this node or move the group to another node of the cluster and then restart it. Check the resource and group state using Failover Cluster Manager or the Get-ClusterResource Windows PowerShell cmdlet.

在交换到辅助节点(NODE5)的节点上,系统事件日志包含:

16.03.2017 12:39:47 Cluster resource 'File Share Witness' of type 'File Share Witness' in clustered role 'Cluster Group' failed due to an attempt to block a required state change in that cluster resource.

16.03.2017 12:39:47 File share witness resource 'File Share Witness' failed to arbitrate for the file share '\\DC\CLUSTER'. Please ensure that file share '\\DC\CLUSTER' exists and is accessible by the cluster.

16.03.2017 12:39:48 The Cluster service failed to bring clustered role 'Cluster Group' completely online or offline. One or more resources may be in a failed state. This may impact the availability of the clustered role.

16.03.2017 12:39:48 Cluster resource 'File Share Witness' of type 'File Share Witness' in clustered role 'Cluster Group' failed due to an attempt to block a required state change in that cluster resource.

16.03.2017 12:39:48 File share witness resource 'File Share Witness' failed to arbitrate for the file share '\\DC\CLUSTER'. Please ensure that file share '\\DC\CLUSTER' exists and is accessible by the cluster.

和故障转移群集事件日志:

Cluster resource 'File Share Witness' in clustered role 'Cluster Group' has transitioned from state Terminating to state Failed.

<...>

The Cluster service is attempting to fail over the clustered role 'Cluster Group' from node 'NODE5' to node 'NODE6'.

<...>

Clustered role 'db5' is moving to cluster node 'NODE6'.

在我看来,这基本上意味着故障转移是由File Share Witness脱机的事实引起的。 但为什么?

我们想知道有没有办法解决这个问题。 任何澄清或build议是值得欢迎的,谢谢!

在我看来,这基本上意味着故障转移是由File Share Witness脱机的事实引起的。 但为什么?

这不是这个意思。 通过读取已发布的日志,我可以看到核心群集组未能通过另一个节点(希望能够解决与证人之间的连接问题),但是与SQL Server没有任何关系。 您需要findSQL Server发生故障的日志中的哪个位置,然后追溯到群集为何决定启动自动故障。

发生自动故障的事实意味着群集具有法定人数。 如果没有,自动故障不会发生。

我们想知道有没有办法解决这个问题。 任何澄清或build议是值得欢迎的,谢谢!

没有什么可以解决,因为这不是发生了什么事情。 看看日志,看看自动故障的原因是什么,这就是为什么它失败 – 不是因为它不能健康检查FSW。