很长时间的潜伏者,但今天我遇到了一个奇怪的问题,将bug我直到分辨率:-)
它似乎是从一台服务器到故障转移群集的单向ping问题。
所有机器都运行Windows Server 2008 R2,禁用IPV6。 Windows防火墙服务被禁用。
土地的放置:
报告服务器 – 使用E1000 NIC的VMWare虚拟机。 没有什么特别的 – IP,子网,网关和路由表都显得很理智。
SQL 2008R2主动/被动故障转移群集 – 每个群集有7个configuration的NIC – 3个iSCSI,其余4个与BACS绑定到2个IP。 一个NIC组用于本地通信,另一个用作故障转移群集的一部分。 故障转移群集有一个VIP。
问题:
上周所有的工作都很好。 所有的机器都在同一个子网上 。 今天,报表服务器无法ping故障转移群集的VIP。 它可以同时ping两个节点,同时使用非存储IP地址。
SQL故障转移群集可以ping通报表服务器,而不会有任何问题。
我可以ping任何其他机器的SQL VIP,在我的脑海中维护。
创可贴
我尝试重新启动报告服务器,如果TCP / IP行为exception无济于事。 什么结束了工作是改变报告服务器的IP地址 – 据我所知在交换机上没有主机规则(催化剂3750)。
什么可能导致这一个? 我想说,报表服务器重新启动后,ARP表被清除,并且IP地址不应该在数据库集群上变得陈旧…寻找具有更多networking知识的人比我:-)
捂脸。
我知道是什么造成的,尽pipe我可能需要帮助解释。 在今晚的故障排除中,我启动了另一台服务器,并假设报告服务器的IP地址 – 运行Windows Server 2008 R2的全新服务器无法ping到VIP。
那真奇怪 再次,它可以通过名称来ping任一个节点。 我查看了arp表,看起来很理智 – 我跳上活动的数据库节点检查MAC地址,注意到IPv6的checkbox被选中。 我没有选中它,它立即解决了这个问题。
问题变成了 – 为什么? 我错过了集群configuration中的IPv6,这是肯定的…但是这个集群已经生产了3个月以上,在今天之前没有明显的问题。 该节点已经超过3周的活动节点。
有没有人有经验或解释如何好东西变得如此糟糕? 🙂