解决networking中断问题

我的公司几乎完全是一个Windows商店:微软防火墙,所有的Windows服务器等等。硬件主要是思科或思科。 三周左右,我们遇到了“随机”的networking中断。 他们不是很长,但是他们发生,并打断工作stream*。 它们不会同时发生。 我们不知道什么改变,使他们开始发生。 我们问Optimum Lightpath,他们的系统运行良好,所以问题似乎是内部的。

你将如何解决这个/设置日志parsing/正确设置wireshark的filter(我知道,我知道 – RTFM …)/牺牲一只山羊?


  • 工作stream程中断:任何需要访问服务器(如网页或数据库访问)的工作都会中断。

因为它包含了大部分的相关信息,所以在这里复制dashmir的消息:

希望我今天可以解决这个问题,因为转换不好,但我们是一个多专业的医师的做法。 我们有3栋build筑物,使用深色纤维和22个遥控站点连接。 一半是使用电子线连接,另一半是网站到现场vpn。

中断时间约为10-15秒,但足以破坏工作stream程和混乱。 EMR上的医生大多尖叫。 然后一切都恢复正常。

所有交换机,服务器和应用程序之间的连接丢失

我们在CCR集群中进行交换。 防火墙同样是容错的,并且负载平衡,这些是我们的交换和我们的防火墙上的一些错误。

事件ID 1135 – 群集服务启动更新date:2009年11月25日应用到:Windows Server 2008 R2

群集服务是控制故障转移群集操作的所有方面和pipe理群集configuration数据库的基本软件组件。 如果群集服务无法在故障转移群集节点上启动,则该节点不能作为群集的一部分运行。
活动详情
产品:Windows操作系统
ID:1135
资料来源:Microsoft-Windows-FailoverClustering
版本:6.1
符号名称:EVENT_NODE_DOWN
消息:已从活动的故障转移群集成员身份中删除群集节点“%1”。 此节点上的群集服务可能已停止。 这也可能是由于节点与故障转移群集中的其他活动节点失去通信所致。 运行“validationconfiguration”向导来检查您的networkingconfiguration。 如果情况依然存在,请检查与此节点上的networking适配器相关的硬件或软件错误。 还要检查节点连接到的其他networking组件(如集线器,交换机或网桥)中的故障。 解决方法检查networking硬件和configuration如果当前没有打开“事件查看器”,请参阅“打开事件查看器并查看与故障转移群集相关的事件”。 查看事件消息后,select适用于您的情况的操作:•运行“validationconfiguration向导”,只selectnetworking和库存testing。 有关更多信息,请参阅“使用validationconfiguration向导查看networkingconfiguration”。 *检查系统事件日志中与此节点上的networking适配器相关的硬件或软件错误。 *检查连接节点的networking的networking适配器,电缆和networkingconfiguration。 *检查连接节点的networking中的集线器,交换机或网桥。 要执行以下过程,您必须是每个群集服务器上的本地pipe理员组的成员,并且您使用的帐户必须是域帐户,或者您必须已经被委派了相应的权限。 使用“validationconfiguration向导”来查看networkingconfiguration要使用“validationconfiguration向导”来查看networkingconfiguration,请执行以下操作:
1.要打开故障转移群集pipe理单元,请单击开始,单击pipe理工具,然后单击故障转移群集pipe理。 如果出现用户帐户控制对话框,请确认所显示的操作是您想要的,然后单击继续。
2.在“故障切换群集pipe理”pipe理单元的控制台树中,确保select了“故障转移群集pipe理”。 然后在pipe理下,单击validationconfiguration。
3.按照向导中的说明指定要testing的群集。
4.在“testing选项”页面上,select仅运行我select的testing。
5.在“testingselect”页面上,清除除networkingtesting以外的所有checkbox。
6.按照向导中的说明运行testing。
7.在摘要页面上,单击查看报告。 打开事件查看器并查看与故障转移群集相关的事件打开事件查看器并查看与故障转移群集相关的事件:
1.如果服务器pipe理器尚未打开,请单击开始,单击pipe理工具,然后单击服务器pipe理器。 如果出现用户帐户控制对话框,请确认所显示的操作是您想要的,然后单击继续。
2.在控制台树中,展开“诊断”,展开“事件查看器”,展开“Windows日志”,然后单击“系统”。
3.要过滤事件,以便只显示具有FailoverClustering源的事件,请在Actions窗格中单击Filter Current Log。 在筛选选项卡的事件源框中,selectFailoverClustering。 根据需要select其他选项,然后单击确定。
4.要按date和时间对显示的事件进行sorting,请在中央窗格中单击date和时间列标题。 validation要执行此过程,您必须是每个群集服务器上本地Administrators组的成员,并且您使用的帐户必须是域帐户,或者您必须已经委派了相应的权限。 validation故障转移群集中所有节点上是否启动群集服务要validation群集服务是否在故障转移群集中的所有节点上启动,请执行以下操作:
1.要打开故障转移群集pipe理单元,请单击开始,单击pipe理工具,然后单击故障转移群集pipe理。 如果出现用户帐户控制对话框,请确认所显示的操作是您想要的,然后单击继续。
2.在“故障转移群集pipe理”pipe理单元中,如果未显示要pipe理的群集,请在控制台树中右键单击“故障转移群集pipe理”,单击“pipe理群集”,然后select或指定所需的群集。
3.如果控制台树已折叠,请展开要pipe理的群集下的树,然后单击“节点”。
4.查看每个节点的状态。 如果某个节点处于“启动”状态,则在该节点上启动群集服务。 检查群集服务是否启动的另一种方法是在群集中的节点上运行命令。 使用命令检查群集服务是否在节点上启动要使用命令检查群集服务是否在节点上启动:
1.在要检查的节点上,单击开始,指向所有程序,单击附件,右键单击命令提示符,然后单击以pipe理员身份运行。
2.键入:CLUSTER NODE / STATUS如果节点状态为Up,则在该节点上启动群集服务。 相关pipe理信息

这些是我在防火墙上看到的一些错误。

事件types:警告事件来源:WLBS事件类别:无事件ID:18date:2/9/2010时间:6:9:47 PM用户:不适用计算机:HAWKEYE说明:NLB群集172.16.2.35:重复的群集子网检测。 networking可能已被无意中分区。

他以下Windows NT负载平衡服务(WLBS)事件18出现在事件查看器中:检测到重复群集子网。 networking可能已被无意中分区。 WLBS群集似乎正常工作。 回到顶端原因在已拆分为多个群集的群集中重新生成此事件。 此事件可能由以下原因引起:•在服务器上拉网点,这将导致服务器与自身融合,并形成两个群集。 •如果群集部署在两台交换机之间,则中断两台交换机之间的中继。 •networking拥塞导致交换机故障或交换机泛滥。 回到顶端解决scheme在群集分区的过程中,群集的成员会聚到两个或多个单独的群集中。 此事件是一个信息消息,报告networking已被分区,并且WLBS主机现在已经在一个群集中正确聚合。 此事件是良性的,但如果重复logging,则可能存在底层networking问题,或者networking基础结构可能不足以满足stream量需求。

好的,经过一个星期解剖我的networking,我得出了一个结论。

这项工作很乏味,但必须完成。 我最后去了每个站点,并且把所有的东西全部重新连接起来。

我发现build筑物和2个交换机之间的另一个环路具有相同的IP地址。 现在一切正常。

谢谢

你需要精确地缩小中断的性质。

  • 这是协议级别的中断吗? (例如,WINS或CIFS是否停止响应,从而导致会话中断?)
  • 这是一个局域网的一个或几个主机的networking级别的中断?
  • 在中断期间,可以:
    • 交换机彼此交谈?
    • 交换机与防火墙通话?
    • 交换机与主机通话?
    • 主持人互相交谈?
  • 思科日志中是否有相关事件?