我在这里提供了我们的networking和设备的图表: http : //imgur.com/bp7l0
症状
networking概述请参阅此处的示意图: http : //imgur.com/bp7l0 。
我们有两个networking连接,一个主连接和一个故障切换连接。 两个networking连接都直接插入防火墙。 从防火墙到我们的主交换机,连接是铜线,cat5e。 该端口configuration为全双工100兆。 部分用户直接通过IDF接入交换机,不同楼层的其他用户有独立的交换机,通过光纤接入主交换机,从那里到达IDF。
在窗口中,当我能够观察防火墙时,故障转移连接似乎没有被占用。 它的工作方式是当达到带宽阈值(10 MB)时,次级连接启动。 如果主要连接完全死亡,也使用它。
已执行故障排除
我的问题
接下来我应该调查什么,我应该采取什么措施? 任何猜测,我遇到什么types的问题 – 电缆,交换机,防火墙,或ISP? 有什么工具可以帮助我testing这里涉及的各种组件? 问题很难,因为它是间歇性的。 我想我可以使用SNMP从交换机收集更长时间的数据以及防火墙的数据,但是这对于我来说是一个很大的项目。 有任何configuration更改值得吗? 调整我可以轻松地在全球范围内执行的超时
任何帮助将非常感激。 谢谢!
没有进入很多非常具体的指导,我相信别人会提供:
如果不知道被更改的具体组件是问题的原因,并且更改将解决问题,则不要做任何更改。 做一些随意的改变,希望能有所作为就像驾驶一辆被蒙上眼睛的汽车。 你可以解决这个问题,但这只是因为运气好,你永远不知道真正的原因是什么。
你已经打了一些东西:防火墙。 如果是重新启动防火墙的情况,上次解决了这个问题,那就是我要开始的地方。 在可能的情况下,查看防火墙上可用的任何计数器,如CPU和内存使用情况,stream量负载,丢弃的数据包等。在防火墙的内部和外部放置networking嗅探器,并运行客户端计算机上的一些testing。 你看到包里面掉了吗? 在外面? stream量进入和退出防火墙的时间是什么样的? 有明显的延迟吗?
从那里我会移动到交换机或路由器,并执行相同的testing,这取决于testing防火墙的结果。
隔离问题的隔离可能是麻烦的。 安装某种监控来频繁检查多个层次的可用性和时间安排是一个好主意。
运行频繁的ICMP ping到
还可以添加一些频繁的HTTP请求,使用wget进行recursion检索和–delete-after语句 – 将date时间戳,执行时间和错误写入日志。
结合这些信息可以帮助你围绕问题领域。
在Firebox上使用什么版本的固件? 我最近似乎与这些问题。 我们升级到V12,这解决了这个问题。