排除间歇性networking故障和减速故障

我在这里提供了我们的networking和设备的图表: http : //imgur.com/bp7l0

症状

  • 在3周内两次,我们经历了间歇性的networking故障。 这通常performance为网页上的超时,或者有时缺less网站内容(样式表不加载,例如)。 这个问题发生在我们大楼的所有楼层。 通常强制刷新页面将被修复。
  • Tracert到网页将工作,每次我已经尝试过,即使我一直在每一个第二或第三个新的URL的页面加载错误。 有时第二跳失败,虽然这可能只是反映ICMP被该IP地址阻塞。
  • 一些用户经历了较慢的networking性能。
  • 同时,整体networking使用率似乎是正常的,远低于10 MBpipe道的限制。
  • 在speedtest.net上进行speedtest会给出正常的结果 – 比预期的要低一点,因为不是networking上唯一的用户。
  • 有一次当我外出接到紧急电话时,我build议我们的IT人员重新启动路由器或防火墙。 他们重新启动了防火墙,这显然已经解决了几个星期的问题。

networking概述请参阅此处的示意图: http : //imgur.com/bp7l0 。

我们有两个networking连接,一个主连接和一个故障切换连接。 两个networking连接都直接插入防火墙。 从防火墙到我们的主交换机,连接是铜线,cat5e。 该端口configuration为全双工100兆。 部分用户直接通过IDF接入交换机,不同楼层的其他用户有独立的交换机,通过光纤接入主交换机,从那里到达IDF。

在窗口中,当我能够观察防火墙时,故障转移连接似乎没有被占用。 它的工作方式是当达到带宽阈值(10 MB)时,次级连接启动。 如果主要连接完全死亡,也使用它。

已执行故障排除

  • 连接到被pipe理的交换机,用铜链路查看端口统计。 一切似乎正常,但我不知道100%要寻找什么。 我寻找滴和碰撞; 在这个特定的港口都很低。 不知道没有外部日志logging服务器的数据收集的时间范围。
  • 在防火墙上观看一段时间的统计数据。 观察带宽利用率,错误报告。 没有特殊的连接。

我的问题

接下来我应该调查什么,我应该采取什么措施? 任何猜测,我遇到什么types的问题 – 电缆,交换机,防火墙,或ISP? 有什么工具可以帮助我testing这里涉及的各种组件? 问题很难,因为它是间歇性的。 我想我可以使用SNMP从交换机收集更长时间的数据以及防火墙的数据,但是这对于我来说是一个很大的项目。 有任何configuration更改值得吗? 调整我可以轻松地在全球范围内执行的超时

任何帮助将非常感激。 谢谢!

没有进入很多非常具体的指导,我相信别人会提供:

  1. 如果不知道被更改的具体组件是问题的原因,并且更改将解决问题,则不要做任何更改。 做一些随意的改变,希望能有所作为就像驾驶一辆被蒙上眼睛的汽车。 你可以解决这个问题,但这只是因为运气好,你永远不知道真正的原因是什么。

  2. 你已经打了一些东西:防火墙。 如果是重新启动防火墙的情况,上次解决了这个问题,那就是我要开始的地方。 在可能的情况下,查看防火墙上可用的任何计数器,如CPU和内存使用情况,stream量负载,丢弃的数据包等。在防火墙的内部和外部放置networking嗅探器,并运行客户端计算机上的一些testing。 你看到包里面掉了吗? 在外面? stream量进入和退出防火墙的时间是什么样的? 有明显的延迟吗?

从那里我会移动到交换机或路由器,并执行相同的testing,这取决于testing防火墙的结果。

隔离问题的隔离可能是麻烦的。 安装某种监控来频繁检查多个层次的可用性和时间安排是一个好主意。

运行频繁的ICMP ping到

  • 由交换机分隔的内部机器
  • 防火墙设备的内部接口
  • 你的ISP的路由器(当你使用traceroute的时候,把你在路上看到的第一个路由器)
  • 您的ISP的一些基础架构服务器(例如名称服务器或邮件服务器)
  • 具有高可用性的公共网站(例如google.com)

还可以添加一些频繁的HTTP请求,使用wget进行recursion检索和–delete-after语句 – 将date时间戳,执行时间和错误写入日志。

结合这些信息可以帮助你围绕问题领域。

在Firebox上使用什么版本的固件? 我最近似乎与这些问题。 我们升级到V12,这解决了这个问题。