诊断networking故障

免责声明:我是开发人员,而不是系统pipe理员,请温和。

我在哪里工作,我们有很多间歇性的networking问题。 有时DNS会失败,但是通过IP访问服务器,有时通过IP访问失败。 据我们所知,服务器,防火墙,pipe理交换机等没有任何改变。令人沮丧的是,这些故障并不会在所有的用户中造成问题,但据我们所知,所有的用户有一些问题。

  1. 服务器不报告任何故障。
  2. 物理networking似乎很好(这是一个小网站)。
  3. 防火墙不报告任何exception。
  4. 受pipe理的交换机只有存储在系统pipe理员头部的密码(我们知道的一个问题!)

我们内部的系统pipe理员目前无法使用,所以开发人员应该尝试解决问题。

所以,鉴于我几乎没有线索,我从哪里开始呢?

更新

我试过tracrt / ping组合,看起来像是一个内部问题。 外部的东西似乎是相当一致的,但内部的位被certificate是片状的。

Traceroute到一个你知道的互联网网站将会启动。 如google.com。 然后针对3个目标,路由器,路由器默认网关和google.com运行一个常量ping。

这应该至less告诉你,如果你在路上丢失任何数据包,或者如果它是你的互联网或内部networking有问题。

之后,如果/当你有下一个答案时发回。

这听起来像是在某个地方丢掉连接。

最好的build议,但会追查你的系统pipe理员,这就是为什么他/她在那里…

这听起来像是在交换机/服务器上有一个糟糕的接口,或者是networking上的stream氓stream量来源。 如果没有捕获部分跨网stream量或查看接口统计信息的function,实际上跟踪其中任何一个都是不可能的。 你最近添加了什么新设备? 特别是,在我个人的可疑设备顺序:networking设备,连接到多个networking的服务器,打印机。

然而,一个单独的系统pipe理员已经度假了,离开了networking没有可见性的networking是一个非常糟糕的情况。 一旦他/她返回,有些事情要讨论:

  1. 监控 – 从每个端口统计(Cacti)到深入监控服务(Nagios),都有许多免费/ OSS监控解决scheme。 这听起来像你需要两个。
  2. 文件 – 如果你只有一个人有资格pipe理networking,那么这个人必须logging,logging文件! 另外, 即使networking不通,它也必须处于易于访问的媒体中 这包括安全地存储密码,即使硬拷贝保存在安全的地方也是如此,所以即使系统pipe理员被黑色总线遗忘,公司也不会受到影响。
  3. 通知 – 一旦你实施了一个体面的监控解决scheme,你必须决定升级计划,以便你不只发送通知给一个人。

我是一个数百万美元的公司的唯一networkingpipe理员超过7年(我现在有奴才=)和几乎全天候24/7/365的电话,可以肯定地说,如果你“让自己成为唯一可以做某件事情的人,你可以放心,当有事情需要做时,你被打电话。

你可以百分之百依靠的一件事是,只要你能解决这个问题,任何事情都可能破裂的可能性就是当你离开休假时绝对保证能够rest的事情。

如果不能访问交换机,您的select在追踪networking问题时会受到一些限制。 我首先检查服务器上的接口; 查找丢弃的数据包或冲突。 你也可以使用Wireshark或tcpdump来查看实际的stream量,看看当你的DNS服务器不在讲话时发生了什么,但是当你可以从networking端而不是服务器端监视事物时,所有这些都可以更高效地完成。 如果你真的需要的话,你可以重置交换机上的密码,但是当他回来时,准备好处理你的pipe理员的愤怒。

隔离问题:
最好的办法是尝试隔离我认为的问题。 如果你有多台交换机,机器上只有一台交换机出现问题了吗? 如果发生在所有的交换机上,而不是纯粹的DNS问题,那么我会看看路由器,或交换机和路由器之间的连接。 这可能是某种类似广播风暴的问题,但是我认为这种情况不太可能,如果是这样的话,你可能不会解决这个问题。 已经提到,tcpdump / wireshark和接口错误也可以帮助在这个过程中。

电源周期一切( 危险
第二个风险很大的select就是重新启动所有的东西,或者一次一个地查看是否修复了问题。 我说这是有风险的,因为有很多networking设备有一个运行的configuration和一个保存的configuration。 如果pipe理员忘记将运行configuration提交到启动configuration上次他们做了什么,您可能会在重新启动后有麻烦。