免责声明:我是开发人员,而不是系统pipe理员,请温和。
我在哪里工作,我们有很多间歇性的networking问题。 有时DNS会失败,但是通过IP访问服务器,有时通过IP访问失败。 据我们所知,服务器,防火墙,pipe理交换机等没有任何改变。令人沮丧的是,这些故障并不会在所有的用户中造成问题,但据我们所知,所有的用户有一些问题。
我们内部的系统pipe理员目前无法使用,所以开发人员应该尝试解决问题。
所以,鉴于我几乎没有线索,我从哪里开始呢?
更新
我试过tracrt / ping组合,看起来像是一个内部问题。 外部的东西似乎是相当一致的,但内部的位被certificate是片状的。
Traceroute到一个你知道的互联网网站将会启动。 如google.com。 然后针对3个目标,路由器,路由器默认网关和google.com运行一个常量ping。
这应该至less告诉你,如果你在路上丢失任何数据包,或者如果它是你的互联网或内部networking有问题。
之后,如果/当你有下一个答案时发回。
这听起来像是在某个地方丢掉连接。
最好的build议,但会追查你的系统pipe理员,这就是为什么他/她在那里…
这听起来像是在交换机/服务器上有一个糟糕的接口,或者是networking上的stream氓stream量来源。 如果没有捕获部分跨网stream量或查看接口统计信息的function,实际上跟踪其中任何一个都是不可能的。 你最近添加了什么新设备? 特别是,在我个人的可疑设备顺序:networking设备,连接到多个networking的服务器,打印机。
然而,一个单独的系统pipe理员已经度假了,离开了networking没有可见性的networking是一个非常糟糕的情况。 一旦他/她返回,有些事情要讨论:
我是一个数百万美元的公司的唯一networkingpipe理员超过7年(我现在有奴才=)和几乎全天候24/7/365的电话,可以肯定地说,如果你“让自己成为唯一可以做某件事情的人,你可以放心,当有事情需要做时,你会被打电话。
你可以百分之百依靠的一件事是,只要你能解决这个问题,任何事情都可能破裂的可能性就是当你离开休假时绝对保证能够rest的事情。
如果不能访问交换机,您的select在追踪networking问题时会受到一些限制。 我首先检查服务器上的接口; 查找丢弃的数据包或冲突。 你也可以使用Wireshark或tcpdump来查看实际的stream量,看看当你的DNS服务器不在讲话时发生了什么,但是当你可以从networking端而不是服务器端监视事物时,所有这些都可以更高效地完成。 如果你真的需要的话,你可以重置交换机上的密码,但是当他回来时,准备好处理你的pipe理员的愤怒。
隔离问题:
最好的办法是尝试隔离我认为的问题。 如果你有多台交换机,机器上只有一台交换机出现问题了吗? 如果发生在所有的交换机上,而不是纯粹的DNS问题,那么我会看看路由器,或交换机和路由器之间的连接。 这可能是某种类似广播风暴的问题,但是我认为这种情况不太可能,如果是这样的话,你可能不会解决这个问题。 已经提到,tcpdump / wireshark和接口错误也可以帮助在这个过程中。
电源周期一切( 危险 ) :
第二个风险很大的select就是重新启动所有的东西,或者一次一个地查看是否修复了问题。 我说这是有风险的,因为有很多networking设备有一个运行的configuration和一个保存的configuration。 如果pipe理员忘记将运行configuration提交到启动configuration上次他们做了什么,您可能会在重新启动后有麻烦。