Debian 5上的networking辍学,如何find一个原因

这是位于数据中心的塔式服务器机器。 我可以完全访问机器。

我正在经历短暂的辍学,通常每周几次不到10分钟。 不幸的是,上个星期六,已经停了5分钟,3分钟,10分钟,等了大约半小时。 我不得不重新启动sockets,因为我现在根本无法debugging,有很多网站我不能长时间无法访问。 等40分钟后,硬盘检查后系统启动,networking再次正常。 既然那一天是稳定的,那么昨天晚上又有1到10分钟的辍学(我每10分钟就从另一台机器上ping一下来获得一个状态)。

我从来没有发现任何有用的日志,如果我正在寻找正确的地方。 没有负载峰值。 我试图在丢失期间多次连接KVM,但在支持KVM之前,它总是closures。 只有一次,我设法通过KVM访问,而退出。 我可以确认我无法到达networking,但机器工作正常。 不幸的是,find其他东西太短了。

每次,我的房屋提供者都没有意识到他的辍学。 我有更多的机器,他们都运行得很好。 但仍然可能是行为不当或简单的以太网电缆。

我需要find这些辍学的原因,因为我再也不能承受更多的网站中断了。

有没有什么好的工具(networking监视器),我可以使用? 我需要一些简单的东西,所以我可以真正理解日志并指出具体原因。

另外,在networking内部,软件问题,机器外部硬件问题还是机器外部问题,都会对您造成什么影响? 有没有什么方法可以告诉哪一个networking像这样离线。 例如,我猜如果这是一个糟糕的电缆,就不会有任何前面的错误。

首先要检查的是内核日志中是否logging了任何链接状态变化。 您可以使用dmesg命令查看最新的内核日志消息。 寻找类似于此的消息

 eth2: link down eth2: link up, 100Mbps, full-duplex, lpa 0xC5E1 eth2: link down eth2: link up, 100Mbps, full-duplex, lpa 0x45E1 

如果看到这样的消息,则需要检查计算机和交换机之间的电缆连接。 如果你没有看到这个,你应该检查堆栈的更高一层。

另一个问题可能是MAC或IP地址重复。 如果这是你的问题的原因,在服务器上运行tcpdump可能会显示传出,但不是传入的数据包。 虽然可能是这种情况,但是第一个输出数据包清除了这个问题。