Linux服务器停止响应

我们的一台RedHat Linux服务器在几分钟内停止响应。 在那几分钟的时间内,日志文件(/ var / log / – messages等)或应用程序日志文件中绝对没有input。 我还能检查什么?

那段时间,用户无法访问应用程序,也无法使用SSH。 无法回想我是否尝试ping。

之后,一切开始按预期工作!

你有没有对这个盒子进行任何forms的趋势或监测? 否则,可能很难诊断。 这种行为可能是由许多事情造成的。 以下是我头顶的一些想法:

  • 瞬态networking故障(广播风暴,路由环路,生成树拓扑变化等)
  • IO争用(做了一些事情消耗了服务器的所有RAM,导致它大量进入交换土地?)
  • 服务器重新启动了吗?

outlook未来,我强烈build议让Munin成立。 通过使用Munin,您可以轻松查看磁盘IO,内存使用情况,CPU使用情况,进程数量,networkingstream量等信息。有了这些信息,就可以更轻松地解决这类问题。 或者,您可以安装并设置sar ,它收集大量相同的数据,但将其logging在文本文件中,您可以在事后查看。

鉴于你所描述的,我看的第一个地方是dmesg(“dmesg | tail”)。 如果一个硬件锁住了,没有任何东西放在/ var / log / messages中,十次中有九次是放在dmesg中的。

您是否注意到您重新login时的负载平均值?

你说“之后”。 多长时间后恢复? 1分钟 ? 2? 几秒钟?

有没有从networking上挂载的文件系统(NFS,AFS等)? 这让我想起你有一个挂载networking文件系统的情况,突然间networking出现故障。 然后你有一个文件系统等待超时。

另外,你有另一台机器连接? 如果是的话,你loggingarp交易? 你可能会发现是否有邻居被抛弃。