我们的一台RedHat Linux服务器在几分钟内停止响应。 在那几分钟的时间内,日志文件(/ var / log / – messages等)或应用程序日志文件中绝对没有input。 我还能检查什么?
那段时间,用户无法访问应用程序,也无法使用SSH。 无法回想我是否尝试ping。
之后,一切开始按预期工作!
你有没有对这个盒子进行任何forms的趋势或监测? 否则,可能很难诊断。 这种行为可能是由许多事情造成的。 以下是我头顶的一些想法:
outlook未来,我强烈build议让Munin成立。 通过使用Munin,您可以轻松查看磁盘IO,内存使用情况,CPU使用情况,进程数量,networkingstream量等信息。有了这些信息,就可以更轻松地解决这类问题。 或者,您可以安装并设置sar ,它收集大量相同的数据,但将其logging在文本文件中,您可以在事后查看。
鉴于你所描述的,我看的第一个地方是dmesg(“dmesg | tail”)。 如果一个硬件锁住了,没有任何东西放在/ var / log / messages中,十次中有九次是放在dmesg中的。
您是否注意到您重新login时的负载平均值?
你说“之后”。 多长时间后恢复? 1分钟 ? 2? 几秒钟?
有没有从networking上挂载的文件系统(NFS,AFS等)? 这让我想起你有一个挂载networking文件系统的情况,突然间networking出现故障。 然后你有一个文件系统等待超时。
另外,你有另一台机器连接? 如果是的话,你loggingarp交易? 你可能会发现是否有邻居被抛弃。