我们的一台服务器昨天冻结,显然拒绝提供任何HTTP请求。 现场的技术人员无法远程连接到机器,因此他从VMware Infrastructure Client重新启动了(虚拟)机器,并且一切都恢复正常。
现在我想弄清楚出了什么问题。 我查看了几个日志文件,并且都只是在凌晨5点停止logging任何内容,然后以引导顺序重新开始logging。 我找不到任何可疑的东西,除此之外,一些cron作业在凌晨5点运行。 这些都是相当简单的工作,没有与任何关键的事情互动,完成后至less有一些活动。
冻结持续了几个小时。 我们在同一个盒子上的其他虚拟机上没有任何其他问题,它们的configuration都非常相似。
有什么地方可以开始寻找线索吗? 如果在重置机器之前再次发生这种情况,我可以告诉别人怎么做? 魔术SysRq也许?
我的第一个行动是让服务器停止服务,并运行一个完整的Memtest +运行,以检查内存不失败。 接下来检查硬盘的SMART是否有问题。 接下来是在http://www.kernel.org/doc/Documentation/networking/netconsole.txt下面的说明来捕获将来的任何事情。
我猜你已经看到了这一点,但如何使用,系统日志,诊断,神秘,崩溃不知道这是否可以帮助,是你的服务器压力/服务于大量的客户