如何找出为什么一个服务器挂起，但仍然可以ping通

我的一台服务器在德国数据中心运行，每天晚上都“挂起”，但我无法find原因。在/ var / log / messages和/ var / log / syslog中找不到错误。

服务器响应ping，但所有服务都closures（ssh，apache，…）。复位后，一切正常。

硬件testing已经完成。这看起来像是一个软件问题。

我会留下一些轻量级的分析命令logging到文件，所以你可以看看事后发生了什么问题。例如：

 nohup top -b -d 60 >> top.log & # runs every 60 seconds nohup vmstat 5 >> vmstat.log & nohup iostat 5 >> iostat.log &

nohup在那里，所以当你失去与服务器的连接时，它们不会被杀死。你也可以使用screen 。

最后两个命令更强大的替代方法是设置sar 。

当我看到这样的问题时，通常最终会成为一个cron工作的问题。

检查您的系统日志是否在服务器挂起的同一天运行的cron作业。另外，检查你的根crontab（ crontab -e ）和/etc/cron.daily中的任何可能负责任的东西。

听起来像随机崩溃可能是由于硬件故障造成的。让托pipe公司查看POST或服务器LCD上是否有任何错误。如果它是一个戴尔服务器，你可能想安装打开pipe理，这将告诉你，如果任何硬件有问题。根据我的经验，错误的内存dimm会导致随机的服务器重启。根据您正在运行的硬件types，如果问题仍然存在，主机应该可以在服务器上进行机箱交换。