在linux服务器崩溃后要检查什么?

我的Linux服务器(debian 5)停滞不前,不得不重新启动。

请告知要检查什么,以了解发生了什么。 常见的嫌疑人像/var/log/messagessyslogkern.log 。 你能给我一个提示,在失败之前平均负荷超过100? 不知道在哪里看得更远。

您需要提供有关您的服务器configuration的更多信息,并发布这些日志。 你怎么知道负载平均值高?

“失败前负荷平均超过100人”症状可以有多种原因,但频繁发生。

首先,平均负荷是多less?

我build议看看这篇文章,以获得有关该主题的更多信息: https : //superuser.com/questions/23498/what-does-load-average-mean-in-unix-linux

负载平均值指示当前有多less进程处于“等待”状态。 负载平均值非常高意味着资源耗尽,导致资源耗尽的一个常见原因是I / O操作完成的等待时间过长(或无限)。

什么可能导致这个?

  • I / O等待可能是由于NFS挂载失败,硬盘出现故障。 你可能是袭击的受害者。
  • 像Slowloris这样的攻击往往会耗尽文件句柄池,并可能在服务器上挂起I / O操作。
  • 注意叉子炸弹。 如果您遭遇了叉炸弹,而且您的记忆力已经耗尽,那么您可能会看到有关“OOM杀手”的痕迹,这是一个内核工作者,在其他任何事情都失败时,牺牲进程为系统释放内存。 在一些设置中,OOM Killer可以使系统重启。

在哪里看?

这真的取决于你的系统configuration和环境。 你没有提供足够的细节来回答这个问题。 不过这里有一些想法:

  • 首先,检查你所有的硬盘。 对它们运行完整的SMARTtesting。
  • 如果您有硬件RAID,请检查RAID控制器的日志。
  • 如果您正在托pipeWeb服务,请检查带宽使用历史logging,并请求计数。
  • 如果您有远程networking挂载(sshfs,NFS),请检查其可靠性
  • 如果您在服务器上托pipe用户shell,请检查它们的.bash_history( 这可能是假的)。
  • 如果该服务器是虚拟机,则问题可能与您的服务器无关,而与您的虚拟服务提供商无关。