服务器每隔几天死掉 – 如何调查

我有Ubuntu 9.10专用服务器(无法pipe理),并在几周前开始死亡。

在我请求硬件检查之前,我想确认在服务器上没有发生某种types的软件问题。

服务器是非托pipe的,所以我需要自己做所有事情。

服务器托pipe几个WP站点和一个VBulettin论坛。

这是我的PHP信息http://pastebin.com/hSQVQBMR

服务器已经*完美地工作了大约一年,同时,没有一次重新启动,现在它开始突然挂起。

当我们网上的访客人数最多时,它总是发生在大约同一时间(中央时间凌晨4-6点)。

但奇怪的是,这从来没有发生过,它工作了一年或更长时间。

所以我的问题是 – 如何调查?

我从第一天就开始build立仙人掌 – 并没有什么不寻常的活动。更进一步,它每次挂起它发生在负载的下坡和mysql查询聊天(和所有其他负载相关的图表)

我没有的是sockets图表的数量,但我今天补充说。

最让我担心的是每次我要求重启(aprox在过去7天中的4次)支持的人告诉我,他正在黑屏 (所以我猜这不是负载的情况下〜50)

我应该看什么日志文件?

我应该查找哪些文件中的条目?

首先查找/ var / logs / messages中的内存错误和硬盘错误。

这台服务器在数据中心吗? 有适当的电力供应? 电力的变化会导致服务器崩溃,如果电力不足,也可能导致服务器无法启动。

你也可以testing你的硬件,特别是你的内存和硬盘 。

设置CPU温度监控,如果你还没有。 如果问题是过热,那么在失败之前,您可能会看到温度急剧boost。

/var/log/kern.log值得一看。 但是,如果系统崩溃,那么当它真的很重要时,它可能无法写入任何内容。

如果你可以访问控制台 – 或者更好的话,可以使用一个串行控制台,留下logging所有写入到控制台的东西(我使用“屏幕”),然后你就可以看到内核在崩溃时所说的内容。

当有一段时间没有任何事情可以“死”吗? 那么省电可能是这里的问题。 尝试完全禁用它,或者至less阻止它将CPU或内核切换到C-sleep状态。

如果在省电的情况下启用了C状态,那么我得到了一堆戴尔服务器,这些服务器暴露了最奇怪的错误。

你知道什么样的硬件正在使用(品牌,型号,CPU – 可以英特尔)?