Nginx + Apache服务器每6天崩溃

我是一名networking开发人员,我正在与其中一个网站工作,我希望有人能帮助我。

该网站运行在CentOS 6.6专用服务器上,CentOS 6.6是一个以Vesta作为控制面板的Nginx + Apacheconfiguration。 我不确定这里是否非常相关,但是网站使用Sphinx作为search引擎。

从一月中旬开始,每6天一次,服务器崩溃,每次都在不同的时间。 恢复通常需要大约一个小时15分钟的时间,在这期间任何日志文件中都没有条目。

在服务器恢复之后,MySQL数据库中最大的两个表中的两个会引发重复键错误,并且由于它们太大而无法足够快地修复,我通常会截断它们,然后从备份中恢复它们。

  • 我检查了所有的日志,我找不到有关崩溃的任何提示/相关信息。 所有日志包含正常的条目,直到崩溃时间,然后恢复服务器恢复后。

  • 我检查了所有用户的cron,并且没有每六天运行一次。

  • 崩溃之前的CPU和内存使用率非常低:1.6%的CPU和16.5%的内存,这是服务器上的通常负载。

  • 大概一个星期,我怀疑Vesta备份cron与此有关,因为它始终保持内存使用率在74%,即使在运行完成之后,但我禁用了它,除了内存使用量的减less外,坠机事件仍在。

你有什么build议,我可以做什么来确定罪魁祸首? 我已经跑出了想法。

谢谢!

PS:如果您需要我提供其他信息,请让我知道!

尝试收集指标并绘制它们。 没有什么比图表。 像穆宁这样的工具可以在这些情况下非常有帮助,看看内存,IO,进程,CPU,networking,中断等随着时间的推移。

http://munin-monitoring.org/

另外,如果您的计算机是虚拟机,并且networking文件系统变得不可用,那么这可能会解释日志时间的差距(对于额外的点,请尝试远程logging)。