调查为什么服务器无响应

我正在运行一个虚拟专用服务器(运行Apache + Tomcat + jruby的Debian / Linux),它不时无法访问(我甚至无法ping通它)。 我把这一点归咎于我们的服务提供商。 发生这种情况时,必须通过提供商的pipe理控制台重新启动服务器,一切恢复正常。 我已经尝试通过var / log中的日志,但没有发现什么特别的地方。 调查此类事件的下一步是什么?

如果您提到了您在日志中查找的内容并找不到,可能会有所帮助。

这里可能没有太多可以做的事情。 但是你可以尝试设置一个基本的内部看门狗 – 使用cron(或者最好是一个守护进程)来定期,短时间的触发和logging事件,然后检查它是否连续运行,直到重新启动。

并增加日志logging。

大概你是在向服务提供商付钱 – 你应该要求他们提供他们调查的细节

这些是我想要回答以解决问题的第一个问题:

  • 在服务器无响应的时候,它是否有能力发送出去的ping数据包?
  • networkingconfiguration如何查看发生故障的时间?
  • 服务器上是否运行了防火墙? 失败的时候是什么状态?

你有没有可以用来尝试build立远程控制台会话的KVM? 在任何情况下,您都希望在发生故障时从服务器内部查看正在发生的事情。

如果日志没有显示错误,并且无法build立远程控制台设置,则可以使用定期将networking/防火墙设置输出的cron项input到稍后可以检查的文件中。