采取什么步骤来find问题

一个远程Linux的Web /数据库服务器停止响应,托pipe公司刚刚重新启动它。 我应该采取哪些措施来找出问题所在?

远程服务器停止响应的原因有很多。

1-服务器可能过载,响应速度太慢。

2-服务器可能会崩溃(由内核错误或应用程序崩溃引起的系统崩溃)。

3-对于远程服务器,问题可能与networking访问有关。 你只是不能访问服务器,但它仍然在工作。

您首先需要通过收集更多信息来排除显而易见的原因来缩小search范围。

它以什么方式停止响应? sshd和Apacheclosures了,但是服务器仍然响应了ping? 彻底黑掉,甚至不能ping? 这是一个虚拟服务器还是物理服务器?

首先,如果您有某种平均/内存/ CPU使用率图表,请在崩溃附近发生奇怪的事情时查看它们。 然后,阅读日志。

如果问题是与软件有关的问题,那么在某些日志文件中有可能会告诉它。 也许这是一个僵尸networking攻击你的Web服务器,并用HTTP请求淹没它 – 也许一些其他的过程,比如从cron运行一个,去了疯狂的。 例如,如果你看到内核已经注销了内存消息,并告诉你有关OOM杀手的消息,那么一些进程试图占用所有可用的内存,而内核则将进程击落。 大部分时间OOM杀手只射击实际的混蛋过程,但偶尔像sshd这样的过程也会被击落。

另一方面,如果服务器突然停止工作,并没有任何警告,它可能是一个硬件的主angular。 服务器有时也会崩溃。 如果这是第一次,你的服务器已经非常可靠,到目前为止,不要失眠。

但是,如果这很快再发生,你需要采取行动。 如果有某种接口可以监视服务器硬件,或者您的托pipe公司可以检查该接口,请检查所有风扇是否运行正常,服务器是否在可耐受的温度下运行,并检查是否没有错误有关硬件的消息。

如果硬件正常,但是在日志中看到内核崩溃,请确保您的Linux发行版是最新的。

对不起,我无法再帮你了。 一个半长的问题不是很详细的问题。