最近我不得不重新启动我的服务器,因为它没有响应。 我正在查看日志,但找不到任何有价值的东西来知道错误是什么。
液滴CPU是100%数小时。 这是截图:
当液滴出现问题时,现场不可用,也不能进入壳体。
我不知道还有什么可以find错误或可能的原因。 我应该从哪里开始寻找? 什么特定的日志可以在这里更有用?
现在一切都很好,重启后…但它可能会再次发生。
请帮帮我。 谢谢。
首先,您是否有任何监控工具,如Nagios ,以实时突出显示这些事件? 这将是一个很好的build议,你configuration来监视你的服务器,它可以做一些SNMP命令,如:
服务监控
事件处理
多主机监控
有关更多详细信息,请参阅下面的附件:
======= USAGE: ======= ./checkProcessesviaSNMP.sh <community-string> <remote-host> <process-names> <warning> <critical> <type>
这个工具应该能够监视服务器上的大量实时事件,并通过电子邮件提醒您(由于您configuration了SMTP)。
这个解决scheme不会阻止错误,但是应该给你实时的警报。
在解决Nagios之类的问题之前,我build议你安装sar
来保持服务器的监控。 它基本上不需要configuration,但同时它会收集许多关于服务器正在运行/正在发生什么的关键统计信息。