如何区分故意重启和电源故障

不幸的是,我的一个Centos主机最近重新启动,没有实现监视。

我怎样才能找出是什么导致它重新启动。 我只有ssh访问它。

如何确定是否由于以下原因:

1.power failure.(Will there be any special non maskable interrupt logged some where) 2.Intentional hard reset.(will it be possible to differentiate between power failure n reset also what will be Signal to look for?). 3.manual reboot command(How to differentiate this from hard reset,will inode reveal anythng related to this like "**Cleaning Orphaned node**" any special signals?) 4.Low disk space.(there is no message in /log/messages 30 minutes before restart,something stopped daemon from writing to log, disk space was ok ). 5.Overloaded CPU (Not configured to run any cronjob for saving sar o/p,Currently load average is normal Will there be any special signal to look for when CPU is loaded.) 6.Low RAM(currently there is more than 24 GB free space 

我有兴趣知道故意(硬重置/命令发布)和电源故障重启之间的区别。

对于3,您将在重新启动之前看到关于进程closures的日志消息。 你不会看到那些1和2.另外,如果非正常关机,你可能会在启动时看到文件系统检查相关的消息。 但请记住,这些存在并不一定意味着硬关机,因为有些文件系统每隔N天或每X次执行一次定期检查。

对于4,5和6,这些通常不会导致重新启动,而且它们都是您的监控应该捕获并提醒的所有事情。

为了扩展6,在极端的RAM负载下,内核将调用它的内存不足的杀手(killer),这会消除内存占用的进程,从而保持系统的整体稳定性。 发生这种情况时,将被logging。

对于大多数硬件故障,您可以查看System Event Loglogging,它可以显示如下内容:

  1. CPU过热
  2. ECC内存错误
  3. 电源故障
  4. IPMI重新启动

以及更多。

您可以通过ipmitoolipmiutil命令访问SEL(如果它在硬件上可用),请参阅: ipmiutil sel – 显示固件系统事件日志logging