最近,我的专用服务器在星期天冻结了大约50分钟。 它没有回应ping或任何命令。 最后,托pipe公司很难重启,一切正常。
我已经挖掘了两天的日志,但是我没有发现任何exception,除了我的日志在10:55和11:40之间停止。
所以,也许我没有find正确的地方,也许我没有logging一些重要的信息。
这导致我的问题, 我怎么知道为什么我的专用服务器冻结或坠毁? 我应该logging什么,我应该在哪里看,我应该运行一些testing?
我的服务器正在运行一个Debian(Jessie)8.3,但是我省略了这个信息,因为我更喜欢一个“通用”的答案,可以用于任何类Unix操作系统。
而且,这个问题可能有点太宽泛,我意识到这一点,如果是的话,我表示歉意。
服务器停止应答的情况,在重置之后,在其日志中没有像样的解释原因是很常见的。 调查这个标准的方法是对这个服务器进行某种带外控制,通常这是某种ipkvm ,通常由IPMI / BMC板提供。 惠普称之为国际劳工组织 ,戴尔称之为DRAC ,IBM称之为RSA ,其他供应商则简称为IPMI 。 它通常由一个单独的控制器处理,它可以有一个专用的networking端口(它也可以通过OS所连接的同一个networking接口以共享方式访问,但是有一个专用的networking接口是更可取的)。 另一个select是附加一个外部ipkvm,它将为您提供与带外连接相同的方式。
所以,当一台服务器停止应答时,你使用这种通信,login到服务器,并试图了解什么是错的。 如果服务器没有响应,即使通过本地控制台远程访问,也可能尝试其他更复杂的技术。 第一个是使用NMI(非屏蔽中断调用,通常可以从IPMI / BMC发出)进入内核debugging器,或者甚至强制一个致命的陷阱,并在重新启动后检查转储的内核核心。 后一种技术实际上是特定于操作系统的,仅在怀疑遇到内核错误时才使用。 既然你使用的是Linux,我怀疑你会需要它,但是值得一提的是。