我有一个简单的四节点Oracle VM环境。 在vmware中运行的pipe理服务器,用于共享存储的nfs服务器以及运行实际pipe理程序的两个Oracle VM服务器。
出于某种原因,运行池主服务的节点将突然重启,原因不明。 我相当确定这是一个软件问题,可能是某种集群看门狗。 要清楚的是,重启的是vm服务器/虚拟机pipe理程序,而不是客机。
有没有人看到类似的问题,或者有什么build议,我应该从哪里开始寻找根本原因?
我没有看到/ var / log / ovs * / logs中的任何可疑内容,我推荐的其他地方看起来是什么?
来自Oracle的文档留下了一些不足之处。
我不确定您是否拥有虚拟机pipe理附带的精美graphics。 如果他们确实提供了有关内存,CPU和磁盘正在做什么的深入了解。 也许可能有一些相关性? 从那里你可以开始查看顶部和ps,看看究竟是什么运行,并在使用中,当服务器反弹。
你也可以将服务器设置为debugging模式? 他们支持吗?
我希望这至less能帮助你开始。
原因是节点主机名在/ etc / hosts中的回送地址中列出,所以节点没有正确通信。 群集服务将静静地强制重新启动以保护共享存储。
你在使用ocfs2吗? 如果是这样,请增加/etc/sysconfig/o2cb.conf中的ocfs2超时值