GFS故障,无法启动lock_gulmd,说状态=过期

Someting已经坏了,我失去了第一台服务器上的存储连接。 第二台服务器可以访问该FS。 我尝试通过服务lock_gulmd,gfs,pool,ccsd stop / start(以各种命令)重新启动GFS,但没有运气。 在主服务器上(第三个)“ gulm_tool nodelist localhost

“说

Name: srv1 state = Expired mode = Slave missed beats = 0 last beat = 0 delay avg = 0 max delay = 0 

我发现它需要被围起来? 自动或手动? 任何人都可以帮忙 目前,没有一个东道主正在给FS写任何东西,所以我认为不会造成任何伤害。 第二个主机现在也过期了,无法启动lock_gulmd。

如果它还没有被自动屏蔽,我会假设你的击剑机制不完全正常工作。

我想可以做的是,重启过期的主机(或者一个接一个,或者两个同时重启),并通过fence_ack_manual工具通知集群的防护已经成功。 这不显示在你的日志?

运行此工具(在请求运行的节点上,不是需要重新启动的节点)将允许恢复GFS文件系统和故障节点。 恢复主要包括节点是一个适当的集群成员,并在必要时重播GFS文件系统日志iirc。

老实说,清除这种GFS问题的最好办法就是closures所有的机器,特别是当你被locking在文件系统之外时,再重新启动群集。 这是修复大量GFS文件系统时最可靠,最常见的解决这些问题的最快方法。