OCFS2文件系统未安装

在Ubuntu 16.04上,我有一个运行在双主DRBD设置之上的OCFS2集群。 昨天,我推动这个集群投入生产,似乎运行良好。 但今天,这个集群似乎已经死亡。 重新启动节点后,我不再能够挂载ocfs2文件系统。 当我运行:

mount.ocfs2 /dev/drbd0 /mnt/drbd 

它只是坐在那里等待和等待,但它没有安装。 OCFS2似乎运行良好,看着dmesg -H输出:

[+12.308685] ocfs2:注册集群接口o2cb
[+0.012233]加载OCFS2用户DLM内核接口
[Feb24 14:34] o2net:连接到节点edmure(num 0)在192.168.2.11:7777
[+4.092023] o2dlm:join域CCEFD26343174950A6BEF9A2F83B6735(0 1)2个节点

它正确连接到LAN上的其他节点并join域。 DRBD资源也正常运行,没有任何问题:

 % cat /proc/drbd version: 8.4.5 (api:1/proto:86-101) srcversion: 2A6B2FA4F0703B49CA9C727 0: cs:Connected ro:Primary/Primary ds:UpToDate/UpToDate C r----- ns:403 nr:4529 dw:4932 dr:1006 al:1 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:0 

但是,如果我运行mount命令,它只是挂起。 每两分钟,我在dmesg输出中得到这个消息:

[+23.059786] INFO:任务mount.ocfs2:1788被阻塞超过120秒。
[+0.000932]没有污染4.4.0-64-generic#85-Ubuntu
[+0.000681]“echo 0> / proc / sys / kernel / hung_task_timeout_secs”禁用此消息。
[+0.000697] mount.ocfs2 D ffff880035ccba08 0 1788 1787 0x00000000
[+0.000005] ffff880035ccba08 ffff8800a9b02000 ffff88013abf0000 ffff8800a9996600
[+0.000002] ffff880035ccc000 ffff880035ccbbb0 ffff880035ccbba8 ffff8800a9996600
[+0.000002] 0000000000000000 ffff880035ccba20 ffffffff818384d5 7fffffffffffffff
[+0.000002]呼叫跟踪:
[+0.000010] [] schedule + 0x35 / 0x80
[+0.000002] [] schedule_timeout + 0x1b5 / 0x270
[+0.000003] [] wait_for_completion + 0xb3 / 0x140
[+0.000004] []? wake_up_q + 0x70 / 0x70
[+0.000042] [] __ocfs2_cluster_lock.isra.34 + 0x415 / 0x750 [ocfs2]
[+0.000011] []? ocfs2_add_lockres_tracking + 0x59 / 0xb0 [ocfs2]
[+0.000011] [] ocfs2_super_lock + 0xa5 / 0x250 [ocfs2]
[+0.000014] [] ocfs2_fill_super + 0xbda / 0x1280 [ocfs2]
[+0.000004] [] mount_bdev + 0x26d / 0x2c0
[+0.000013] []? perf_trace_ocfs2_initialize_super + 0x210 / 0x210 [ocfs2]
[+0.000003] []? alloc_pages_current + 0x8c /量0x110
[+0.000011] [] ocfs2_mount + 0x15 / 0x20 [ocfs2]
[+0.000002] [] mount_fs + 0x38 / 0x160
[+0.000002] [] vfs_kern_mount + 0x67 / 0x110
[+0.000003] [] do_mount + 0x25f / 0xda0
[+0.000002] [] SyS_mount + 0x9f / 0x100
[+0.000002] [] entry_SYSCALL_64_fastpath + 0x16 / 0x71

这个过程处于D (不可中断)状态,所以我无能为力,只能保持这种状态。 我不确定我应该怎么做。 其他然后dmesg,我没有在系统上find任何有用的日志。 在挂载过程中运行一个strace也没有透露任何东西,它似乎只是在等待,但不知道它正在等待什么。

我的群集configuration如下所示:

 cluster: node_count = 2 name = media-ocfs2 node: ip_port = 7777 ip_address = 192.168.2.11 number = 0 name = edmure cluster = media-ocfs2 node: ip_port = 7777 ip_address = 192.168.2.12 number = 1 name = brynden cluster = media-ocfs2 

有没有人有任何想法我可以修复或进一步debugging这个问题?