引发DRBD资源时内核恐慌

我正在设置两台与DRBD同步的机器。存储设置如下：PV – > LVM – > DRBD – > CLVM – > GFS2。

DRBD设置为双主模式。第一台服务器在主模式下设置并运行良好。第一台服务器上的驱动器上有数据。我已经build立了第二台服务器，并且试图调出DRBD资源。我创build了所有的基本LVM来匹配第一台服务器。用“初始化资源后

drbdadm create-md存储

我正在发布资源

drbdadm存储

发出该命令后，我得到一个内核恐慌，并在30秒内重新启动服务器。这是一个屏幕截图。

在这里输入图像说明

我的configuration如下：操作系统：CentOS 6

uname -a Linux host.structuralcomponents.net 2.6.32-279.5.2.el6.x86_64 #1 SMP Fri Aug 24 01:07:11 UTC 2012 x86_64 x86_64 x86_64 GNU/Linux

rpm -qa | grep drbd

 kmod-drbd84-8.4.1-2.el6.elrepo.x86_64 drbd84-utils-8.4.1-2.el6.elrepo.x86_64

cat /etc/drbd.d/global_common.conf

 global { usage-count yes; # minor-count dialog-refresh disable-ip-verification } common { handlers { pri-on-incon-degr "/usr/lib/drbd/notify-pri-on-incon-degr.sh; /usr/lib/drbd/notify-emergency-reboot.sh; echo b > /proc/sysrq-trigger ; reboot -f"; pri-lost-after-sb "/usr/lib/drbd/notify-pri-lost-after-sb.sh; /usr/lib/drbd/notify-emergency-reboot.sh; echo b > /proc/sysrq-trigger ; reboot -f"; local-io-error "/usr/lib/drbd/notify-io-error.sh; /usr/lib/drbd/notify-emergency-shutdown.sh; echo o > /proc/sysrq-trigger ; halt -f"; # fence-peer "/usr/lib/drbd/crm-fence-peer.sh"; # split-brain "/usr/lib/drbd/notify-split-brain.sh root"; # out-of-sync "/usr/lib/drbd/notify-out-of-sync.sh root"; # before-resync-target "/usr/lib/drbd/snapshot-resync-target-lvm.sh -p 15 -- -c 16k"; # after-resync-target /usr/lib/drbd/unsnapshot-resync-target-lvm.sh; } startup { # wfc-timeout degr-wfc-timeout outdated-wfc-timeout wait-after-sb become-primary-on both; wfc-timeout 30; degr-wfc-timeout 10; outdated-wfc-timeout 10; } options { # cpu-mask on-no-data-accessible } disk { # size max-bio-bvecs on-io-error fencing disk-barrier disk-flushes # disk-drain md-flushes resync-rate resync-after al-extents # c-plan-ahead c-delay-target c-fill-target c-max-rate # c-min-rate disk-timeout } net { # protocol timeout max-epoch-size max-buffers unplug-watermark # connect-int ping-int sndbuf-size rcvbuf-size ko-count # allow-two-primaries cram-hmac-alg shared-secret after-sb-0pri # after-sb-1pri after-sb-2pri always-asbp rr-conflict # ping-timeout data-integrity-alg tcp-cork on-congestion # congestion-fill congestion-extents csums-alg verify-alg # use-rle protocol C; allow-two-primaries yes; after-sb-0pri discard-zero-changes; after-sb-1pri discard-secondary; after-sb-2pri disconnect; } }

cat /etc/drbd.d/storage.res

 resource storage { device /dev/drbd0; meta-disk internal; on host.structuralcomponents.net { address 10.10.1.120:7788; disk /dev/vg_storage/lv_storage; } on host2.structuralcomponents.net { address 10.10.1.121:7788; disk /dev/vg_storage/lv_storage; }

/ var / log / messages没有logging有关崩溃的任何信息。

我一直在试图find一个原因，但我什么都没有得到。谁能帮我吗？谢谢。

机器检查exception是一个硬件问题。如果可以引导系统，则可以使用mcelog来解释它。

解决scheme是取代失败的硬件。由于看起来您最有可能租用服务器，因此请联系提供商。

看起来内核恐慌是由networking适配器造成的。服务器设置了DRBDstream量的专用NIC。当我将DRBDstream量切换到板载NIC时，停止了崩溃。我会报告回来，如果我find一个更好的解释为什么发生这种情况（其他stream量通过该接口似乎工作正常）。