Ext3不断获得日记错误并成为只读

我有一台带有2个HBA的RHEL5.5 x86_64服务器，连接到EMC和HP存储arrays。安装EMC PowerPath是因为我的EMC供应商坚持这样做。

我的问题是惠普存储上的卷经常出现日记错误（见下文）并进入只读模式。

这是SAN问题还是操作系统问题？我该如何解决这个问题？

May 27 14:16:57 cvoddv01 kernel: journal_bmap: journal block not found at offset 6156 on dm-7 May 27 14:16:57 cvoddv01 kernel: Aborting journal on device dm-7. May 27 14:16:57 cvoddv01 kernel: ext3_abort called. May 27 14:16:57 cvoddv01 kernel: EXT3-fs error (device dm-7): ext3_journal_start_sb: Detected aborted journal May 27 14:16:57 cvoddv01 kernel: Remounting filesystem read-only May 27 14:16:57 cvoddv01 kernel: __journal_remove_journal_head: freeing b_frozen_data May 27 14:16:57 cvoddv01 kernel: __journal_remove_journal_head: freeing b_committed_data May 27 14:16:57 cvoddv01 kernel: __journal_remove_journal_head: freeing b_frozen_data May 27 14:17:36 cvoddv01 kernel: ext3_abort called. May 27 14:17:36 cvoddv01 kernel: EXT3-fs error (device dm-7): ext3_put_super: Couldn't clean up the journal

我的modprobe.conf是：

 alias scsi_hostadapter mptbase alias scsi_hostadapter1 mptspi alias scsi_hostadapter2 cciss alias scsi_hostadapter3 ata_piix alias scsi_hostadapter4 qla2xxx alias eth0 e1000e alias eth2 e1000e alias eth1 e1000e alias eth3 e1000e alias eth4 bnx2 alias eth5 bnx2 #Added by HP rpm installer alias scsi_hostadapter_mptscsih_module mptscsih #Added by HP rpm installer alias scsi_hostadapter_mptsas_module mptsas options qla2xxx ql2xmaxqdepth=16 ql2xloginretrycount=30 qlport_down_retry=64 options lpfc lpfc_lun_queue_depth=16 lpfc_nodev_tmo=30 lpfc_discovery_threads=32 ###BEGINPP include /etc/modprobe.conf.pp ###ENDPP

/ etc / fstab是：

 /dev/VolGroup00/LogVol00 / ext3 defaults 1 1 LABEL=/boot /boot ext3 defaults 1 2 tmpfs /dev/shm tmpfs defaults 0 0 devpts /dev/pts devpts gid=5,mode=620 0 0 sysfs /sys sysfs defaults 0 0 proc /proc proc defaults 0 0 /dev/VolGroup00/LogVol01 swap swap defaults 0 0 #/dev/sdae1 /mnt/sda1 ext3 defaults 0 0 #/dev/sdaf1 /mnt/sdb1 ext3 defaults 0 0 #/dev/sdag1 /mnt/sdc1 ext3 defaults 0 0 #/dev/sdah1 /mnt/sdd1 ext3 defaults 0 0 /dev/vg01/lvu02 /u02 ext3 defaults 0 0 /dev/vg01/lvu03 /u03 ext3 defaults 0 0 /dev/vg01/lvu04 /u04 ext3 defaults 0 0 /dev/vg01/lvu05 /u05 ext3 defaults 0 0 /dev/vg02/lvu06 /u06 ext3 defaults 0 0 /dev/vg02/lvu07 /u07 ext3 defaults 0 0 /dev/vg02/lvu08 /u08 ext3 defaults 0 0 /dev/vg02/lvu09 /u09 ext3 defaults 0 0 shmfs /dev/shm tmpfs rw,size=22g 0 0

uanme -a

 Linux cvoddv01.globetel.com 2.6.18-194.el5 #1 SMP Tue Mar 16 21:52:39 EDT 2010 x86_64 x86_64 x86_64 GNU/Linux

你应该真正使用dm-multipath或者PowerPath，而不是同时使用。

从PowerPathpipe理指南：

PowerPath与本地Linux设备映射器（DM-MPIO）不兼容。在同一主机上configuration两个产品可能会导致系统不稳定。 EMCbuild议您不要在要安装PowerPath的主机上configuration本地设备映射程序。

你有没有尝试删除和重build期刊？有几篇文章解释如何重新创build您的EXT3期刊。如果重build期刊仍然给你错误，那么我会调查硬件/驱动程序。 – 对不起，我不能在这里更详细。

所连接的日志中受影响的设备是dm-7，所以我希望您使用HP存储的多path，对不对？如果你这样做，请附上你的多pathconfiguration。

内核名称中的el5build议RHEL 5.如果您有支持合同，尽快与他们联系，他们将能够最大程度地帮助您。

我们从数据中可以确定的是，试图访问日志已经失败，操作系统做了唯一的事情，即冻结文件系统，以避免任何写入操作造成的破坏。

失败可能在于任何组件：

存储 – 重新安装后的文件系统是否正常？你可以做一个完整的fsck，看看杂志的问题是唯一的错误，或者你有很多沉默的腐败，只有当错误点击期刊它变得可见。
这个特定的LUN。你能（如：是否可行）对其进行格式化，恢复数据并查看是否再次发生？
你可以在同一个arrays上创build另一个LUN，看看你能否重现错误？同一存储上不同arrays上的LUN？
多path – 如果直接通过一条path访问存储（这需要更改SAN分区或屏蔽存储），是否可以重现错误。
驱动程序与Powerpath之间的本地多path冲突。如果没有安装电源path，是否可以在同一个LUN上重现错误？

我不认为这是ext3代码中的一个bug，因为它已经存在了一段时间，但是你是否使用了任何奇特的挂载选项？你有存储空间上的4K块吗？什么异国情调？

服务器运行正常吗？如果是这样，你能说出这个变化，导致它开始失败吗？

如果你打算自己排除故障，那么你最好的办法是制作一个最小的选项，使系统失效。更实际的方法可能是重新组织存储，以便在任何给定的服务器上只使用一个供应商的存储。这可以为您节省供应商之间的乒乓球。

不过，最好的办法就是联系你的操作系统供应商，让他们推动案例，我想。