我有一台带有2个HBA的RHEL5.5 x86_64服务器,连接到EMC和HP存储arrays。 安装EMC PowerPath是因为我的EMC供应商坚持这样做。
我的问题是惠普存储上的卷经常出现日记错误(见下文)并进入只读模式。
这是SAN问题还是操作系统问题? 我该如何解决这个问题?
May 27 14:16:57 cvoddv01 kernel: journal_bmap: journal block not found at offset 6156 on dm-7 May 27 14:16:57 cvoddv01 kernel: Aborting journal on device dm-7. May 27 14:16:57 cvoddv01 kernel: ext3_abort called. May 27 14:16:57 cvoddv01 kernel: EXT3-fs error (device dm-7): ext3_journal_start_sb: Detected aborted journal May 27 14:16:57 cvoddv01 kernel: Remounting filesystem read-only May 27 14:16:57 cvoddv01 kernel: __journal_remove_journal_head: freeing b_frozen_data May 27 14:16:57 cvoddv01 kernel: __journal_remove_journal_head: freeing b_committed_data May 27 14:16:57 cvoddv01 kernel: __journal_remove_journal_head: freeing b_frozen_data May 27 14:17:36 cvoddv01 kernel: ext3_abort called. May 27 14:17:36 cvoddv01 kernel: EXT3-fs error (device dm-7): ext3_put_super: Couldn't clean up the journal
我的modprobe.conf是:
alias scsi_hostadapter mptbase alias scsi_hostadapter1 mptspi alias scsi_hostadapter2 cciss alias scsi_hostadapter3 ata_piix alias scsi_hostadapter4 qla2xxx alias eth0 e1000e alias eth2 e1000e alias eth1 e1000e alias eth3 e1000e alias eth4 bnx2 alias eth5 bnx2 #Added by HP rpm installer alias scsi_hostadapter_mptscsih_module mptscsih #Added by HP rpm installer alias scsi_hostadapter_mptsas_module mptsas options qla2xxx ql2xmaxqdepth=16 ql2xloginretrycount=30 qlport_down_retry=64 options lpfc lpfc_lun_queue_depth=16 lpfc_nodev_tmo=30 lpfc_discovery_threads=32 ###BEGINPP include /etc/modprobe.conf.pp ###ENDPP
/ etc / fstab是:
/dev/VolGroup00/LogVol00 / ext3 defaults 1 1 LABEL=/boot /boot ext3 defaults 1 2 tmpfs /dev/shm tmpfs defaults 0 0 devpts /dev/pts devpts gid=5,mode=620 0 0 sysfs /sys sysfs defaults 0 0 proc /proc proc defaults 0 0 /dev/VolGroup00/LogVol01 swap swap defaults 0 0 #/dev/sdae1 /mnt/sda1 ext3 defaults 0 0 #/dev/sdaf1 /mnt/sdb1 ext3 defaults 0 0 #/dev/sdag1 /mnt/sdc1 ext3 defaults 0 0 #/dev/sdah1 /mnt/sdd1 ext3 defaults 0 0 /dev/vg01/lvu02 /u02 ext3 defaults 0 0 /dev/vg01/lvu03 /u03 ext3 defaults 0 0 /dev/vg01/lvu04 /u04 ext3 defaults 0 0 /dev/vg01/lvu05 /u05 ext3 defaults 0 0 /dev/vg02/lvu06 /u06 ext3 defaults 0 0 /dev/vg02/lvu07 /u07 ext3 defaults 0 0 /dev/vg02/lvu08 /u08 ext3 defaults 0 0 /dev/vg02/lvu09 /u09 ext3 defaults 0 0 shmfs /dev/shm tmpfs rw,size=22g 0 0
uanme -a
Linux cvoddv01.globetel.com 2.6.18-194.el5 #1 SMP Tue Mar 16 21:52:39 EDT 2010 x86_64 x86_64 x86_64 GNU/Linux
你应该真正使用dm-multipath或者PowerPath,而不是同时使用。
从PowerPathpipe理指南 :
PowerPath与本地Linux设备映射器(DM-MPIO)不兼容。 在同一主机上configuration两个产品可能会导致系统不稳定。 EMCbuild议您不要在要安装PowerPath的主机上configuration本地设备映射程序。
你有没有尝试删除和重build期刊? 有几篇文章解释如何重新创build您的EXT3期刊。 如果重build期刊仍然给你错误,那么我会调查硬件/驱动程序。 – 对不起,我不能在这里更详细。
所连接的日志中受影响的设备是dm-7,所以我希望您使用HP存储的多path,对不对? 如果你这样做,请附上你的多pathconfiguration。
内核名称中的el5build议RHEL 5.如果您有支持合同,尽快与他们联系,他们将能够最大程度地帮助您。
我们从数据中可以确定的是,试图访问日志已经失败,操作系统做了唯一的事情,即冻结文件系统,以避免任何写入操作造成的破坏。
失败可能在于任何组件:
我不认为这是ext3代码中的一个bug,因为它已经存在了一段时间,但是你是否使用了任何奇特的挂载选项? 你有存储空间上的4K块吗? 什么异国情调?
服务器运行正常吗? 如果是这样,你能说出这个变化,导致它开始失败吗?
如果你打算自己排除故障,那么你最好的办法是制作一个最小的选项,使系统失效。 更实际的方法可能是重新组织存储,以便在任何给定的服务器上只使用一个供应商的存储。 这可以为您节省供应商之间的乒乓球。
不过,最好的办法就是联系你的操作系统供应商,让他们推动案例,我想。