我们有一个HPC设置,有四个OSS服务器(OSS1到OSS4)和两个MDS节点(MDS1到MDS2),它一直运行到昨天没有任何问题。 今天早上我发现OSS4处于closures状态。 我已经validation了OSS3日志,发现它已经进入了防护状态,我再次打开了OSS4的运行状态
在OSS4日志中,我看到一些“不可读的”错误,如下所述
Feb 26 04:24:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors Feb 26 04:54:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors Feb 26 05:24:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors Feb 26 05:54:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors Feb 26 06:24:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors Feb 26 06:54:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors Feb 26 07:24:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors
/dev/sda是本地硬盘。 是否有可能的节点防护是由于这个错误? 运行e2fsck会解决这个问题吗?
因此,我附上了OSS3和OSS4的/var/log/messages可以请任何人分析日志文件,并协助我做什么?
该磁盘已损坏 。 希望它是在一个RAID1对。 拉出破碎的,放入一个新的,让它重新同步。
将胸围发回给制造商RMA。
希望你的系统已经有了监视function,已经提醒了供应商这个问题,他们甚至可能已经向你发送了一个新的磁盘。
无论哪种方式,它都很粗糙。 代替它。