我有一个8GB内存和Reiserfs文件系统的SUSE盒,它已经运行了4年多,没有o / s和h / w相关的问题。 这个盒子可以提供一些(数据库驱动的)低到中等stream量的站点,从而导致I / O,CPU和内存利用率低下。
最近机器在10天的时间里吊了3次。 这发生在不规则的时间(例如,不是每次都是00:00)。 CPU,内存和HD都被严重利用不足,而且我已经validation了这些在停止时还没有得到充分利用的地方,所以这些网站是不负责任的。
每次挂起它只能响应ping,但没有其他服务可用(SSH,WWW等)。 然后我重新启动盒子,一切恢复正常(直到下一个停止)。
我在/var/log/boot.msg(可能发生在停止之前和停止期间)发现的所有3个事件中的Filesystem is NOT clean ,然后是一个Replaying journal ,似乎做了很多工作,但从来没有达到100 %:
Reiserfs super block in block 16 on 0xfd03 of format 3.6 with standard journal Blocks (total/free): 786432/540858 by 4096 bytes Filesystem is NOT clean Replaying journal: Trans replayed: mountid 39, transid 12424272, desc 7381, len 9, commit 7391, next trans offset 7374 Replaying journal: | | 0.1% 1 trans Trans replayed: mountid 39, transid 12424273, desc 7392, len 9, commit 7402, next trans offset 7385 Trans replayed: mountid 39, transid 12424274, desc 7403, len 9, commit 7413, next trans offset 7396 Trans replayed: mountid 39, transid 12424275, desc 7414, len 9, commit 7424, next trans offset 7407 Replaying journal: | / 0.5% 4 trans Trans replayed: mountid 39, transid 12424276, desc 7425, len 8, commit 7434, next trans offset 7417 Trans replayed: mountid 39, transid 12424277, desc 7435, len 9, commit 7445, next trans offset 7428 Trans replayed: mountid 39, transid 12424278, desc 7446, len 9, commit 7456, next trans offset 7439 Replaying journal: | - 1.0% 7 trans
第一起事故发生率为33%,第三起事故发生率为58%。
该系统的暂停是否与reiserfs有关?
任何想法,我应该看看下一步?
非常感谢
听起来像你有一个坏的硬盘(或更多)。 如果在正常使用过程中在磁盘上find坏扇区,系统会立即尝试恢复数据,并将磁盘标记为不洁净。 如果是4岁,那么很可能会出现磁盘问题。 大多数桌面型磁盘驱动器只有1年或3年的保修期……而服务器级驱动器通常只有3 – 5年的保修期。 你也可以考虑运行一个像GRC的sprite这样的工具,它可以扫描问题并刷新磁盘。 (这是非常好的解决所有磁盘问题,而不是盘片的物理损坏的结果)