SUSE框挂起可能是由于Reiserfs分区问题

我有一个8GB内存和Reiserfs文件系统的SUSE盒，它已经运行了4年多，没有o / s和h / w相关的问题。这个盒子可以提供一些（数据库驱动的）低到中等stream量的站点，从而导致I / O，CPU和内存利用率低下。

最近机器在10天的时间里吊了3次。这发生在不规则的时间（例如，不是每次都是00:00）。 CPU，内存和HD都被严重利用不足，而且我已经validation了这些在停止时还没有得到充分利用的地方，所以这些网站是不负责任的。

每次挂起它只能响应ping，但没有其他服务可用（SSH，WWW等）。然后我重新启动盒子，一切恢复正常（直到下一个停止）。

我在/var/log/boot.msg（可能发生在停止之前和停止期间）发现的所有3个事件中的Filesystem is NOT clean ，然后是一个Replaying journal ，似乎做了很多工作，但从来没有达到100 ％：

 Reiserfs super block in block 16 on 0xfd03 of format 3.6 with standard journal Blocks (total/free): 786432/540858 by 4096 bytes Filesystem is NOT clean Replaying journal: Trans replayed: mountid 39, transid 12424272, desc 7381, len 9, commit 7391, next trans offset 7374 Replaying journal: | | 0.1% 1 trans Trans replayed: mountid 39, transid 12424273, desc 7392, len 9, commit 7402, next trans offset 7385 Trans replayed: mountid 39, transid 12424274, desc 7403, len 9, commit 7413, next trans offset 7396 Trans replayed: mountid 39, transid 12424275, desc 7414, len 9, commit 7424, next trans offset 7407 Replaying journal: | / 0.5% 4 trans Trans replayed: mountid 39, transid 12424276, desc 7425, len 8, commit 7434, next trans offset 7417 Trans replayed: mountid 39, transid 12424277, desc 7435, len 9, commit 7445, next trans offset 7428 Trans replayed: mountid 39, transid 12424278, desc 7446, len 9, commit 7456, next trans offset 7439 Replaying journal: | - 1.0% 7 trans

第一起事故发生率为33％，第三起事故发生率为58％。

该系统的暂停是否与reiserfs有关？
任何想法，我应该看看下一步？

非常感谢

听起来像你有一个坏的硬盘（或更多）。如果在正常使用过程中在磁盘上find坏扇区，系统会立即尝试恢复数据，并将磁盘标记为不洁净。如果是4岁，那么很可能会出现磁盘问题。大多数桌面型磁盘驱动器只有1年或3年的保修期……而服务器级驱动器通常只有3 – 5年的保修期。你也可以考虑运行一个像GRC的sprite这样的工具，它可以扫描问题并刷新磁盘。（这是非常好的解决所有磁盘问题，而不是盘片的物理损坏的结果）